WO2012091276A1 - 움직임 궤적을 이용한 객체 인식 프로그램이 저장된 기록매체 및 객체 인식 장치 - Google Patents

움직임 궤적을 이용한 객체 인식 프로그램이 저장된 기록매체 및 객체 인식 장치 Download PDF

Info

Publication number
WO2012091276A1
WO2012091276A1 PCT/KR2011/008281 KR2011008281W WO2012091276A1 WO 2012091276 A1 WO2012091276 A1 WO 2012091276A1 KR 2011008281 W KR2011008281 W KR 2011008281W WO 2012091276 A1 WO2012091276 A1 WO 2012091276A1
Authority
WO
WIPO (PCT)
Prior art keywords
motion
image
motion trajectory
text
module
Prior art date
Application number
PCT/KR2011/008281
Other languages
English (en)
French (fr)
Inventor
이귀상
Original Assignee
전남대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전남대학교산학협력단 filed Critical 전남대학교산학협력단
Publication of WO2012091276A1 publication Critical patent/WO2012091276A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/33Determination of transform parameters for the alignment of images, i.e. image registration using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Definitions

  • the present invention tracks a motion trajectory of a mobile terminal using a motion sensor of a mobile terminal equipped with a digital camera, and a recording medium and an object recognition apparatus storing a program for recognizing an object such as text using a motion trajectory in a captured image. It is about.
  • the mobile terminal is recognized as belonging to the modern people because of its convenience, and the next generation development issue of the developing mobile terminal can be referred to as 'user-oriented interface'.
  • the keypad-based interface is the mainstream as the input method.
  • the limited number of keys and the arrangement method make it more difficult to use freely. Therefore, the development of a new input interface has been sought variously.
  • a user When a user wants to search for information related to an image such as a product or a face on the web, a user may need to extract a specific part from the related image and input the keyword as a search keyword.
  • a technique for extracting text or some image objects from a digital image is necessary, but it is known that it is very difficult to separate text or some image objects included in a special form from a still image.
  • a technique of detecting a straight word from a document image photographed under an average level of illumination is relatively easy to implement, but the image is taken with the illumination changed or the image is geometrically distorted due to the limitation of the wide angle of the camera.
  • Techniques for detecting embedded text Techniques for detecting text in images containing non-linearly arranged text such as curved surfaces, Images containing sentences with a plurality of words arranged, Detection of text from panoramic images It is very difficult to implement the technique, and the technique for extracting the positional information and the arrangement information of the text from the image is essential.
  • the problem to be solved by the present invention is to track the motion trajectory of the mobile terminal using a motion sensor built in the mobile terminal, and extract the position information and the arrangement information of the region specified by the motion trajectory from the image taken by the camera of the mobile terminal.
  • the present invention provides a method of recognizing text or dividing a partial image object, a computer-readable recording medium storing a program implementing the method, and an object recognition device.
  • a motion trajectory tracking device including a motion trajectory tracking module for tracking the motion trajectory of the mobile terminal by using the detection data of the motion sensor and the change of the image captured by the digital camera It is proposed as an embodiment.
  • the motion trajectory tracking module includes a local motion analysis module for analyzing a local motion of an image photographed by the digital camera, and a global motion of the image using the analyzed local motion. ) And generate an overall motion trajectory by integrating the generated motion vectors and the global motion analysis module for generating a motion vector between adjacent image frames by removing an outlier from the analyzed global motion.
  • the motion trajectory generation module may include a motion trajectory generation module reflecting the sensing data of the motion sensor.
  • the present invention to solve the above problems, by using the motion sensor to detect the movement of the mobile terminal to generate the detection data and the generated detection data and the change of the image taken by the digital camera of the mobile terminal.
  • a computer-readable recording medium storing a program implementing the motion trajectory tracking method including the step of tracking a motion trajectory is proposed.
  • the present invention since some areas of the image can be specified only by the intuitive movement of the mobile terminal without complicated manipulation of the mobile terminal or post-processing using a separate program, text or some image objects from an image that is difficult to read.
  • the location information and arrangement information of can be obtained easily.
  • the location information and the arrangement information obtained in this way can further improve the accuracy and processing performance of text recognition and image segmentation.
  • FIG. 1 is a block diagram showing the configuration of a mobile terminal according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing the configuration of the motion trajectory tracking module 30, and FIG. 3 is a flow chart showing the operation process of the motion trajectory tracking module 30 step by step.
  • FIG. 4 is a block diagram showing the configuration of the text extraction module 40
  • Figure 5 is a flow chart showing the operation process of the text extraction module 40 step by step.
  • FIG. 6 illustrates an example of a screen when a motion trajectory is displayed on text composed of multiple words.
  • 7 and 8 are screen examples of representative cases where arrangement information is required for accurate recognition of text.
  • Figure 10 is a flow chart showing the operation process of the object division module 50 step by step.
  • any part of the specification is to "include” any component, this means that it may further include other components, except to exclude other components unless otherwise stated.
  • the terms “... unit”, “module”, etc. described in the specification mean a unit that processes at least one function or operation, which may be implemented by hardware or software, or a combination of hardware and software.
  • nonvolatile memory refers to a nonvolatile memory, which is a portable memory such as a data CD, a USB memory, a memory stick, a memory card, a hard disk, a floppy disk, and a static memory.
  • SRAM Non-portable memory
  • Embodiments of the present invention accurately determine the motion trajectory of the mobile terminal using a digital camera and a motion sensor mounted on the mobile terminal, extract position information and / or arrangement information of text from the detected motion trajectory, The location information is extracted and provided in addition to the text detection algorithm or the segmentation algorithm to improve the text recognition rate and the accuracy of object segmentation.
  • the mobile terminal 100 of FIG. 1 includes a motion sensor 10, a digital camera 20, and a motion trajectory tracking module 30, and optionally among the text extraction module 40 and / or the object splitting module 50. It may further include at least one.
  • the mobile terminal 100 includes a cellular phone equipped with a digital camera 20, a personal digital assistant (PDA), a smart phone, a PC phone, navigation, and a personal multimedia player (PMP). , A laptop computer (Notebook PC), such as a terminal that is not fixed to a specific location can carry.
  • PDA personal digital assistant
  • PMP personal multimedia player
  • a laptop computer such as a terminal that is not fixed to a specific location can carry.
  • the motion sensor 10 is an element that detects angular velocity and movement of an angle.
  • a mechanical gyro sensor such as a vibrating gyro or a hemispherical resonating gyro (HRG) may be used, or an optical gyro sensor such as a ring laser gyro (RLG) or a fiber optics gyro (FOG) may be used.
  • a mechanical gyro sensor such as a vibrating gyro or a hemispherical resonating gyro (HRG) may be used, or an optical gyro sensor such as a ring laser gyro (RLG) or a fiber optics gyro (FOG) may be used.
  • RMG ring laser gyro
  • FOG fiber optics gyro
  • the motion trajectory tracking module 30 detects the motion trajectory of the mobile terminal 100 by using the detection data of the motion sensor 10 mounted on the mobile terminal 100 and the change of the image photographed by the digital camera 20. It tracks and outputs the tracked trace on the video screen.
  • the text extraction module 40 extracts text from an image using the motion trajectory of the mobile terminal 100.
  • the object segmentation module 50 performs object segmentation on an image using the motion trajectory of the mobile terminal 100.
  • the motion trajectory provides the image segmentation algorithm a seed for image segmentation or provides an approximate outline of the image object.
  • FIG. 2 is a block diagram showing the configuration of the motion trajectory tracking module 30, and FIG. 3 is a flow chart showing the operation process of the motion trajectory tracking module 30 step by step.
  • the operation process of the motion trajectory tracking module 30 may be interpreted as the same as the motion trajectory tracking method, which is an embodiment of the present invention.
  • the motion trajectory tracking module 30 includes a local motion analysis module 31, a global motion analysis module 32, and a motion trajectory generation module 33.
  • the local motion analysis module 31 analyzes local motion of the image photographed by the digital camera 20.
  • the regional motion analysis module 31 sets a part of the captured image as a characteristic block.
  • a characteristic block is called a feature block, and a plurality of shape blocks may be set in one image.
  • the region motion of the image is analyzed by performing block motion estimation on the set shape blocks.
  • step S11 the global motion analysis module 32 analyzes the global motion of the image using the analyzed local motion.
  • Global motion may be basically classified into a translation, rotation, and scaling of an image.
  • step S13 the global motion analysis module 32 removes an outlier from the analyzed global motion.
  • Some of the motion vectors that make up the global motion are due to moving objects or other noise, and are not related to the motion of the image to be analyzed (such as the static background in the image). Accordingly, the global motion analysis module 32 regards motion vectors that are not related to the motion of the analysis target image as outliers and rejects them in terms of time and / or space.
  • the motion trajectory generation module 33 when the motion vector between adjacent image frames is generated by the global motion analysis module 32, the motion trajectory generation module 33 generates the overall motion trajectory by integrating the generated motion vectors. Since the motion trajectory should be displayed on the first image of the image sequence, the generated motion trajectory should be mapped to the first image frame. To this end, the motion trajectory generation module 33 maps motion vectors with respect to each image frame in reverse order so that the entire motion trajectory is displayed in the form of a line in the first image frame.
  • the motion trajectory may not be represented linearly (or close to linearly) due to the shaking of the mobile terminal user, but may be expressed in irregular nonlinearity (for example, sawtooth shape or step shape).
  • the motion trajectory generation module 33 may further apply a predetermined smoothing algorithm to the motion trajectory appearing irregularly through step S15.
  • step S16 the motion trajectory generation module 33 adds the sensing information of the motion sensor 10 to the generated motion trajectory to increase the accuracy of the motion trajectory.
  • FIG 4 is a block diagram showing the configuration of the text extraction module 40
  • Figure 5 is a flow chart showing the operation process of the text extraction module 40 step by step.
  • the operation of the text extraction module 40 may be interpreted as the same as the text extraction method using the motion trajectory, which is an embodiment of the present invention.
  • the text extraction module 40 performs at least one of document image processing, natural image processing, and video processing to extract text from the captured image.
  • Document image processing mainly includes a process of dividing a text object in an image of a scanned document and recognizing text from the divided text object.
  • a recognition process of a printed matter, a handwritten or an ancient document at least one of a recognition process of a printed matter, a handwritten or an ancient document, a line detection process of text, a binarization process that is robust against light changes, and a process of rectification of text may be further performed.
  • Natural images have a variety of fonts, sizes, and colors of texts compared to document images, and are severely distorted by lighting such as shadows or reflections, and thus, text recognition and position detection are not easy. Accordingly, at least one of the process of correcting the distorted image by illumination, the process of correcting the image geometrically distorted by the wide angle of the camera, and the color correcting process may be further performed to process the natural image.
  • Video processing may include a process for recognizing the captions contained in the video as text, detailed technical information on which D. Crandall, S. Antani, and R. Kasturi, "Extraction of special effects caption text events from digital video , "International Journal of Document Analysis and Recognition 5, no. 2-3, pp. 138-157, 2005.
  • the text extraction module 40 includes a trajectory splitting module 41, an area determining module 42, and a toughening module 43.
  • step S21 the trajectory splitting module 41 divides the motion trajectory into a predetermined image sequence unit when the motion trajectory is out of a preset range in the first text image which starts to track the motion trajectory.
  • the final image may be substantially different from the original image.
  • 6 illustrates an example of a screen in which a motion trajectory is displayed on text composed of multiple words.
  • the motion trajectory is out of the range of the initial image, so it is necessary to divide the motion trajectory into an appropriate image sequence unit. That is, the sequence of the entire frame constituting the video must be separated by a certain unit to accurately detect the text elements.
  • the trajectory splitting module 41 divides the motion trajectory into units of a predetermined image sequence when it is determined that the motion trajectory is out of a preset range in the initial text image.
  • step S22 the area determination module 42 finds the arrangement information of the text based on the movement trajectory.
  • FIG. 7 is a screen example of a representative case in which arrangement information is required for accurate recognition of text
  • FIG. 8 is a conceptual diagram illustrating a movement trace of a text arranged in a circle. As shown in FIG. 7 and FIG. 8, it can be seen that the movement trajectory tracked due to the movement of the mobile terminal is displayed at the bottom of the text arranged in a circle.
  • the area determining module 42 detects the motion trajectory and the text located closest to each other to find a range of text.
  • the text elements are preferably arranged at a constant and continuous position.
  • the text element refers to a word dense with each character or characters constituting the text.
  • the area determining module 42 may utilize the edge component for the detection of the text element. That is, the area determination module 42 sets the area where the edge components are dense as the text candidate area, and finds a component that matches the arrangement information by the motion trajectory in the candidate area. A bounding box is set for the found text element.
  • step S23 the toughening module 43 performs segmentation and binarization of the text to ensure the text recognition rate that is robust to the change in the color or illumination of the text.
  • the toughening module 43 binarizes the text in the bounding box set by the area determining module 42. Specifically, the toughening module 43 first divides the stroke portion by color clustering, but completes the stroke division in consideration of the illumination change and the color of the text. For color segmentation, color elements can be color quantized by contrasting the color of the text with the background color.
  • the text elements are detected by the area determining module 42, there are relatively simple foreground and background in the bounding box of each text element. Therefore, segmentation and binarization of text can be performed more effectively.
  • the text extraction module 40 may further perform the step of extracting text from the final image information converted by the toughening module 43 and providing the text as a character.
  • Figure 10 is a flow chart showing the operation process of the object division module 50 step by step.
  • the operation process of the object division module 50 may be interpreted as the same as the object segmentation method using the motion trajectory, which is an embodiment of the present invention.
  • the object division module 50 includes an image division module 51 and a feature extraction module 52.
  • Image segmentation may be divided into pixel based segmentation and region based segmentation.
  • Region-based segmentation techniques include split and merge, region growing, boundary relaxation, watershed, graph cut, and active contouring. contour).
  • an image object segmentation method using split and merge will be described as an embodiment of the present invention. However, it is apparent that the above-described other types of image segmentation techniques can be used instead.
  • the image segmentation module 51 divides each part of the image into homogeneous regions based on the color and texture of the image.
  • the image segmentation module 51 may use a clustering technique such as a mean-shift or a growth algorithm.
  • the image segmentation module 51 may dynamically adjust the division scale of the homogeneous region according to the size and range of the object to be divided from the image.
  • the feature extraction module 52 extracts the feature of the image object in consideration of the motion trajectory.
  • a dominant feature is extracted based on the extracted features of the image object and used for final object segmentation (S34).
  • the feature extraction module 52 measures the difference for each of the detected different feature segments to determine how many different shapes exist inside the object. Due to the shaking characteristics of the user holding the mobile terminal 100 or the instability of the movement of the mobile terminal 100, the movement trajectory may specify not only the foreground of the object but also the background. For this reason, the lower the probability of being the foreground of an object from the center of the object outline to the outside. Using this principle, the feature extraction module 52 analyzes the shape by considering the center of the object outline as the center of the object foreground, extracting the shape of the outside of the object from the outside of the outline, and dividing the extracted external shape into small regions. Classify them.
  • FIG. 11 and 12 are conceptual views illustrating a motion trajectory of a mobile terminal in order to segment an object of a predetermined region from an image.
  • FIG. 11 illustrates a case in which a box-shaped motion trajectory is formed to divide a letter of text
  • FIG. 12 illustrates a case in which an elliptic motion trajectory is formed to divide a car from a surrounding background. Doing.
  • the functions or operations specified in a specific block may occur out of the order specified in the flowchart. For example, two consecutive blocks may actually be performed substantially simultaneously, and the blocks may be performed upside down depending on the function or operation involved.
  • the present invention relates to a recording medium in which an object recognition program using a motion trajectory is stored.
  • the motion trace of a mobile terminal is tracked using a motion sensor of a mobile terminal equipped with a digital camera, and text is transmitted using a motion trajectory in a captured image.
  • a part of an image can be specified only by intuitive movement of the mobile terminal without complicated manipulation of the mobile terminal or post processing using a separate program.
  • the location information or arrangement information of some image objects can be easily obtained, and the accuracy and processing performance of text recognition and image segmentation can be further improved by using the acquired location information and arrangement information.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 디지털 카메라가 장착된 모바일 단말의 움직임 센서를 이용하여 모바일 단말의 움직임 궤적을 추적하고, 촬영된 영상 내의 움직임 궤적을 이용하여 텍스트 등의 객체를 인식하는 프로그램이 저장된 기록매체 및 객체 인식 장치에 관한 것이다.

Description

움직임 궤적을 이용한 객체 인식 프로그램이 저장된 기록매체 및 객체 인식 장치
본 발명은 디지털 카메라가 장착된 모바일 단말의 움직임 센서를 이용하여 모바일 단말의 움직임 궤적을 추적하고, 촬영된 영상 내의 움직임 궤적을 이용하여 텍스트 등의 객체를 인식하는 프로그램이 저장된 기록매체 및 객체 인식 장치에 관한 것이다.
모바일 단말은 그 휴대의 편리함으로 인해 현대인들에게 필수에 가까운 소지품으로 인식되고 있으며 발전해가는 모바일 단말의 차세대 개발 이슈는 '사용자 중심의 인터페이스' 라 할 수 있다.
현재의 모바일 단말은 그 입력 방식으로 키패드 기반의 인터페이스가 주류를 이루고 있지만 제한된 키 개수와 배치 방식으로 인해 보다 자유로운 활용은 어려운 실정이므로 새로운 입력 인터페이스의 개발이 다각적으로 모색되고 있다.
한편 최근에는 텍스트의 입력을 위해 디지털 카메라를 기반으로 하는 텍스트 인식 및 해석 도구의 개발도 활발히 이루어지고 있으며, 하나의 예로 명함인식이나 문자 인식, 언어 번역기 등의 애플리케이션을 들 수 있다. 또한 웹 검색에 있어서도 향후에는 단순한 텍스트 검색 이외에 영상 기반의 콘텐츠 검색이 더 자주 사용될 것으로 예상된다.
사용자가 어떤 상품이나 얼굴 등의 영상과 관련된 정보를 웹에서 검색하고자 할 경우 관련 영상으로부터 특정 부분을 추출하여 검색의 키워드로 입력해야 할 것이다. 이를 위해서는 디지털 영상으로부터 텍스트나 일부의 영상 객체를 추출하는 기술이 반드시 필요하지만 정지 영상에서 특수한 형태로 포함되어 있는 텍스트나 일부의 영상 객체를 분리해 내는 것은 매우 어려운 과제라 알려져 있다.
예를 들어 평균 수준의 조명 아래서 촬영된 문서 영상으로부터 직선 형태의 일 단어를 검출하는 기술은 비교적 구현이 용이하지만 조명이 변화된 채로 촬영된 영상이나 카메라의 광각의 제한으로 기하학적으로 왜곡되어 촬영된 영상에 포함되어 있는 텍스트를 검출하는 기술, 곡면 등과 같이 비선형으로 배열된 텍스트를 포함하는 영상이나 복수의 단어가 배열된 문장을 포함하는 영상에서 텍스트를 검출하는 기술, 파노라마 형식의 자연 영상으로부터 텍스트를 검출하는 기술을 구현하는 것은 매우 어려우며, 그 구현을 위해서는 영상으로부터 텍스트의 위치 정보와 배열 정보를 추출하는 기술이 핵심적으로 요구된다.
본 발명이 해결하려는 과제는 모바일 단말에 내장된 움직임 센서를 이용하여 모바일 단말의 움직임 궤적을 추적하고, 모바일 단말의 카메라를 통해 촬영된 영상에서 움직임 궤적으로 특정된 영역의 위치 정보와 배열 정보를 추출하여 텍스트를 인식하거나 부분 영상 객체를 분할하는 방법, 그 방법을 구현한 프로그램이 저장된 컴퓨터로 읽을 수 있는 기록매체 및 객체 인식 장치를 제공하는 것이다.
위의 과제를 해결하기 위해 본 발명은, 움직임 센서의 감지 데이터와, 디지털 카메라에 의해 촬영된 영상의 변화를 이용하여 모바일 단말의 움직임 궤적을 추적하는 움직임 궤적 추적모듈을 포함하는 움직임 궤적 추적 장치를 일 실시예로 제안한다.
여기서, 상기 움직임 궤적 추적모듈은, 상기 디지털 카메라를 통해 촬영된 영상에 대하여 지역적인 움직임(local motion)을 분석하는 지역 움직임 분석모듈과, 상기 분석된 지역 움직임을 이용하여 영상의 전역 움직임(global motion)을 분석하고, 상기 분석된 전역 움직임으로부터 아웃라이어(outlier)를 제거하여 인접하는 영상 프레임 간의 움직임 벡터를 생성하는 전역 움직임 분석모듈 및 상기 생성된 움직임 벡터들을 통합하여 전체적인 움직임 궤적을 생성하고, 생성된 움직임 궤적에 상기 움직임 센서의 감지 데이터를 반영하는 움직임 궤적 생성모듈을 포함할 수 있다.
본 발명은 위의 과제를 해결하기 위해, 움직임 센서로 모바일 단말의 움직임을 감지하여 감지 데이터를 생성하는 단계 및 상기 생성된 감지 데이터와, 디지털 카메라에 의해 촬영된 영상의 변화를 이용하여 모바일 단말의 움직임 궤적을 추적하는 단계를 포함하는 움직임 궤적 추적 방법을 구현한 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체를 다른 일 실시예로 제안한다.
본 발명에 의하면 모바일 단말을 복잡하게 조작하거나 별도의 프로그램을 이용하여 후처리할 필요 없이 모바일 단말의 직관적인 움직임만으로 영상의 일부 영역을 특정할 수 있으므로 판독하기 어려운 형태의 이미지로부터 텍스트나 일부 영상 객체의 위치 정보나 배열 정보를 손쉽게 획득할 수 있다. 또한 이와 같이 획득한 위치 정보 및 배열 정보를 이용하여 텍스트 인식 및 영상 분할의 정확도와 처리 성능을 한층 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 모바일 단말의 구성을 도시한 블록도이다.
도 2는 움직임 궤적 추적모듈(30)의 구성을 도시한 블록도이고, 도 3은 움직임 궤적 추적모듈(30)의 동작 과정을 단계별로 도시한 순서도이다.
도 4는 텍스트 추출모듈(40)의 구성을 도시한 블록도이고, 도 5는 텍스트 추출모듈(40)의 동작 과정을 단계별로 도시한 순서도이다.
도 6은 다중 단어로 구성된 텍스트에 움직임 궤적을 표시한 경우의 화면예를 도시한 것이다.
도 7 및 도 8은 텍스트의 정확한 인식을 위해 배열정보가 필요한 대표적인 경우들에 대한 화면예이다.
도 9는 객체분할모듈(50)의 구성을 도시한 블록도이고, 도 10은 객체분할모듈(50)의 동작 과정을 단계별로 도시한 순서도이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예들을 상세히 설명한다. 도면에서, 본 발명을 명확하게 설명하기 위해 설명과 관계없는 부분은 생략하며 명세서 전체를 통하여 동일한 부분에 대해서는 동일한 도면 부호를 사용한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며 본 발명의 사상 및 기술 범위에 포함되는 모든 변경물, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
명세서 전체에서 '기록매체'라 함은 비휘발성의 메모리를 통칭하는 것으로서 데이터 CD, USB 메모리, 메모리 스틱, 메모리 카드 등의 포터블 메모리(portable memory)와, 하드 디스크, 플로피 디스크, 정적 메모리(static memory, SRAM) 등의 넌 포터블 메모리(non-portable memory)를 포함한다.
텍스트의 위치 및 배열정보 없이 영상으로부터 텍스트를 추출할 경우 색상이나 조명 등에 의한 왜곡으로 인해 추출의 정확도는 매우 낮아진다. 특히 다중 단어의 스캔이나 곡면 형태 도는 비선형으로 배열된 텍스트의 경우에는 정확한 위치정보나 배열정보 없이는 정확한 텍스트 추출이 매우 어렵다.
객체 분할에 있어서도 객체의 위치정보는 비록 대략적인 정보라 하더라도 정확한 객체 분할에 결정적인 역할을 담당하며, 그러한 위치정보 없이는 객체 분할의 성공률은 매우 낮아진다.
본 발명의 실시예들은 모바일 단말에 장착된 디지털 카메라와 움직임센서를 이용하여 모바일 단말의 움직임 궤적을 정확하게 파악하고, 파악된 움직임 궤적으로부터 텍스트의 위치정보 및/또는 배열정보를 추출하거나 일부 영상 객체의 위치정보를 추출하여 텍스트 검출(detection) 알고리즘 또는 영역 분할(segmentation) 알고리즘에 추가로 제공함으로써 텍스트 인식률 및 객체 분할의 정확도를 향상시킨다.
이하, 본 발명의 실시예들을 첨부된 도면을 참고로 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 모바일 단말의 구성을 도시한 블록도이다. 도 1의 모바일 단말(100)은 움직임 센서(10), 디지털 카메라(20), 움직임 궤적 추적모듈(30)을 포함하며, 선택적으로 텍스트 추출모듈(40) 및/또는 객체분할모듈(50) 중 적어도 하나를 더 포함할 수 있다.
모바일 단말(100)은 디지털 카메라(20)가 장착된 셀룰러 폰(Cellular Phone), PDA(Personal Digital Assistant), 스마트 폰(smart phone), PC 폰(PC phone), 네비게이션, PMP(Personal Multimedia Player), 노트북 컴퓨터(Notebook PC) 등과 같이 특정 위치에 고정되어 있지 않고 소지 가능한 단말을 통칭한다.
움직임 센서(10)는 각속도 및 각도의 움직임을 감지하는 소자이다. 움직임 센서(10)로 진동형 자이로(Vibrating Gyro), HRG(Hemispherical Resonating Gyro) 등의 기계식 자이로 센서가 사용되거나, RLG(Ring Laser Gyro), FOG(Fiber Optics Gyro) 등의 광학식 자이로 센서가 사용될 수 있다.
움직임 궤적 추적모듈(30)은 모바일 단말(100)에 장착된 움직임 센서(10)의 감지 데이터와, 디지털 카메라(20)에 의해 촬영된 영상의 변화를 이용하여 모바일 단말(100)의 움직임 궤적을 추적하고, 추적된 궤적을 영상 화면에 출력한다.
텍스트 추출모듈(40)은 모바일 단말(100)의 움직임 궤적을 이용하여 영상으로부터 텍스트를 추출한다.
객체분할모듈(50)은 모바일 단말(100)의 움직임 궤적을 이용하여 영상에 대한 객체 분할을 수행한다. 움직임 궤적은 영상 분할 알고리즘에 영상 분할을 위한 시드(seed)를 제공하거나 영상 객체의 대략적인 윤곽선을 제공한다.
이하, 움직임 궤적 추적모듈(30), 텍스트 추출모듈(40), 객체분할모듈(50)의 구체적인 구성 및 역할에 대해 상세히 설명한다.
먼저, 움직임 궤적 추적모듈(30)에 대해 살펴보면 다음과 같다.
도 2는 움직임 궤적 추적모듈(30)의 구성을 도시한 블록도이고, 도 3은 움직임 궤적 추적모듈(30)의 동작 과정을 단계별로 도시한 순서도이다. 움직임 궤적 추적모듈(30)의 동작 과정은 본 발명의 일 실시예인 움직임 궤적 추적 방법과 동일한 것으로 해석될 수 있다.
도 2에서 보듯, 움직임 궤적 추적모듈(30)은 지역 움직임 분석모듈(31), 전역 움직임 분석모듈(32) 및 움직임 궤적 생성모듈(33)을 포함하여 이루어진다.
S10 단계에서, 지역 움직임 분석모듈(31)은 디지털 카메라(20)를 통해 촬영된 영상에 대하여 지역적인 움직임(local motion)을 분석한다. 구체적으로, 지역 움직임 분석모듈(31)은 촬영된 영상의 일부를 특징적인 블록으로 설정한다. 이와 같은 특징적 블록을 형상 블록(feature block)이라 하며 하나의 영상 안에서 복수의 형상 블록이 설정될 수 있다. 그리고, 상기 설정된 형상 블록들에 대하여 블록 움직임 추정(block motion estimation)을 수행함으로써 영상의 지역 움직임을 분석한다.
S11 단계에서, 전역 움직임 분석모듈(32)은 상기 분석된 지역 움직임을 이용하여 영상의 전역 움직임(global motion)을 분석한다. 전역 움직임은 기본적으로 영상의 변형(translation), 회전(rotation), 크기 변화(scaling) 등으로 구분될 수 있다.
S13 단계에서, 전역 움직임 분석모듈(32)은 상기 분석된 전역 움직임으로부터 아웃라이어(outlier)를 제거한다. 전역 움직임을 구성하는 움직임 벡터들 중의 일부는 움직이는 물체나 기타 잡음에 의한 것이므로 분석하고자 하는 영상(이를테면 영상 안의 정적인 배경)의 움직임과는 무관하다. 따라서, 전역 움직임 분석모듈(32)은 분석 대상 영상의 움직임과는 무관한 움직임 벡터들을 아웃라이어(outliers)로 간주하고 시간적 및/또는 공간적인 관점에서 제거(rejection)한다.
S14 단계에서, 움직임 궤적 생성모듈(33)은 전역 움직임 분석모듈(32)에 의해 인접하는 영상 프레임 간의 움직임 벡터가 생성되면, 생성된 움직임 벡터들을 통합하여 전체적인 움직임 궤적을 생성한다. 움직임 궤적은 영상 시퀀스(sequence) 중에서 최초의 영상에 표시되어야 하므로 상기 생성된 움직임 궤적은 첫 번째 영상 프레임에 맵핑되어야 한다. 이를 위해 움직임 궤적 생성모듈(33)은 각 영상 프레임에 대하여 움직임 벡터를 역순으로 맵핑함으로써 전체적인 움직임 궤적이 첫 번째 영상 프레임에 선 형태로 표시되도록 한다.
한편, 움직임 궤적은 모바일 단말 사용자의 손떨림 등에 의해 선형(또는 선형에 가까운)으로 표현되지 못하고 불규칙한 비선형(이를테면 톱니 모양이나 계단 모양 등)으로 표현되기도 한다. 이를 보정하기 위해, 움직임 궤적 생성모듈(33)은 S15 단계를 통해 불규칙하게 나타나는 움직임 궤적에 소정의 평활화 알고리즘을 추가로 적용할 수 있다.
S16 단계에서, 움직임 궤적 생성모듈(33)은 상기 생성된 움직임 궤적에 움직임 센서(10)의 감지 정보를 더하여 움직임 궤적의 정확도를 높인다.
다음으로, 텍스트 추출모듈(40)에 대해 상세히 설명한다.
도 4는 텍스트 추출모듈(40)의 구성을 도시한 블록도이고, 도 5는 텍스트 추출모듈(40)의 동작 과정을 단계별로 도시한 순서도이다. 텍스트 추출모듈(40)의 동작 과정은 본 발명의 일 실시예인 움직임 궤적을 이용한 텍스트 추출방법과 동일한 것으로 해석될 수 있다.
텍스트 추출모듈(40)은 촬영 영상에서 텍스트를 추출하기 위해 문서영상 처리, 자연영상 처리 및 동영상 처리 중 적어도 하나를 수행한다.
문서영상 처리는 주로 스캔 문서의 영상에서 텍스트 객체를 분할하고 분할된 텍스트 객체로부터 텍스트를 인식하는 프로세스를 포함한다. 문서영상 처리를 위해 인쇄체, 필기체 또는 고문서체의 인식 프로세스, 텍스트의 라인 검출프로세스, 조명 변화에 강인한 이진화(binarization) 프로세스 및 텍스트의 보정(rectification) 프로세스 중 적어도 하나가 더 수행될 수 있다.
자연영상은 문서영상에 비해 텍스트의 폰트, 크기, 색상 등이 다양하고 그림자(shade)나 반사(reflection) 등의 조명에 의한 영상 왜곡이 심하므로 텍스트의 인식 및 위치 검출이 용이하지 않다. 따라서, 자연영상 처리를 위해 조명에 의한 왜곡 영상의 보정 프로세스, 카메라의 광각에 의해 기하학적으로 왜곡된 영상의 보정 프로세스, 색상 보정 프로세스 중 적어도 하나가 더 수행될 수 있다.
동영상 처리에는 동영상에 포함된 캡션을 텍스트로 인식하기 위한 프로세스가 포함될 수 있으며, 이에 관한 상세한 기술 정보는 D. Crandall, S. Antani, and R. Kasturi, "Extraction of special effects caption text events from digital video," International Journal of Document Analysis and Recognition 5, no. 2-3, pp.138-157, 2005.에 기재되어 있다.
이하, 텍스트 추출모듈(40)이 수행하는 구체적인 영상 처리 절차를 살펴보면 다음과 같다.
도 4에서 보듯, 텍스트 추출모듈(40)은 궤적분할모듈(41), 영역결정모듈(42) 및 강인화모듈(43)을 포함한다.
S21 단계에서, 궤적분할모듈(41)은 움직임 궤적을 추적하기 시작한 최초의 텍스트 영상에서 움직임 궤적이 미리 설정한 범위를 벗어나는 경우 움직임 궤적을 소정의 영상 시퀀스 단위로 분할한다.
다시 말해, 텍스트가 다중 단어 또는 문장으로 구성되어 있어서 텍스트 배열을 따라 카메라를 장거리로 이동시킨 경우, 최종 영상은 최초 영상과 상당 부분 달라질 수 있다. 도 6은 이와 같이 다중 단어로 구성된 텍스트에 움직임 궤적을 표시한 경우의 화면예를 도시하고 있다. 이 경우, 움직임 궤적을 최초 영상에 적용하더라도 그 움직임 궤적은 최초 영상의 범위를 벗어나므로 움직임 궤적을 적절한 영상 시퀀스 단위로 분할할 필요가 있다. 즉, 동영상을 구성하는 전체 프레임의 시퀀스는 일정한 단위로 분리되어야 텍스트 요소들을 정확히 검출할 수 있는 것이다. 궤적분할모듈(41)은 초기 텍스트 영상에서 움직임 궤적이 미리 설정한 범위를 벗어나는 것으로 판단되면 움직임 궤적을 소정의 영상 시퀀스 단위로 분할한다.
S22 단계에서, 영역결정모듈(42)은 움직임 궤적을 바탕으로 텍스트의 배열정보를 알아낸다. 도 7은 텍스트의 정확한 인식을 위해 배열정보가 필요한 대표적인 경우에 대한 화면예이고, 도 8은 원형으로 배열된 텍스트에 대하여 움직임 궤적을 추적하는 모습을 도시한 개념도이다. 도 7 및 도 8에서 보듯, 원형으로 배열된 텍스트의 밑단에는 모바일 단말의 이동으로 인해 추적된 움직임 궤적이 표시됨을 확인할 수 있다.
영역결정모듈(42)은 움직임 궤적과 가장 근거리에 위치하는 텍스트를 검출하여 텍스트의 범위를 찾는데, 잘못된 텍스트의 검출을 방지하기 위해 텍스트 요소는 일정하고 연속적인 위치에 배열되는 것이 바람직하다. 여기서, 텍스트 요소란 텍스트를 구성하는 각 문자 또는 문자가 밀집된 단어를 가리킨다.
영역결정모듈(42)은 텍스트 요소의 검출을 위해 에지 성분을 활용할 수 있다. 즉, 영역결정모듈(42)은 에지 성분이 밀집된 영역을 텍스트 후보 영역으로 설정하고, 후보 영역에서 움직임 궤적에 의한 배열정보와 일치하는 성분을 찾는다. 그리고 상기 찾아낸 텍스트 요소에 대하여 경계 박스(bounding box)를 설정한다.
S23 단계에서, 강인화모듈(43)은 텍스트의 색상이나 조명의 변화에 강인한 텍스트 인식률을 보장하기 위해 텍스트의 분할(segmentation) 및 이진화(binarization)를 수행한다.
강인화모듈(43)은 영역결정모듈(42)에 의해 설정된 경계 박스 안의 텍스트를 이진화한다. 구체적으로, 강인화모듈(43)은 먼저 색상 클러스터링(clustering)에 의해 스트록(strok) 부분을 분할하되, 조명 변화 및 텍스트의 색상을 고려하여 스트록 분할을 완성한다. 색상 분할을 위해 텍스트의 색상을 배경색과 대비하여 색상 요소들을 컬러 양자화(colour quantization)할 수 있다.
본 발명에서는, 영역결정모듈(42)에 의해 텍스트 요소가 검출되었으므로 각 텍스트 요소의 경계 박스에는 비교적 단순한 형태의 전경(foreground)과 배경(background)이 존재한다. 따라서, 텍스트의 분할(segmentation) 및 이진화(binarization)를 보다 효과적으로 수행할 수 있다.
도 5에는 도시되지 않았지만, 텍스트 추출모듈(40)은 강인화모듈(43)에 의해 변환된 최종 영상 정보로부터 텍스트를 추출하여 문자로 제공하는 단계를 더 수행할 수 있다.
마지막으로, 객체분할모듈(50)에 대해 상세히 설명한다.
도 9는 객체분할모듈(50)의 구성을 도시한 블록도이고, 도 10은 객체분할모듈(50)의 동작 과정을 단계별로 도시한 순서도이다. 객체분할모듈(50)의 동작 과정은 본 발명의 일 실시예인 움직임 궤적을 이용한 객체 분할 방법과 동일한 것으로 해석될 수 있다.
도 9에서, 객체분할모듈(50)은 영상분할모듈(51) 및 특징추출모듈(52)을 포함하여 이루어진다.
영상분할기법은 픽셀(pixel) 기반의 분할기법과 영역 기반의 분할기법으로 구분할 수 있다. 영역 기반의 분할기법에는 분할병합법(split and merge), 영역 성장법(region growing), 경계 완화법(boundary relaxation), 유역법(watershed), 그래프 절단법(graph cut), 능동 윤곽법(active contour)이 포함된다. 이하, 본 발명의 일 실시예로 분할병합법(split and merge)을 사용하는 영상 객체 분할 방법을 설명하지만 전술한 다른 종류의 영상분할기법이 대신 사용될 수 있음은 자명하다.
S31 단계에서, 영상분할모듈(51)은 영상의 색상과 텍스쳐를 기반으로 하여 영상의 각 부분을 동질 영역(homogeneous region)으로 분할한다. 이를 위해 영상분할모듈(51)은 의미 천이(mean-shift)나 성장 알고리즘(growing algorithm)과 같은 클러스터링 기법을 사용할 수 있다. 또한 영상분할모듈(51)은 영상으로부터 분할할 객체의 크기와 범위에 따라 상기 동질 영역의 분할 크기(scale)를 동적으로 조절할 수 있다.
S32 단계에서, 특징추출모듈(52)은 움직임 궤적을 고려하여 영상 객체의 특징을 추출한다. 그리고, S33 단계에서, 추출된 영상 객체의 특징들을 토대로 우성 형상(dominant feature)을 추출하여, 최종적인 객체 분할에 활용한다(S34).
일례로, 특징추출모듈(52)은 검출된 서로 다른 형상 세그먼트(feature segment) 별로 그 차이를 측정하여 서로 다른 형상들이 객체의 내부에 어느 정도 존재하는지를 파악한다. 모바일 단말(100)을 들고 있는 사용자의 손떨림 특성이나 모바일 단말(100)의 움직임의 불안정성으로 인해 움직임 궤적은 객체의 전경(foreground) 뿐만 아니라 배경(background)까지 지정할 가능성이 있다. 이러한 사유로 인해 객체 윤곽의 중심으로부터 외곽으로 갈수록 객체의 전경일 확률이 낮아진다. 특징추출모듈(52)은 이러한 원리를 이용하여 객체 윤곽의 중심을 객체 전경의 중심으로 간주하여 형상을 분석하되, 윤곽의 외부로부터 객체 외부의 형상을 추출하고 추출한 외부 형상을 작은 영역으로 나누어 영상 영역들을 분류한다.
도 11 및 도 12는 영상으로부터 일정 영역의 객체를 분할하기 위해 모바일 단말의 움직임 궤적을 추적하는 모습을 도시한 개념도이다. 구체적으로, 도 11는 텍스트의 한 글자를 분할하기 위해 박스 형태의 움직임 궤적을 형성한 경우를 도시하고 있고, 도 12는 자동차를 주변 배경으로부터 분할하기 위해 타원 형태의 움직임 궤적을 형성한 경우를 도시하고 있다.
이상에서 본 발명의 실시예들에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속한다.
또한 본 출원에서 사용한 용어는 단지 특정 실시예를 설명하기 위해 사용된 것으로서 본 발명을 한정하려는 의도가 아니며, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
한편 어떤 실시예가 달리 구현 가능한 경우에 특정 블록 내에 명기된 기능 또는 동작이 순서도에 명기된 순서와 다르게 일어날 수도 있다. 예를 들어, 연속하는 두 블록이 실제로는 실질적으로 동시에 수행될 수도 있고, 관련된 기능 또는 동작에 따라서는 상기 블록들이 거꾸로 수행될 수도 있다.
본 발명은 움직임 궤적을 이용한 객체 인식 프로그램이 저장된 기록매체에 관한 것으로, 디지털 카메라가 장착된 모바일 단말의 움직임 센서를 이용하여 모바일 단말의 움직임 궤적을 추적하고, 촬영된 영상 내의 움직임 궤적을 이용하여 텍스트 등의 객체를 인식함으로써, 모바일 단말을 복잡하게 조작하거나 별도의 프로그램을 이용하여 후처리할 필요 없이 모바일 단말의 직관적인 움직임만으로 영상의 일부 영역을 특정할 수 있으므로 판독하기 어려운 형태의 이미지로부터 텍스트나 일부 영상 객체의 위치 정보나 배열 정보를 손쉽게 획득할 수 있고, 획득한 위치 정보 및 배열 정보를 이용하여 텍스트 인식 및 영상 분할의 정확도와 처리 성능을 한층 향상시킬 수 있다.

Claims (16)

  1. 움직임 센서의 감지 데이터와, 디지털 카메라에 의해 촬영된 영상의 변화를 이용하여 모바일 단말의 움직임 궤적을 추적하는 움직임 궤적 추적모듈
    을 포함하는 움직임 궤적 추적 장치.
  2. 제1항에 있어서, 상기 움직임 궤적 추적모듈은,
    상기 디지털 카메라를 통해 촬영된 영상에 대하여 지역적인 움직임(local motion)을 분석하는 지역 움직임 분석모듈;
    상기 분석된 지역 움직임을 이용하여 영상의 전역 움직임(global motion)을 분석하고, 상기 분석된 전역 움직임으로부터 아웃라이어(outlier)를 제거하여 인접하는 영상 프레임 간의 움직임 벡터를 생성하는 전역 움직임 분석모듈; 및
    상기 생성된 움직임 벡터들을 통합하여 전체적인 움직임 궤적을 생성하고, 생성된 움직임 궤적에 상기 움직임 센서의 감지 데이터를 반영하는 움직임 궤적 생성모듈
    을 포함하는 것을 특징으로 하는 움직임 궤적 추적 장치.
  3. 제2항에 있어서, 상기 움직임 궤적 생성모듈은,
    각 영상 프레임에 대하여 움직임 벡터를 역순으로 맵핑함으로써 전체적인 움직임 궤적이 첫 번째 영상 프레임에 선 형태로 표시되도록 하는 것을 특징으로 하는 움직임 궤적 추적 장치.
  4. 제3항에 있어서, 상기 움직임 궤적 생성모듈은,
    상기 선 형태로 표시되는 움직임 궤적이 비선형적인 불규칙한 형상으로 표시될 경우, 상기 움직임 벡터에 소정의 평활화 알고리즘을 더 적용하는 것을 특징으로 하는 움직임 궤적 추적 장치.
  5. 제1항에 있어서,
    상기 모바일 단말의 움직임 궤적을 이용하여 영상으로부터 텍스트를 추출하는 텍스트 추출모듈을 더 포함하는 것을 특징으로 하는 움직임 궤적 추적 장치.
  6. 제5항에 있어서, 상기 텍스트 추출모듈은,
    상기 모바일 단말의 움직임 궤적을 추적하기 시작한 최초의 영상에서 움직임 궤적이 미리 설정한 범위를 벗어나는 경우 움직임 궤적을 소정의 영상 시퀀스 단위로 분할하는 궤적분할모듈;
    상기 모바일 단말의 움직임 궤적을 이용하여 상기 영상에 포함된 텍스트의 배열정보를 알아내고, 상기 배열정보를 이용하여 상기 텍스트의 경계 박스를 설정하는 영역결정모듈; 및
    상기 영상에 포함된 텍스트에 대하여 분할(segmentation) 및 이진화(binarization) 중 적어도 하나를 수행하는 강인화모듈
    을 포함하는 것을 특징으로 하는 움직임 궤적 추적 장치.
  7. 제1항에 있어서,
    상기 모바일 단말의 움직임 궤적을 이용하여 영상에 대한 객체 분할을 수행하는 객체분할모듈을 더 포함하는 것을 특징으로 하는 움직임 궤적 추적 장치.
  8. 제7항에 있어서, 상기 객체분할모듈은,
    영상의 색상과 텍스쳐를 기반으로 하여 상기 영상의 각 부분을 동질 영역(homogeneous region)으로 분할하는 영상분할모듈; 및
    상기 모바일 단말의 움직임 궤적을 고려하여 상기 분할된 영상 객체들의 특징을 추출하고, 상기 추출된 영상 객체의 특징들을 토대로 우성 형상(dominant feature)을 추출하는 특징추출모듈
    을 포함하는 것을 특징으로 하는 움직임 궤적 추적 장치.
  9. 움직임 센서로 모바일 단말의 움직임을 감지하여 감지 데이터를 생성하는 단계; 및
    상기 생성된 감지 데이터와, 디지털 카메라에 의해 촬영된 영상의 변화를 이용하여 모바일 단말의 움직임 궤적을 추적하는 단계를 포함하는 움직임 궤적 추적 방법을 구현한 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체.
  10. 제9항에 있어서, 상기 움직임 궤적 추적 단계는,
    상기 디지털 카메라를 통해 촬영된 영상에 대하여 지역적인 움직임(local motion)을 분석하는 단계;
    상기 분석된 지역 움직임을 이용하여 영상의 전역 움직임(global motion)을 분석하는 단계;
    상기 분석된 전역 움직임으로부터 아웃라이어(outlier)를 제거하여 인접하는 영상 프레임 간의 움직임 벡터를 생성하는 단계;
    상기 생성된 움직임 벡터들을 통합하여 전체적인 움직임 궤적을 생성하는 단계; 및
    상기 생성된 움직임 궤적에 상기 움직임 센서의 감지 데이터를 반영하는 단계
    을 포함하는 것을 특징으로 하는 움직임 궤적 추적 방법을 구현한 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체.
  11. 제10항에 있어서, 상기 움직임 궤적 추적 단계는,
    각 영상 프레임에 대하여 움직임 벡터를 역순으로 맵핑함으로써 전체적인 움직임 궤적이 첫 번째 영상 프레임에 선 형태로 표시되도록 단계를 더 포함하는 것을 특징으로 하는 움직임 궤적 추적 방법을 구현한 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체.
  12. 제11항에 있어서, 상기 움직임 궤적 추적 단계는,
    상기 선 형태로 표시되는 움직임 궤적이 비선형적인 불규칙한 형상으로 표시될 경우, 상기 움직임 벡터에 소정의 평활화 알고리즘을 적용하는 단계를 더 포함하는 것을 특징으로 하는 움직임 궤적 추적 방법을 구현한 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체.
  13. 제9항에 있어서,
    상기 모바일 단말의 움직임 궤적을 이용하여 영상으로부터 텍스트를 추출하는 단계를 더 포함하는 것을 특징으로 하는 움직임 궤적 추적 방법을 구현한 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체.
  14. 제13항에 있어서, 상기 텍스트 추출 단계는,
    상기 모바일 단말의 움직임 궤적을 추적하기 시작한 최초의 영상에서 움직임 궤적이 미리 설정한 범위를 벗어나는 경우 움직임 궤적을 소정의 영상 시퀀스 단위로 분할하는 단계;
    상기 모바일 단말의 움직임 궤적을 이용하여 상기 영상에 포함된 텍스트의 배열정보를 알아내고, 상기 배열정보를 이용하여 상기 텍스트의 경계 박스를 설정하는 단계; 및
    상기 영상에 포함된 텍스트에 대하여 분할(segmentation) 및 이진화(binarization) 중 적어도 하나를 수행하는 단계
    를 포함하는 것을 특징으로 하는 움직임 궤적 추적 방법을 구현한 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체.
  15. 제9항에 있어서,
    상기 모바일 단말의 움직임 궤적을 이용하여 영상에 대한 객체 분할을 수행하는 단계를 더 포함하는 것을 특징으로 하는 움직임 궤적 추적 방법을 구현한 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체.
  16. 제15항에 있어서, 상기 객체분할단계는,
    영상의 색상과 텍스쳐를 기반으로 하여 상기 영상의 각 부분을 동질 영역(homogeneous region)으로 분할하는 단계; 및
    상기 모바일 단말의 움직임 궤적을 고려하여 상기 분할된 영상 객체들의 특징을 추출하고, 상기 추출된 영상 객체의 특징들을 토대로 우성 형상(dominant feature)을 추출하는 단계
    를 포함하는 것을 특징으로 하는 움직임 궤적 추적 방법을 구현한 프로그램을 저장하는 컴퓨터로 읽을 수 있는 기록매체.
PCT/KR2011/008281 2010-12-28 2011-11-02 움직임 궤적을 이용한 객체 인식 프로그램이 저장된 기록매체 및 객체 인식 장치 WO2012091276A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2010-0136473 2010-12-28
KR1020100136473A KR101195939B1 (ko) 2010-12-28 2010-12-28 움직임 궤적을 이용한 객체 인식 프로그램이 저장된 기록매체 및 객체 인식 장치

Publications (1)

Publication Number Publication Date
WO2012091276A1 true WO2012091276A1 (ko) 2012-07-05

Family

ID=46383318

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2011/008281 WO2012091276A1 (ko) 2010-12-28 2011-11-02 움직임 궤적을 이용한 객체 인식 프로그램이 저장된 기록매체 및 객체 인식 장치

Country Status (2)

Country Link
KR (1) KR101195939B1 (ko)
WO (1) WO2012091276A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014205231A1 (en) * 2013-06-19 2014-12-24 The Regents Of The University Of Michigan Deep learning framework for generic object detection

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001177850A (ja) * 1999-12-21 2001-06-29 Sony Corp 画像信号記録装置および方法、画像信号再生方法並びに記録媒体
JP2002169645A (ja) * 2000-12-01 2002-06-14 Toshiba Corp 移動通信端末
JP2009223839A (ja) * 2008-03-19 2009-10-01 Ricoh Co Ltd ペン型入力装置及び手書き入力方法
US20100158352A1 (en) * 2008-12-22 2010-06-24 Electronics And Telecommunications Research Institute Apparatus and method for real-time camera tracking

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5463790B2 (ja) 2009-08-18 2014-04-09 ソニー株式会社 操作入力システム、制御装置、ハンドヘルド装置及び操作入力方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001177850A (ja) * 1999-12-21 2001-06-29 Sony Corp 画像信号記録装置および方法、画像信号再生方法並びに記録媒体
JP2002169645A (ja) * 2000-12-01 2002-06-14 Toshiba Corp 移動通信端末
JP2009223839A (ja) * 2008-03-19 2009-10-01 Ricoh Co Ltd ペン型入力装置及び手書き入力方法
US20100158352A1 (en) * 2008-12-22 2010-06-24 Electronics And Telecommunications Research Institute Apparatus and method for real-time camera tracking

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014205231A1 (en) * 2013-06-19 2014-12-24 The Regents Of The University Of Michigan Deep learning framework for generic object detection

Also Published As

Publication number Publication date
KR20120074591A (ko) 2012-07-06
KR101195939B1 (ko) 2012-10-29

Similar Documents

Publication Publication Date Title
Wu et al. A new technique for multi-oriented scene text line detection and tracking in video
US10168794B2 (en) Motion-assisted visual language for human computer interfaces
Zhou et al. East: an efficient and accurate scene text detector
CN110610510B (zh) 目标跟踪方法、装置、电子设备及存储介质
US7965904B2 (en) Position and orientation measuring apparatus and position and orientation measuring method, mixed-reality system, and computer program
CN113486828B (zh) 图像处理方法、装置、设备和存储介质
Khare et al. Arbitrarily-oriented multi-lingual text detection in video
CN107679512A (zh) 一种基于手势关键点的动态手势识别方法
Kaur et al. A survey on camera-captured scene text detection and extraction: towards Gurmukhi script
Lahoti et al. Android based american sign language recognition system with skin segmentation and SVM
WO2005072239A2 (en) Methods and systems for analyzing and summarizing video
Nachamai Alphabet recognition of american sign language: a hand gesture recognition approach using sift algorithm
CN111460858A (zh) 图像中指尖点的确定方法、装置、存储介质及电子设备
KR100977259B1 (ko) 다중 기울기 히스토그램을 이용한 사람 탐색 및 추적 방법
Demirkus et al. People detection in fish-eye top-views
WO2012091276A1 (ko) 움직임 궤적을 이용한 객체 인식 프로그램이 저장된 기록매체 및 객체 인식 장치
Chavre et al. Scene text extraction using stroke width transform for tourist translator on android platform
Vidhyalakshmi et al. Text detection in natural images with hybrid stroke feature transform and high performance deep Convnet computing
Canedo-Rodríguez et al. Efficient text extraction algorithm using color clustering for language translation in mobile phone
Alhamazani et al. [Retracted] Using Depth Cameras for Recognition and Segmentation of Hand Gestures
Siddiqua et al. A combined edge and connected component based approach for Kannada text detection in images
Mahajan et al. Text extraction from indian and non-indian natural scene images: A review
Viitaniemi et al. Detecting hand-head occlusions in sign language video
Kumar et al. A CNN Based Air-Writing Recognition Framework for Linguistic Characters
Alanazi Embedded System Based Raspberry Pi 4 for Text Detection and Recognition.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11852623

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11852623

Country of ref document: EP

Kind code of ref document: A1