WO2024071516A1 - 객체 고정이 가능한 객체 트래킹 제공 방법 및 그를 위한 휴대 단말 - Google Patents

객체 고정이 가능한 객체 트래킹 제공 방법 및 그를 위한 휴대 단말 Download PDF

Info

Publication number
WO2024071516A1
WO2024071516A1 PCT/KR2022/019010 KR2022019010W WO2024071516A1 WO 2024071516 A1 WO2024071516 A1 WO 2024071516A1 KR 2022019010 W KR2022019010 W KR 2022019010W WO 2024071516 A1 WO2024071516 A1 WO 2024071516A1
Authority
WO
WIPO (PCT)
Prior art keywords
tracking
artificial intelligence
intelligence model
search
mobile terminal
Prior art date
Application number
PCT/KR2022/019010
Other languages
English (en)
French (fr)
Inventor
김켄
정지욱
Original Assignee
주식회사 쓰리아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220152262A external-priority patent/KR102617213B1/ko
Application filed by 주식회사 쓰리아이 filed Critical 주식회사 쓰리아이
Priority claimed from KR1020220162112A external-priority patent/KR20240045946A/ko
Priority to US18/340,318 priority Critical patent/US20240005530A1/en
Priority to US18/340,311 priority patent/US20240005529A1/en
Publication of WO2024071516A1 publication Critical patent/WO2024071516A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces

Definitions

  • the present invention relates to a method for providing object tracking capable of fixing an object and a portable terminal therefor.
  • the main interest of users is the tracking function for tracking objects of interest in the image being shot.
  • object tracking requires a separate device that identifies the object and changes the direction of the camera according to the movement of the object.
  • Examples of such prior art include Korea Patent Publication No. 10-2020-0001419.
  • each individually learned deep learned object recognition model and deep learned object identification model are used to solve the problems of the prior art.
  • the purpose is to provide tracking more effectively by performing object identification and identity judgment more quickly and accurately.
  • the purpose is to perform object identity determination more quickly and with fewer resources because identical objects are determined based on similarity comparison of object identifiers derived from an object identification model.
  • the method of providing tracking capable of fixing an object is performed in a mobile terminal and provides an object tracking function for a captured image taken in front of the mobile terminal, comprising the steps of setting a tracking object and creating a first artificial intelligence model.
  • the portable terminal includes a memory that stores one or more instructions, and at least one processor that executes the one or more instructions stored in the memory.
  • the at least one processor receives a search frame image captured at a first resolution from the camera module by executing the one or more instructions, sets a tracking object, and uses a first artificial intelligence model to capture the captured image.
  • a search object is set by identifying an object existing in a frame image, and using a second artificial intelligence model trained in a different way from the first artificial intelligence model, the search object set by the first artificial intelligence model is set. It is determined whether the tracking object is the same object.
  • the storage medium is a storage medium that stores computer-readable instructions.
  • the instructions when executed by a mobile terminal, cause the mobile terminal to set a tracking object, using a first artificial intelligence model, an object existing in a frame image of the captured image - the object is the tracking object.
  • the identification and identity of objects are determined more quickly and accurately using individually learned deep learning object recognition models and deep learning object identification models, thereby providing tracking more effectively. There is an effect that can be done.
  • object identity determination can be performed more quickly and with fewer resources.
  • Figure 1 is a diagram illustrating an object tracking technology capable of fixing an object according to an embodiment of the present application.
  • FIG. 2 is a diagram illustrating an exemplary computing environment of a mobile terminal according to an embodiment of the present application.
  • Figure 3 is a flowchart explaining a method of providing object tracking capable of object fixation according to an embodiment of the present application.
  • FIG. 4 is a diagram illustrating a method of providing object tracking capable of fixing an object according to an embodiment of the present application.
  • Figures 5 to 7 are diagrams for explaining a method of providing object tracking capable of fixing an object shown in Figure 3.
  • Figure 8 is a flowchart explaining an embodiment of setting a tracking object according to an embodiment of the present application.
  • Figure 9 is a flowchart explaining an embodiment of setting a search object according to an embodiment of the present application.
  • Figure 10 is a flowchart illustrating an embodiment of determining the identity of a search object and a tracking object according to an embodiment of the present application.
  • Figure 11 is a block diagram illustrating a terminal holder according to an embodiment of the present application.
  • Figure 12 is a diagram illustrating a tracking object tracking method using a terminal holder according to an embodiment of the present application.
  • Figure 13 is a diagram explaining a software-based tracking method according to an embodiment of the present application.
  • FIG. 14 is a diagram illustrating an example of setting a viewing window according to an embodiment of the present application.
  • Figures 15 and 16 are diagrams explaining software tracking.
  • each element may be implemented as an electronic configuration to perform the corresponding function, or may be implemented as software itself that can be run in an electronic system, or as a functional element of such software. Alternatively, it may be implemented with an electronic configuration and corresponding driving software.
  • each function executed in the system of the present invention may be configured in module units and may be recorded in one physical memory, or may be distributed and recorded between two or more memories and recording media.
  • Various embodiments of the present application are software (e.g. For example, it may be implemented as a program).
  • the processor 301 may call at least one instruction among one or more instructions stored from a storage medium and execute it. This allows the device to be operated to perform at least one function according to the at least one instruction called.
  • the one or more instructions may include code generated by a compiler or code that can be executed by an interpreter.
  • a storage medium that can be read by a device may be provided in the form of a non-transitory storage medium.
  • 'non-transitory' only means that the storage medium is a tangible device and does not contain signals (e.g., electromagnetic waves), and this term refers to data being semi-permanently stored in the storage medium. There is no distinction between temporary storage and temporary storage.
  • Figure 1 is a diagram illustrating an object tracking technology capable of fixing an object according to an embodiment of the present application.
  • the mobile terminal 100 captures a captured image in a forward direction and identifies an object in the captured image.
  • the mobile terminal 100 performs tracking so that the identified object is located within the captured image.
  • the mobile terminal 100 can identify a tracking object among various search objects in a captured image and track only the tracking object.
  • an artificial intelligence model there is an advantage in that object identification is fast and accurate, but it is difficult to track only single objects because each object is identified without being specified.
  • tracking human objects if only an artificial intelligence model that searches for human objects is used, a problem occurs where the person being tracked changes when situations such as multiple people appear or a person briefly leaves the screen occur. .
  • by using differently trained artificial intelligence models it is possible to determine whether the searched objects are identical to the tracking object, and thus only the tracking object can be tracked.
  • Tracking can be implemented in various ways.
  • the mobile terminal 100 may control the operation of the terminal holder 200 so that the front of the mobile terminal 100 passes the object, thereby performing tracking.
  • a display window (referred to as a viewing window) set to a lower resolution than the shooting resolution of the mobile terminal 100 is partially changed and set in the captured image, so that the Tracking functions can be provided to users as if tracking were occurring.
  • This portable terminal 100 includes a camera and may be an electronic device that can be carried by the user.
  • the mobile terminal 100 may be a smart phone, a mobile phone, a laptop computer, a digital broadcasting terminal, a personal digital assistant (PDA), a portable multimedia player (PMP), a navigation device, or a slate PC. PC), tablet PC, ultrabook, wearable device (e.g., smartwatch, smart glass, HMD (head mounted display)), etc. You can.
  • the portable terminal 100 and a method for providing object tracking capable of fixing objects performed by the mobile terminal 100 will be described below with reference to FIGS. 2 to 16.
  • FIG. 2 is a diagram illustrating an exemplary computing operating environment of a mobile terminal according to an embodiment of the present application.
  • the portable terminal 100 includes a communication unit 110, a camera unit 120, an output unit 130, a memory 140, a power supply unit 150, and a processor 160.
  • the components shown in FIG. 2 are not essential for implementing a portable terminal, so the portable terminal described in this specification may have more or fewer components than the components listed above.
  • the communication unit 110 may include one or more modules that enable communication, such as between the mobile terminal 100 and a wireless communication system or between the mobile terminal 100 and another mobile terminal.
  • This communication unit 110 may include a mobile communication module 211, a wireless Internet module 212, and a short-distance communication module 213.
  • the short-distance communication module 213 can perform a communication connection with the terminal holder 100 by wire or wirelessly.
  • the short-range communication module 213 may include a short-range wireless communication module such as Bluetooth or a wired communication module such as RS232.
  • the camera unit 120 or camera module may include at least one camera.
  • Camera unit 120 may include one or more lenses, image sensors, image signal processors, or flashes.
  • the camera unit 120 may include a first camera 221 to a second camera 222.
  • the first camera 221 or the second camera 222 may capture a front image of the portable terminal 100.
  • the output unit 130 is intended to generate output related to vision, hearing, or tactile senses, and may include a display 131 and a speaker 132.
  • the display 131 can implement a touch screen by forming a mutual layer structure or being integrated with the touch sensor. This touch screen can function as a user input unit that provides an input interface between the mobile terminal 100 and the user, and at the same time, can provide an output interface between the mobile terminal 100 and the user.
  • the power supply unit 150 receives external or internal power under the control of the processor 160 and supplies power to each component included in the portable terminal 100.
  • This power supply unit 150 includes a battery, and the battery may be a built-in battery or a replaceable battery.
  • the processor 160 may control at least some of the components examined with FIG. 2 to run an application program stored in the memory 140, that is, an application. Furthermore, the processor 160 may operate at least two of the components included in the portable terminal 100 in combination with each other in order to run an application program.
  • the processor 160 may run an application by executing instructions stored in the memory 140.
  • the processor 160 is expressed as the subject of control, instruction, or function by driving an application. However, this means that the processor 160 operates by driving instructions or applications stored in the memory 140.
  • At least some of the above-described components may cooperate with each other to implement the operation, control, or control method of the mobile terminal 100 according to various embodiments described below. Additionally, the operation, control, or control method of the mobile terminal 100 may be implemented on the mobile terminal by running at least one application program stored in the memory 140.
  • the processor 160 In addition to operations related to application programs, the processor 160 typically controls the overall operation of the mobile terminal 100.
  • the processor 260 can provide or process appropriate information or functions to the user by processing signals, data, information, etc. input or output through the components discussed above, or by running an application program stored in the memory 240.
  • the processor 160 can be implemented as one processor or multiple processors.
  • FIG. 7 may be functions or software modules implemented in the processor 160 according to instructions stored in the memory 140.
  • control method performed in the mobile terminal 100 may be implemented as a program and provided to the mobile terminal 100.
  • a program including a control method for the portable terminal 100 may be stored and provided in a non-transitory computer readable medium.
  • FIG. 3 is a flowchart explaining a method of providing object tracking capable of fixing an object according to an embodiment of the present application, and the method of providing object tracking shown in FIG. 3 is performed using the processor 160 of the mobile terminal 100 shown in FIG. 2. Each step performed by the operation is explained.
  • Figure 4 is a diagram illustrating a method of providing object tracking capable of fixing an object according to an embodiment of the present application, and explains specifying a tracked object using the first and second artificial intelligence models.
  • the mobile terminal 100 can prepare first and second artificial intelligence models.
  • the memory 110 may store artificial intelligence models according to various embodiments of the present disclosure.
  • the artificial intelligence model is a judgment model learned based on a plurality of images based on an artificial intelligence algorithm, and may be a model based on a neural network.
  • the learned judgment model may be designed to simulate the structure of the human brain on a computer and may include a plurality of network nodes with weights that simulate neurons of a human neural network. A plurality of network nodes can each form a connection relationship to simulate the synaptic activity of neurons sending and receiving signals through synapses.
  • the learned judgment model may include, for example, a machine learning model, a neural network model, or a deep learning model developed from a neural network model. In a deep learning model, multiple network nodes are located at different depths (or layers) and can exchange data according to convolutional connections.
  • the artificial intelligence model may be a CNN (Convolution Neural Network) model learned based on images.
  • CNN is a multi-layer neural network with a special connection structure designed for voice processing and image processing.
  • artificial intelligence models are not limited to CNN.
  • a learning network model is a Recurrent Network (RNN).
  • GAN Generative Adversarial Networks
  • the memory 110 may store a plurality of learning network models of the same type or different type.
  • at least one learning network model according to various embodiments of the present disclosure may be stored in at least one of an external device or an external server.
  • the first artificial intelligence model 410 is trained with an image displaying the type of tracking object, and can identify the type of search object within the image. That is, the first artificial intelligence model 410 may be an artificial intelligence model that is deep-learned from a plurality of learning image sets containing types of tracking objects to identify objects corresponding to the types of tracking objects present in the frame image. there is. For example, taking a human as an example as a tracking object, the first artificial intelligence model may be an artificial neural network model that is provided with a plurality of learning images showing various appearances of people and is trained to identify and distinguish human objects within the images.
  • the second artificial intelligence model 410 may be a model learned to determine identity in identified human objects.
  • the second artificial intelligence model 410 is an artificial intelligence model trained to generate feature data about the identity between the base image and the training image for a base image and a training image transformed based on the base image. You can.
  • the second artificial intelligence model 410 may receive a reference object - a tracking object - and a comparison object - a search object - and generate similarity data - for example, a feature vector - for the reference object.
  • the generated similarity data can be used to determine whether the comparison object and the reference object are similar.
  • the second artificial intelligence model 420 may receive a reference object - a tracking object - and a comparison object - a search object - and generate feature data - for example, a feature vector - for each object.
  • the second artificial intelligence model 420 may generate a first feature vector for the reference object and a second feature vector for the comparison object, respectively.
  • the first feature vector for the reference object and the second feature vector for the comparison object may be used to determine whether the comparison object and the reference object are similar.
  • the processor 160 can drive artificial intelligence models 410 and 420 stored in memory, and can provide a tracking function that fixes an object based on these artificial intelligence models.
  • the processor 160 may set a tracking object (S310).
  • the tracking object may be determined by the user's selection, with the search object identified in the frame image as the target.
  • the processor 160 may automatically set the search object first identified in the frame image as the tracking object.
  • the processor 160 may use the first artificial intelligence model 410 to identify objects present in the frame image of the captured image and set a search object (S320).
  • the search object is an object that exists within the image frame and is of the same type as the tracking object. For example, if the tracked object is a person, all human objects within the image frame may be identified as search objects.
  • the processor 160 may use the second artificial intelligence model 430 to determine whether the search object and the tracking object set by the first artificial intelligence model are the same object (S330).
  • the processor 160 determines whether the search object and the tracking object are the same object based on whether the similarity data between the search object and the tracking object generated by the second artificial intelligence model 430 falls within a preset similarity range. can do.
  • the processor 160 determines the search object and the tracking object based on the similarity between the first feature vector for the search object generated by the second artificial intelligence model 430 and the second feature vector for the tracking object. You can determine whether it is the same object.
  • the processor 160 may track the search object determined to be the same.
  • the processor 160 may reset the search object to the tracking object (S340) and perform object tracking based on the reset tracking object (S350).
  • the processor 160 may reset the search object to the tracking object (S340) and perform object tracking based on the reset tracking object (S350).
  • the same search object as the tracking object is targeted for tracking without resetting the tracking object is also possible.
  • the processor 160 may perform object tracking based on the location of the search object in the previous frame image. In other words, the shooting direction or viewing window in the previous frame image can be maintained as is.
  • the processor 160 can perform tracking control 430 for object tracking for the tracked object, that is, the terminal holder for tracking (200) rotation control can be performed. To this end, the processor 160 may generate a tracking control signal and provide it to the terminal holder 200.
  • FIGS. 5 to 7 are diagrams illustrating a method of providing object tracking capable of fixing the object shown in FIG. 3.
  • the mobile terminal 100 captures a front image and tracks the tracking object 51.
  • An example of display through the user display interface 520 is shown.
  • the example in FIG. 5 shows an example in which the tracking object 51 is set.
  • FIG. 6 shows an example in which a new search object 62 is added to the area 610 captured in the frame image.
  • the processor 160 may identify the first search object 61 and the second search object 62 using the first artificial intelligence model. Thereafter, the processor 160 uses the second artificial intelligence model to determine similarity between the tracking object 51 and the first search object 61 and to determine similarity between the tracking object 51 and the second search object 62.
  • the processor 160 will determine that the first search object 61 is similar to the tracking object 51, while the second search object 62 will be determined to be dissimilar to the tracking object 51, and accordingly, 1
  • the navigation object 61 can be continuously tracked.
  • tracking can be performed by searching for the search object 71 found in the area 710 captured in the frame image and determining whether it is the same as the tracking object.
  • FIG. 8 is a flowchart explaining an embodiment of setting a tracking object according to an embodiment of the present application.
  • One embodiment shown in FIG. 8 is an embodiment that explains the initial setting of a tracking object.
  • the processor 160 receives a captured image at a preset frame rate (S810).
  • the processor 160 may use the first artificial intelligence model to identify objects existing in the frame image of the captured image (S820) and set the first searched search object as the tracking object (S830).
  • automatic object tracking can be conveniently performed because the first identified object - for example, the first identified human object - can be automatically set as the tracking target.
  • Figure 9 is a flowchart explaining an embodiment of setting a search object according to an embodiment of the present application.
  • the processor 160 can identify a search object within a frame image of a captured image using the first artificial intelligence model (S910).
  • the processor 160 may display a bounding box for the search object (S920), cut out the bounding box, and input it into the second artificial intelligence model (S930).
  • Object 51 shown in FIG. 5 has a bounding box indicated by a dashed one-dot line. This bounding box may be displayed through the user interface, or display of the bounding box may be omitted.
  • Figure 6 shows an example in which bounding boxes are set for the two searched objects 61 and 62, respectively.
  • Figure 10 is a flowchart illustrating an embodiment of determining the identity of a search object and a tracking object according to an embodiment of the present application.
  • the processor 160 may generate first feature data for the first bounding box including the search object using the second artificial intelligence model (S1010).
  • the processor 160 may generate second feature data for the second bounding box including the tracking object using the second artificial intelligence model (S1020).
  • the processor 160 may determine the identity of the search object and the tracking object by comparing the first feature data and the second feature data (S1030).
  • the feature data may be a feature vector
  • the processor 160 determines the similarity between the first feature vector for the search object generated by the second artificial intelligence model 430 and the second feature vector for the tracking object. Based on this, it can be determined whether the search object and the tracking object are the same object.
  • the processor 160 calculates a plurality of similarity values derived in different ways for the first feature vector for the search object and the second feature vector for the tracking object, and for each of the plurality of similarity values You can set the similarity range. For example, the processor 160 calculates a cosine distance value and a Euclidean distance value between the first feature vector and the second feature vector, and the two calculated values are set within the similarity threshold range and the preset cosine distance value, respectively. It can be determined whether the similarity of the set Euclidean distance value falls within a critical range - each of the critical ranges can be set based on a learning process.
  • the processor 160 may determine that the search object and the tracking object are the same. If at least one of the plurality of similarity values exceeds the similarity range, the processor 160 may determine that the search object and the tracking object are not the same.
  • 11 and 12 relate to an embodiment of tracking using a terminal holder capable of holding a mobile terminal and rotating the shooting direction of the mobile terminal.
  • FIG. 11 is a block diagram illustrating a terminal holder according to an embodiment of the present application
  • FIG. 12 is a diagram illustrating a tracking object tracking method using a terminal holder according to an embodiment of the present application.
  • the terminal holder 200 may include a rotating part 210 and a main body 220.
  • the mobile terminal 200 is mounted on the rotating unit 210, and the rotating unit 210 can be rotated by the operation of the motor unit 221.
  • the shooting direction of the portable terminal 100 may change according to the rotation of the rotating unit 210. That is, the rotating unit 210 rotates according to a control signal provided from the mobile terminal 100, so that the shooting direction of the mobile terminal 100 mounted on the rotating unit 210 follows the tracking object.
  • the rotation direction and rotation speed of the rotation unit 210 may change depending on the driving of the motor unit 221.
  • the rotating part 210 may include a fixture, a clamp, and a rotating table.
  • the fixture and fastener may be placed on the rotating table.
  • the fixture and clamp can secure the portable terminal 100.
  • the rotary table can rotate according to the operation of the motor unit 221, and for this purpose, the rotary table can be mechanically connected to the motor unit 221.
  • the main body 220 may include a motor unit 221, a control unit 222, and a communication unit 223.
  • the control unit 222 can control the operation of the terminal holder 200 by controlling the components of the main body 220.
  • the communication unit 223 may perform a communication connection with the mobile terminal 100 and receive a control signal for driving the terminal holder 200 from the mobile terminal 100. As an example, the communication unit 223 may establish a communication connection with the mobile terminal 100 using a short-range communication module or wired communication.
  • the control unit 222 may control the driving of the rotary unit 210 by driving the motor unit 221 in response to a control signal received through the communication unit 223.
  • the processor 160 may control the short-range communication module 113 to form a communication connection with the terminal holder 200 (S1201).
  • the processor 160 may control the camera unit 120 to acquire a captured image of the front of the mobile terminal 100, identify a search object in the captured image, and then determine whether it is a tracked object. That is, as described above, a tracking object can be set in the captured image (S1202).
  • the processor 160 may control the terminal holder to track the tracking object (S1203). To this end, the processor 160 may control the rotation of the terminal holder 200 so that the tracking object is located at a specific position in the frame image. For example, a rotation control signal of the terminal holder can be generated so that the tracking object is located in the center of the frame image (S1203).
  • the control unit 222 of the terminal holder 200 controls the rotation unit 210 to drive according to the received rotation control signal, thereby providing tracking by causing the front of the portable terminal to follow the tracking object.
  • 13 to 16 illustrate a software-based tracking method that provides a software-based tracking effect while the front position of the mobile terminal is fixed.
  • Figure 13 is a diagram explaining a software-based tracking method according to an embodiment of the present application.
  • the processor 160 controls the camera unit 120 to generate and receive a frame image for the front direction (S1310).
  • the camera unit 120 may be fixed in a preset forward direction and capture images at a first resolution to generate a frame image, regardless of the presence or movement of the tracking object.
  • the processor 160 may set the second resolution of the viewing window (1503 in FIG. 15) to have a lower resolution than the first resolution captured by the camera unit 120 (S1320).
  • the resolution of the viewing window may be determined based on user input.
  • the processor 160 may dynamically change the resolution of the viewing window while providing the object tracking function according to the size of the tracked object in the frame image.
  • the resolution of the viewing window can be dynamically changed in response to the size of the bounding box of the tracking object. If the bounding box is smaller than a certain size, the resolution of the viewing window can be lowered correspondingly, and if the bounding box is larger than a certain size, the resolution of the viewing window can be set correspondingly larger. This is to ensure that the size of the tracking object (size of the bounding box) changes within a certain range since the viewing window is an image area displayed to the user.
  • the processor 160 may identify the tracking object in the frame image and set a partial area of the frame image including the tracking object as a viewing window based on the location of the tracking object in the frame image (S1340). In FIG. 15, after identifying a tracking object 1502 within the frame image 1501, a viewing window 1503, which is a window to be displayed through a user display interface, can be set around this tracking object.
  • FIG. 14 is a diagram illustrating an example of setting a viewing window according to an embodiment of the present application. The setting of a viewing window is explained with further reference to FIG. 14 .
  • the processor 160 confirms the location of the tracking object within the frame image (S1410).
  • the processor 160 may extract a partial area of the frame image corresponding to the second resolution based on the location of the tracking object (S1420). For example, the tracking object can be set to the center of the second resolution area.
  • the processor 160 may set a partial area of the extracted frame image as a viewing window (S1430).
  • the processor 160 may display a viewing window using the user display interface (S1350). That is, only the viewing window 503 is displayed through the user display interface, and not all of the first resolution, which is the entire captured frame image, is displayed. That is, the remaining area 1505 excluding the viewing window is not displayed on the user display interface.
  • the processor 160 may repeatedly perform the above-described process of setting a viewing window for all or at least a portion of consecutive frame images captured by the camera module, which are referred to as captured frame images.
  • FIG. 16 shows a captured frame image 1601 taken after a certain period of time in FIG. 15 . Comparing FIGS. 15 and 16 , it can be seen that the tracking object 1602 has moved from location A to location B.
  • the processor 160 may reset the position of the viewing window 1603 in response to the movement of the tracking object 1602.
  • the viewing window can be set by moving the tracking object 1602 to the right. Accordingly, it can be seen that the viewing window 1503 in FIG. 15 and the viewing window 1603 in FIG. 16 are set differently.
  • This invention was created with support from the following research project supported by the government of the Republic of Korea.
  • the identification and identity of objects are determined more quickly and accurately using individually learned deep learning object recognition models and deep learning object identification models, thereby providing tracking more effectively. It has the potential to be used industrially.
  • identical objects are determined based on similarity comparison of object identifiers derived from an object identification model, which has the effect of performing an object identity test more quickly and with fewer resources, thereby improving industrial efficiency.
  • object identification model which has the effect of performing an object identity test more quickly and with fewer resources, thereby improving industrial efficiency.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 일 기술적 측면에 따른 객체 고정이 가능한 트래킹 제공 방법은, 휴대 단말에서 수행되며, 휴대 단말의 전방에 대하여 촬영된 촬영 영상에 대한 객체 트래킹 기능을 제공하는 방법으로서, 추적 객체를 설정하는 단계, 제1 인공지능 모델을 이용하여, 상기 촬영 영상의 프레임 이미지 내에 존재하는 객체-상기 객체는 상기 추적 객체와 동일한 종류임-를 식별하여 탐색 객체를 설정하는 단계 및 상기 제1 인공지능 모델과 다른 방식으로 트레이닝 된 제2 인공지능 모델을 이용하여, 상기 제1 인공지능 모델에 의해 설정된 상기 탐색 객체와 상기 추적 객체가 동일한 객체인지 판단하는 단계를 포함한다.

Description

객체 고정이 가능한 객체 트래킹 제공 방법 및 그를 위한 휴대 단말
본 발명은 객체 고정이 가능한 객체 트래킹 제공 방법 및 그를 위한 휴대 단말에 관한 것이다.
휴대 단말의 발전에 따라 휴대 단말의 소형화 및 휴대성이 증진되고 있으며, 사용자에게 보다 친화적인 컴퓨팅 환경이 개발되고 있다.
이러한 컴퓨팅 환경에서 사용자의 주요 관심으로서, 촬영 중인 영상에서 관심의 대상이 되는 추적 객체에 대한 트래킹 기능이 있다.
종래의 경우, 객체 트래킹을 위해서는, 객체를 식별하여 카메라의 지향 방향을 객체의 이동에 따라 변경시켜주는 별도의 장치가 필요하다. 이러한 종래 기술의 예로서, 한국공개특허 제10-2020-0001419호 등이 있다.
그러나, 이러한 종래 기술의 경우에는, 여러 사람이 동시에 하나의 화면 안에 들어오는 경우 또는 트래킹 대상이 되는 일시적으로 화면 밖에 나가는 등의 경우에서, 트래킹 대상이 되는 사람 객체가 변동되는 한계가 있으며, 그에 따라 실질적으로 객체 트래킹이 실패되는 문제가 발생한다.
본 출원의 일 기술적 측면은 상기한 종래 기술의 문제점을 해결하기 위한 것으로, 본 출원에 개시되는 일 실시예에 따르면, 각각 개별 학습된 딥 러닝된 객체 인식 모델과 딥 러닝된 객체 식별 모델을 이용하여, 객체의 식별 및 동일성의 판단을 보다 빠르고 정확하게 수행하여 트래킹을 보다 효과적으로 제공하는 것을 목적으로 한다.
본 출원에 개시되는 일 실시예에 따르면, 객체 식별 모델에서 도출된 객체 식별자에 대한 유사도 비교를 기초로 동일 객체를 판단하므로, 보다 빠르고 적은 리소스로 객체 동일성 판을 수행하는 것을 목적으로 한다.
본 출원의 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 출원의 일 기술적 측면은 객체 고정이 가능한 트래킹 제공 방법을 제안한다. 상기 객체 고정이 가능한 트래킹 제공 방법은, 휴대 단말에서 수행되며, 휴대 단말의 전방에 대하여 촬영된 촬영 영상에 대한 객체 트래킹 기능을 제공하는 방법으로서, 추적 객체를 설정하는 단계, 제1 인공지능 모델을 이용하여, 상기 촬영 영상의 프레임 이미지 내에 존재하는 객체-상기 객체는 상기 추적 객체와 동일한 종류임-를 식별하여 탐색 객체를 설정하는 단계 및 상기 제1 인공지능 모델과 다른 방식으로 트레이닝 된 제2 인공지능 모델을 이용하여, 상기 제1 인공지능 모델에 의해 설정된 상기 탐색 객체와 상기 추적 객체가 동일한 객체인지 판단하는 단계를 포함한다.
본 출원의 다른 일 기술적 측면은 휴대 단말을 제안한다. 상기 휴대 단말은, 하나 이상의 인스트럭션을 저장하는 메모리 및 상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함한다. 상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써, 상기 카메라 모듈로부터 제1 해상도로 촬영된 탐색 프레임 이미지를 제공받고, 추적 객체를 설정하고, 제1 인공지능 모델을 이용하여, 상기 촬영 영상의 프레임 이미지 내에 존재하는 객체를 식별하여 탐색 객체를 설정하고, 상기 제1 인공지능 모델과 다른 방식으로 트레이닝 된 제2 인공지능 모델을 이용하여, 상기 제1 인공지능 모델에 의해 설정된 상기 탐색 객체와 상기 추적 객체가 동일한 객체인지 판단한다.
본 출원의 다른 일 기술적 측면은 저장 매체를 제안한다. 상기 저장 매체는, 컴퓨터 판독 가능한 인스트럭션들(instructions)을 저장하고 있는 저장 매체이다. 상기 인스트럭션들은, 휴대 단말에 의해 실행될 때, 상기 휴대 단말로 하여금, 추적 객체를 설정하는 동작, 제1 인공지능 모델을 이용하여, 상기 촬영 영상의 프레임 이미지 내에 존재하는 객체-상기 객체는 상기 추적 객체와 동일한 종류임-를 식별하여 탐색 객체를 설정하는 동작 및 상기 제1 인공지능 모델과 다른 방식으로 트레이닝 된 제2 인공지능 모델을 이용하여, 상기 제1 인공지능 모델에 의해 설정된 상기 탐색 객체와 상기 추적 객체가 동일한 객체인지 판단하는 동작; 을 수행하도록 한다.
상기한 과제의 해결 수단은, 본 출원의 특징을 모두 열거한 것은 아니다. 본 출원의 과제 해결을 위한 다양한 수단들은 이하의 상세한 설명의 구체적인 실시형태를 참조하여 보다 상세하게 이해될 수 있을 것이다.
본 출원에 개시되는 일 실시예에 따르면, 각각 개별 학습된 딥 러닝된 객체 인식 모델과 딥 러닝된 객체 식별 모델을 이용하여, 객체의 식별 및 동일성의 판단을 보다 빠르고 정확하게 수행하여 트래킹을 보다 효과적으로 제공할 수 있는 효과가 있다.
본 출원에 개시되는 일 실시예에 따르면, 객체 식별 모델에서 도출된 객체 식별자에 대한 유사도 비교를 기초로 동일 객체를 판단하므로, 보다 빠르고 적은 리소스로 객체 동일성 판을 수행할 수 있는 효과가 있다.
도 1은 본 출원의 일 실시예에 따른 객체 고정이 가능한 객체 트래킹 기술을 설명하는 도면이다.
도 2는 본 출원의 일 실시예에 따른 휴대 단말의 예시적인 컴퓨팅 환경을 설명하는 도면이다.
도 3은 본 출원의 일 실시예에 따른 객체 고정이 가능한 객체 트래킹 제공 방법을 설명하는 순서도이다.
도 4는 본 출원의 일 실시예에 따른 객체 고정이 가능한 객체 트래킹 제공 방법을 설명하는 도면이다.
도 5 내지 도 7은 도 3에 도시된 객체 고정이 가능한 객체 트래킹 제공 방법을 설명하기 위한 도면이다.
도 8은 본 출원의 일 실시예에 따른 추적 객체를 설정하는 일 실시예를 설명하는 순서도이다.
도 9은 본 출원의 일 실시예에 따른 탐색 객체를 설정하는 일 실시예를 설명하는 순서도이다.
도 10은 본 출원의 일 실시예에 따른 탐색 객체와 추적 객체의 동일성을 판단하는 일 실시예를 설명하는 순서도이다.
도 11은 본 출원의 일 실시예에 따른 단말기 거치대를 설명하는 블록 구성도이다.
도 12는 본 출원의 일 실시예에 따른 단말기 거치대를 이용한 추적 객체 트래킹 방법을 설명하는 도면이다.
도 13은 본 출원의 일 실시예에 따른 소프트웨어 기반의 트래킹 방법을 설명하는 도면이다.
도 14는 본 출원의 일 실시예에 따른 뷰잉 윈도우의 설정에 대한 일 실시예를 설명하는 도면이다.
도 15 및 도 16은 소프트웨어 트래킹을 설명하는 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 형태들을 설명한다.
그러나, 본 발명의 실시형태는 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명하는 실시 형태로 한정되는 것은 아니다. 또한, 본 발명의 실시형태는 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다.
즉, 전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용된다.
또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 이하에서 본 발명에 따른 시스템을 설명하기 위하여 다양한 구성요소 및 그의 하부 구성요소에 대하여 설명하고 있다. 이러한 구성요소 및 그의 하부 구성요소들은, 하드웨어, 소프트웨어 또는 이들의 조합 등 다양한 형태로서 구현될 수 있다. 예컨대, 각 요소들은 해당 기능을 수행하기 위한 전자적 구성으로 구현되거나, 또는 전자적 시스템에서 구동 가능한 소프트웨어 자체이거나 그러한 소프트웨어의 일 기능적인 요소로 구현될 수 있다. 또는, 전자적 구성과 그에 대응되는 구동 소프트웨어로 구현될 수 있다.
본 명세서에 설명된 다양한 기법은 하드웨어 또는 소프트웨어와 함께 구현되거나, 적합한 경우에 이들 모두의 조합과 함께 구현될 수 있다. 본 명세서에 사용된 바와 같은 "부(Unit)", "서버(Server)" 및 "시스템(System)" 등의 용어는 마찬가지로 컴퓨터 관련 엔티티(Entity), 즉 하드웨어, 하드웨어 및 소프트웨어의 조합, 소프트웨어 또는 실행 시의 소프트웨어와 등가로 취급할 수 있다. 또한, 본 발명의 시스템에서 실행되는 각 기능은 모듈단위로 구성될 수 있고, 하나의 물리적 메모리에 기록되거나, 둘 이상의 메모리 및 기록매체 사이에 분산되어 기록될 수 있다.
본 출원의 다양한 실시 예들은 기기(machine)-예를 들어, 휴대 단말(100)이나 휴대 단말(300)-에 의해 읽을 수 있는 저장 매체(storage medium)에 저장된 하나 이상의 명령어들을 포함하는 소프트웨어(예를 들어, 프로그램)로서 구현될 수 있다. 예를 들면, 프로세서(301)는, 저장 매체로부터 저장된 하나 이상의 명령어들 중 적어도 하나의 명령을 호출하고, 그것을 실행할 수 있다. 이것은 장치가 상기 호출된 적어도 하나의 명령어에 따라 적어도 하나의 기능을 수행하도록 운영되는 것을 가능하게 한다. 상기 하나 이상의 명령어들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행될 수 있는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, '비일시적'은 저장매체가 실재(tangible)하는 장치이고, 신호(signal)(예를 들어, 전자기파)를 포함하지 않는다는 것을 의미할 뿐이며, 이 용어는 데이터가 저장매체에 반영구적으로 저장되는 경우와 임시적으로 저장되는 경우를 구분하지 않는다.
본 발명의 실시형태를 설명하기 위하여 다양한 순서도가 개시되고 있으나, 이는 각 단계의 설명의 편의를 위한 것으로, 반드시 순서도의 순서에 따라 각 단계가 수행되는 것은 아니다. 즉, 순서도에서의 각 단계는, 서로 동시에 수행되거나, 순서도에 따른 순서대로 수행되거나, 또는 순서도에서의 순서와 반대의 순서로도 수행될 수 있다.
도 1은 본 출원의 일 실시예에 따른 객체 고정이 가능한 객체 트래킹 기술을 설명하는 도면이다.
도 1을 참조하면, 휴대 단말(100)은 전방 방향으로 촬영 영상을 촬영하고, 이러한 촬영 영상에서 객체를 식별한다. 휴대 단말(100)은 식별된 객체가 촬영 영상 내에서 위치되도록 트래킹을 수행한다.
휴대 단말(100)은 촬영 영상 내의 다양한 탐색 객체 중에서, 추적 객체를 식별하고 추적 객체만을 트래킹 할 수 있다. 인공지능 모델을 이용하여 객체를 식별하는 경우, 객체 식별의 속도가 빠르고 정확한 점에서 장점이 있으나, 각 객체를 특정하지 않고 식별하는 점에서 단독 객체만을 추적하는 것은 어려움이 있다. 예컨대, 사람 객체를 추적하는 경우, 사람 객체를 탐색하는 인공지능 모델만을 사용하는 경우, 여러 사람이 나타나거나 사람이 잠시 화면에서 나가는 등의 상황이 발생할 때, 추적하던 사람이 변동되는 문제가 발생한다. 본 출원의 일 실시예에서는, 서로 다르게 트레이닝 된 인공지능 모델들을 이용함으로써, 탐색된 객체들을 추적 객체와 동일성 여부를 판단할 수 있으며, 이에 따라 추적 객체만을 트래킹하도록 할 수 있다.
트래킹의 실시는 다양하게 구현 가능하다.
일 예로, 도 1에 도시된 예와 같이, 휴대 단말(100)이 단말기 거치대(200)의 구동을 제어하여 휴대 단말(100)의 전방이 객체를 지행하도록 제어함으로써 트래킹을 실시할 수 있다.
다른 예로, 도 13 이하를 참조하여 후술하는 바와 같이, 휴대 단말(100)의 촬영 해상도 보다 낮은 해상도로 설정된 표시용 윈도우(뷰잉 윈도우라 칭함)를 촬영 영상에서 부분적으로 변경하여 설정함으로써, 소프트웨어 기반으로 사용자에게 마치 트래킹이 일어나는 것과 동일하게 트래킹 기능을 제공할 수 있다.
이러한, 휴대 단말(100)은 카메라를 포함하며, 사용자가 휴대 가능한 전자 기기일 수 있다. 예를 들어, 휴대 단말(100)은 스마트 폰(smart phone), 휴대폰, 노트북 컴퓨터(laptop computer), 디지털방송용 단말기, PDA(personal digital assistants), PMP(portable multimedia player), 네비게이션, 슬레이트 PC(slate PC), 태블릿 PC(tablet PC), 울트라북(ultrabook), 웨어러블 디바이스(wearable device, 예를들어, 워치형 단말기 (smartwatch), 글래스형 단말기 (smart glass), HMD(head mounted display)) 등 일 수 있다.
이러한 휴대 단말(100) 및 그에 의하여 수행되는 객체 고정이 가능한 객체 트래킹 제공 방법에 대하여 이하 도 2 내지 도 16을 참조하여 설명한다.
도 2는 본 출원의 일 실시예에 따른 휴대 단말의 예시적인 컴퓨팅 운영 환경을 설명하는 도면이다.
도 2를 참조하면, 휴대 단말(100)은 통신부(110), 카메라부(120), 출력부(130), 메모리(140), 전원 공급부(150) 및 프로세서(160)를 포함한다. 도 2에 도시된 구성요소들은 휴대 단말이기를 구현하는데 있어서 필수적인 것은 아니어서, 본 명세서 상에서 설명되는 휴대 단말이기는 위에서 열거된 구성요소들 보다 많거나, 또는 적은 구성요소들을 가질 수 있다.
통신부(110)는, 휴대 단말(100)와 무선 통신 시스템 사이, 휴대 단말(100)와 다른 휴대 단말 사이 등의 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 이러한 통신부(110)는, 이동통신 모듈(211), 무선 인터넷 모듈(212) 및 근거리 통신모듈(213)을 포함할 수 있다. 근거리 통신모듈(213)은 유선 또는 무선으로 단말기 거치대(100)과 통신 연결을 수행할 수 있다. 예컨대, 근거리 통신모듈(213)은 블루투스등의 근거리 무선통신 모듈 또는 RS232와 같은 유선 통신모듈을 포함할 수 있다.
카메라부(120) 또는 카메라 모듈은 적어도 하나의 카메라를 포함할 수 있다. 카메라부(120)는 하나 이상의 렌즈들, 이미지 센서들, 이미지 시그널 프로세서들, 또는 플래시들을 포함할 수 있다.
일 예로, 카메라부(120)는 제1 카메라(221) 내지 제2 카메라(222)를 포함할수 있다. 제1 카메라(221) 또는 제2 카메라(222)는 휴대 단말(100)의 전방 영상을 촬영할 수 있다.
출력부(130)는 시각, 청각 또는 촉각 등과 관련된 출력을 발생시키기 위한 것으로, 디스플레이(131) 및 스피커(132)를 포함할 수 있다. 디스플레이(131)는 터치 센서와 상호 레이어 구조를 이루거나 일체형으로 형성됨으로써, 터치 스크린을 구현할 수 있다. 이러한 터치 스크린은, 휴대 단말(100)와 사용자 사이의 입력 인터페이스를 제공하는 사용자 입력부로써 기능함과 동시에, 휴대 단말(100)와 사용자 사이의 출력 인터페이스를 제공할 수 있다.
전원공급부(150)는 프로세서(160)의 제어 하에서, 외부의 전원 또는 내부의 전원을 인가 받아 휴대 단말(100)에 포함된 각 구성요소들에 전원을 공급한다. 이러한 전원공급부(150)는 배터리를 포함하며, 배터리는 내장형 배터리 또는 교체가능한 형태의 배터리가 될 수 있다.
프로세서(160)는 메모리(140)에 저장된 응용 프로그램, 즉, 어플리 케이션을 구동하기 위하여, 도 2와 함께 살펴본 구성요소들 중 적어도 일부를 제어할 수 있다. 나아가, 프로세서(160)는 응용 프로그램의 구동을 위하여, 휴대 단말(100)에 포함된 구성요소들 중 적어도 둘 이상을 서로 조합하여 동작시킬 수있다.
프로세서(160)는 메모리(140)에 저장된 인스트럭션들(instructions)을 실행하여 어플리케이션을 구동할 수 있다. 이하에서는, 프로세서(160)가 어플리케이션을 구동하여 제어, 지시 또는 기능의 주체로서 표현하나, 이는, 프로세서(160)가 메모리(140)에 저장된 인스트럭션 또는 어플리케이션을 구동하여 동작하는 것을 의미한다.
상술한 각 구성요소들 중 적어도 일부는, 이하에서 설명되는 다양한실시 예들에 따른 휴대 단말(100)의 동작, 제어 또는 제어방법을 구현하기 위하여 서로 협력하여 동작할 수 있다. 또한, 휴대 단말(100)의 동작, 제어, 또는 제어방법은 메모리(140)에 저장된 적어도 하나의 응용 프로그램의 구동에 의하여 휴대 단말 상에서 구현 될 수 있다.
프로세서(160)는 응용 프로그램과 관련된 동작 외에도, 통상적으로 휴대 단말(100)의 전반적인 동작을 제어한다. 프로세서(260)는 위에서 살펴본 구성요소들을 통해 입력 또는 출력되는 신호, 데이터, 정보 등을 처리하거나 메모리(240)에 저장된 응용 프로그램을 구동함으로써, 사용자에게 적절한 정보 또는 기능을 제공 또는 처리할 수 있다. 프로세서(160)는 하나의 프로세서 또는 복수의 프로세서로 구현 가능하다.
이하에서 설명하는 도 7의 구성요소들은 메모리(140)에 저장된 인스트럭션에 따라 프로세서(160)에서 구현되는 기능 또는 소프트웨어 모듈일 수 있다.
한편, 상술한 실시예에 따른 휴대 단말(100)에서 수행되는 제어 방법은 프로그램으로 구현되어 휴대 단말(100)에 제공될 수 있다. 예컨대, 휴대 단말(100)의 제어 방법을 포함하는 프로그램은 비일시적 판독 가능 매체(non-transitory computer readable medium)에 저장되어 제공될 수 있다.
도 3은 본 출원의 일 실시예에 따른 객체 고정이 가능한 객체 트래킹 제공 방법을 설명하는 순서도이고, 도 3에 도시된 객체 트래킹 제공 방법은 도 2에 도시된 휴대 단말(100)의 프로세서(160)의 구동에 의하여 수행되는 각 단계로 설명된다.
도 4는 본 출원의 일 실시예에 따른 객체 고정이 가능한 객체 트래킹 제공 방법을 설명하는 도면으로서, 제1 및 제2 인공지능 모델을 이용하여 추적 객체를 특정하는 것을 설명한다.
이하, 도 3 내지 도 4를 참조하여 설명한다.
도 4를 참조하면, 휴대 단말(100)은 제1 및 제2 인공지능 모델을 준비할 수 있다.
일 예로, 메모리(110)는 본 개시의 다양한 실시 예에 따른 인공지능 모델을 저장할 수 있다.
일 실시 예에 따른 인공지능 모델은 인공지능 알고리즘 기반으로 복수의 영상에 기초하여 학습된 판단 모델로서, 신경망(Neural Network)을 기반으로 하는 모델일 수 있다. 학습된 판단 모델은 인간의 뇌 구조를 컴퓨터 상에서 모의하도록 설계될 수 있으며 인간의 신경망의 뉴런(neuron)을 모의하는, 가중치를 가지는 복수의 네트워크 노드들을 포함할 수 있다. 복수의 네트워크 노드들은 뉴런이 시냅스(synapse)를 통하여 신호를 주고 받는 뉴런의 시냅틱(synaptic) 활동을 모의하도록 각각 연결 관계를 형성할 수 있다. 또한 학습된 판단 모델은, 일 예로, 기계 학습(Machine Learning) 모델, 신경망 모델, 또는 신경망 모델에서 발전한 딥 러닝(Deep Learning) 모델을 포함할 수 있다. 딥 러닝 모델에서 복수의 네트워크 노드들은 서로 다른 깊이(또는, 레이어)에 위치하면서 컨볼루션(convolution) 연결 관계에 따라 데이터를 주고 받을 수 있다.
일 예로, 인공지능 모델은 영상에 기초하여 학습된 CNN(Convolution Neural Network, 컨벌루션 신경망) 모델일 수 있다. CNN은 음성처리, 이미지 처리 등을 위해 고안된 특수한 연결구조를 가진 다층신경망이다. 한편, 인공지능 모델은 CNN에 한정되지 않음은 물론이다. 예를 들어, 학습 네트워크 모델은 RNN(Recurrent
Neural Network), LSTM(Long Short Term Memory Network), GRU(Gated Recurrent Units) 또는 GAN(Generative Adversarial Networks) 중 적어도 하나의 DNN(Deep Neural Network) 모델로 구현될 수 있다.
한편, 본 개시의 일 실시 예에 따른 메모리(110)는 동종(同種) 또는 이종(異種)의 복수의 학습 네트워크 모델들을 저장할 수도 있다. 다만, 다른 실시 예에 따르면 본 개시의 다양한 실시 예에 따른 적어도 하나의 학습 네트워크 모델은 외부 장치 또는 외부 서버 중 적어도 하나에 저장될 수도 있음은 물론이다.
제1 인공지능 모델(410)은 추적 객체의 종류가 표시되어 있는 이미지로 학습되어, 이미지 내에서 탐색 객체의 종류가 있으면 이를 식별할 수 있다. 즉, 제1 인공지능 모델(410)은 추적 객체의 종류를 포함하는 복수의 학습 이미지 세트들로 딥 러닝되어, 프레임 이미지 내에 존재하는 추적 객체의 종류에 대응되는 객체를 식별하는 인공 지능 모델일 수 있다. 예컨대, 추적 객체로 사람을 예를 들면, 제1 인공지능 모델은 사람의 다양한 모습이 표시된 복수의 학습 이미지를 제공받고, 이미지 내에서 사람 객체를 식별하여 구분하도록 학습된 인공신경망 모델일 수 있다.
제2 인공지능 모델(410)은 식별된 사람 객체에서의 동일성을 판단할 수 있도록 학습된 모델일 수 있다.
일 실시예에서, 제2 인공지능 모델(410)은 기본 이미지와 상기 기본 이미지를 기초로 변형된 학습 이미지를 대상으로 기본 이미지와 학습 이미지 간의 동일성에 대한 특징 데이터를 생성하도록 학습된 인공 지능 모델일 수 있다.
일 예로, 제2 인공지능 모델(410)은 기준 객체-추적 객체-와 비교 객체-탐색 객체-를 입력받고, 기준 객체에 대한 유사도 데이터-예컨대, 특징 벡터-를 생성할 수 있다. 생성된 유사도 데이터는, 비교 객체와 기준 객체의 유사 여부를 판단하는데 사용될 수 있다.
다른 예로, 제2 인공지능 모델(420)은 기준 객체-추적 객체-와 비교 객체-탐색 객체-를 입력받고, 각각의 객체에 대한 특징 데이터-예컨대, 특징 벡터-를 생성할 수 있다. 제2 인공지능 모델(420)은 기준 객체에 대한 제1 특징 벡터와, 비교 객체에 대한 제2 특징 벡터를 각각 생성할 수 있다. 기준 객체에 대한 제1 특징 벡터와 비교 객체에 대한 제2 특징 벡터는, 비교 객체와 기준 객체의 유사 여부를 판단하는데 사용될 수 있다.
프로세서(160)는 메모리에 저장된 인공지능 모델(410, 420)을 구동시킬 수 있으며, 이러한 인공지능 모델들을 기초로 객체를 고정한 트래킹 기능을 제공할 수 있다.
도 3을 참조하여 더 설명하면, 프로세서(160)는, 추적 객체를 설정할 수 있다(S310).
일 예로, 추적 객체는, 프레임 이미지에서 식별된 탐색 객체를 대상으로서, 사용자의 선택에 의하여 결정될 수 있다.
다른 예로, 프로세서(160)는, 프레임 이미지에서 최초로 식별된 탐색 객체를 추적 객체로서 자동으로 설정할 수 있다.
프로세서(160)는, 제1 인공지능 모델(410)을 이용하여, 촬영 영상의 프레임 이미지 내에 존재하는 객체를 식별하여 탐색 객체를 설정할 수 있다(S320). 여기에서, 탐색 객체는 이미지 프레임 내에 존재하는 객체로서, 추적 객체와 동일한 종류에 해당하는 객체이다. 예컨대, 추적 객체가 사람인 경우, 이미지 프레임 내에 있는 모든 사람 객체가 탐색 객체로서 식별될 수 있다.
프로세서(160)는 제2 인공지능 모델(430)을 이용하여, 제1 인공지능 모델에 의해 설정된 탐색 객체와 추적 객체가 동일한 객체인지 판단할 수 있다(S330).
일 실시예에서, 프로세서(160)는 제2 인공지능 모델(430)에서 생성된 탐색 객체와 추적 객체 간의 유사도 데이터가, 기 설정된 유사도 범위 내에 속하는지를 기초로 탐색 객체와 추적 객체가 동일 객체인지 판단할 수 있다.
일 실시예에서, 프로세서(160)는 제2 인공지능 모델(430)에서 생성된 탐색 객체에 대한 제1 특징 벡터와, 추적 객체에 대한 제2 특징 벡터 간의 유사도를 기초로 탐색 객체와 추적 객체가 동일 객체인지 판단할 수 있다.
프로세서(160)는 탐색 객체가 추적 객체와 동일한 객체로 판단되면, 동일하게 판단된 탐색 객체를 트래킹 하도록 할 수 있다.
일 예로, 프로세서(160)는 탐색 객체가 추적 객체와 동일한 객체로 판단되면, 탐색 객체를 추적 객체로 재 설정하고(S340), 재 설정된 추적 객체를 기초로 객체 트래킹을 수행할 수 있다(S350). 다만, 실시예에 따라, 추적 객체의 재 설정 없이, 추적 객체와 동일한 탐색 객체를 트래킹 대상으로 하는 실시예 또한 가능하다.
프로세서(160)는 탐색 객체가 추적 객체와 상이한 객체로 판단되면, 이전 프레임 이미지에서의 탐색 객체의 위치를 기준으로 객체 트래킹을 수행할 수 있다. 즉, 이전 프레임 이미지에서의 촬영 방향 또는 뷰잉 윈도우를 그대로 유지할 수 있다.
도 1에 도시된 예와 같이, 단말기 거치대(200)를 사용하는 경우, 프로세서(160)는 추적 객체에 대한 객체 트래킹을 위한 트래킹 제어(430)를 수행할 수 있으며, 즉, 트래킹을 위한 단말기 거치대(200)의 회전 제어를 수행할 수 있다. 이를 위하여, 프로세서(160)는 트래킹 제어 신호를 생성하고, 이를 단말기 거치대(200)에 제공할 수 있다.
도 5 내지 도 7은 도 3에 도시된 객체 고정이 가능한 객체 트래킹 제공 방법을 예시하는 도면으로서, 도 5를 참조하면, 휴대 단말(100)은 전방 영상을 촬영하고 추적 객체(51)를 추적하여 사용자 디스플레이 인터페이스(520)를 통하여 디스플레이 하는 예를 도시한다. 도 5의 예에서, 추적 객체(51)가 설정되어 있는 예를 도시한다. 도 6에서는, 프레임 이미지에 촬영되는 영역(610)에 새로운 탐색 객체(62)가 추가된 예를 도시한다. 도 6의 예에서, 프로세서(160)는 제1 인공지능 모델을 이용하여, 제1 탐색 객체(61)와 제2 탐색 객체(62)를 각각 식별할 수 있다. 이후, 프로세서(160)는 제2 인공지능 모델을 이용하여, 추적 객체(51)와 제1 탐색 객체(61) 간의 유사 판단과, 추적 객체(51)와 제2 탐색 객체(62) 간의 유사 판단을 수행할 수 있다. 프로세서(160)는 제1 탐색 객체(61)는 추적 객체(51)와 유사하게 판단하는 반면, 제2 탐색 객체(62)는 추적 객체(51)와 비유사한 것으로 판단할 것이며, 그에 따라, 제1 탐색 객체(61)를 계속 추적할 수 있다. 마찬가지로, 도 7의 예에서, 프레임 이미지에 촬영되는 영역(710)에 검색된 탐색 객체(71)를 탐색하고, 이를 추적 객체와 동일한지 판단하여 트래킹을 수행할 수 있다.
도 8은 본 출원의 일 실시예에 따른 추적 객체를 설정하는 일 실시예를 설명하는 순서도이다. 도 8에 도시된 일 실시예는, 추적 객체의 최초 설정을 설명하는 실시예이다.
도 8을 참조하면, 프로세서(160)는 기 설정된 프레임 레이트로 촬영된 촬영 영상을 수신한다(S810). 프로세서(160)는 제1 인공지능 모델을 이용하여 촬영 영상의 프레임 이미지 내에 존재하는 객체를 식별하고(S820), 최초로 탐색된 탐색 객체를 추적 객체로서 설정할 수 있다(S830). 이러한 실시예는, 최초 식별된 객체-예컨대, 최초 식별된 사람 객체-를 트래킹 대상으로 자동설정 할 수 있으므로 편리하게 자동 객체 추적을 수행할 수 있다.
도 9은 본 출원의 일 실시예에 따른 탐색 객체를 설정하는 일 실시예를 설명하는 순서도이다.
도 9를 참조하면, 프로세서(160)는 제1 인공지능 모델을 이용하여, 촬영 영상의 프레임 이미지 내의 탐색 객체 식별할 수 있다(S910).
프로세서(160)는 탐색 객체에 대하여 바운딩 박스를 표시하고(S920), 바운딩 박스를 잘라내어 제2 인공지능 모델에 입력할 수 있다(S930). 도 5에 도시된 객체 51는 바운딩 박스가 1점 쇄선으로 표시되어 있다. 이러한 바운딩 박스는 사용자 인터페이스를 통해 표시될 수도 있고, 또는 바운딩 박스의 표시가 생략될 수도 있다. 도 6에서는 탐색된 두 객체 61, 62에 대해 각각 바운딩 박스가 설정된 예가 도시되어 있다.
도 10은 본 출원의 일 실시예에 따른 탐색 객체와 추적 객체의 동일성을 판단하는 일 실시예를 설명하는 순서도이다. 도 10을 참조하면, 프로세서(160)는 제2 인공지능 모델을 이용하여 탐색 객체를 포함하는 제1 바운딩 박스에 대한 제1 특징 데이터를 생성할 수 있다(S1010).
프로세서(160)는 제2 인공지능 모델을 이용하여 추적 객체를 포함하는 제2 바운딩 박스에 대한 제2 특징 데이터를 생성할 수 있다(S1020).
프로세서(160)는 제1 특징 데이터와 제2 특징 데이터를 비교하여, 탐색 객체와 추적 객체의 동일성을 판단할 수 있다(S1030).
일 실시예에서, 특징 데이터는 특징 벡터일 수 있고, 프로세서(160)는 제2 인공지능 모델(430)에서 생성된 탐색 객체에 대한 제1 특징 벡터와, 추적 객체에 대한 제2 특징 벡터 간의 유사도를 기초로 탐색 객체와 추적 객체가 동일 객체인지 판단할 수 있다.
일 실시예에서, 프로세서(160)는 탐색 객체에 대한 제1 특징 벡터와 추적 객체에 대한 제2 특징 벡터에 대해 서로 다른 방식으로 도출되는 복수의 유사도 값을 산출하고, 복수의 유사도 값 각각에 대하여 유사도 범위를 설정할 수 있다. 예컨대, 프로세서(160)는 상기 제1 특징 벡터와 상기 제2 특징 벡터 간의 코사인거리 값과 유클리디언 거리값을 각각 산출하고, 산출된 두 값이 각각 기 설정된 코사인거리값의 유사도 임계범위와 기 설정된 유클리디언 거리값의 유사도 임계범위-상기 임계범위들은 각각 학습 과정을 기초로 설정될 수 있음- 내에 해당되는지 판단할 수 있다. 복수의 유사도 값 중 모두가 유사도 범위 이내이면, 프로세서(160)는 탐색 객체와 추적 객체가 동일한 것으로 판단할 수 있다. 복수의 유사도 값 중 적어도 하나가 유사도 범위를 초과하는 경우, 프로세서(160)는 탐색 객체와 추적 객체가 동일하지 않은 것으로 판단할 수 있다.
도 11 및 도 12는, 휴대 단말을 거치하고 휴대 단말의 촬영 방향을 회전시킬 수 있는 단말기 거치대를 이용하여 트래킹하는 일 실시예에 관한 것이다.
도 11은 본 출원의 일 실시예에 따른 단말기 거치대를 설명하는 블록 구성도이고, 도 12는 본 출원의 일 실시예에 따른 단말기 거치대를 이용한 추적 객체 트래킹 방법을 설명하는 도면이다.
도 11을 참조하면, 단말기 거치대(200)는 회전부(210) 및 본체부(220)를 포함할 수 있다.
회전부(210)에는 휴대 단말(200)가 거치되고, 모터부(221)의 동작에 의하여 회전부(210)가 회전될 수 있다. 회전부(210)의 회전에 따라 휴대 단말(100)의 촬영 방향이 변경될 수 있다. 즉, 휴대 단말(100)에서 제공된 제어 신호에 따라 회전부(210)가 회전하여, 회전부(210)에 거치된 휴대 단말(100)의 촬영 방향이 추적 객체를 추종하도록 동작할 수 있다. 회전부(210)의 회전 방향 및 회전 속도는 모터부(221)의 구동에 따라 변경될 수 있다.
일 예로, 회전부(210)는 고정대, 조이개 및 회전대를 포함할 수 있다. 고정대 및 조이개는 회전대 상에 배치될 수 있다. 고정대와 조이개는 휴대 단말(100)을 고정할 수 있다. 회전대는 모터부(221)의 동작에 따라 회전할 수 있으며, 이를 위해 회전대는 모터부(221)와 기계적으로 연결될 수 있다.
본체부(220)는 모터부(221), 제어부(222) 및 통신부(223)를 포함할 수 있다. 제어부(222)는 본체부(220)의 구성요소들을 제어하여 단말기 거치대(200)의 동작을 제어할 수 있다.
통신부(223)는 휴대 단말(100)과 통신 연결을 수행하고, 휴대 단말(100)로부터 단말기 거치대(200)를 구동시키기 위한 제어 신호를 제공받을 수 있다. 일 예로, 통신부(223)는 근거리 통신 모듈 또는 유선 통신을 이용하여 휴대 단말(100)과 통신 연결을 형성할 수 있다.
제어부(222)는 통신부(223)를 통하여 수신된 제어 신호에 대응하여, 모터부(221)를 구동하여, 회전부(210)의 구동을 제어할 수 있다.
도 12를 참조하면, 프로세서(160)는 근거리 통신모듈(113)을 제어하여 단말기 거치대(200)와의 통신 연결을 형성할 수 있다(S1201).
프로세서(160)는 카메라부(120)를 제어하여, 휴대 단말(100)의 전방에 대한 촬영 영상을 획득하고, 촬영 영상에서 탐색 객체를 식별한 후, 추적 객체인지 여부를 판단할 수 있다. 즉, 전술한 바와 같이 촬영 영상에서 추적 객체를 설정할 수 있다(S1202).
프로세서(160)는 추적 객체를 트래킹 하도록 단말기 거치대를 제어할 수 있다(S1203). 이를 위하여 프로세서(160)는, 추적 객체가 프레임 이미지의 특정 위치에 위치하도록 단말기 거치대(200)의 회전을 제어할 수 있다. 예컨대, 추적 객체가 프레임 이미지의 중앙부분에 위치되도록 단말기 거치대의 회전 제어 신호 생성할 수 있다(S1203).
단말기 거치대(200)의 제어부(222)는, 수신한 회전 제어 신호에 따라 회전부(210)를 구동하도록 제어함으로써, 휴대 단말의 전방이 추적 객체를 따라가도록 함으로써 트래킹을 제공할 수 있다.
도 13 내지 도 16은, 휴대 단말의 전방 위치가 고정된 상태에서 소프트웨어적으로 트래킹의 효과를 제공하는 소프트웨어 기반의 트래킹 방법을 설명한다.
도 13은 본 출원의 일 실시예에 따른 소프트웨어 기반의 트래킹 방법을 설명하는 도면이다.
도 13을 참조하면, 프로세서(160)는, 카메라부(120)을 제어하여 전방 방향에 대한 프레임 이미지를 생성하도록 하여 이를 제공받는다(S1310). 카메라부(120)는 추적 객체의 존재 및 이동 여부에 무관하게 기 설정된 전방 방향으로 고정되어 제1 해상도로 촬영하여 프레임 이미지를 생성할 수 있다.
프로세서(160)는, 카메라부(120)에서 촬영되는 제1 해상보다 낮은 해상도를 가지도록 뷰잉 윈도우(도 15의 1503)의 제2 해상도를 설정할 수 있다(S1320).
일 예로, 뷰잉 윈도우의 해상도는 사용자의 입력을 기초로 결정될 수 있다.
다른 예로, 프로세서(160)는, 추적 객체의 프레임 이미지에서의 크기에 따라 객체 트래킹 기능의 제공 중에 뷰잉 윈도우의 해상도를 동적으로 변경할 수 있다. 예컨대, 추적 객체의 바운딩 박스의 크기에 대응하여 뷰잉 윈도우의 해상도를 동적으로 변경할 수 있다. 바운딩 박스가 일정 크기보다 작은 경우 뷰잉 윈도우의 해상도를 그에 대응하여 낮추고, 바운딩 박스가 일정 크기보다 큰 경우 뷰잉 윈도우의 해상도를 그에 대응하여 크게 설정할 수 있다. 이는, 뷰잉 윈도우가 사용자에게 디스플레이 되는 이미지 영역이므로, 추적 객체의 크기(바운딩 박스의 크기)가 일정한 범위 내에서 변동되도록 하기 위함이다.
프로세서(160)는, 프레임 이미지 내의 추적 객체를 식별하고, 프레임 이미지 내에서의 추적 객체의 위치를 기초로, 추적 객체를 포함하는 프레임 이미지의 일부 영역을 뷰잉 윈도우로서 설정할 수 있다(S1340). 도 15에서, 프레임 이미지(1501) 내에서 추적 객체(1502)를 식별한 후에, 이러한 추적 개체를 중심으로 사용자 디스플레이 인터페이스를 통하여 표시될 윈도우인 뷰잉 윈도우(1503)를 설정할 수 있다.
도 14는 본 출원의 일 실시예에 따른 뷰잉 윈도우의 설정에 대한 일 실시예를 설명하는 도면으로서, 도 14를 더 참조하여 뷰잉 윈도우의 설정을 설명한다.
도 14를 참조하면, 프로세서(160)는, 프레임 이미지 내에서의 추적 객체의 위치를 확인한다(S1410). 프로세서(160)는, 추적 객체의 위치를 기준으로, 제2 해상도에 해당하는 프레임 이미지의 일부 영역을 추출할 수 있다(S1420). 예컨대, 추적 객체를 제2 해상도 영역의 중심으로 설정할 수 있다. 프로세서(160)는, 추출된 프레임 이미지의 일부 영역을 뷰잉 윈도우로서 설정할 수 있다(S1430).
다시 도 13을 참조하면, 프로세서(160)는, 사용자 디스플레이 인터페이스를 이용하여 뷰잉 윈도우를 표시 할 수 있다(S1350). 즉, 사용자 디스플레이 인터페이스를 통하여 뷰잉 윈도우(503)만 표시되고, 촬영된 프레임 이미지의 전체인 제1 해상도 모두가 표시되는 것이 아니다. 즉, 뷰잉 윈도우를 제외한 나머지 영역(1505)은 사용자 디스플레이 인터페이스에 표시되지 않는다.
프로세서(160)는, 카메라 모듈에서 촬영되는 연속되는 프레임 이미지-이를 촬영 프레임 이미지라 함-의 전체 또는 적어도 일부에 대하여 뷰잉 윈도우를 설정하는 상술한 과정을 반복적으로 수행할 수 있다. 도 16은 도 15에서 일정 시간이 흐른 뒤에 촬영된 촬영 프레임 이미지(1601)를 도시하며, 도 15와 도 16을 비교하면 추적 객체(1602)가 위치 A에서 위치 B로 이동한 것을 알 수 있다. 프로세서(160)는, 추적 객체(1602)의 이동에 대응하여 뷰잉 윈도우(1603)의 위치를 재 설정할 수 있다. 도시된 예에서는 추적 객체(1602)를 중심으로 뷰잉 윈도우를 오른쪽으로 이동시켜 설정할 수 있다. 그에 따라 도 15의 뷰잉 윈도우(1503)와 도 16의 뷰잉 윈도우(1603)가 다르게 설정된 것을 알 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고 후술하는 특허청구범위에 의해 한정되며, 본 발명의 구성은 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 그 구성을 다양하게 변경 및 개조할 수 있다는 것을 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 쉽게 알 수 있다.
[사사]
본 발명은 대한민국 정부가 지원한 다음 연구과제의 지원을 받아 창작된 것이다.
연구과제 정보
부처명 : 한국관광공사
연구사업명: 관광 글로벌 선도기업 후속지원
과제명 : 스마트폰 연동형 사람/사물 자동인식 및 트래킹 촬영기기
주관기관:(주)쓰리아이
연구기간:2022.03.04~2022.12.31
본 출원에 개시되는 일 실시예에 따르면, 각각 개별 학습된 딥 러닝된 객체 인식 모델과 딥 러닝된 객체 식별 모델을 이용하여, 객체의 식별 및 동일성의 판단을 보다 빠르고 정확하게 수행하여 트래킹을 보다 효과적으로 제공할 수 있는 효과가 있어 산업상 이용가능성이 있다.
본 출원에 개시되는 일 실시예에 따르면, 객체 식별 모델에서 도출된 객체 식별자에 대한 유사도 비교를 기초로 동일 객체를 판단하므로, 보다 빠르고 적은 리소스로 객체 동일성 판을 수행할 수 있는 효과가 있어 산업상 이용가능성이 있다.

Claims (20)

  1. 휴대 단말에서 수행되며, 휴대 단말의 전방에 대하여 촬영된 촬영 영상에 대한 객체 트래킹 기능을 제공하는 방법으로서,
    추적 객체를 설정하는 단계;
    제1 인공지능 모델을 이용하여, 상기 촬영 영상의 프레임 이미지 내에 존재하는 객체-상기 객체는 상기 추적 객체와 동일한 종류임-를 식별하여 탐색 객체를 설정하는 단계; 및
    상기 제1 인공지능 모델과 다른 방식으로 트레이닝 된 제2 인공지능 모델을 이용하여, 상기 제1 인공지능 모델에 의해 설정된 상기 탐색 객체와 상기 추적 객체가 동일한 객체인지 판단하는 단계; 를 포함하는,
    객체 고정이 가능한 객체 트래킹 제공 방법.
  2. 제1항에 있어서, 상기 제1 인공지능 모델은,
    상기 추적 객체의 종류에 대응되는 복수의 학습 이미지 세트들로 딥 러닝되어, 프레임 이미지 내에 존재하는 상기 추적 객체의 종류에 대응되는 객체를 식별하는 인공 지능 모델인,
    객체 고정이 가능한 객체 트래킹 제공 방법.
  3. 제2항에 있어서, 상기 제2 인공지능 모델은,
    기본 이미지와 상기 기본 이미지를 기초로 변형된 학습 이미지를 대상으로 상기 기본 이미지와 상기 학습 이미지 간의 동일성에 대한 특징 데이터를 생성하도록 학습된 인공 지능 모델인,
    객체 고정이 가능한 객체 트래킹 제공 방법.
  4. 제3항에 있어서, 상기 탐색 객체를 설정하는 단계는,
    상기 제1 인공지능 모델에 의하여 식별된 상기 탐색 객체에 대하여 바운딩 박스를 표시하는 단계; 및
    상기 바운딩 박스를 잘라내어 상기 제2 인공지능 모델에 입력하는 단계; 를 포함하는,
    객체 고정이 가능한 객체 트래킹 제공 방법.
  5. 제4항에 있어서, 상기 추적 객체가 동일한 객체인지 판단하는 단계는,
    상기 제2 인공지능 모델을 이용하여 상기 탐색 객체를 포함하는 제1 바운딩 박스에 대한 제1 특징 데이터를 생성하는 단계; 및
    상기 제2 인공지능 모델을 이용하여 상기 추적 객체를 포함하는 제2 바운딩 박스에 대한 제2 특징 데이터를 생성하는 단계; 를 포함하는,
    객체 고정이 가능한 객체 트래킹 제공 방법.
  6. 제5항에 있어서, 상기 추적 객체가 동일한 객체인지 판단하는 단계는,
    상기 제1 특징 데이터와 상기 제2 특징 데이터를 비교하여, 상기 탐색 객체와 상기 추적 객체의 동일성을 판단하는 단계;를 더 포함하는,
    객체 고정이 가능한 객체 트래킹 제공 방법.
  7. 제3항에 있어서,
    상기 기본 이미지 및 상기 학습 이미지는 사람의 전신 외형에 대한 이미지인,
    객체 고정이 가능한 객체 트래킹 제공 방법.
  8. 제1항에 있어서, 상기 객체 트래킹 제공 방법은,
    상기 탐색 객체가 상기 추적 객체와 동일한 객체이면, 상기 탐색 객체를 추적 객체로 재 설정하고, 재 설정된 추적 객체를 기초로 객체 트래킹을 수행하는 단계; 를 더 포함하는,
    객체 고정이 가능한 객체 트래킹 제공 방법.
  9. 제8항에 있어서, 상기 재 설정된 추적 객체를 기초로 객체 트래킹을 수행하는 단계는,
    상기 프레임 이미지의 제1 해상도 보다 낮은 제2 해상도를 가지도록 뷰잉 윈도우의 해상도를 설정하는 단계; 및
    상기 재 설정된 추적 객체를 기준으로, 상기 재 설정된 추적 객체를 포함하는 상기 탐색 프레임 이미지의 일부 영역을 상기 뷰잉 윈도우로서 설정하는 단계; 를 포함하는,
    객체 고정이 가능한 객체 트래킹 제공 방법.
  10. 제9항에 있어서, 상기 재 설정된 추적 객체를 기초로 객체 트래킹을 수행하는 단계는,
    사용자 디스플레이 인터페이스를 이용하여 상기 뷰잉 윈도우를 표시하는 단계; 를 더 포함하는,
    객체 고정이 가능한 객체 트래킹 제공 방법.
  11. 휴대 단말로서,
    하나 이상의 인스트럭션을 저장하는 메모리; 및
    상기 메모리에 저장된 상기 하나 이상의 인스트럭션을 실행하는 적어도 하나의 프로세서를 포함하고,
    상기 적어도 하나의 프로세서는, 상기 하나 이상의 인스트럭션을 실행함으로써,
    상기 카메라 모듈로부터 제1 해상도로 촬영된 탐색 프레임 이미지를 제공받고,
    추적 객체를 설정하고,
    제1 인공지능 모델을 이용하여, 상기 촬영 영상의 프레임 이미지 내에 존재하는 객체를 식별하여 탐색 객체를 설정하고,
    상기 제1 인공지능 모델과 다른 방식으로 트레이닝 된 제2 인공지능 모델을 이용하여, 상기 제1 인공지능 모델에 의해 설정된 상기 탐색 객체와 상기 추적 객체가 동일한 객체인지 판단하는,
    휴대 단말.
  12. 제11항에 있어서, 상기 제1 인공지능 모델은,
    상기 추적 객체의 종류에 대응되는 복수의 학습 이미지 세트들로 딥 러닝되어, 프레임 이미지 내에 존재하는 상기 추적 객체의 종류에 대응되는 객체를 식별하는 인공 지능 모델인,
    휴대 단말.
  13. 제12항에 있어서, 상기 제2 인공지능 모델은,
    기본 이미지와 상기 기본 이미지를 기초로 변형된 학습 이미지를 대상으로 상기 기본 이미지와 상기 학습 이미지 간의 동일성에 대한 특징 데이터를 생성하도록 학습된 인공 지능 모델인,
    휴대 단말.
  14. 제13항에 있어서, 상기 휴대 단말은, 상기 탐색 객체를 설정함에 있어서,
    상기 제1 인공지능 모델에 의하여 식별된 상기 탐색 객체에 대하여 바운딩 박스를 표시하고,
    상기 바운딩 박스를 잘라내어 상기 제2 인공지능 모델에 입력하는,
    휴대 단말.
  15. 제14항에 있어서, 상기 휴대 단말은, 상기 추적 객체가 동일한 객체인지 판단함에 있어서,
    상기 제2 인공지능 모델을 이용하여 상기 탐색 객체를 포함하는 제1 바운딩 박스에 대한 제1 특징 데이터를 생성하고,
    상기 제2 인공지능 모델을 이용하여 상기 추적 객체를 포함하는 제2 바운딩 박스에 대한 제2 특징 데이터를 생성하는,
    휴대 단말.
  16. 제15항에 있어서, 상기 휴대 단말은, 상기 추적 객체가 동일한 객체인지 판단함에 있어서,
    상기 제1 특징 데이터와 상기 제2 특징 데이터를 비교하여, 상기 탐색 객체와 상기 추적 객체의 동일성을 판단하는,
    휴대 단말.
  17. 제13항에 있어서,
    상기 기본 이미지 및 상기 학습 이미지는 사람의 전신 외형에 대한 이미지인,
    휴대 단말.
  18. 제11항에 있어서, 상기 휴대 단말은,
    상기 탐색 객체가 상기 추적 객체와 동일한 객체이면, 상기 탐색 객체를 추적 객체로 재 설정하고, 재 설정된 추적 객체를 기초로 객체 트래킹을 수행하는,
    휴대 단말.
  19. 제18항에 있어서, 상기 휴대 단말은, 재 설정된 추적 객체를 기초로 객체 트래킹을 수행함에 있어서,
    상기 프레임 이미지의 제1 해상도 보다 낮은 제2 해상도를 가지도록 뷰잉 윈도우의 해상도를 설정하고,
    상기 재 설정된 추적 객체를 기준으로, 상기 재 설정된 추적 객체를 포함하는 상기 탐색 프레임 이미지의 일부 영역을 상기 뷰잉 윈도우로서 설정하는,
    휴대 단말.
  20. 컴퓨터 판독 가능한 인스트럭션들(instructions)을 저장하고 있는 저장 매체에 있어서,
    상기 인스트럭션들은, 휴대 단말에 의해 실행될 때, 상기 휴대 단말로 하여금,
    추적 객체를 설정하는 동작;
    제1 인공지능 모델을 이용하여, 상기 촬영 영상의 프레임 이미지 내에 존재하는 객체-상기 객체는 상기 추적 객체와 동일한 종류임-를 식별하여 탐색 객체를 설정하는 동작; 및
    상기 제1 인공지능 모델과 다른 방식으로 트레이닝 된 제2 인공지능 모델을 이용하여, 상기 제1 인공지능 모델에 의해 설정된 상기 탐색 객체와 상기 추적 객체가 동일한 객체인지 판단하는 동작; 을 수행하도록 하는,
    저장 매체.
PCT/KR2022/019010 2022-06-29 2022-11-29 객체 고정이 가능한 객체 트래킹 제공 방법 및 그를 위한 휴대 단말 WO2024071516A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US18/340,318 US20240005530A1 (en) 2022-06-29 2023-06-23 Locked-on target based object tracking method and portable terminal therefor
US18/340,311 US20240005529A1 (en) 2022-06-29 2023-06-23 Software-based object tracking method and computing device therefor

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR20220125389 2022-09-30
KR10-2022-0125389 2022-09-30
KR10-2022-0152262 2022-11-15
KR1020220152262A KR102617213B1 (ko) 2022-06-29 2022-11-15 소프트웨어 기반의 객체 트래킹 제공 방법 및 그를 위한 컴퓨팅 장치
KR10-2022-0162112 2022-11-29
KR1020220162112A KR20240045946A (ko) 2022-09-30 2022-11-29 객체 고정이 가능한 객체 트래킹 제공 방법 및 그를 위한 휴대 단말

Related Child Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/018565 Continuation WO2024005279A1 (ko) 2022-06-29 2022-11-23 소프트웨어 기반의 객체 트래킹 제공 방법 및 그를 위한 컴퓨팅 장치

Publications (1)

Publication Number Publication Date
WO2024071516A1 true WO2024071516A1 (ko) 2024-04-04

Family

ID=90478316

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/019010 WO2024071516A1 (ko) 2022-06-29 2022-11-29 객체 고정이 가능한 객체 트래킹 제공 방법 및 그를 위한 휴대 단말

Country Status (1)

Country Link
WO (1) WO2024071516A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016127571A (ja) * 2015-01-08 2016-07-11 キヤノン株式会社 カメラシステム、表示制御装置、表示制御方法、及びプログラム
KR20170059266A (ko) * 2015-11-20 2017-05-30 한국전자통신연구원 객체 추적 방법 및 그 방법을 수행하는 객체 추적 장치
KR20180097944A (ko) * 2017-02-24 2018-09-03 재단법인대구경북과학기술원 공유 특징맵을 이용한 다중 객체 추적 장치 및 그 방법
KR102295183B1 (ko) * 2020-08-15 2021-08-31 이노뎁 주식회사 Cctv 프로젝션 모델을 이용한 cctv 영상의 객체 추적 방법
KR20220059194A (ko) * 2020-11-02 2022-05-10 삼성전자주식회사 대상 객체에 적응적인 객체 추적 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016127571A (ja) * 2015-01-08 2016-07-11 キヤノン株式会社 カメラシステム、表示制御装置、表示制御方法、及びプログラム
KR20170059266A (ko) * 2015-11-20 2017-05-30 한국전자통신연구원 객체 추적 방법 및 그 방법을 수행하는 객체 추적 장치
KR20180097944A (ko) * 2017-02-24 2018-09-03 재단법인대구경북과학기술원 공유 특징맵을 이용한 다중 객체 추적 장치 및 그 방법
KR102295183B1 (ko) * 2020-08-15 2021-08-31 이노뎁 주식회사 Cctv 프로젝션 모델을 이용한 cctv 영상의 객체 추적 방법
KR20220059194A (ko) * 2020-11-02 2022-05-10 삼성전자주식회사 대상 객체에 적응적인 객체 추적 방법 및 장치

Similar Documents

Publication Publication Date Title
WO2013002473A1 (ko) 부피 특징 벡터와 3차원 하르-유사 필터를 이용한 물체 검출 방법 및 장치
WO2016107231A1 (zh) 一种3d场景中输入手势的***和方法
WO2020145517A1 (en) Method for authenticating user and electronic device thereof
WO2022039404A1 (ko) 광시야각의 스테레오 카메라 장치 및 이를 이용한 깊이 영상 처리 방법
WO2020246655A1 (ko) 상황 인지 방법 및 이를 수행하는 장치
EP3008893A1 (en) User terminal device and the control method thereof
WO2021066392A2 (ko) 골프 스윙에 관한 정보를 추정하기 위한 방법, 디바이스 및 비일시성의 컴퓨터 판독 가능한 기록 매체
WO2019151689A1 (ko) 전자 장치 및 이의 제어 방법
WO2021221436A1 (ko) 카메라를 이용하여 공간의 깊이를 획득하는 디바이스 및 방법
WO2024071516A1 (ko) 객체 고정이 가능한 객체 트래킹 제공 방법 및 그를 위한 휴대 단말
WO2021049730A1 (ko) 영상 인식 모델을 학습하는 전자 장치 및 그 동작 방법
WO2023177108A1 (en) Method and system for learning to share weights across transformer backbones in vision and language tasks
WO2022182096A1 (en) Real-time limb motion tracking
WO2020130274A1 (ko) 영상에서 오브젝트를 인식하는 전자 장치 및 그 동작 방법
WO2020230921A1 (ko) 레이저 패턴을 이용하여 이미지 내의 특징을 추출하는 방법 및 이를 적용한 식별장치와 로봇
WO2019151734A1 (ko) 카메라 구동 방식 변경 기반의 음성 및 얼굴 인식 장치 및 방법
WO2024005279A1 (ko) 소프트웨어 기반의 객체 트래킹 제공 방법 및 그를 위한 컴퓨팅 장치
WO2022158819A1 (en) Method and electronic device for determining motion saliency and video playback style in video
WO2022050622A1 (ko) 디스플레이장치 및 그 제어방법
EP3625728A1 (en) Method for generating 3d biometric model of body part of user and electronic device thereof
WO2020226264A1 (ko) 영상에 기초하여 위치 정보를 획득하는 전자 장치 및 그 동작 방법
WO2023095971A1 (ko) 단말 거치대를 이용한 이미지 생성 방법 및 그를 위한 휴대 단말
WO2024029880A1 (ko) 시선 방향을 검출하는 딥러닝 기반의 시선 방향 검출 모델을 학습하는 학습방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치
WO2022255642A1 (ko) 증강현실 글라스 장치의 실시간 손동작 인터페이스 구현을 위한 경량화된 손 관절 예측 방법 및 장치
WO2023027312A1 (ko) 로봇 및 그 제어 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22961115

Country of ref document: EP

Kind code of ref document: A1