WO2021049730A1 - 영상 인식 모델을 학습하는 전자 장치 및 그 동작 방법 - Google Patents

영상 인식 모델을 학습하는 전자 장치 및 그 동작 방법 Download PDF

Info

Publication number
WO2021049730A1
WO2021049730A1 PCT/KR2020/004610 KR2020004610W WO2021049730A1 WO 2021049730 A1 WO2021049730 A1 WO 2021049730A1 KR 2020004610 W KR2020004610 W KR 2020004610W WO 2021049730 A1 WO2021049730 A1 WO 2021049730A1
Authority
WO
WIPO (PCT)
Prior art keywords
virtual
image
dvs
recognition model
information
Prior art date
Application number
PCT/KR2020/004610
Other languages
English (en)
French (fr)
Inventor
장서우
이상웅
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Publication of WO2021049730A1 publication Critical patent/WO2021049730A1/ko
Priority to US17/693,095 priority Critical patent/US11908175B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/945User interactive design; Environments; Toolboxes

Definitions

  • the present disclosure relates to an electronic device for learning an image recognition model for recognizing an image and a method of operating the same.
  • a DVS image captured by a dynamic vision sensor may include pixel data representing a change amount of light detected by a moving object, unlike a conventional image including image data for the entire area of the image. Therefore, unlike conventional images, DVS images have the advantage of high processing speed because the amount of data to be processed is small, and can be used in various operations that can be performed by detecting a moving object.
  • the image recognition model is an artificial intelligence model for recognizing a DVS image, and may be used, for example, to recognize a moving object photographed from a DVS image and to extract data related to the moving object.
  • the image recognition model may be learned based on data related to a plurality of DVS images.
  • a problem to be solved by the present disclosure is to solve the above-described problem, and to provide an electronic device for learning an image recognition model and an operation method thereof.
  • FIG. 1 is a diagram illustrating an example of learning an image recognition model according to an embodiment.
  • FIG. 2 is a block diagram illustrating an internal configuration of an electronic device according to an exemplary embodiment.
  • FIG. 3 is a block diagram illustrating an internal configuration of an electronic device according to an exemplary embodiment.
  • FIG. 4 is a flowchart illustrating a method of learning an image recognition model according to an exemplary embodiment.
  • FIG. 5 is a diagram illustrating an example of a virtual environment created by a virtual simulator according to an embodiment.
  • FIG. 6 is a flowchart illustrating a method of learning an image recognition model based on virtual data according to an exemplary embodiment.
  • FIG. 7 is a diagram illustrating an example of an electronic device and an external device according to an embodiment.
  • a first aspect of the present disclosure includes: generating a virtual DVS image using a virtual simulator; Generating label information including information on a correct answer to a result of recognizing the DVS image by the image recognition model for the DVS image; And learning the image recognition model by modifying the image recognition model so that a difference between the result of recognizing the DVS image by the image recognition model and the label information is minimized. Can provide.
  • a second aspect of the present disclosure is an electronic device for learning an image recognition model, comprising: a memory storing the image recognition model; And generating a virtual DVS image using a virtual simulator, and generating label information including information on a correct answer to a result of the DVS image being recognized by the image recognition model for the DVS image, and the An electronic device comprising at least one processor for learning the image recognition model by modifying the image recognition model so that the difference between the result of recognizing the DVS image by the image recognition model and the label information is minimized.
  • a third aspect of the present disclosure may provide a recording medium in which a program for performing the method of the first aspect or the second aspect is stored.
  • the processor may be composed of one or a plurality of processors.
  • one or more processors may be a general-purpose processor such as a CPU, AP, or Digital Signal Processor (DSP), a graphics-only processor such as a GPU, a Vision Processing Unit (VPU), or an artificial intelligence-only processor such as an NPU.
  • DSP Digital Signal Processor
  • GPU Graphics Processing Unit
  • NPU Vision Processing Unit
  • One or more processors control to process input data according to a predefined operation rule or an artificial intelligence model stored in the memory.
  • the AI dedicated processor may be designed with a hardware structure specialized for processing a specific AI model.
  • a predefined motion rule or artificial intelligence model is characterized by being created through learning.
  • learning means that a basic artificial intelligence model is learned using a plurality of learning data by a learning algorithm, so that a predefined motion rule or artificial intelligence model set to perform a desired characteristic (or purpose) is created. Means Jim.
  • Such learning may be performed in a device on which artificial intelligence according to the present disclosure is performed, or may be performed through a separate server and/or system.
  • Examples of the learning algorithm include supervised learning, unsupervised learning, semi-supervised learning, or reinforcement learning, but are not limited to the above-described examples.
  • the artificial intelligence model may be composed of a plurality of neural network layers.
  • Each of the plurality of neural network layers has a plurality of weight values, and a neural network operation is performed through an operation result of a previous layer and a plurality of weights.
  • the plurality of weights of the plurality of neural network layers can be optimized by the learning result of the artificial intelligence model. For example, a plurality of weights may be updated to reduce or minimize a loss value or a cost value obtained from the artificial intelligence model during the learning process.
  • the artificial neural network may include a deep neural network (DNN), for example, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN (Bidirectional Recurrent Deep Neural Network), Deep Q-Networks (Deep Q-Networks), and the like, but is not limited to the above-described example.
  • DNN deep neural network
  • CNN Convolutional Neural Network
  • DNN Deep Neural Network
  • RNN Recurrent Neural Network
  • RBM Restricted Boltzmann Machine
  • DBN Deep Belief Network
  • BRDNN Bidirectional Recurrent Deep Neural Network
  • Deep Q-Networks Deep Q-Networks
  • FIG. 1 is a diagram illustrating an example of learning an image recognition model according to an embodiment.
  • an electronic device 1000 for learning an image recognition model includes a virtual DVS image and label information 120 for the virtual DVS image through a virtual simulator 110. And, based on the acquired virtual DVS image and label information 120, the image recognition model 130 may be trained. The electronic device 1000 according to an embodiment may learn the image recognition model 130 by modifying the image recognition model so that the difference between the result of the virtual DVS image recognized by the image recognition model and the label information is minimized. have.
  • the method of learning an image recognition model may be performed not only on DVS images but also on various types of images.
  • an image recognition model may be trained based on various types of images and label information generated through the virtual simulator 110.
  • the electronic device 1000 may recognize at least one DVS image by using the learned image recognition model 130 according to an embodiment. For example, as a result of recognizing a DVS image using the image recognition model 130, the electronic device 1000 uses information about the DVS image (eg, size, location, identification information, and movement of an object included in the DVS image). Direction, movement speed, state, etc.), and various operations may be performed based on the obtained information.
  • information about the DVS image eg, size, location, identification information, and movement of an object included in the DVS image.
  • Direction, movement speed, state, etc. may be performed based on the obtained information.
  • the electronic device 1000 may be implemented in various forms.
  • the electronic device 1000 described in the present specification includes a digital camera, a smart phone, a laptop computer, a tablet PC, an electronic book terminal, a digital broadcasting terminal, and personal digital assistants (PDAs).
  • PDAs personal digital assistants
  • PMP Portable Multimedia Player
  • navigation MP3 player
  • MP3 player and the like, but are not limited thereto.
  • the electronic device 1000 described herein may be a wearable device that can be worn by a user.
  • Wearable devices include accessory type devices (e.g., watches, rings, wristbands, ankle bands, necklaces, glasses, contact lenses), head-mounted-devices (HMD), fabric or clothing-integrated devices (e.g., Electronic clothing), a body-attached device (eg, a skin pad), or a living body implantable device (eg, an implantable circuit), but is not limited thereto.
  • accessory type devices e.g., watches, rings, wristbands, ankle bands, necklaces, glasses, contact lenses
  • head-mounted-devices HMD
  • fabric or clothing-integrated devices e.g., Electronic clothing
  • a body-attached device eg, a skin pad
  • a living body implantable device eg, an implantable circuit
  • a DVS image according to an embodiment is an image generated by a DVS sensor.
  • the DVS sensor according to an embodiment is an image sensor adopting a method for receiving information from a human iris, and is a sensor capable of acquiring image data on a moving object.
  • the DVS sensor transmits image data to the processor only when there is a local change due to motion in pixel units.
  • the DVS sensor according to an embodiment may transmit image data to the processor only when a moving event occurs. Therefore, the DVS sensor according to an embodiment does not process data when the object is stopped, but measures a moving object only when the object moves and transmits the data to the processor, so that general image sensors continue to send frames to the image processor. It can prevent the waste of data that occurs.
  • the DVS sensor may solve a problem that a general visual recognition system is vulnerable to rapid movement.
  • the DVS sensor does not receive data on a per-pixel basis, rather than on a per-pixel basis, a blur phenomenon can be overcome.
  • the DVS sensor may have a resolution in units of microseconds.
  • the DVS sensor may have a better time resolution than an ultra-high-speed camera that takes thousands of frames per second (eg, ultra-fast frames >1K FPS).
  • power consumption and data storage requirements are also greatly reduced, and thus the dynamic range (a range of brightness that can be distinguished by the sensor) can also be remarkably increased.
  • the DVS sensor since the image acquired by the DVS sensor represents only the outline of the moving object, it may be advantageous to protect the privacy of the monitored object.
  • the DVS sensor can generate a DVS image by detecting the movement of an object even in a dark place with only a little light.
  • An image recognition model for recognizing a DVS image may be learned based on a DVS image generated by a DVS sensor and label information on the DVS image.
  • the label information according to an embodiment may include information on a correct answer to a result of which the DVS image is recognized by the image recognition model.
  • the label information according to an embodiment may include a plurality of different pieces of information according to the type of information to be recognized from the DVS image.
  • the label information is information that can be recognized for the same DVS image, and may include different types of information such as a state of an object and a moving direction of the object.
  • an image recognition model may be trained based on a pair of at least one DVS image and label information corresponding to each DVS image.
  • the image recognition model may be trained by modifying the image recognition model so that the difference between the result of recognizing the DVS image by the image recognition model and the label information for the DVS image is minimized.
  • the label information includes information indicating "the state in which a person is walking”
  • the result of the recognition of the DVS image by the image recognition model is the same as that of the "state in which a person is walking”.
  • an image recognition model may be trained.
  • the image recognition model cannot be sufficiently trained, and the accuracy and performance of the image recognition model are degraded. Can be.
  • the electronic device 1000 uses the virtual simulator 110 to generate a pair of virtual DVS image and label information. By sufficiently generating, the image recognition model can be sufficiently learned.
  • the DVS image according to an embodiment is expressed only about the outline of a moving object, a DVS image generated virtually and a DVS image captured by an actual DVS sensor may be substantially similar in appearance. Accordingly, according to an image recognition model learned based on a pair of DVS image and label information generated using the virtual simulator 110 according to an embodiment, image recognition with high performance and accuracy even for an actual captured DVS image This can be done.
  • the virtual simulator 110 may create various types of virtual environments in which DVS images can be captured.
  • the virtual simulator 110 may create various virtual environments such as a house, an office, and a road.
  • the virtual simulator 110 may generate various types of virtual objects that may exist in the virtual environment, and may place the generated virtual objects in the virtual environment.
  • an object capable of being photographed as a real DVS image may be arranged as a virtual object in the virtual environment.
  • virtual objects such as people, furniture, home appliances, and pets may be arranged.
  • virtual objects such as signs, cars, and lanes may be arranged in a virtual environment for a road.
  • a virtual DVS image according to an embodiment may be generated based on a virtual environment generated by the virtual simulator 110 and at least one virtual object disposed in the virtual environment.
  • a virtual DVS image according to an embodiment may be obtained as a plurality of image sequences in which a scene in which a virtual object moves or changes over time is captured.
  • the virtual simulator 110 may generate a virtual DVS image that can be photographed by a DVS sensor in a virtual environment.
  • the virtual simulator 110 may determine at least one camera viewpoint where an actual DVS sensor can be located in a virtual environment, and generate at least one virtual DVS image captured at each camera viewpoint. have.
  • the at least one virtual DVS image may be an image captured at the same time at each camera viewpoint.
  • the virtual simulator 110 generates a vision image that can be photographed from at least one camera viewpoint in a virtual environment, and generates a DVS image from the vision image, thereby generating a virtual DVS image photographed in the virtual environment. can do. It is not limited to vision images, and DVS images may be generated from other types of images. In addition, not limited to the above-described example, the virtual simulator 110 may generate a virtual DVS image captured in a virtual environment through various methods.
  • Label information for a virtual DVS image may be generated based on information on at least one of a virtual environment and at least one virtual object arranged in the virtual environment.
  • the label information according to an embodiment may be obtained based on preset information about the virtual environment and the at least one virtual object, which is used to generate the virtual environment and at least one virtual object.
  • the virtual simulator 110 may arrange a virtual object in a virtual environment so that the virtual object is arranged or moved according to preset information.
  • the label information according to an embodiment may be obtained based on information on characteristic information predefined for at least one of a virtual environment and a virtual object.
  • the virtual simulator 110 may arrange a vehicle in the virtual environment so that the vehicle moves in a predetermined path in the virtual environment.
  • the vehicle may be placed in a virtual environment according to the set information. Therefore, the label information on the virtual DVS image in which the vehicle is photographed is obtained based on the path, location, speed, etc., information on the characteristic information of the vehicle, which is previously set by the virtual simulator 110 for arranging the vehicle. Can be.
  • the label information according to an embodiment may be obtained by the virtual simulator 110 on the basis of characteristic information predefined when a virtual environment and a virtual object are generated. Accordingly, compared to label information directly inputted by a person for an actual image, the label information for a virtual DVS image according to an embodiment may include more accurate information.
  • label information according to an embodiment may be automatically obtained based on characteristic information predefined by the virtual simulator 110.
  • Label information according to an embodiment may automatically obtain label information based on predefined characteristic information when a virtual environment or a virtual object is generated by the virtual simulator 110. Accordingly, label information according to an embodiment may be easily and quickly obtained by the electronic device 1000.
  • label information may be automatically obtained whenever a virtual DVS image is generated based on characteristic information predefined by the virtual simulator 110. Accordingly, according to an embodiment, as data for training the image recognition model 130, a large number of virtual DVS image and label information pairs can be quickly and accurately generated in a short time.
  • the image recognition model 130 may be learned based on a virtual DVS image generated by the virtual simulator 110 and label information on the virtual DVS image.
  • the electronic device 1000 includes at least one constituting the image recognition model 130 so that the difference between the information on the result of the DVS image recognized by the image recognition model 130 and the label information is minimized.
  • the image recognition model 130 may be trained. For example, the structure of a node constituting the image recognition model 130, a weight value, a bias value, and the like may be modified as the image recognition model 130 is trained.
  • the image recognition model 130 includes a convolutional neural network (CNN), a deep neural network (DNN), a recurrent neural network (RNN), and a multi-layer perceptron (MLP) used to classify and detect objects in an image. It may be a data recognition model based on a neural network such as.
  • CNN convolutional neural network
  • DNN deep neural network
  • RNN recurrent neural network
  • MLP multi-layer perceptron
  • It may be a data recognition model based on a neural network such as.
  • the above-described example is not limited, and the image recognition model 130 according to an embodiment may include various types of artificial intelligence models.
  • the result of image recognition is, for example, information about an object recognized in the image, information about the location of an object recognized in the image, and an object recognized in the image. It may include information about the movement of the player, and the like.
  • the recognition result of the image of the data recognition model may include "car".
  • the "car” and a real DVS image similar to the virtual DVS image are input to the image recognition model 130 based on label information
  • the "car The image recognition model 130 may be trained so that a result close to "can be output.
  • the image recognition model 130 may be trained on the basis of a large number of pairs of virtual DVS images and label information generated quickly and accurately by the virtual simulator 110. Accordingly, even when the actual DVS image and label information for learning the image recognition model 130 is insufficient, the electronic device 1000 according to an embodiment may provide accuracy and The image recognition model 130 with high performance can be quickly acquired.
  • the electronic device 1000 may use an external server (not shown) to learn the image recognition model 130 for recognizing a DVS image.
  • the external server may be implemented with at least one computer device.
  • External servers can be distributed in the form of a cloud, and can provide commands, codes, files, and contents.
  • the external server may perform operations that the electronic device 1000 may execute. For example, the external server may generate a virtual DVS image and label information for learning the image recognition model 130 according to a request of the electronic device 1000. Also, the external server may learn the image recognition model 130 based on the generated virtual DVS image and label information and transmit the learned image recognition model 130 to the electronic device 1000. Also, the external server may transmit a result of recognizing the actual DVS image to the electronic device 1000 by the learned image recognition model 130 according to an embodiment.
  • the image recognition model 130 is learned on the electronic device 1000 without data transmission/reception with an external server (not shown), and the image recognition model ( 130), the result of recognizing the image may be output.
  • the electronic device 1000 does not need to use big data stored in an external server, based on various information collected by the electronic device 1000 in real time, according to an embodiment according to the generated virtual DVS image.
  • the image recognition model 130 may be trained.
  • the electronic device 1000 may learn by itself based on data collected by itself, and make a decision on its own based on the learned AI model.
  • the electronic device 1000 by the on-device AI technology does not transmit the collected data to the outside, but operates by itself, so there is an advantage in terms of protection of the user's personal information and data processing speed.
  • the network environment of the electronic device 1000 is unstable or there is no need to use big data, and only the information collected by the electronic device 1000 is used according to the AI model learned by the electronic device 1000.
  • the electronic device 1000 may operate without being connected to an external server.
  • the electronic device 1000 is not limited to operating according to the on-device AI technology, and may perform an operation according to an embodiment through data transmission/reception with an external server or an external device.
  • the electronic device 1000 may perform an operation according to an embodiment by combining the above-described on-device AI technology and a method of transmitting/receiving data with an external server.
  • an operation through an external server is more advantageous in terms of data processing speed, or when data that does not include the user's personal information is transmitted to the external server, etc. If the method through the external server is more advantageous than the on-device AI technology, the operation according to an embodiment may be performed according to the method through the external server.
  • FIG. 2 is a block diagram illustrating an internal configuration of an electronic device 1000 according to an exemplary embodiment.
  • FIG. 3 is a block diagram illustrating an internal configuration of the electronic device 1000 according to an exemplary embodiment.
  • the electronic device 1000 may include a processor 1300 and a memory 1700. However, not all of the components shown in FIG. 2 are essential components of the electronic device 1000.
  • the electronic device 1000 may be implemented by more components than those shown in FIG. 2, or the electronic device 1000 may be implemented by fewer components than the components shown in FIG. 2.
  • the electronic device 1000 includes a communication unit 1520 and an output unit 1020 in addition to the processor 1300 and the memory 1700.
  • a user input unit 1100, a sensing unit 1400, and an A/V input unit 1600 may be further included.
  • the user input unit 1100 refers to a means for a user to input data for controlling the electronic device 1000.
  • the user input unit 1100 includes a key pad, a dome switch, and a touch pad (contact type capacitance method, pressure type resistive film method, infrared detection method, surface ultrasonic conduction method, integral type).
  • a tension measurement method a piezo effect method, etc.
  • a jog wheel a jog switch, etc.
  • the present invention is not limited thereto.
  • the user input unit 1100 may receive a user input for learning the image recognition model 130.
  • the output unit 1200 may output an audio signal, a video signal, or a vibration signal, and the output unit 1200 may include a display unit 1210, an audio output unit 1220, and a vibration motor 1230. have.
  • the display 1210 displays and outputs information processed by the electronic device 1000.
  • the display 1210 may display a virtual DVS image generated by the virtual simulator 110.
  • the display 1210 according to an embodiment may display a result of recognizing a DVS image by the image recognition model 130.
  • the display unit 1210 may be used as an input device in addition to an output device.
  • the display unit 1210 includes a liquid crystal display, a thin film transistor-liquid crystal display, an organic light-emitting diode, a flexible display, and a three-dimensional display. It may include at least one of a 3D display and an electrophoretic display.
  • the electronic device 1000 may include two or more display units 1210.
  • the sound output unit 1220 outputs audio data received from the communication unit 1500 or stored in the memory 1700.
  • the vibration motor 1230 may output a vibration signal. In addition, the vibration motor 1230 may output a vibration signal when a touch is input to the touch screen.
  • the sound output unit 1220 and the vibration motor 1230 may be configured as a result of the image recognition model 130 being learned based on virtual DVS image and label information, or a DVS image based on the image recognition model 130. Information related to this recognized result can be output.
  • the processor 1300 generally controls the overall operation of the electronic device 1000. For example, the processor 1300, by executing programs stored in the memory 1700, the user input unit 1100, the output unit 1200, the sensing unit 1400, the communication unit 1500, the A/V input unit 1600 ) And so on.
  • the electronic device 1000 may include at least one processor 1300.
  • the electronic device 1000 may include various types of processors such as a central processing unit (CPU), a graphics processing unit (GPU), and a neural processing unit (NPU).
  • CPU central processing unit
  • GPU graphics processing unit
  • NPU neural processing unit
  • the processor 1300 may be configured to process instructions of a computer program by performing basic arithmetic, logic, and input/output operations.
  • the command may be provided to the processor 1300 from the memory 1700 or may be received through the communication unit 1500 and provided to the processor 1300.
  • the processor 1300 may be configured to execute an instruction according to a program code stored in a recording device such as a memory.
  • the processor 1300 may generate a virtual DVS image using the virtual simulator 110 and generate label information for the DVS image.
  • the label information according to an embodiment may include information on a correct answer to a result of recognizing the DVS image by the image recognition model 130.
  • a DVS image is generated based on predefined characteristic information for at least one of a virtual environment and a virtual object disposed in the virtual environment, which is preset by the virtual simulator 110 when generating a DVS image. Can be obtained whenever possible.
  • the processor 1300 modifies the image recognition model 130 so that the difference between the information on the result of the DVS image recognized by the image recognition model 130 and the label information is minimized, thereby recognizing the image.
  • the model 130 can be trained.
  • the processor 1300 determines at least one camera viewpoint in the virtual environment created by the virtual simulator 110, and at least one virtual DVS image captured at the same time at the at least one camera viewpoint. Can be created. Accordingly, the image recognition model according to an embodiment may be learned based on at least one virtual DVS image for at least one camera viewpoint.
  • the processor 1300 creates a virtual environment based on information on the surrounding environment, in which an actual DVS image that can be recognized by an image recognition model can be captured, and based on the virtual environment.
  • Virtual DVS video can be created.
  • the virtual DVS image according to an embodiment may be generated based on the changed information about the surrounding environment whenever information about the surrounding environment is changed by more than a reference value.
  • the processor 1300 may recognize a DVS image using the image recognition model 130 and output the result.
  • the sensing unit 1400 may detect a state of the electronic device 1000 or a state around the electronic device 1000 and transmit the sensed information to the processor 1300.
  • the sensing unit 1400 includes a geomagnetic sensor 1410, an acceleration sensor 1420, a temperature/humidity sensor 1430, an infrared sensor 1440, a gyroscope sensor 1450, and a position sensor.
  • a GPS GPS
  • an atmospheric pressure sensor 1470 a proximity sensor 1480
  • an RGB sensor 1490 may be included, but are not limited thereto.
  • the sensing unit 1400 may further include a DVS sensor for capturing a DVS image.
  • a virtual environment may be created or an object of the virtual environment may be created and disposed based on information detected by the sensing unit 1400.
  • the electronic device 1000 is, based on the information sensed by the sensing unit 1400, a virtual device having a high possibility of being captured as an actual DVS image, You can create environments and objects. For example, based on the information of the electronic device 1000, the electronic device 1000 predicts the environment in which the electronic device 1000 is currently placed, and the possibility that an actual DVS image can be captured based on the predicted environment With this high, virtual environment, you can create objects of the virtual environment.
  • the image recognition model 130 may be trained based on a virtual DVS image that is likely to be captured as an actual DVS image.
  • the communication unit 1500 may include one or more components that allow the electronic device 1000 to communicate with the server 2000 or an external device (not shown).
  • the communication unit 1500 may include a short range communication unit 1510, a mobile communication unit 1520, and a broadcast reception unit 1530.
  • the short-range wireless communication unit 1510 includes a Bluetooth communication unit, a Bluetooth Low Energy (BLE) communication unit, a Near Field Communication unit, a WLAN (Wi-Fi) communication unit, a Zigbee communication unit, and an infrared ( IrDA, infrared data association) communication unit, WFD (Wi-Fi Direct) communication unit, UWB (ultra wideband) communication unit, Ant+ communication unit, etc. may be included, but is not limited thereto.
  • the mobile communication unit 1520 transmits and receives a radio signal with at least one of a base station, an external terminal, and a server on a mobile communication network.
  • the wireless signal may include a voice call signal, a video call signal, or various types of data according to transmission and reception of text/multimedia messages.
  • the broadcast receiving unit 1530 receives a broadcast signal and/or broadcast-related information from outside through a broadcast channel.
  • Broadcast channels may include satellite channels and terrestrial channels.
  • the electronic device 1000 may not include the broadcast receiver 1530.
  • the communication unit 1500 may transmit and receive data necessary for learning the image recognition model 130.
  • the A/V (Audio/Video) input unit 1600 is for inputting an audio signal or a video signal, and may include a camera 1610 and a microphone 1620.
  • the camera 1610 may obtain an image frame such as a still image or a video through an image sensor in a video call mode or a photographing mode.
  • the image captured through the image sensor may be processed by the processor 1300 or a separate image processing unit (not shown).
  • the microphone 1620 receives an external sound signal and processes it as electrical voice data.
  • the memory 1700 may store a program for processing and controlling the processor 1300, and may store data input to the electronic device 1000 or output from the electronic device 1000.
  • the memory 1700 may generate virtual DVS image and label information, and store information necessary for learning the image recognition model 130.
  • the memory 1700 may store the image recognition model 130.
  • the memory 1700 according to an embodiment may store information about the virtual simulator 110 that generates a virtual DVS image.
  • the memory 1700 is a flash memory type, a hard disk type, a multimedia card micro type, a card type memory (for example, SD or XD memory), and RAM.
  • RAM Random Access Memory
  • SRAM Static Random Access Memory
  • ROM Read-Only Memory
  • EEPROM Electrically Erasable Programmable Read-Only Memory
  • PROM Programmable Read-Only Memory
  • magnetic memory magnetic disk And at least one type of storage medium among optical disks.
  • Programs stored in the memory 1700 may be classified into a plurality of modules according to their functions, for example, a UI module 1710, a touch screen module 1720, a notification module 1730, and the like. .
  • the UI module 1710 may provide a specialized UI, GUI, etc. that are linked with the electronic device 1000 for each application.
  • the touch screen module 1720 may detect a user's touch gesture on a touch screen and transmit information about the touch gesture to the processor 1300.
  • the touch screen module 1720 according to some embodiments may recognize and analyze a touch code.
  • the touch screen module 1720 may be configured with separate hardware including a controller.
  • Various sensors may be provided inside or near the touch screen to sense a touch or a proximity touch of the touch screen.
  • a sensor for detecting a touch on a touch screen there is a tactile sensor.
  • the tactile sensor refers to a sensor that detects contact with a specific object to the extent that a person feels it or more.
  • the tactile sensor can detect various information such as roughness of a contact surface, hardness of a contact object, and temperature of a contact point.
  • the user's touch gesture may include tap, touch & hold, double tap, drag, pan, flick, drag and drop, swipe, and the like.
  • the notification module 1730 may generate a signal to notify the occurrence of an event of the electronic device 1000.
  • FIG. 4 is a flowchart illustrating a method of learning an image recognition model 130 according to an exemplary embodiment.
  • the electronic device 1000 may generate a virtual DVS image using the virtual simulator 310.
  • the electronic device 1000 may generate a virtual environment through the virtual simulator 310 and generate a virtual DVS image based on the virtual environment.
  • the virtual simulator 310 may generate a virtual environment based on information about a surrounding environment in which an actual DVS image that can be recognized in an image recognition model can be captured. For example, based on information sensed by various sensors included in the electronic device 1000, the electronic device 1000 acquires information about the surrounding environment and transfers the information about the surrounding environment to the virtual simulator 310. I can deliver.
  • the information about the surrounding environment may be information about the surrounding environment of the electronic device 1000 including a DVS sensor that captures a DVS image, or of a device other than the electronic device 1000.
  • the virtual simulator 310 may generate a virtual environment based on information on the surrounding environment of the electronic device 1000 and generate a virtual DVS image based on the generated virtual environment. have.
  • Information about the surrounding environment may be detected by a sensor of the electronic device 1000, such as a location of the electronic device 1000, a moving state, and information detected about an object around the electronic device 1000. It can contain a variety of information.
  • the electronic device 1000 may determine whether the information on the surrounding environment acquired by the electronic device 1000 is changed by more than a reference value.
  • the electronic device 1000 according to an embodiment may transmit information about the changed surrounding environment to the virtual simulator 310 whenever information about the surrounding environment is changed by more than a reference value.
  • the virtual simulator 310 generates a virtual environment and generates a virtual DVS image based on the generated virtual environment whenever information about the changed surrounding environment is obtained from the electronic device 1000. I can. Accordingly, according to an embodiment, whenever information about a surrounding environment is changed by a reference value or more, a virtual DVS image may be generated based on the changed information about the surrounding environment. Also, according to an embodiment, the image recognition model may be continuously learned based on information about the changed surrounding environment of the electronic device 1000.
  • the electronic device 1000 may generate label information for a virtual DVS image.
  • the label information may include information on at least one correct answer to a result of recognizing a virtual DVS image by an image recognition model.
  • the image recognition model according to an embodiment may be modified so that a difference between the result of the image recognition model and the correct answer information is minimized, so that the image recognition model may be updated.
  • Label information according to an embodiment may be determined based on information on a virtual environment generated by the virtual simulator 310.
  • the information on the virtual environment according to an embodiment may be determined according to the virtual environment and characteristic information predefined for the virtual object when the virtual object is placed in the virtual environment after the virtual environment is created.
  • label information may be determined based on identification information and movement information of the virtual object.
  • the label information is generated based on a virtual environment and a virtual object implemented according to information preset by the virtual simulator 310, and thus may be automatically generated whenever a virtual DVS image is generated.
  • the label information may be determined according to information previously set by the virtual simulator 310, it may include accurate and detailed information.
  • the electronic device 1000 may learn an image recognition model for recognizing an actual DVS image based on the virtual DVS image and label information corresponding to the virtual DVS image. .
  • the image recognition model may be sufficiently learned based on the virtual DVS image generated by the virtual simulator 310.
  • label information for a virtual DVS image may be determined according to accurate and detailed information preset by the virtual simulator 310, as an image recognition model is learned based on the label information, The performance of the image recognition model can be better.
  • FIG 5 is a diagram showing an example of a virtual environment created by the virtual simulator 310 according to an embodiment.
  • a virtual simulator 310 creates a virtual environment 500 in which an internal environment inside a house is implemented, and a plurality of objects 511, 512, 520 in the virtual environment 500. ) Can be placed.
  • a plurality of objects 511, 512, and 520 that may be disposed in the virtual environment 500 are likely to be photographed as an actual DVS image in an actual environment corresponding to the virtual environment 500. It can be an object that exists.
  • a sofa 512 and a table 511 which are fixed objects
  • a robot cleaner 520 which is an object that captures a virtual DVS image while moving
  • the sofa 512, the table 511, and the robot cleaner 520 may be disposed in a predetermined position in the virtual environment 500.
  • the robot cleaner 520 may be arranged to move in the virtual environment 500 according to a predetermined path and speed.
  • a virtual DVS image according to an embodiment may be generated at each camera viewpoint based on a plurality of DVS sensors 521, 522, and 523 disposed in the virtual environment 500.
  • the image recognition model 330 may be learned based on a plurality of virtual DVS images simultaneously captured at different camera view points.
  • a virtual DVS image according to an embodiment may be acquired as a plurality of image sequences captured at different camera viewpoints in which scenes in which the robot cleaner 520 moves over time.
  • the DVS sensors 522 and 523 disposed in a fixed position may acquire a virtual DVS image detected by the robot cleaner 520, which is a moving object, excluding the table 511 and the sofa 512, which are fixed objects. I can.
  • the DVS sensor 521 disposed in the moving robot cleaner 520 may detect a fixed object as a moving object in the DVS image due to the movement of the DVS sensor 521. Accordingly, the DVS sensor 521 disposed in the robot cleaner 520 may acquire a virtual DVS image in which not only a moving object but also the table 511 and the sofa 512, which are fixed objects, are detected.
  • the image recognition model 330 it is possible to learn the image recognition model 330 based on more precise and more data based on a plurality of virtual DVS images captured at different viewpoints and in different moving states.
  • FIG. 6 is a flowchart illustrating a method of learning an image recognition model based on virtual data according to an exemplary embodiment.
  • Virtual data may include a pair of virtual DVS images and label information generated based on a virtual environment.
  • the electronic device 1000 may generate a virtual environment for the DVS image in order to obtain a virtual DVS image.
  • the virtual environment may be generated by pre-defining characteristic information of the virtual environment (eg, size, object, brightness, etc. of the virtual environment). For example, based on the surrounding environment information sensed by the electronic device 1000, characteristic information related to the virtual environment may be preset.
  • the electronic device 1000 may generate a virtual DVS image based on a virtual environment.
  • the electronic device 1000 may determine at least one view point at which a virtual DVS image is captured after generating a virtual environment.
  • At least one viewpoint at which a virtual DVS image is photographed may be fixed or moved.
  • information about movement such as a moving path and speed, is set, and a virtual DVS image may be generated according to the set information.
  • a virtual DVS image is captured by a DVS sensor included in a robot cleaner that moves in the house, arranged in a virtual environment
  • the moving path and speed of the robot cleaner are determined based on the characteristic information of the robot cleaner.
  • a virtual DVS image captured by the DVS sensor of the robot cleaner may be generated.
  • the electronic device 1000 may generate label information for the virtual DVS image generated in operation 620 based on the virtual environment.
  • the label information may include correct answer information indicating a correct answer to a result of recognizing the virtual DVS image by an image recognition model.
  • the label information includes preset characteristic information for the above-described virtual environment, preset information for a moving path and speed of a DVS sensor that captures a DVS image, and preset information in relation to a virtual object included in the DVS image. Based on characteristic information (eg, location, moving speed, moving path, identification information, state), etc., the correct answer information may be obtained as the information is determined.
  • characteristic information eg, location, moving speed, moving path, identification information, state
  • the label information according to an embodiment may be determined based on information to be set in advance in order to create a virtual environment and to place a virtual object. Therefore, at the time point at which the virtual DVS image is generated, the information used to determine the label information is already stored in the electronic device 1000 to create a virtual environment and to place a virtual object. There may be information.
  • the label information according to an embodiment may be automatically determined without any other input from a user, based on information already stored in the electronic device 1000 in relation to the virtual environment.
  • the label information may include at least one correct answer information indicating a correct answer to information that can be output by the image recognition model.
  • the label information is the above-described object recognition information, object state It may include at least one correct answer information corresponding to information, object movement information, and the like.
  • the electronic device 1000 may generate virtual data including at least one virtual DVS image and label information corresponding to each DVS image. Also, in operation 650, the electronic device 1000 according to an embodiment may learn an image recognition model based on virtual data.
  • learning about the image recognition model may be performed.
  • FIG. 7 is a diagram illustrating an example of the electronic device 1000 and the external device 700 according to an embodiment.
  • an image recognition model learned by the electronic device 1000 may be transmitted to the external device 700.
  • the external device 700 may mount an image recognition model learned by the electronic device 1000 and recognize an actual DVS image acquired from the external device 700 based on the image recognition model. It may include a device that is present.
  • the external device 700 may include a robot cleaner, a smart refrigerator, a smart TV, a camera, etc., which may be connected to the electronic device 1000, and is not limited to the above-described example, and various types of devices It may include.
  • the electronic device 1000 may generate a virtual DVS image that can be photographed by each external device 700 and learn an image recognition model based on the virtual DVS image.
  • the electronic device 1000 may generate a virtual DVS image that can be photographed by a DVS sensor provided in the robot cleaner according to the movement path and speed of the robot cleaner among the external devices 700.
  • the electronic device 1000 may generate a virtual DVS image that can be photographed by a DVS sensor provided in each of the smart TV and the smart refrigerator according to a location of a smart TV or a smart refrigerator among the external devices 700. I can.
  • the electronic device 1000 obtains label information for a virtual DVS image that can be photographed by each of the external devices 700 based on preset information in order to create a virtual environment. can do.
  • the preset information may be characteristic information predefined for at least one of a virtual environment and a virtual object of the virtual environment.
  • the electronic device 1000 learns an image recognition model based on the virtual DVS image and label information generated for at least one external device 700, and selects at least one learned image recognition model. It can be transferred to the external device 700 of the.
  • the at least one external device 700 may recognize a DVS image acquired by each external device 700 based on an image recognition model received from the electronic device 1000.
  • a smart TV among the external devices 700 may detect a user's movement from a DVS image captured by the smart TV using an image recognition model, and determine whether or not the user watches TV.
  • the smart TV may perform various operations, for example, turning off or on the power of the smart TV based on whether the user watches TV.
  • the robot cleaner among the external devices 700 may predict the movement path of the user from the DVS image captured by the robot cleaner using an image recognition model.
  • the robot cleaner according to an embodiment may determine a moving path of the robot cleaner based on a moving path of a user, and perform floor cleaning while moving according to the determined path.
  • the electronic device 1000 instead of transmitting the image recognition model to at least one external device 700, the DVS image acquired by each external device 700 by the electronic device 1000 Can be received.
  • the electronic device 1000 may recognize the DVS image received from each external device 700 based on the image recognition model learned according to the embodiment. Also, the electronic device 1000 may perform an operation or transmit information related to the result to each external device 700 according to a result of recognizing a DVS image received from each external device 700.
  • the image recognition model is based on a pair of DVS image and label information generated using a virtual simulator. It can be fully learned.
  • Computer-readable media can be any available media that can be accessed by a computer, and includes both volatile and nonvolatile media, removable and non-removable media. Further, the computer-readable medium may include both computer storage media and communication media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • Communication media typically includes computer readable instructions, data structures, or program modules, and includes any information delivery media.
  • the “unit” may be a hardware component such as a processor or a circuit, and/or a software component executed by a hardware configuration such as a processor.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

가상 시뮬레이터를 이용하여, 가상의 DVS 영상을 생성하고, DVS 영상에 대하여, 영상 인식 모델에 의해 DVS 영상이 인식된 결과에 대한 정답에 관한 정보를 포함하는 레이블 정보를 생성하고, 영상 인식 모델에 의해 DVS 영상이 인식된 결과와 레이블 정보 간 차이가 최소화되도록, 영상 인식 모델을 수정함으로써, 영상 인식 모델을 학습하는 방법이 개시된다.

Description

영상 인식 모델을 학습하는 전자 장치 및 그 동작 방법
본 개시는, 영상을 인식하기 위한 영상 인식 모델을 학습하는 전자 장치 및 그 동작 방법에 관한 것이다.
DVS(dynamic vision sensor)에 의해 촬영된 DVS 영상은, 영상의 전체 영역에 대한 이미지 데이터를 포함하는 기존 영상과는 달리, 움직이는 물체에 의해 감지된 빛의 변화량을 나타내는 픽셀 데이터들을 포함할 수 있다. 따라서, DVS 영상은 기존 영상과는 달리 처리할 데이터의 양이 적어 처리 속도가 빠른 장점을 가지며, 움직이는 물체를 감지하여 수행될 수 있는 다양한 동작에서 활용될 수 있다.
영상 인식 모델은 DVS 영상을 인식하기 위한 인공지능 모델로, 예를 들면, DVS 영상에서 촬영된 움직이는 물체를 인식하고, 움직이는 물체와 관련된 데이터를 추출하는데 이용될 수 있다. 영상 인식 모델은, 다수의 DVS 영상에 관한 데이터 기초하여 학습될 수 있다.
그러나, 영상 인식 모델을 학습시키기 위한 데이터 양이 충분하지 않은 경우, 영상 인식 모델의 정확도 및 성능이 낮아질 수 있다. 따라서, 영상 인식 모델을 학습시키기 위한 DVS 영상에 관한 데이터 양이 부족한 경우에도, 높은 정확도 및 성능을 가지는 영상 인식 모델을 구축할 수 있는 방법이 필요하다.
본 개시가 해결하고자 하는 과제는 전술한 문제를 해결하기 위한 것으로서, 영상 인식 모델을 학습하는 전자 장치 및 그 동작 방법을 제공하기 위한 것이다.
또한, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는 데 있다. 해결하려는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
도 1은 일 실시 예에 의한 영상 인식 모델을 학습하는 일 예를 나타낸 도면이다.
도 2 는 일 실시 예에 의한 전자 장치의 내부 구성을 설명하기 위한 블록도이다.
도 3은 일 실시 예에 의한 전자 장치의 내부 구성을 설명하기 위한 블록도이다.
도 4는 일 실시 예에 의한 영상 인식 모델을 학습하는 방법을 나타낸 순서도이다.
도 5는 일 실시 예에 의한 가상 시뮬레이터에 의해 생성된 가상 환경의 일 예를 나타낸 도면이다.
도 6은 일 실시 예에 의한 가상 데이터에 기초하여, 영상 인식 모델을 학습하는 방법을 나타낸 순서도이다.
도 7은 일 실시 예에 의한 전자 장치 및 외부 장치의 일 예를 나타낸 도면이다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 개시의 제1 측면은, 가상 시뮬레이터를 이용하여, 가상의 DVS 영상을 생성하는 단계; 상기 DVS 영상에 대하여, 상기 영상 인식 모델에 의해 상기 DVS 영상이 인식된 결과에 대한 정답에 관한 정보를 포함하는 레이블 정보를 생성하는 단계; 및 상기 영상 인식 모델에 의해 상기 DVS 영상이 인식된 결과와 상기 레이블 정보 간 차이가 최소화되도록, 상기 영상 인식 모델을 수정함으로써, 상기 영상 인식 모델을 학습하는 단계를 포함하는 영상 인식 모델을 학습하는 방법을 제공할 수 있다.
또한, 본 개시의 제2 측면은, 영상 인식 모델을 학습하는 전자 장치에 있어서, 영상 인식 모델을 저장하는 메모리; 및 가상 시뮬레이터를 이용하여, 가상의 DVS 영상을 생성하고, 상기 DVS 영상에 대하여, 상기 영상 인식 모델에 의해 상기 DVS 영상이 인식된 결과에 대한 정답에 관한 정보를 포함하는 레이블 정보를 생성하고, 상기 영상 인식 모델에 의해 상기 DVS 영상이 인식된 결과와 상기 레이블 정보 간 차이가 최소화되도록, 상기 영상 인식 모델을 수정함으로써, 상기 영상 인식 모델을 학습하는 적어도 하나의 프로세서를 포함하는, 전자 장치를 제공할 수 있다.
또한, 본 개시의 제3 측면은, 제1 측면 또는 제2 측면의 방법을 수행하도록 하는 프로그램이 저장된 기록매체를 제공할 수 있다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 개시에 따른 인공지능과 관련된 기능은 프로세서와 메모리를 통해 동작된다. 프로세서는 하나 또는 복수의 프로세서로 구성될 수 있다. 이때, 하나 또는 복수의 프로세서는 CPU, AP, DSP(Digital Signal Processor) 등과 같은 범용 프로세서, GPU, VPU(Vision Processing Unit)와 같은 그래픽 전용 프로세서 또는 NPU와 같은 인공지능 전용 프로세서일 수 있다. 하나 또는 복수의 프로세서는, 메모리에 저장된 기 정의된 동작 규칙 또는 인공지능 모델에 따라, 입력 데이터를 처리하도록 제어한다. 또는, 하나 또는 복수의 프로세서가 인공지능 전용 프로세서인 경우, 인공지능 전용 프로세서는, 특정 인공지능 모델의 처리에 특화된 하드웨어 구조로 설계될 수 있다.
기 정의된 동작 규칙 또는 인공지능 모델은 학습을 통해 만들어진 것을 특징으로 한다. 여기서, 학습을 통해 만들어진다는 것은, 기본 인공지능 모델이 학습 알고리즘에 의하여 다수의 학습 데이터들을 이용하여 학습됨으로써, 원하는 특성(또는, 목적)을 수행하도록 설정된 기 정의된 동작 규칙 또는 인공지능 모델이 만들어짐을 의미한다. 이러한 학습은 본 개시에 따른 인공지능이 수행되는 기기 자체에서 이루어질 수도 있고, 별도의 서버 및/또는 시스템을 통해 이루어 질 수도 있다. 학습 알고리즘의 예로는, 지도형 학습(supervised learning), 비지도형 학습(unsupervised learning), 준지도형 학습(semi-supervised learning) 또는 강화 학습(reinforcement learning)이 있으나, 전술한 예에 한정되지 않는다.
인공지능 모델은, 복수의 신경망 레이어들로 구성될 수 있다. 복수의 신경망 레이어들 각각은 복수의 가중치들(weight values)을 갖고 있으며, 이전(previous) 레이어의 연산 결과와 복수의 가중치들 간의 연산을 통해 신경망 연산을 수행한다. 복수의 신경망 레이어들이 갖고 있는 복수의 가중치들은 인공지능 모델의 학습 결과에 의해 최적화될 수 있다. 예를 들어, 학습 과정 동안 인공지능 모델에서 획득한 로스(loss) 값 또는 코스트(cost) 값이 감소 또는 최소화되도록 복수의 가중치들이 갱신될 수 있다. 인공 신경망은 심층 신경망(DNN:Deep Neural Network)를 포함할 수 있으며, 예를 들어, CNN (Convolutional Neural Network), DNN (Deep Neural Network), RNN (Recurrent Neural Network), RBM (Restricted Boltzmann Machine), DBN (Deep Belief Network), BRDNN(Bidirectional Recurrent Deep Neural Network) 또는 심층 Q-네트워크 (Deep Q-Networks) 등이 있으나, 전술한 예에 한정되지 않는다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 일 실시 예에 의한 영상 인식 모델을 학습하는 일 예를 나타낸 도면이다.
도 1을 참조하면, 일 실시 예에 따라 영상 인식 모델을 학습하는, 전자 장치(1000)는, 가상 시뮬레이터(110)를 통해 가상의 DVS 영상과, 상기 가상의 DVS 영상에 대한 레이블 정보(120)를 획득하고, 획득된 가상의 DVS 영상 및 레이블 정보(120)에 기초하여, 영상 인식 모델(130)을 학습할 수 있다. 일 실시 예에 의한 전자 장치(1000)는 가상의 DVS 영상이 영상 인식 모델에 의해 인식된 결과와 레이블 정보 간 차이가 최소화 되도록, 영상 인식 모델을 수정함으로써, 영상 인식 모델(130)을 학습할 수 있다.
일 실시 예에 의한 영상 인식 모델을 학습하는 방법은, DVS 영상뿐만 아니라, 다양한 종류의 영상에 대하여도 수행될 수 있다. 예를 들면, 가상 시뮬레이터(110)를 통해 생성된 다양한 종류의 영상 및 레이블 정보에 기초하여, 영상 인식 모델이 학습될 수도 있다.
일 실시 예에 의한 전자 장치(1000)는 일 실시 예에 따라 학습된 영상 인식 모델(130)을 이용하여, 적어도 하나의 DVS 영상을 인식할 수 있다. 예를 들면, 전자 장치(1000)는 영상 인식 모델(130)을 이용하여, DVS 영상을 인식한 결과, DVS 영상에 관한 정보(ex. DVS 영상에 포함된 객체의 크기, 위치, 식별 정보, 이동 방향, 이동 속도, 상태 등)를 획득하고, 획득된 정보에 기초하여, 다양한 동작을 수행할 수 있다.
일 실시 예에 의한 전자 장치(1000)는 다양한 형태로 구현될 수 있다. 예를 들어, 본 명세서에서 기술되는 전자 장치(1000)는, 디지털 카메라, 스마트 폰(smart phone), 노트북 컴퓨터(laptop computer), 태블릿 PC, 전자북 단말기, 디지털방송용 단말기, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), 네비게이션, MP3 플레이어 등이 있을 수 있으나, 이에 한정되는 것은 아니다.
본 명세서에서 기술되는 전자 장치(1000)는 사용자에 의해 착용될 수 있는 장치(wearable device)일 수 있다. 웨어러블 디바이스는 액세서리 형 장치(예컨대, 시계, 반지, 팔목 밴드, 발목 밴드, 목걸이, 안경, 콘택트 렌즈), 머리 착용형 장치(head-mounted-device(HMD)), 직물 또는 의류 일체형 장치(예: 전자 의복), 신체 부착형 장치(예컨대, 스킨 패드(skin pad)), 또는 생체 이식형 장치(예: implantable circuit) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.
일 실시 예에 의한 DVS 영상은, DVS 센서에 의해 생성된 영상이다. 일 실시 예에 따른 DVS 센서는 사람의 홍채가 정보를 받아들이는 방식을 채택한 이미지 센서로, 움직이는 객체에 대한 이미지 데이터를 획득할 수 있는 센서이다. 예를 들어, DVS 센서는 픽셀 단위에서 움직임에 의해 국소적인 변화가 있을 때에만 이미지 데이터를 프로세서로 전송하게 된다. 일 실시 예에 의한 DVS 센서는 움직이는 이벤트가 발생할 때만 이미지 데이터를 프로세서에 전송할 수 있다. 따라서, 일 실시 예에 의한 DVS 센서는 객체가 멈춰 있는 경우에 데이터 처리를 하지 않고, 객체가 움직이는 경우에만 움직이는 객체를 측정하여 데이터를 프로세서로 전송함으로써, 일반적인 이미지 센서들이 프레임들을 이미지 프로세서로 계속 보내 발생하는 데이터의 낭비를 막을 수 있다.
일 실시 예에 의한 DVS 센서는 일반적인 시각 인식 시스템이 빠른 움직임에 취약하다는 문제점을 해결할 수 있다. 또한, DVS 센서는 프레임 단위로 데이터를 받는 것이 아니라 낱낱의 픽셀 기준(per-pixel basis)으로 데이터를 받기 때문에 블러(blur) 현상을 극복할 수 있다.
일 실시 예에 의한 DVS 센서는 마이크로 초 단위의 해상도를 가질 수 있다. 상기 DVS 센서는 1초당 수천 프레임을 찍는 초고속 카메라보다 더 뛰어난 시간 분해능을 가질 수 있다(예컨대, 초고속 프레임 >1K FPS). 또한, DVS 센서에 의하면, 전력 소모 및 데이터 저장 요구 조건 또한 매우 줄어드므로, dynamic range(센서가 구분할 수 있는 밝기의 범위) 또한 획기적으로 늘어날 수 있다.
일 실시 예에 따라, DVS 센서에 의해 획득되는 이미지는 움직이는 객체의 윤곽선 정도만 표현되므로, 모니터링되는 객체의 사생활(privacy) 보호에도 유리할 수 있다. 또한, DVS 센서는 어두운 곳에서도 약간의 빛만 있으면 객체의 움직임을 감지하여, DVS 영상을 생성할 수 있다.
일 실시 예에 따른 DVS 영상을 인식하기 위한 영상 인식 모델은, DVS 센서에 의해 생성된 DVS 영상과, 상기 DVS 영상에 대한 레이블 정보에 기초하여 학습될 수 있다.
일 실시 예에 의한 레이블 정보는, DVS 영상이 영상 인식 모델에 의해 인식된 결과에 대한 정답에 관한 정보를 포함할 수 있다. 또한, 일 실시 예에 의한 레이블 정보는, DVS 영상으로부터 인식하고자 하는 정보의 종류에 따라 서로 다른 복수의 정보를 포함할 수 있다. 예를 들어, 레이블 정보는 동일한 DVS 영상에 대해 인식될 수 있는 정보로, 객체의 상태, 객체의 이동 방향 등의 서로 다른 종류의 정보를 포함할 수 있다.
일 실시 예에 의하면, 적어도 하나의 DVS 영상과, 각 DVS 영상과 대응되는 레이블 정보의 쌍에 기초하여, 영상 인식 모델이 학습될 수 있다. 예를 들면, DVS 영상이 영상 인식 모델에 의해 인식된 결과와 상기 DVS 영상에 대한 레이블 정보 간 차이가 최소화되도록, 영상 인식 모델이 수정됨으로써, 영상 인식 모델이 학습될 수 있다.
예를 들어, 레이블 정보가, "사람이 걸어가고 있는 상태"를 나타내는 정보를 포함하는 경우, 영상 인식 모델에 의한, DVS 영상의 인식 결과로, "사람이 걸어가고 있는 상태"와 동일 유사한 결과가 출력될 수 있도록, 영상 인식 모델이 학습될 수 있다.
그러나, 영상 인식 모델을 학습시키기 위한 DVS 영상 및 레이블 정보의 쌍이 영상 인식 모델이 학습되기에 충분하지 않은 경우, 영상 인식 모델의 성능이 저하될 수 있는 문제점이 존재한다.
예를 들면, 레이블 정보가, 사람에 의해 직접 입력되어야 해서, 레이블 정보가 존재하는 DVS 영상의 개수가 절대적으로 적은 경우, 영상 인식 모델이 충분히 학습될 수 없어, 영상 인식 모델의 정확도 및 성능이 저하될 수 있다.
그러나, 일 실시 예에 의하면, 영상 인식 모델을 학습시키기 위한 DVS 영상 및 레이블 정보의 쌍이 적은 경우에도, 전자 장치(1000)는 가상 시뮬레이터(110)를 이용하여 가상의 DVS 영상 및 레이블 정보의 쌍을 충분히 생성함으로써, 영상 인식 모델을 충분히 학습할 수 있다.
또한, 일 실시 예에 의한 DVS 영상은, 움직이는 객체의 외곽선 정도만 표현되므로, 가상으로 생성된 DVS 영상과 실제 DVS 센서에 의하여 촬영된 DVS 영상은 외관상 거의 유사할 수 있다. 따라서, 일 실시 예에 따라 가상 시뮬레이터(110)를 이용하여 생성된 DVS 영상 및 레이블 정보의 쌍에 기초하여, 학습된 영상 인식 모델에 의하면, 실제 촬영된 DVS 영상에 대해서도 높은 성능 및 정확도로 영상 인식이 수행될 수 있다.
일 실시 예에 의한 가상 시뮬레이터(110)는, DVS 영상이 촬영될 수 있는 다양한 종류의 가상 환경을 생성할 수 있다. 예를 들면, 가상 시뮬레이터(110)는, 집안, 사무실, 도로 등 다양한 가상 환경을 생성할 수 있다.
또한, 일 실시 예에 의한 가상 시뮬레이터(110)는, 가상 환경에 존재할 수 있는 다양한 종류의 가상 객체를 생성하고, 생성된 가상 객체를 가상 환경에 배치할 수 있다. 일 실시 예에 의하면, 가상 환경과 대응되는 실제 환경에서, 실제 DVS 영상으로 촬영될 수 있는 객체가, 가상 환경에서 가상 객체로서 배치될 수 있다. 예를 들면, 집안에 대한 가상 환경에는, 사람, 가구, 가전제품, 애완동물 등의 가상 객체가 배치될 수 있다. 또한, 도로에 대한 가상 환경에는, 표지판, 자동차, 차선 등의 가상 객체가 배치될 수 있다.
따라서, 일 실시 예에 의한 가상의 DVS 영상은, 가상 시뮬레이터(110)에 의해 생성된 가상 환경 및 가상 환경에 배치된 적어도 하나의 가상 객체에 기초하여 생성될 수 있다. 또한, 일 실시 예에 의한 가상의 DVS 영상은, 시간 흐름에 따라, 가상 객체가 이동하거나 변화되는 장면이 촬영된 복수 개의 영상 시퀀스로서, 획득될 수도 있다.
일 실시 예에 의한 가상 시뮬레이터(110)는, 가상 환경에서, DVS 센서에 의해 촬영될 수 있는, 가상의 DVS 영상을 생성할 수 있다. 일 실시 예에 의한 가상 시뮬레이터(110)는 가상 환경에서, 실제 DVS 센서가 위치할 수 있는, 적어도 하나의 카메라 시점을 결정하고, 각 카메라 시점에서 촬영된 적어도 하나의 가상의 DVS 영상을 생성할 수 있다. 상기 적어도 하나의 가상의 DVS 영상은, 각 카메라 시점에서 동시에 촬영된 영상일 수 있다.
예를 들면, 가상 시뮬레이터(110)는 가상 환경에서, 적어도 하나의 카메라 시점에서 촬영될 수 있는 비전 영상을 생성하고, 비전 영상으로부터 DVS 영상을 생성함으로써, 가상 환경에서 촬영된 가상의 DVS 영상을 생성할 수 있다. 비전 영상에 한하지 않고, 다른 종류의 영상으로부터 DVS 영상이 생성될 수도 있다. 또한, 상술한 예에 한하지 않고, 가상 시뮬레이터(110)는 다양한 방법을 통해 가상 환경에서 촬영된 가상의 DVS 영상을 생성할 수 있다.
일 실시 예에 의한 가상의 DVS 영상에 대한 레이블 정보는, 가상 환경 및 가상 환경에 배치된 적어도 하나의 가상 객체 중 적어도 하나에 관한 정보에 기초하여, 생성될 수 있다. 일 실시 예에 의한 레이블 정보는, 가상 환경 및 적어도 하나의 가상 객체가 생성되는데 이용된, 상기 가상 환경 및 상기 적어도 하나의 가상 객체에 대하여 미리 설정된 정보에 기초하여 획득될 수 있다.
일 실시 예에 의한, 가상 시뮬레이터(110)는, 미리 설정된 정보에 따라 가상 객체가 배치되거나 이동하도록, 가상 환경에 가상 객체를 배치할 수 있다. 일 실시 예에 의한 레이블 정보는, 가상 환경 및 가상 객체 중 적어도 하나에 대하여 미리 정의된 특성 정보에 관한 정보에 기초하여, 획득될 수 있다.
예를 들어, 가상 시뮬레이터(110)는, 가상 환경에서 미리 지정한 경로로 자동차가 이동하도록, 자동차를 가상 환경에 배치할 수 있다. 또한, 미리 지정한 경로에 따라 이동하는 자동차의 위치 및 속도도 가상 시뮬레이터(110)에 의해 미리 설정된 후, 상기 설정된 정보에 따라 자동차가 가상 환경에 배치될 수 있다. 따라서, 상기 자동차가 촬영된 가상의 DVS 영상에 대한 레이블 정보는, 가상 시뮬레이터(110)가 자동차를 배치하기 위하여 미리 설정한, 자동차의 특성 정보에 관한 정보인, 경로, 위치, 속도 등에 기초하여 획득될 수 있다.
일 실시 예에 의한 레이블 정보는, 가상 시뮬레이터(110)가, 가상 환경 및 가상 객체의 생성 시 미리 정의한 특성 정보에 기초하여, 획득될 수 있다. 따라서, 실제 영상에 대하여 사람에 의해 직접 입력된 레이블 정보에 비해, 일 실시 예에 의한 가상 DVS 영상에 대한 레이블 정보는, 더 정확한 정보를 포함할 수 있다.
또한, 일 실시 예에 의한 레이블 정보는, 가상 시뮬레이터(110)에 의해 미리 정의한 특성 정보에 기초하여, 자동으로 획득될 수 있다. 일 실시 예에 의한 레이블 정보는, 가상 시뮬레이터(110)에 의해 가상 환경 또는 가상 객체가 생성될 때, 미리 정의한 특성 정보에 기초하여, 레이블 정보가 자동으로 획득될 수 있다. 따라서, 일 실시 예에 의한 레이블 정보는 전자 장치(1000)에 의하여, 쉽고 빠르게 획득될 수 있다.
일 실시 예에 의한, 레이블 정보가, 가상 시뮬레이터(110)에 의해 미리 정의한 특성 정보에 기초하여, 가상의 DVS 영상이 생성될 때마다 자동으로 획득될 수 있다. 따라서, 일 실시 예에 의하면, 영상 인식 모델(130)을 학습하기 위한 데이터로서, 단시간에 많은 수의 가상의 DVS 영상 및 레이블 정보의 쌍이 빠르고 정확하게 생성될 수 있다.
일 실시 예에 의한 영상 인식 모델(130)은, 가상 시뮬레이터(110)에 의해 생성된 가상의 DVS 영상과 가상의 DVS 영상에 대한 레이블 정보에 기초하여, 학습될 수 있다.
일 실시 예에 의한 전자 장치(1000)는 상기 DVS 영상이 영상 인식 모델(130)에 의해 인식된 결과에 관한 정보와 상기 레이블 정보 간 차이가 최소화되도록, 영상 인식 모델(130)을 구성하는 적어도 하나의 구성 요소를 수정함으로써, 영상 인식 모델(130)을 학습할 수 있다. 예를 들면, 영상 인식 모델(130)을 구성하는 노드의 구조, 가중치 값, 바이어스 값 등이, 영상 인식 모델(130)이 학습됨에 따라, 수정될 수 있다.
일 실시 예에 의한 영상 인식 모델(130)은, 영상 내의 객체를 분류하고 탐지하는데 이용되는 CNN(convolutional neural network), DNN(Deep Neural Network), RNN(Recurrent Neural Network), MLP(Multi layer Perceptron) 등의 뉴럴 네트워크(Neural Network)를 기반으로 하는 데이터 인식 모델일 수 있다. 상술한 예에 한하지 않고, 일 실시 예에 의한 영상 인식 모델(130)은, 다양한 종류의 인공지능 모델을 포함할 수 있다.
일 실시 예에 따라 영상 인식 모델(130)에 기초하여, 영상이 인식된 결과는 예를 들면, 영상에서 인식된 객체에 관한 정보, 영상에서 인식된 객체의 위치에 관한 정보, 영상에서 인식된 객체의 움직임에 관한 정보 등을 포함할 수 있다. 예를 들어, 데이터 인식 모델에 입력된 영상이 "자동차"가 촬영된 DVS 영상인 경우, 데이터 인식 모델의 영상의 인식 결과는 "자동차"을 포함할 수 있다.
따라서, 일 실시 예에 의하면, "자동차"를 포함하는 가상의 DVS 영상과, 레이블 정보에 기초하여, 상기 가상의 DVS 영상과 유사한 실제 DVS 영상이 영상 인식 모델(130)에 입력되는 경우, "자동차"에 가까운 결과가 출력될 수 있도록, 영상 인식 모델(130)이 학습될 수 있다.
일 실시 예에 의하면, 가상 시뮬레이터(110)에 의하여, 빠르고 정확하게 생성된 많은 수의 가상의 DVS 영상 및 레이블 정보의 쌍에 기초하여, 영상 인식 모델(130)이 학습될 수 있다. 따라서, 일 실시 예에 의한 전자 장치(1000)는, 영상 인식 모델(130)을 학습하기 위한 실제 DVS 영상 및 레이블 정보가 부족한 경우에도, 가상의 DVS 영상 및 레이블 정보의 쌍에 기초하여, 정확도 및 성능이 높은 영상 인식 모델(130)을 빠르게 획득할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, DVS 영상을 인식하기 위한 영상 인식 모델(130)을 학습하기 위하여, 외부 서버(미도시)를 이용할 수 있다.
일 실시 예에 의한 외부 서버는 적어도 하나의 컴퓨터 장치로 구현될 수 있다. 외부 서버는 클라우드 형태로 분산될 수 있으며, 명령, 코드, 파일, 컨텐츠 등을 제공할 수 있다.
외부 서버는 전자 장치(1000)가 실행할 수 있는 동작들을 수행할 수 있다. 예컨대, 외부 서버는 전자 장치(1000)의 요청에 따라, 영상 인식 모델(130)을 학습하기 위한 가상의 DVS 영상 및 레이블 정보를 생성할 수 있다. 또한, 외부 서버는, 생성된 가상의 DVS 영상 및 레이블 정보에 기초하여, 영상 인식 모델(130)을 학습하고, 학습된 영상 인식 모델(130)을 전자 장치(1000)로 전송할 수 있다. 또한, 외부 서버는, 일 실시 예에 따라 학습된 영상 인식 모델(130)에 의하여, 실제 DVS 영상이 인식된 결과를 전자 장치(1000)로 전송할 수 있다.
일 실시 예에 의하면, 온 디바이스(on-device) AI 기술에 따라서, 외부 서버(미도시)와의 데이터 송수신 없이, 전자 장치(1000) 상에서, 영상 인식 모델(130)이 학습되고, 영상 인식 모델(130)에 의해 영상이 인식된 결과가 출력될 수 있다. 예를 들면, 전자 장치(1000)는 외부 서버에 저장된 빅 데이터를 이용할 필요없이, 실시간으로 전자 장치(1000)에서 수집된 다양한 정보에 기초하여, 생성된 가상의 DVS 영상에 따라 일 실시 예에 의한 영상 인식 모델(130)이 학습될 수 있다.
온 디바이스 AI 기술에 의하면, 전자 장치(1000)는 스스로 수집한 데이터에 기초하여, 스스로 학습하고, 학습된 AI 모델에 기초하여, 스스로 결정을 내릴 수 있다. 온 디바이스 AI 기술에 의한, 전자 장치(1000)는 수집된 데이터를 외부로 전달하지 않고, 스스로 운용하므로, 사용자의 개인 정보 보호 및 데이터 처리 속도 면에서, 장점이 존재한다.
예를 들면, 전자 장치(1000)의 네트워크 환경이 불안정하거나, 빅 데이터를 이용할 필요 없이, 전자 장치(1000)에서 수집된 정보만으로, 전자 장치(1000)에서 학습된 AI 모델에 따라 일 실시 예에 의한 동작을 수행하기에 충분한지 여부에 따라, 전자 장치(1000)는 온 디바이스 AI 기술을 이용하여, 외부 서버와의 연결 없이, 동작할 수 있다.
다만, 전자 장치(1000)는, 온 디바이스 AI 기술에 따라 동작하는 것에 한하지 않고, 외부 서버 또는 외부 장치와의 데이터 송수신을 통해, 일 실시 예에 의한 동작을 수행할 수도 있다. 또한, 전자 장치(1000)는 상술한 온 디바이스 AI 기술 및 외부 서버와의 데이터 송수신을 통한 방식을 조합하여 일 실시 예에 의한 동작을 수행할 수도 있다.
예를 들어, 네트워크 환경 및 전자 장치(1000)의 연산 능력에 따라, 외부 서버를 통한 동작이 데이터 처리 속도 면에서 더 유리하거나, 사용자의 개인 정보를 포함하지 않는 데이터가 외부 서버로 전달되는 경우 등, 외부 서버를 통한 방식이 온 디바이스 AI 기술보다 유리한 경우에는, 외부 서버를 통한 방식에 따라, 일 실시 예에 의한 동작이 수행될 수 있다.
도 2 는 일 실시 예에 의한 전자 장치(1000)의 내부 구성을 설명하기 위한 블록도이다.
도 3은 일 실시 예에 의한 전자 장치(1000)의 내부 구성을 설명하기 위한 블록도이다.
도 2를 참조하면, 전자 장치(1000)는, 프로세서(1300) 및 메모리(1700)를 포함할 수 있다. 그러나, 도 2에 도시된 구성 요소 모두가 전자 장치(1000)의 필수 구성 요소인 것은 아니다. 도 2에 도시된 구성 요소보다 많은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있고, 도 2에 도시된 구성 요소보다 적은 구성 요소에 의해 전자 장치(1000)가 구현될 수도 있다.
예를 들면, 전자 장치(1000)는 도 3에 도시된 바와 같이, 일부 실시예에 따른 전자 장치(1000)는, 프로세서(1300) 및 메모리(1700) 이외에 통신부(1520), 출력부(1020), 사용자 입력부(1100), 센싱부(1400) 및 A/V 입력부(1600)를 더 포함할 수도 있다.
사용자 입력부(1100)는, 사용자가 전자 장치(1000)를 제어하기 위한 데이터를 입력하는 수단을 의미한다. 예를 들어, 사용자 입력부(1100)에는 키 패드(key pad), 돔 스위치 (dome switch), 터치 패드(접촉식 정전 용량 방식, 압력식 저항막 방식, 적외선 감지 방식, 표면 초음파 전도 방식, 적분식 장력 측정 방식, 피에조 효과 방식 등), 조그 휠, 조그 스위치 등이 있을 수 있으나 이에 한정되는 것은 아니다.
일 실시 예에 의하면, 사용자 입력부(1100)는, 영상 인식 모델(130)을 학습하기 위한 사용자 입력을 수신할 수 있다.
출력부(1200)는, 오디오 신호 또는 비디오 신호 또는 진동 신호를 출력할 수 있으며, 출력부(1200)는 디스플레이부(1210), 음향 출력부(1220), 및 진동 모터(1230)를 포함할 수 있다.
디스플레이부(1210)는 전자 장치(1000)에서 처리되는 정보를 표시 출력한다. 일 실시 예에 의하면, 디스플레이부(1210)는 가상 시뮬레이터(110)에 의해 생성된 가상의 DVS 영상을 표시할 수 있다. 또한, 일 실시 예에 의한 디스플레이부(1210)는 영상 인식 모델(130)에 의해 DVS 영상이 인식된 결과를 표시할 수 있다.
한편, 디스플레이부(1210)와 터치패드가 레이어 구조를 이루어 터치 스크린으로 구성되는 경우, 디스플레이부(1210)는 출력 장치 이외에 입력 장치로도 사용될 수 있다. 디스플레이부(1210)는 액정 디스플레이(liquid crystal display), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display), 유기 발광 다이오드(organic light-emitting diode), 플렉시블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전기영동 디스플레이(electrophoretic display) 중에서 적어도 하나를 포함할 수 있다. 그리고 전자 장치(1000)의 구현 형태에 따라 전자 장치(1000)는 디스플레이부(1210)를 2개 이상 포함할 수도 있다.
음향 출력부(1220)는 통신부(1500)로부터 수신되거나 메모리(1700)에 저장된 오디오 데이터를 출력한다.
진동 모터(1230)는 진동 신호를 출력할 수 있다. 또한, 진동 모터(1230)는 터치스크린에 터치가 입력되는 경우 진동 신호를 출력할 수도 있다.
일 실시 예에 의한 음향 출력부(1220) 및 진동 모터(1230)는 영상 인식 모델(130)이 가상의 DVS 영상 및 레이블 정보에 의하여 학습된 결과, 또는 상기 영상 인식 모델(130)에 의해 DVS 영상이 인식된 결과와 관련된 정보를 출력할 수 있다.
프로세서(1300)는, 통상적으로 전자 장치(1000)의 전반적인 동작을 제어한다. 예를 들어, 프로세서(1300)는, 메모리(1700)에 저장된 프로그램들을 실행함으로써, 사용자 입력부(1100), 출력부(1200), 센싱부(1400), 통신부(1500), A/V 입력부(1600) 등을 전반적으로 제어할 수 있다.
전자 장치(1000)는 적어도 하나의 프로세서(1300)를 포함할 수 있다. 예를 들면, 전자 장치(1000)는 CPU(Central Processing Unit), GPU(Graphics Processing Unit), NPU(Neural Processing Unit) 등의 다양한 종류의 프로세서를 포함할 수 있다.
프로세서(1300)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(1700)로부터 프로세서(1300)에 제공되거나, 통신부(1500)를 통해 수신되어 프로세서(1300)로 제공될 수 있다. 예를 들면 프로세서(1300)는 메모리와 같은 기록 장치에 저장된 프로그램 코드에 따라 명령을 실행하도록 구성될 수 있다.
일 실시 예에 의한 프로세서(1300)는 가상 시뮬레이터(110)를 이용하여, 가상의 DVS 영상을 생성하고, 상기 DVS 영상에 대한 레이블 정보를 생성할 수 있다. 일 실시 예에 의한 레이블 정보는, 영상 인식 모델(130)에 의해 상기 DVS 영상이 인식된 결과에 대한 정답에 관한 정보를 포함할 수 있다. 일 실시 예에 의한 레이블 정보는, DVS 영상 생성 시 가상 시뮬레이터(110)에 의해 미리 설정된, 가상 환경 및 가상 환경에 배치된 가상 객체 중 적어도 하나에 대한 미리 정의한 특성 정보에 기초하여, DVS 영상이 생성될 때 마다 획득될 수 있다.
일 실시 예에 의한 프로세서(1300)는 상기 DVS 영상이 영상 인식 모델(130)에 의해 인식된 결과에 관한 정보와 상기 레이블 정보 간 차이가 최소화되도록, 영상 인식 모델(130)을 수정함으로써, 영상 인식 모델(130)을 학습할 수 있다.
또한, 일 실시 예에 의한 프로세서(1300)는 가상 시뮬레이터(110)에 의해 생성된 가상 환경에서, 적어도 하나의 카메라 시점을 결정하고, 적어도 하나의 카메라 시점에서 동시에 촬영된 적어도 하나의 가상의 DVS 영상을 생성할 수 있다. 따라서, 일 실시 예에 의한 영상 인식 모델은, 적어도 하나의 카메라 시점에 대한 적어도 하나의 가상의 DVS 영상에 기초하여, 학습될 수 있다.
또한, 일 실시 예에 의한 프로세서(1300)는 영상 인식 모델에 의해 인식될 수 있는 실제 DVS 영상이 촬영될 수 있는, 주변 환경에 관한 정보에 기초하여 가상 환경을 생성하고, 상기 가상 환경에 기초하여, 가상의 DVS 영상을 생성할 수 있다. 일 실시 예에 의한 가상의 DVS 영상은, 주변 환경에 관한 정보가 기준 값 이상 변경될 때마다, 상기 변경된 주변 환경에 관한 정보에 기초하여 생성될 수 있다.
일 실시 예에 의한 프로세서(1300)는, 영상 인식 모델(130)을 이용하여, DVS 영상을 인식하고, 그 결과를 출력할 수 있다.
센싱부(1400)는, 전자 장치(1000)의 상태 또는 전자 장치(1000) 주변의 상태를 감지하고, 감지된 정보를 프로세서(1300)로 전달할 수 있다.
센싱부(1400)는, 지자기 센서(Geomagnetic sensor)(1410), 가속도 센서(Acceleration sensor)(1420), 온/습도 센서(1430), 적외선 센서(1440), 자이로스코프 센서(1450), 위치 센서(예컨대, GPS)(1460), 기압 센서(1470), 근접 센서(1480), 및 RGB 센서(illuminance sensor)(1490) 중 적어도 하나를 포함할 수 있으나, 이에 한정되는 것은 아니다.
일 실시 예에 의한 센싱부(1400)는, DVS 영상을 촬영하기 위한 DVS 센서를 더 포함할 수 있다.
일 실시 예에 의하면, 센싱부(1400)에 의해 감지된 정보에 기초하여, 가상 환경이 생성되거나, 가상 환경의 객체가 생성되고 배치될 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 센싱부(1400)에 의해 감지된 정보에 기초하여, 전자 장치(1000)의 DVS 센서에 의하여, 실제 DVS 영상으로 촬영될 수 있는 가능성이 높은, 가상 환경 및 객체를 생성할 수 있다. 예를 들면, 전자 장치(1000)의 정보에 기초하여, 전자 장치(1000)는 현재 전자 장치(1000)가 놓인 환경을 예측하고, 예측된 환경에 기초하여, 실제 DVS 영상으로 촬영될 수 있는 가능성이 높은, 가상 환경과, 가상 환경의 객체를 생성할 수 있다.
따라서, 일 실시 예에 의하면, 실제 DVS 영상으로 촬영될 가능성이 높은 가상의 DVS 영상에 기초하여, 영상 인식 모델(130)이 학습될 수 있다.
통신부(1500)는, 전자 장치(1000)가 서버(2000) 또는 외부 장치(미도시)와 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 예를 들어, 통신부(1500)는, 근거리 통신부(1510), 이동 통신부(1520), 방송 수신부(1530)를 포함할 수 있다.
근거리 통신부(short-range wireless communication unit)(1510)는, 블루투스 통신부, BLE(Bluetooth Low Energy) 통신부, 근거리 무선 통신부(Near Field Communication unit), WLAN(와이파이) 통신부, 지그비(Zigbee) 통신부, 적외선(IrDA, infrared Data Association) 통신부, WFD(Wi-Fi Direct) 통신부, UWB(ultra wideband) 통신부, Ant+ 통신부 등을 포함할 수 있으나, 이에 한정되는 것은 아니다.
이동 통신부(1520)는, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 여기에서, 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
방송 수신부(1530)는, 방송 채널을 통하여 외부로부터 방송 신호 및/또는 방송 관련된 정보를 수신한다. 방송 채널은 위성 채널, 지상파 채널을 포함할 수 있다. 구현 예에 따라서 전자 장치(1000)가 방송 수신부(1530)를 포함하지 않을 수도 있다.
일 실시 예에 의한, 통신부(1500)는 영상 인식 모델(130)을 학습하는데 필요한 데이터를 송수신할 수 있다.
A/V(Audio/Video) 입력부(1600)는 오디오 신호 또는 비디오 신호 입력을 위한 것으로, 이에는 카메라(1610)와 마이크로폰(1620) 등이 포함될 수 있다. 카메라(1610)는 화상 통화모드 또는 촬영 모드에서 이미지 센서를 통해 정지영상 또는 동영상 등의 화상 프레임을 얻을 수 있다. 이미지 센서를 통해 캡쳐된 이미지는 프로세서(1300) 또는 별도의 이미지 처리부(미도시)를 통해 처리될 수 있다.
마이크로폰(1620)은, 외부의 음향 신호를 입력 받아 전기적인 음성 데이터로 처리한다.
메모리(1700)는, 프로세서(1300)의 처리 및 제어를 위한 프로그램을 저장할 수 있고, 전자 장치(1000)로 입력되거나 전자 장치(1000)로부터 출력되는 데이터를 저장할 수도 있다.
일 실시 예에 의한 메모리(1700)는 가상의 DVS 영상 및 레이블 정보를 생성하고, 영상 인식 모델(130)을 학습하는데 필요한 정보를 저장할 수 있다. 예를 들면, 메모리(1700)는, 영상 인식 모델(130)을 저장할 수 있다. 또한, 일 실시 예에 의한 메모리(1700)는, 가상의 DVS 영상을 생성하는 가상 시뮬레이터(110)에 관한 정보를 저장할 수 있다.
메모리(1700)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM, Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM, Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.
메모리(1700)에 저장된 프로그램들은 그 기능에 따라 복수 개의 모듈들로 분류할 수 있는데, 예를 들어, UI 모듈(1710), 터치 스크린 모듈(1720), 알림 모듈(1730) 등으로 분류될 수 있다.
UI 모듈(1710)은, 애플리케이션 별로 전자 장치(1000)와 연동되는 특화된 UI, GUI 등을 제공할 수 있다. 터치 스크린 모듈(1720)은 사용자의 터치 스크린 상의 터치 제스처를 감지하고, 터치 제스처에 관한 정보를 프로세서(1300)로 전달할 수 있다. 일부 실시예에 따른 터치 스크린 모듈(1720)은 터치 코드를 인식하고 분석할 수 있다. 터치 스크린 모듈(1720)은 컨트롤러를 포함하는 별도의 하드웨어로 구성될 수도 있다.
터치스크린의 터치 또는 근접 터치를 감지하기 위해 터치스크린의 내부 또는 근처에 다양한 센서가 구비될 수 있다. 터치스크린의 터치를 감지하기 위한 센서의 일례로 촉각 센서가 있다. 촉각 센서는 사람이 느끼는 정도로 또는 그 이상으로 특정 물체의 접촉을 감지하는 센서를 말한다. 촉각 센서는 접촉면의 거칠기, 접촉 물체의 단단함, 접촉 지점의 온도 등의 다양한 정보를 감지할 수 있다.
사용자의 터치 제스처에는 탭, 터치&홀드, 더블 탭, 드래그, 패닝, 플릭, 드래그 앤드 드롭, 스와이프 등이 있을 수 있다.
알림 모듈(1730)은 전자 장치(1000)의 이벤트 발생을 알리기 위한 신호를 발생할 수 있다.
도 4는 일 실시 예에 의한 영상 인식 모델(130)을 학습하는 방법을 나타낸 순서도이다.
도 4를 참조하면, 단계 410에서, 일 실시 예에 의한 전자 장치(1000)는 가상 시뮬레이터(310)를 이용하여 가상의 DVS 영상을 생성할 수 있다. 일 실시 예에 의한 전자 장치(1000)는 가상 시뮬레이터(310)를 통해, 가상 환경을 생성하고, 가상 환경에 기초하여, 가상의 DVS 영상을 생성할 수 있다.
일 실시 예에 의한 가상 시뮬레이터(310)는, 영상 인식 모델에서 인식될 수 있는 실제 DVS 영상이 촬영될 수 있는 주변 환경에 관한 정보에 기초하여 가상 환경을 생성할 수 있다. 예를 들면, 전자 장치(1000)에 구비된 다양한 센서에 의해 감지된 정보에 기초하여, 전자 장치(1000)는 주변 환경에 관한 정보를 획득하고, 주변 환경에 관한 정보를 가상 시뮬레이터(310)로 전달할 수 있다.
일 실시 예에 의한 주변 환경에 관한 정보는, DVS 영상을 촬영하는 DVS 센서를 구비한 전자 장치(1000) 또는, 전자 장치(1000) 이외 다른 장치의 주변 환경에 관한 정보일 수 있다.
따라서, 일 실시 예에 의한, 가상 시뮬레이터(310)는 전자 장치(1000)의 주변 환경에 관한 정보에 기초하여, 가상 환경을 생성하고, 생성된 가상 환경에 기초하여 가상의 DVS 영상을 생성할 수 있다.
일 실시 예에 의한 주변 환경에 관한 정보는, 전자 장치(1000)의 위치, 이동 상태, 전자 장치(1000) 주변의 객체에 관하여 감지된 정보 등 전자 장치(1000)의 센서에 의해 감지될 수 있는 다양한 정보를 포함할 수 있다.
또한, 일 실시 예에 의한 전자 장치(1000)는, 전자 장치(1000)에서 획득된 주변 환경에 관한 정보가 기준값 이상 변경되었는지 여부를 판단할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 주변 환경에 관한 정보가 기준값 이상 변경될 때마다 가상 시뮬레이터(310)로, 변경된 주변 환경에 관한 정보를 전달할 수 있다.
일 실시 예에 의한 가상 시뮬레이터(310)는, 전자 장치(1000)로부터 변경된 주변 환경에 관한 정보를 획득할 때마다, 가상 환경을 생성하고, 생성된 가상 환경에 기초하여 가상의 DVS 영상을 생성할 수 있다. 따라서, 일 실시 예에 의하면, 가상의 DVS 영상은, 주변 환경에 관한 정보가 기준값 이상 변경될 때 마다, 상기 변경된 주변 환경에 관한 정보에 기초하여, 생성될 수 있다. 또한, 일 실시 예에 의하면, 전자 장치(1000)의 변경된 주변 환경에 관한 정보에 기초하여, 영상 인식 모델이 지속적으로 학습될 수 있다.
단계 420에서, 일 실시 예에 의한 전자 장치(1000)는 가상의 DVS 영상에 대한 레이블 정보를 생성할 수 있다. 일 실시 예에 의한 레이블 정보는, 영상 인식 모델에 의하여, 가상의 DVS 영상이 인식된 결과에 대한 적어도 하나의 정답에 관한 정보를 포함할 수 있다. 일 실시 예에 의한 영상 인식 모델은, 영상 인식 모델에 의한 결과와, 상기 정답 정보 간 차이가 최소화되도록, 수정됨으로써, 영상 인식 모델이 갱신될 수 있다.
일 실시 예에 의한 레이블 정보는, 가상 시뮬레이터(310)에 의해 생성된 가상 환경에 관한 정보에 기초하여, 결정될 수 있다. 일 실시 예에 의한 가상 환경에 관한 정보는, 가상 환경이 생성된 후, 가상 객체가 가상 환경에 배치될 때, 상기 가상 환경 및 가상 객체에 대해 미리 정의된 특성 정보에 따라서 결정될 수 있다.
예를 들어, 가상 객체가 가상 환경에서 일정한 속도로 움직이도록 배치된 경우, 가상 객체의 식별 정보, 이동 정보 등에 기초하여, 레이블 정보가 결정될 수 있다.
일 실시 예에 의한 레이블 정보는, 가상 시뮬레이터(310)에 의해 미리 설정된 정보에 따라 구현되는 가상 환경 및 가상 객체에 기초하여 생성되므로, 가상 DVS 영상이 생성될 때마다 자동으로 생성될 수 있다. 또한, 레이블 정보는, 가상 시뮬레이터(310)에 의해 미리 설정된 정보에 따라 결정될 수 있으므로, 정확하고 상세한 정보를 포함할 수 있다.
단계 430에서, 일 실시 예에 의한 전자 장치(1000)는 가상의 DVS 영상 및 상기 가상의 DVS 영상과 대응되는 레이블 정보에 기초하여, 실제의 DVS 영상을 인식하기 위한 영상 인식 모델을 학습할 수 있다.
일 실시 예에 의하면, 영상 인식 모델의 학습을 위한 DVS 영상 데이터가 부족하더라도, 가상 시뮬레이터(310)에 의해 생성된 가상의 DVS 영상에 기초하여 영상 인식 모델이 충분히 학습될 수 있다. 또한, 일 실시 예에 의한 가상의 DVS 영상에 대한 레이블 정보는, 가상 시뮬레이터(310)에 의해 미리 설정된 정확하고 상세한 정보에 따라 결정될 수 있으므로, 상기 레이블 정보에 기초하여 영상 인식 모델이 학습됨에 따라서, 영상 인식 모델의 성능이 더 좋아질 수 있다.
도 5는 일 실시 예에 의한 가상 시뮬레이터(310)에 의해 생성된 가상 환경의 일 예를 나타낸 도면이다.
도 5를 참조하면, 일 실시 예에 의한 가상 시뮬레이터(310)는, 집 안 내부 환경이 구현된 가상 환경(500)을 생성하고, 가상 환경(500)에 복수의 객체들(511, 512, 520)을 배치할 수 있다.
일 실시 예에 있어서, 가상 환경(500)에 배치될 수 있는 복수의 객체들(511, 512, 520)은, 상기 가상 환경(500)과 대응되는 실제 환경에서, 실제 DVS 영상으로 촬영될 가능성이 있는 객체일 수 있다.
일 실시 예에 의한 가상 환경(500)에는, 고정된 객체인, 쇼파(512) 및 탁자(511)와, 이동하면서 가상의 DVS 영상을 촬영하는 객체인, 로봇 청소기(520)가 배치될 수 있다. 쇼파(512), 탁자(511) 및 로봇 청소기(520)는, 가상 환경(500)에서 미리 지정된 위치에 배치될 수 있다. 또한, 로봇 청소기(520)는, 미리 지정된 경로 및 속도에 따라 가상 환경(500)에서 이동하도록 배치될 수 있다.
일 실시 예에 의한 가상의 DVS 영상은, 가상 환경(500)에 배치된 복수 개의 DVS 센서(521, 522, 523)를 기준으로 하는 각각의 카메라 시점에서 생성될 수 있다. 일 실시 예에 의하면, 가상 환경(500)에서, 서로 다른 카메라 시점(view point)에서 동시에 촬영된 복수 개의 가상의 DVS 영상에 기초하여, 영상 인식 모델(330)이 학습될 수 있다. 또한, 일 실시 예에 의한 가상의 DVS 영상은, 시간 흐름에 따라, 로봇 청소기(520)가 이동하는 장면이 서로 다른 카메라 시점에서 촬영된 복수 개의 영상 시퀀스로서, 획득될 수 있다.
고정된 위치에 배치된 DVS 센서(522, 523)는, 고정된 객체인 탁자(511) 및 쇼파(512)를 제외한, 움직이는 객체인, 로봇 청소기(520)가 감지된 가상의 DVS 영상을 획득할 수 있다. 반면, 이동하는 로봇 청소기(520)에 배치된 DVS 센서(521)는, DVS 센서(521)의 이동으로 인해, 고정된 객체도 DVS 영상에서는 움직이는 객체로 감지될 수 있다. 따라서, 로봇 청소기(520)에 배치된 DVS 센서(521)는, 움직이는 객체뿐만 아니라, 고정된 객체인 탁자(511) 및 쇼파(512)도 감지된 가상의 DVS 영상을 획득할 수 있다.
따라서, 일 실시 예에 의하면, 다른 시점 및 다른 이동 상태에서 촬영된 복수 개의 가상의 DVS 영상에 기초하여, 더 정밀하고 많은 데이터에 기초한, 영상 인식 모델(330) 학습이 가능하다.
도 6은 일 실시 예에 의한 가상 데이터에 기초하여, 영상 인식 모델을 학습하는 방법을 나타낸 순서도이다.
일 실시 예에 의한 가상 데이터는, 가상 환경에 기초하여 생성된, 가상의 DVS 영상 및 레이블 정보의 쌍을 포함할 수 있다.
단계 610에서, 일 실시 예에 의한 전자 장치(1000)는, 가상의 DVS 영상을 획득하기 위해, DVS 영상에 대한 가상 환경을 생성할 수 있다. 일 실시 예에 의한 가상 환경은, 가상 환경의 특성 정보(ex. 가상 환경의 크기, 객체, 밝기 등)이 미리 정의됨으로써, 생성될 수 있다. 예를 들면, 전자 장치(1000)에 의해 감지된 주변 환경 정보에 기초하여, 가상 환경과 관련된 특성 정보가 미리 설정될 수 있다.
단계 620에서, 일 실시 예에 의한 전자 장치(1000)는, 가상 환경에 기초하여, 가상의 DVS 영상을 생성할 수 있다. 일 실시 예에 의한 전자 장치(1000)는, 가상 환경을 생성한 후, 가상의 DVS 영상이 촬영되는 적어도 하나의 시점(view point)을 결정할 수 있다.
일 실시 예에 의한 가상의 DVS 영상이 촬영되는 적어도 하나의 시점은, 고정 또는 이동될 수 있다. 일 실시 예에 의한, 가상의 DVS 영상이 촬영되는 적어도 하나의 시점이 이동하는 시점인 경우, 이동 경로 및 속도 등, 이동에 관한 정보가 설정되고, 설정된 정보에 따라 가상의 DVS 영상이 생성될 수 있다.
예를 들어, 가상의 DVS 영상이, 가상 환경에 배치된, 집안에서 이동하는 로봇 청소기에 포함된 DVS 센서에 의하여 촬영되는 경우, 상기 로봇 청소기의 특성 정보에 기초하여 로봇 청소기의 이동 경로 및 속도가 설정될 수 있다. 상기 설정된 이동 정보에 따라서, 로봇 청소기의 DVS 센서에 의해 촬영된, 가상의 DVS 영상이 생성될 수 있다.
단계 630에서, 일 실시 예에 의한 전자 장치(1000)는 가상 환경에 기초하여, 단계 620에서 생성된 가상의 DVS 영상에 대한 레이블 정보를 생성할 수 있다. 일 실시 예에 의한 레이블 정보는, 영상 인식 모델에 의해 상기 가상의 DVS 영상이 인식된 결과에 대한 정답을 나타내는 정답 정보를 포함할 수 있다.
일 실시 예에 의한 레이블 정보는, 상술한 가상 환경에 대해 미리 설정된 특성 정보, DVS 영상을 촬영하는 DVS 센서의 이동 경로 및 속도에 대해 미리 설정된 정보, DVS 영상에 포함된 가상 객체와 관련하여 미리 설정된 특성 정보(ex. 위치, 이동 속도, 이동 경로, 식별 정보, 상태) 등에 기초하여, 상기 정답 정보가 결정됨에 따라, 획득될 수 있다.
일 실시 예에 의한 레이블 정보는, 가상 환경을 생성하고, 가상 객체를 배치하기 위하여, 미리 설정되어야 하는 정보에 기초하여, 결정될 수 있다. 따라서, 가상의 DVS 영상이 생성된 시점(time point)에서, 상기 레이블 정보가 결정되는데 이용되는 정보는, 가상 환경을 생성하고, 가상 객체를 배치하기 위하기 위해 이미 전자 장치(1000)에 저장되어 있는 정보일 수 있다. 일 실시 예에 의한 레이블 정보는, 전자 장치(1000)에 가상 환경과 관련하여 이미 저장된 정보에 기초하여, 사용자의 다른 입력 없이, 자동으로 결정될 수 있다.
또한, 일 실시 예에 의한 레이블 정보는, 영상 인식 모델에 의해 출력될 수 있는 정보에 대한 정답을 나타내는, 적어도 하나의 정답 정보를 포함할 수 있다. 예를 들어, 영상 인식 모델에 의해, 영상 인식 결과로서, 영상에서 인식된 객체에 대한 식별 정보, 상태 정보, 이동 정보 등이 출력될 수 있는 경우, 레이블 정보는, 상술한 객체 인식 정보, 객체 상태 정보, 객체 이동 정보 등과 각각 대응되는 적어도 하나의 정답 정보를 포함할 수 있다.
단계 640에서, 일 실시 예에 의한 전자 장치(1000)는, 적어도 하나의 가상의 DVS 영상 및 각 DVS 영상과 대응되는 레이블 정보를 포함하는, 가상 데이터를 생성할 수 있다. 또한, 단계 650에서, 일 실시 예에 의한 전자 장치(1000)는, 가상 데이터에 기초하여, 영상 인식 모델을 학습할 수 있다.
일 실시 예에 의하면, 가상의 DVS 영상에 대한 영상 인식 모델에 의한 인식 결과가 레이블 정보의 정답 정보에 가까운 값을 가지도록, 영상 인식 모델이 수정됨으로써, 영상 인식 모델에 대한 학습이 수행될 수 있다.
도 7은 일 실시 예에 의한 전자 장치(1000) 및 외부 장치(700)의 일 예를 나타낸 도면이다.
도 7을 참조하면, 일 실시 예에 의한 전자 장치(1000)에 의해 학습된 영상 인식 모델이 외부 장치(700)로 전달될 수 있다.
일 실시 예에 의한 외부 장치(700)는, 전자 장치(1000)에 의해 학습된 영상 인식 모델을 탑재하고, 영상 인식 모델에 기초하여, 외부 장치(700)에서 획득된 실제 DVS 영상을 인식할 수 있는 장치를 포함할 수 있다. 예를 들면, 외부 장치(700)는, 전자 장치(1000)와 연결될 수 있는, 로봇 청소기, 스마트 냉장고, 스마트 TV, 카메라 등을 포함할 수 있으며, 상술한 예에 한하지 않고, 다양한 종류의 장치를 포함할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 각각의 외부 장치(700)에서 촬영될 수 있는, 가상의 DVS 영상을 생성하고, 가상의 DVS 영상에 기초하여 영상 인식 모델을 학습할 수 있다. 예를 들어, 전자 장치(1000)는, 외부 장치(700) 중 로봇 청소기의 이동 경로 및 속도에 따라 로봇 청소기에 구비된 DVS 센서에 의하여 촬영될 수 있는 가상의 DVS 영상을 생성할 수 있다. 또한, 전자 장치(1000)는, 외부 장치(700) 중 스마트 TV, 스마트 냉장고 등의 위치에 따라, 스마트 TV, 스마트 냉장고 각각에 구비된 DVS 센서에 의하여 촬영될 수 있는 가상의 DVS 영상을 생성할 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 상기 각각의 외부 장치(700)에 의하여 촬영될 수 있는 가상의 DVS 영상에 대한 레이블 정보를, 가상 환경을 생성하기 위하여, 미리 설정된 정보에 기초하여 획득할 수 있다. 상기 미리 설정된 정보는, 가상 환경 및 가상 환경의 가상 객체 중 적어도 하나에 대하여 미리 정의된 특성 정보일 수 있다.
일 실시 예에 의한 전자 장치(1000)는, 적어도 하나의 외부 장치(700)에 대해 생성된 가상의 DVS 영상 및 레이블 정보에 기초하여, 영상 인식 모델을 학습하고, 학습된 영상 인식 모델을 적어도 하나의 외부 장치(700)로 전달할 수 있다.
일 실시 예에 의한 적어도 하나의 외부 장치(700)는, 전자 장치(1000)로부터 수신된 영상 인식 모델에 기초하여, 각 외부 장치(700)에서 획득된 DVS 영상을 인식할 수 있다.
예를 들어, 외부 장치(700) 중 스마트 TV는, 영상 인식 모델을 이용하여, 스마트 TV에서 촬영된 DVS 영상으로부터, 사용자의 움직임을 감지하고, 사용자의 TV 시청 여부를 결정할 수 있다. 일 실시 예에 의한 스마트 TV는 사용자의 TV 시청 여부에 기초하여, 다양한 동작, 예를 들면, 스마트 TV의 전원을 끄거나 켜는 동작을 수행할 수 있다.
또 다른 예로, 외부 장치(700) 중 로봇 청소기는, 영상 인식 모델을 이용하여, 로봇 청소기에서 촬영된 DVS 영상으로부터, 사용자의 이동 경로를 예측할 수 있다. 일 실시 예에 의한 로봇 청소기는 사용자의 이동 경로에 기초하여, 로봇 청소기의 이동 경로를 결정하고, 결정된 경로에 따라 이동하면서 바닥 청소를 수행할 수 있다.
또한, 일 실시 예에 의한 전자 장치(1000)는, 적어도 하나의 외부 장치(700)로, 영상 인식 모델을 전달하는 대신, 전자 장치(1000)에서, 각 외부 장치(700)에서 획득된 DVS 영상을 수신할 수 있다. 일 실시 예에 의한 전자 장치(1000)는 각 외부 장치(700)로부터 수신된 DVS 영상을, 일 실시 예에 따라 학습된 영상 인식 모델에 기초하여, 인식할 수 있다. 또한, 전자 장치(1000)는, 각 외부 장치(700)로부터 수신된 DVS 영상이 인식된 결과에 따라, 동작을 수행하거나 각 외부 장치(700)로 상기 결과와 관련된 정보를 전송할 수 있다.
일 실시 예에 의하면, 영상 인식 모델을 학습시키기 위한 데이터가 영상 인식 모델이 학습되기에 충분하지 않은 경우에도, 가상 시뮬레이터를 이용하여 생성된 DVS 영상 및 레이블 정보의 쌍에 기초하여, 영상 인식 모델이 충분히 학습될 수 있다. 
일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 또는 프로그램 모듈을 포함하며, 임의의 정보 전달 매체를 포함한다.
또한, 본 명세서에서, “부”는 프로세서 또는 회로와 같은 하드웨어 구성(hardware component), 및/또는 프로세서와 같은 하드웨어 구성에 의해 실행되는 소프트웨어 구성(software component)일 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (15)

  1. 영상 인식 모델을 학습하는 방법에 있어서,
    가상 시뮬레이터를 이용하여, 가상의 DVS 영상을 생성하는 단계;
    상기 DVS 영상에 대하여, 상기 영상 인식 모델에 의해 상기 DVS 영상이 인식된 결과에 대한 정답에 관한 정보를 포함하는 레이블 정보를 생성하는 단계; 및
    상기 영상 인식 모델에 의해 상기 DVS 영상이 인식된 결과와 상기 레이블 정보 간 차이가 최소화되도록, 상기 영상 인식 모델을 수정함으로써, 상기 영상 인식 모델을 학습하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 가상의 DVS 영상은
    상기 가상 시뮬레이터에 의해 생성된 가상 환경 및 상기 가상 환경에 배치된 가상 객체에 기초하여 생성되는, 방법.
  3. 제2항에 있어서, 상기 레이블 정보는,
    상기 가상 환경 및 상기 가상 객체 중 적어도 하나에 대하여 미리 정의된 특성 정보에 기초하여 획득되는, 방법.
  4. 제2항에 있어서,
    상기 가상 환경과 대응되는 실제 환경에서, 상기 영상 인식 모델에 의해 인식될 수 있는, 실제 DVS 영상으로 촬영될 수 있는 객체가, 상기 가상 객체로서, 상기 가상 환경에서 배치되는, 방법.
  5. 제1항에 있어서, 상기 가상의 DVS 영상을 생성하는 단계는
    상기 가상 시뮬레이터에 의해 생성된 가상 환경에서, 적어도 하나의 카메라 시점을 결정하는 단계; 및
    상기 적어도 하나의 카메라 시점에서 동시에 촬영된 적어도 하나의 가상의 DVS 영상을 생성하는 단계를 포함하고,
    상기 영상 인식 모델은, 상기 적어도 하나의 가상의 DVS 영상에 기초하여, 학습되는, 방법.
  6. 제1항에 있어서, 상기 가상 시뮬레이터에 의해,
    상기 영상 인식 모델에 의해 인식될 수 있는, 실제 DVS 영상이 촬영될 수 있는, 주변 환경에 관한 정보에 기초하여, 가상 환경이 생성되고, 상기 가상 환경에 기초하여, 상기 가상의 DVS 영상이 생성되는, 방법.
  7. 제6항에 있어서, 상기 가상의 DVS 영상은,
    상기 주변 환경에 관한 정보가 기준 값 이상 변경될 때마다, 상기 변경된 주변 환경에 관한 정보에 기초하여, 생성되는, 방법.
  8. 영상 인식 모델을 학습하는 전자 장치에 있어서,
    영상 인식 모델을 저장하는 메모리; 및
    가상 시뮬레이터를 이용하여, 가상의 DVS 영상을 생성하고, 상기 DVS 영상에 대하여, 상기 영상 인식 모델에 의해 상기 DVS 영상이 인식된 결과에 대한 정답에 관한 정보를 포함하는 레이블 정보를 생성하고, 상기 영상 인식 모델에 의해 상기 DVS 영상이 인식된 결과와 상기 레이블 정보 간 차이가 최소화되도록, 상기 영상 인식 모델을 수정함으로써, 상기 영상 인식 모델을 학습하는 적어도 하나의 프로세서를 포함하는, 전자 장치.
  9. 제8항에 있어서, 상기 가상의 DVS 영상은
    상기 가상 시뮬레이터에 의해 생성된 가상 환경 및 상기 가상 환경에 배치된 가상 객체에 기초하여 생성되는, 전자 장치.
  10. 제9항에 있어서, 상기 레이블 정보는,
    상기 가상 환경 및 상기 가상 객체 중 적어도 하나에 대하여 미리 정의된 특성 정보에 기초하여 획득되는, 전자 장치.
  11. 제9항에 있어서,
    상기 가상 환경과 대응되는 실제 환경에서, 상기 영상 인식 모델에 의해 인식될 수 있는 실제 DVS 영상으로 촬영될 수 있는 객체가, 상기 가상 객체로서, 상기 가상 환경에서 배치되는, 전자 장치.
  12. 제8항에 있어서, 상기 적어도 하나의 프로세서는
    상기 가상 시뮬레이터에 의해 생성된 가상 환경에서, 적어도 하나의 카메라 시점을 결정하고, 상기 적어도 하나의 카메라 시점에서 동시에 촬영된 적어도 하나의 가상의 DVS 영상을 생성하고,
    상기 영상 인식 모델은, 상기 적어도 하나의 가상의 DVS 영상에 기초하여, 학습되는, 전자 장치.
  13. 제8항에 있어서, 상기 가상 시뮬레이터에 의해,
    상기 영상 인식 모델에 의해 인식될 수 있는, 실제 DVS 영상이 촬영될 수 있는, 주변 환경에 관한 정보에 기초하여, 가상 환경이 생성되고, 상기 가상 환경에 기초하여, 상기 가상의 DVS 영상이 생성되는, 전자 장치.
  14. 제13항에 있어서, 상기 가상의 DVS 영상은,
    상기 주변 환경에 관한 정보가 기준 값 이상 변경될 때마다, 상기 변경된 주변 환경에 관한 정보에 기초하여, 생성되는, 전자 장치.
  15. 제1항 내지 제7항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록 매체.
PCT/KR2020/004610 2019-09-11 2020-04-06 영상 인식 모델을 학습하는 전자 장치 및 그 동작 방법 WO2021049730A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/693,095 US11908175B2 (en) 2019-09-11 2022-03-11 Electronic device training image recognition model and operation method for same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190113023A KR20210031269A (ko) 2019-09-11 2019-09-11 영상 인식 모델을 학습하는 전자 장치 및 그 동작 방법
KR10-2019-0113023 2019-09-11

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/693,095 Continuation US11908175B2 (en) 2019-09-11 2022-03-11 Electronic device training image recognition model and operation method for same

Publications (1)

Publication Number Publication Date
WO2021049730A1 true WO2021049730A1 (ko) 2021-03-18

Family

ID=74867030

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/004610 WO2021049730A1 (ko) 2019-09-11 2020-04-06 영상 인식 모델을 학습하는 전자 장치 및 그 동작 방법

Country Status (3)

Country Link
US (1) US11908175B2 (ko)
KR (1) KR20210031269A (ko)
WO (1) WO2021049730A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210031269A (ko) * 2019-09-11 2021-03-19 삼성전자주식회사 영상 인식 모델을 학습하는 전자 장치 및 그 동작 방법
KR102633177B1 (ko) * 2023-01-20 2024-02-02 주식회사 핀텔 디지털트윈을 이용한 라벨링된 인공지능 학습데이터의 생성방법 및 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170074413A (ko) * 2015-12-22 2017-06-30 연세대학교 산학협력단 3d 모델을 활용한 2d 영상 학습 데이터 생성 시스템 및 그 생성방법
KR20180093582A (ko) * 2017-02-14 2018-08-22 한국전자통신연구원 엔드투엔드 학습에 기반한 영상 이벤트 구간 인덱싱 방법 및 장치
US20190096081A1 (en) * 2017-09-28 2019-03-28 Samsung Electronics Co., Ltd. Camera pose determination and tracking
KR20190096866A (ko) * 2019-07-31 2019-08-20 엘지전자 주식회사 차량 내부의 모니터링 방법 및 장치, 이를 위한 객체검출모델을 생성하는 3d 모델링부
KR20190099185A (ko) * 2017-05-25 2019-08-26 삼성전자주식회사 위험 상황을 감지하는 방법 및 시스템

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2662423B2 (ja) 1988-08-10 1997-10-15 三田工業株式会社 コロナ放電器の放電ムラ測定方法及び測定装置
US8510283B2 (en) * 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US8856108B2 (en) * 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US8868555B2 (en) * 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US8825682B2 (en) * 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US9020966B2 (en) * 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US11106273B2 (en) * 2015-10-30 2021-08-31 Ostendo Technologies, Inc. System and methods for on-body gestural interfaces and projection displays
JP6548691B2 (ja) 2016-10-06 2019-07-24 株式会社アドバンスド・データ・コントロールズ 画像生成システム、プログラム及び方法並びにシミュレーションシステム、プログラム及び方法
US10510160B2 (en) 2016-12-20 2019-12-17 Samsung Electronics Co., Ltd. Multiscale weighted matching and sensor fusion for dynamic vision sensor tracking
US10860854B2 (en) * 2017-05-16 2020-12-08 Google Llc Suggested actions for images
KR102481883B1 (ko) 2017-09-27 2022-12-27 삼성전자주식회사 위험 상황을 감지하는 방법 및 장치
US10529074B2 (en) 2017-09-28 2020-01-07 Samsung Electronics Co., Ltd. Camera pose and plane estimation using active markers and a dynamic vision sensor
US11676269B2 (en) * 2017-10-20 2023-06-13 Genfit Automated pattern recognition and scoring method of histological images
KR20190104929A (ko) * 2019-08-22 2019-09-11 엘지전자 주식회사 사용자 인증과 기능 실행을 동시에 수행하는 방법 및 이를 위한 전자 디바이스
KR20210031269A (ko) * 2019-09-11 2021-03-19 삼성전자주식회사 영상 인식 모델을 학습하는 전자 장치 및 그 동작 방법
EP3926544B1 (en) * 2020-06-18 2024-03-13 Tata Consultancy Services Limited System and method of gesture recognition using a reservoir based convolutional spiking neural network
US11431660B1 (en) * 2020-09-25 2022-08-30 Conversation Processing Intelligence Corp. System and method for collaborative conversational AI

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170074413A (ko) * 2015-12-22 2017-06-30 연세대학교 산학협력단 3d 모델을 활용한 2d 영상 학습 데이터 생성 시스템 및 그 생성방법
KR20180093582A (ko) * 2017-02-14 2018-08-22 한국전자통신연구원 엔드투엔드 학습에 기반한 영상 이벤트 구간 인덱싱 방법 및 장치
KR20190099185A (ko) * 2017-05-25 2019-08-26 삼성전자주식회사 위험 상황을 감지하는 방법 및 시스템
US20190096081A1 (en) * 2017-09-28 2019-03-28 Samsung Electronics Co., Ltd. Camera pose determination and tracking
KR20190096866A (ko) * 2019-07-31 2019-08-20 엘지전자 주식회사 차량 내부의 모니터링 방법 및 장치, 이를 위한 객체검출모델을 생성하는 3d 모델링부

Also Published As

Publication number Publication date
KR20210031269A (ko) 2021-03-19
US20220198786A1 (en) 2022-06-23
US11908175B2 (en) 2024-02-20

Similar Documents

Publication Publication Date Title
WO2020080773A1 (en) System and method for providing content based on knowledge graph
AU2017210821B2 (en) Electronic device and method for controlling the same
WO2018212538A1 (en) Electronic device and method of detecting driving event of vehicle
WO2020085694A1 (ko) 이미지 획득 장치 및 그의 제어 방법
EP3566210A1 (en) System and method for augmented reality control
EP3602497A1 (en) Electronic device and method of detecting driving event of vehicle
WO2020013676A1 (en) Electronic device and operating method of controlling brightness of light source
WO2021049730A1 (ko) 영상 인식 모델을 학습하는 전자 장치 및 그 동작 방법
WO2019172642A1 (ko) 심장 박동을 측정하기 위한 전자 장치 및 방법
WO2018124500A1 (ko) 객체의 인식 결과를 제공하는 방법 및 전자 장치
WO2015182935A1 (en) Method of controlling display device and remote controller thereof
WO2018021726A1 (ko) 카메라 모듈의 활성화를 제어하기 위한 전자 장치 및 방법
WO2019190171A1 (ko) 전자 장치 및 그 제어 방법
WO2021149890A1 (ko) 사용자의 개인 모델을 학습하는 전자 장치 및 그 동작 방법
WO2021080290A1 (en) Electronic apparatus and control method thereof
WO2020130274A1 (ko) 영상에서 오브젝트를 인식하는 전자 장치 및 그 동작 방법
WO2018097483A1 (ko) 움직임 정보 생성 방법 및 이를 지원하는 전자 장치
WO2022039494A1 (ko) 단말의 모델을 갱신하는 서버 및 그 동작 방법
WO2019151739A1 (en) Electronic apparatus and control method thereof
WO2020226264A1 (ko) 영상에 기초하여 위치 정보를 획득하는 전자 장치 및 그 동작 방법
WO2022030998A1 (ko) 디스플레이를 포함하는 전자 장치 및 그의 동작 방법
WO2021071249A1 (en) Electronic apparatus and control method thereof
WO2020171574A1 (en) System and method for ai enhanced shutter button user interface
WO2020055097A1 (ko) 객체를 인식하는 전자 장치 및 그 전자 장치를 제어하는 방법
WO2020159032A1 (ko) 복수의 어플리케이션에 카메라에서 획득한 이미지를 제공하는 전자 장치 및 그의 동작 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20862444

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20862444

Country of ref document: EP

Kind code of ref document: A1