WO2023063661A1 - 학습 세트 생성 방법, 학습 세트 생성 장치, 및 학습 세트 생성 시스템 - Google Patents

학습 세트 생성 방법, 학습 세트 생성 장치, 및 학습 세트 생성 시스템 Download PDF

Info

Publication number
WO2023063661A1
WO2023063661A1 PCT/KR2022/015177 KR2022015177W WO2023063661A1 WO 2023063661 A1 WO2023063661 A1 WO 2023063661A1 KR 2022015177 W KR2022015177 W KR 2022015177W WO 2023063661 A1 WO2023063661 A1 WO 2023063661A1
Authority
WO
WIPO (PCT)
Prior art keywords
bounding box
target
obtaining
target object
image
Prior art date
Application number
PCT/KR2022/015177
Other languages
English (en)
French (fr)
Inventor
강창범
김성웅
Original Assignee
주식회사 에너자이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020210134610A external-priority patent/KR102433287B1/ko
Application filed by 주식회사 에너자이 filed Critical 주식회사 에너자이
Publication of WO2023063661A1 publication Critical patent/WO2023063661A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/72Data preparation, e.g. statistical preprocessing of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • G06T2207/10044Radar image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Definitions

  • This application relates to a learning set generating method, a learning set generating device, and a learning set generating system. Specifically, the present application relates to a learning set generation method, a learning set generation device, and a learning set generation system for learning a neural network model for detecting an object from sensing data including radar data or lidar data. .
  • One of the most difficult and important tasks to train an artificial intelligence model is labeling a training set for training an artificial intelligence model.
  • a method of manually assigning or annotating object information by an expert to a point cloud included in sensing data obtained from a radar sensor or lidar sensor has been adopted.
  • the conventional method has a problem in that considerable time and cost are required to prepare a learning set.
  • the radar sensor has a relatively low resolution due to the characteristics of the sensor, so it is difficult to infer the exact shape of an object based on the point cloud included in the radar data, making it impossible to perform labeling work, or even manually labeling the accuracy is low. Restrictions existed.
  • An object to be solved by the present invention is to provide a learning set generating method, a learning set generating device, and a learning set generating system for training a neural network model for detecting an object from sensing data obtained from a radar sensor or lidar sensor. .
  • a method for generating a learning set includes calibrating at least two or more cameras; obtaining a first image captured from a first camera and a second image captured from a second camera; recognizing a target object from the first image and acquiring first object information related to the target object; recognizing the target object from the second image and acquiring second object information related to the target object; obtaining a three-dimensional target bounding box related to the target object from the first object information and the second object information; obtaining sensing data corresponding to the target bounding box, wherein the sensing data is obtained through at least one of a lidar sensor and a radar sensor; and generating a learning set for learning a neural network model for detecting an object included in the sensing data based on the sensing data and the target bounding box.
  • An apparatus for generating a learning set includes a transceiver communicating with at least one of a first camera, a second camera, and a sensor; and a controller that acquires image data through the first camera and the second camera, obtains sensing data through the sensor, and generates a learning set based on the image data and the sensing data.
  • the controller acquires a first image captured from the first camera and a second image captured from the second camera, recognizes a target object from the first image, and obtains first object information related to the target object, , Recognize the target object from the second image, obtain second object information related to the target object, and obtain a 3D target bounding box related to the target object based on the first object information and the second object information.
  • time and cost required for preparing a learning set can be saved by associating image data with a labeling task for sensing data.
  • a more sophisticated learning set can be created by obtaining a bounding box related to a target object using a similarity between object characteristic information or a landmark of an object. there is.
  • FIG. 1 is a schematic diagram of a learning set generation system according to an embodiment of the present application.
  • FIG. 2 is a diagram illustrating operations of a learning set generating system according to an embodiment of the present application.
  • FIG. 3 is a flowchart illustrating a method of generating a learning set according to an embodiment of the present application.
  • FIG. 4 is a flowchart embodying a step of performing calibration of at least two or more cameras according to an embodiment of the present application.
  • FIG. 5 is a flowchart embodying steps of performing calibration on internal parameters of a camera according to an embodiment of the present application.
  • FIG. 6 is a diagram illustrating an example of a first calibration reference object according to an embodiment of the present application.
  • FIG. 7 is a flowchart embodying steps of performing calibration on external parameters of a camera according to an embodiment of the present application.
  • FIG. 8 is a diagram illustrating an aspect of performing camera calibration using a second calibration reference object according to an embodiment of the present application.
  • FIG. 9 is a flowchart embodying a step of obtaining a target bounding box according to an embodiment of the present application.
  • FIG. 10 is a flowchart embodying a step of obtaining a target bounding box related to a target object according to an embodiment of the present application.
  • FIG. 11 is a diagram illustrating an aspect of obtaining a 3D target bounding box according to an embodiment of the present application.
  • FIG. 12 is a flowchart embodying a step of obtaining a target bounding box related to a target object according to an embodiment of the present application.
  • FIG. 13 is a diagram illustrating an aspect of determining a 3D target bounding box according to an embodiment of the present application.
  • FIG. 14 is a flowchart embodying a step of obtaining a target bounding box related to a target object according to another embodiment of the present application.
  • a method for generating a learning set includes calibrating at least two or more cameras; obtaining a first image captured from a first camera and a second image captured from a second camera; recognizing a target object from the first image and acquiring first object information related to the target object; recognizing the target object from the second image and acquiring second object information related to the target object; obtaining a three-dimensional target bounding box related to the target object from the first object information and the second object information; obtaining sensing data corresponding to the target bounding box, wherein the sensing data is obtained through at least one of a lidar sensor and a radar sensor; and generating a learning set for learning a neural network model for detecting an object included in the sensing data based on the sensing data and the target bounding box.
  • the obtaining of the 3D target bounding box related to the target object may include reverse projecting the first bounding box included in the first object information onto 3D spatial coordinates. to obtain a first projected volume; obtaining a second projected volume by reverse projecting a second bounding box included in the second object information onto 3D space coordinates; and obtaining an intersection volume between the first projection volume and the second projection volume based on the first projection volume and the second projection volume, and obtaining the target bounding box associated with the target object based on the intersection volume.
  • the step of doing; may include.
  • the acquiring of the target bounding box associated with the target object may include acquiring at least one first plane constituting the first projection volume; obtaining at least one second plane constituting the second projection volume; and acquiring a common plane of the first plane and the second plane, and obtaining the target bounding box based on the common plane.
  • the obtaining of a 3D target bounding box related to the target object may include generating at least two or more 3D temporary bounding boxes based on the first projection volume and the second projection volume. obtaining; obtaining first characteristic information related to the first bounding box; obtaining second characteristic information related to the second bounding box; allocating a matching score to the temporary bounding box based on a similarity between the first characteristic information and the second characteristic information; and determining the target bounding box from among the temporary bounding boxes based on the matching score.
  • the obtaining of a 3D target bounding box related to the target object may include projecting first cell information related to the target object included in the first object information to 3D spatial coordinates. obtaining a first projection straight line; obtaining a second projection straight line by projecting second cell information related to the target object included in the second object information onto a 3D spatial coordinate; and obtaining a 3D target bounding box related to the target object based on the first projection straight line and the second projection straight line.
  • the obtaining of a 3D target bounding box related to the target object based on the first projection straight line and the second projection straight line may include the first projection straight line and the second projection straight line.
  • the step of calibrating the at least two or more cameras includes performing calibration of internal parameters of the at least two or more cameras, and calibration of the internal parameters of the at least two or more cameras
  • the step of performing may include acquiring an image of a first calibration reference object through the camera; obtaining a first set of pixels associated with the first calibration reference object based on the image; obtaining coordinate system information of the camera; and correcting an intrinsic parameter of the camera based on the coordinate system information and the first pixel set.
  • the step of calibrating the at least two or more cameras includes performing calibration of external parameters of the at least two or more cameras, and calibration of the external parameters of the at least two or more cameras
  • the performing may include: obtaining reference coordinate information for the second calibration reference object, wherein the reference coordinate information is related to at least one sensor-based coordinate system of a lidar sensor and a radar sensor; obtaining an image of the second calibration reference object through the camera; obtaining a second set of pixels related to the second calibration reference object based on the image; obtaining a coordinate pair based on the reference coordinate information and the second pixel set; and performing correction on an external parameter of the camera based on the pair of coordinates.
  • a computer-readable recording medium recording a program for executing the learning set generating method may be provided.
  • An apparatus for generating a learning set includes a transceiver communicating with at least one of a first camera, a second camera, and a sensor; and a controller that acquires image data through the first camera and the second camera, obtains sensing data through the sensor, and generates a learning set based on the image data and the sensing data.
  • the controller acquires a first image captured from the first camera and a second image captured from the second camera, recognizes a target object from the first image, and obtains first object information related to the target object, , Recognize the target object from the second image, obtain second object information related to the target object, and obtain a 3D target bounding box related to the target object based on the first object information and the second object information.
  • FIGS. 1 to 14 a learning set generating method, a learning set generating device, and a learning set generating system of the present application will be described with reference to FIGS. 1 to 14 .
  • FIG. 1 is a schematic diagram of a learning set generation system 10 according to one embodiment of the present application.
  • the learning set generation system 10 includes at least one camera (eg, a first camera 110 and a second camera 120), a sensor 200 and a server 1000, or a learning set. generating device).
  • At least one camera may obtain an image of a target object and transmit the image to the server 1000 through an arbitrary transceiver.
  • the first camera 110 may be disposed at a first position with respect to the target object and obtain a first image related to the target object at a first angle (or first tilt).
  • the second camera 120 is disposed at a second position different from the first position with respect to the target object (or a second position adjacent to the first position) to view the target object at a second angle (or a second tilt).
  • a second image related to may be acquired.
  • the learning set generation system 10 is illustrated as including a first camera 110 and a second camera 120 .
  • the learning set generation system 10 may be configured to include any appropriate number of cameras.
  • training set generation system 10 may include a single camera.
  • the training set generation system 10 may include at least two or more cameras.
  • the sensor 200 may obtain sensing data related to a target object and transmit the sensing data to the server 1000 through an arbitrary transceiver.
  • the sensor 200 may be at least one of a radar sensor and/or a lidar sensor.
  • the sensor 200 may be any sensor for detecting an object other than a radar sensor and/or a lidar sensor.
  • the senor 200 may be disposed at a third location with respect to the target object to obtain sensing data of the target object.
  • the third location may be adjacent to or different from the first location and/or the second location.
  • the server 1000 or an apparatus for generating a learning set may include a transceiver 1100, a memory 1200, and a controller 1300.
  • the transceiver 1100 of the server 1000 may communicate with any external device including at least one of the cameras 110 and 120 and the sensor 200 .
  • the server 1000 may acquire image data from at least one camera 110 or 120 through the transceiver 1100 .
  • the server 1000 may obtain sensing data from the sensor 200 through the transceiver 1100 .
  • the server 1000 may transmit and receive various types of data by accessing a network through the transceiver 1100 .
  • the transceiver 1100 may largely include a wired type and a wireless type. Since the wired type and the wireless type each have advantages and disadvantages, the server 1000 may be provided with both the wired type and the wireless type in some cases.
  • a wireless local area network (WLAN)-based communication method such as Wi-Fi may be mainly used.
  • a wireless type a cellular communication, eg, LTE, 5G-based communication method may be used.
  • the wireless communication protocol is not limited to the above example, and any suitable wireless type communication method may be used.
  • LAN Local Area Network
  • USB Universal Serial Bus
  • the memory 1200 of the server 1000 may store various types of information. Various types of data may be temporarily or semi-permanently stored in the memory 1200 . Examples of the memory 1200 include a hard disk drive (HDD), a solid state drive (SSD), a flash memory, a read-only memory (ROM), a random access memory (RAM), and the like. This can be.
  • the memory 1200 may be provided in a form embedded in the server 1000 or in a detachable form.
  • the memory 1200 may store various data necessary for the operation of the server 1000, including an operating system (OS) for driving the server 1000 or a program for operating each component of the server 1000. there is.
  • OS operating system
  • the controller 1300 may control overall operations of the server 1000 .
  • the controller 1300 performs an operation of calibrating an internal parameter or an external parameter of the camera 110 or 120 to be described later, obtaining an image from the camera 110 or 120 or sensing data from the sensor 200.
  • the controller 1300 may load and execute a program for overall operation of the server 1000 from the memory 1200 .
  • the controller 1300 may be implemented as an application processor (AP), a central processing unit (CPU), a microcontroller unit (MCU), or similar devices according to hardware, software, or a combination thereof.
  • AP application processor
  • CPU central processing unit
  • MCU microcontroller unit
  • hardware in terms of hardware, it may be provided in the form of an electronic circuit that processes electrical signals to perform a control function, and in terms of software, it may be provided in the form of a program or code that drives a hardware circuit.
  • FIG. 2 is a diagram illustrating operations of the learning set generation system 10 according to an embodiment of the present application.
  • the server 1000 of the learning set generation system 10 includes internal parameters and/or external parameters of at least one camera (eg, the first camera 110 or the second camera 120). It is possible to perform an operation to correct the .
  • the server 1000 acquires an image of the first calibration reference object through at least one camera, and based on the feature points included in the image of the first calibration reference object, of a feature point related to the first calibration reference object.
  • Pixel coordinate information may be obtained.
  • the server 1000 may obtain camera coordinate system information.
  • the server 1000 may perform an operation of correcting an internal parameter of at least one camera based on the coordinate system information of the camera and the pixel coordinate information related to the first calibration reference object.
  • the server 1000 may obtain reference coordinate information on the second calibration reference object.
  • the reference coordinate information may include coordinate information related to a sensor-based coordinate system including a radar sensor or a lidar sensor.
  • the server 1000 may acquire feature points included in the image of the second calibration reference object through at least one camera, and obtain pixel coordinate information of feature points related to the second calibration reference object.
  • the server 1000 may obtain a coordinate pair by matching reference coordinate information and pixel coordinate information, and perform an operation of correcting an external parameter of the camera based on the coordinate pair.
  • the server 1000 of the learning set generation system 10 acquires an image from at least one camera (eg, the first camera 110 or the second camera 120) or uses the sensor 200 ) to obtain sensing data.
  • the server 1000 may obtain an image including a target object through a camera.
  • the server 1000 may obtain sensing data obtained by measuring data related to a target object through the sensor 200 .
  • the server 1000 of the learning set generation system 10 transmits frame information (eg, frame number information, frame time information), meta through the sensor 200.
  • frame information eg, frame number information, frame time information
  • Arbitrary data including information and the like can be obtained.
  • the server 1000 may perform an operation of matching synchronization between sensing data and image data acquired through a camera based on frame information, meta information, and the like.
  • the server 1000 of the learning set generation system 10 detects (or recognizes) a target object for each frame of an image acquired through a camera, and obtains object information related to the target object. can be performed.
  • the object information related to the target object is information on a 2D bounding box related to the target object and/or landmarks of the target object (e.g., eyes, nose, ears, shoulders, elbows, hands, pelvis, knees, feet, etc.) ) may include arbitrary image information related to the target object, including image information (eg, image coordinate information, etc.) corresponding to the target object.
  • the server 1000 detects a target object from a first image obtained from the first camera 110 and calculates a 2D first bounding box related to the target object based on the target object detection result.
  • the server 1000 may detect the target object from the second image obtained from the second camera 120 and obtain a 2D second bounding box related to the target object based on the target object detection result.
  • the server 1000 may detect a target object from an image and obtain a mask of a region corresponding to the target object by using a deep learning technique (eg, yolo, yoloV3, ssd, Retinanet, etc.).
  • the server 1000 may perform an operation of calculating a bounding box related to the target object based on the mask.
  • the server 1000 may utilize any technique for improving performance of target object detection.
  • the server 1000 utilizes a Simple Online and Realtime Tracking (hereinafter, SORT) algorithm in which a Kalman filter is added to an object detection technique to increase the accuracy of target object detection and perform an operation for tracking the location of an object.
  • SORT Simple Online and Realtime Tracking
  • the server 1000 detects the target object from the first image obtained from the first camera 110 and performs pose estimation on the detected target object to mark the landmark of the target object.
  • Object information eg, first cell information
  • the server 1000 detects a target object from the second image obtained from the second camera 120, and performs pose estimation on the detected target object to provide object information related to the landmark of the target object ( For example, second cell information) may be obtained.
  • the server 1000 may extract image information related to a landmark of a target object within a 2D bounding box related to the target object by utilizing a deep learning technique (eg, AlphaPose, etc.).
  • a deep learning technique eg, AlphaPose, etc.
  • the above-described object detection technique and pose estimation technique are only examples, and the server 1000 may be implemented to detect a target object from an image using any suitable method.
  • the server 1000 of the learning set generation system 10 creates a 3D image based on object information (eg, bounding box or image information corresponding to a landmark of the target object) related to the target object. An operation of obtaining a target bounding box of may be performed.
  • object information eg, bounding box or image information corresponding to a landmark of the target object
  • the server 1000 performs an operation of calculating a 3D target bounding box related to a target object based on a first bounding box related to the target object of the first image and a second bounding box related to the target object of the second image.
  • the server 1000 may obtain a first projection volume related to the target object by reverse-projecting the first bounding box onto 3D space coordinates.
  • the server 1000 may acquire a second projection volume related to the target object by reverse-projecting the second bounding box onto 3D spatial coordinates.
  • the server 1000 may obtain an intersection volume based on the first projection volume and the second projection volume, and obtain a 3D target bounding box related to the target object based on the intersection volume.
  • the server 1000 may provide cell information (eg, cell coordinates, etc.) of the first image corresponding to landmarks (eg, eyes, nose, ears, shoulders, elbows, hands, pelvis, knees, feet, etc.) of the target object. ) and cell information (eg, cell coordinates, etc.) of the second image, an operation of calculating a 3D target bounding box related to the target object may be performed.
  • the server 1000 may obtain a first projection straight line by projecting the first cell coordinates of the first image corresponding to the landmark of the target object onto the 3D spatial coordinates.
  • the server 1000 may obtain a second projection straight line by projecting the second cell coordinates of the second image corresponding to the landmark of the target object onto the 3D spatial coordinates. At this time, the server 1000 calculates intersections between the first projection straight line and the second projection straight line, and intersects corresponding to the landmark of at least one target object (or closest to the first projection straight line and the second projection straight line). A 3D target bounding box related to the target object may be obtained based on 3D spatial coordinates.
  • the server 1000 of the learning set generation system 10 may obtain sensing data corresponding to a 3D target bounding box related to the target object through the sensor 2000 .
  • the server 1000 may perform an operation of generating a learning set for training a neural network model that outputs a 3D target bounding box related to the target object from the sensing data based on the target bounding box and the sensing data.
  • the server 1000 of the learning set generating system 10 obtains a first image obtained from the first camera 110 and a second image obtained from the second camera 120. An operation to match the sync between one second image and/or sensing data obtained from the sensor 200 may be performed.
  • the server 1000 reads an image broadcast on the web from the first camera 110 or the second camera 120, thereby obtaining the first image and the second image obtained from the first camera 110. It may be implemented to match the synchronization between the second images acquired from the camera 120 .
  • the server 1000 may acquire a first video and a second video by using OBS studio 27, and time synchronization of the first video and the second video may be performed based on a time standard of a common server.
  • the server 1000 may obtain arbitrary data including frame information (eg, frame number information, frame time information) and/or meta information through the sensor 200 as described above.
  • the server 1000 may be implemented to match time synchronization between image data and sensing data based on frame information included in the sensing data.
  • the server 1000 may be implemented to perform an operation of synchronizing image data obtained from at least one camera and sensing data obtained from a sensor by using any suitable method.
  • FIG. 3 is a flowchart illustrating a method of generating a learning set according to an embodiment of the present application.
  • a method for generating a training set includes performing calibration of at least two or more cameras (S1000), a first image captured from a first camera and a second image captured from a second camera.
  • Obtaining (S2000) recognizing a target object from a first image and obtaining first object information related to the target object (S3000), recognizing a target object from a second image and obtaining second object information related to the target object
  • Obtaining (S4000) obtaining a 3-dimensional target bounding box related to the target object based on the first object information and the second object information (S5000), obtaining sensing data corresponding to the target bounding box ( S6000), and generating a learning set for training the neural network model (S7000).
  • the server 1000 may calibrate internal parameters of each of the first camera 110 and the second camera 120 .
  • the server 1000 may calibrate an internal parameter of the camera 110 or 120 based on pixel coordinate information obtained from an image of the first calibration reference object and coordinate system information of each camera.
  • the server 1000 may calibrate external parameters of each of the first camera 110 and the second camera 120 .
  • the server 1000 corrects external parameters of at least one camera 110 or 120 based on pixel coordinate information obtained from the image of the second calibration reference object and reference coordinate information related to the coordinate system of the sensor 200.
  • the reference coordinate information may mean encompassing information related to a coordinate system of a radar sensor or a lidar sensor, as described above.
  • S1000 is a flowchart embodying a step (S1000) of performing calibration of at least two or more cameras according to an embodiment of the present application.
  • the step of calibrating at least two or more cameras according to an embodiment of the present application includes the step of performing calibration on the intrinsic parameters of the camera (S1100) and the external parameters of the camera (S1000). It may include performing calibration for (S1200).
  • the server 1000 obtains pixel coordinate information related to the feature point of the first reference object from the image acquired through the camera, and the pixel coordinate information It is possible to calibrate internal parameters of the camera based on .
  • the intrinsic parameter may include at least one of a focal length, a principal point, and a skew coefficient.
  • 5 is a flowchart embodying a step (S1100) of performing calibration on internal parameters of a camera according to an embodiment of the present application.
  • 6 is a diagram illustrating an example of a first calibration reference object according to an embodiment of the present application.
  • Performing calibration on internal parameters of the camera includes acquiring an image of a first calibration reference object through the camera (S1110), performing first calibration based on the image Acquiring a first pixel set related to the reference object (S1120), obtaining camera coordinate system information (S1130), and correcting an internal parameter of the camera based on the camera coordinate system information and the first pixel set (S1120).
  • S1140 may be included.
  • the server 1000 may obtain an image related to the first calibration reference object through the camera 110 or 120 .
  • the server 1000 may acquire images related to the first calibration reference object obtained by photographing from various angles using the camera 110 or 120 .
  • the first calibration reference object may be a checkerboard.
  • the server 1000 obtains actual width information between the first feature point (eg, P1 in FIG. 6) and the second feature point (eg, P2 in FIG. 6) of the first calibration reference object. can do.
  • step S1120 of acquiring a first pixel set related to the first calibration reference object based on the image the server 1000 obtains a first feature point (eg, P1 of FIG. 6 ) from the image related to the first calibration reference object.
  • a corresponding first pixel and a second pixel corresponding to the second feature point (eg, P2 of FIG. 6 ) may be detected.
  • the server 1000 may obtain a first pixel set including pixel coordinate information corresponding to the first pixel and pixel coordinate information corresponding to the second pixel.
  • the server 1000 may acquire coordinate system information of the camera itself.
  • the server 1000 uses the coordinate system information of the camera itself and the first pixel set obtained from the image related to the first calibration reference object. It is possible to correct internal parameters of the camera (eg, focal length, focus, asymmetry coefficient, etc.) based on . Specifically, the server 1000 provides pixel coordinate information corresponding to a first pixel corresponding to the first feature point (eg, P1 of FIG. 6 ) of the first calibration reference object and the second feature point (eg, FIG. 6 ) of the first calibration reference object.
  • the server 1000 provides pixel coordinate information corresponding to a first pixel corresponding to the first feature point (eg, P1 of FIG. 6 ) of the first calibration reference object and the second feature point (eg, FIG. 6 ) of the first calibration reference object.
  • a width between the first pixel and the second pixel may be calculated based on pixel coordinate information corresponding to the second pixel corresponding to P2 of 6).
  • the server 1000 based on actual width information of the first feature point (eg, P1 in FIG. 6 ) and the second feature point (eg, P2 in FIG. 6 ) and width information between the first pixel and the second pixel, Internal parameters of the camera (eg, focal length, focus, asymmetry coefficient, etc.) may be calibrated.
  • FIG. 6 the content of calibrating internal parameters of the camera centering on the first feature point P1 included in the first calibration reference object and the second feature point P2 adjacent to the first feature point P1 has been described.
  • the first feature point P1 and the second feature point P2 shown in FIG. 6 are merely examples for convenience of explanation, and the server 1000 may use any feature region included in the first calibration reference object (eg , vertices, lines, planes, etc.) may be implemented to calibrate internal parameters of the camera.
  • the first calibration reference object is described centering on a checkerboard, but this is only an example, and the server 1000 corrects the internal parameters of the camera using information of an object of any type or shape can do.
  • the server 1000 obtains pixel coordinate information related to the feature point of the second reference object from the image acquired through the camera, and Reference coordinate information related to the feature point of the object and related to the sensor-based coordinate system may be obtained.
  • the server 1000 may correct external parameters of the camera based on the pixel coordinate information and the reference coordinate information.
  • the extrinsic parameter means to encompass any parameters related to the transformation relationship between the camera coordinate system and any external coordinate system, and may include parameters related to rotation transformation or translation transformation. there is.
  • FIG. 7 is a flowchart embodying a step (S1200) of performing calibration on external parameters of a camera according to an embodiment of the present application.
  • 8 is a diagram illustrating an aspect of performing camera calibration using a second calibration reference object according to an embodiment of the present application.
  • Performing calibration on the external parameters of the camera includes obtaining reference coordinate information for a second calibration reference object (S1210), the second calibration reference object through the camera Obtaining an image for (S1220), obtaining a second pixel set related to a second calibration reference object based on the image (S1230), and a coordinate pair based on the reference coordinate information and the second pixel set It may include obtaining (S1240), and correcting an external parameter of the camera based on the coordinate pair (S1250).
  • the server 1000 may obtain reference coordinate information on the second calibration reference object.
  • the reference coordinate information may include coordinate information related to a sensor-based coordinate system including a radar sensor or a lidar sensor.
  • the sensor 200 may measure sensing data for a second calibration reference object disposed at a specific location of a predetermined sensor-based coordinate system and transmit the sensing data to the server 1000 .
  • the server 1000 provides coordinate information about the sensor-based coordinate system in which the second calibration reference object is located and information of the second calibration reference object (eg, actual height (h), real width (d), and/or actual width ( Based on w)), reference coordinate information in the sensor-based coordinate system of arbitrary feature points (eg, the third feature point P3 and the fourth feature point P4 of FIG. 8 ) of the second calibration reference object may be obtained. .
  • the server 1000 may obtain an image related to the second calibration reference object through the camera 110 or 120 .
  • the server 1000 may acquire images related to the second calibration reference object acquired by photographing from various angles using the camera 110 or 120 .
  • the second calibration reference object may be a rectangular box.
  • the server 1000 obtains a third feature point (eg, P3 of FIG. 8) from the image related to the second calibration reference object.
  • a third pixel corresponding to and a fourth pixel corresponding to the fourth feature point (eg, P4 in FIG. 8 ) may be detected.
  • the server 1000 may obtain a second pixel set including pixel coordinate information corresponding to the third pixel and pixel coordinate information corresponding to the fourth pixel.
  • the server 1000 includes reference coordinate information related to the sensor-based coordinate system and pixel coordinate information corresponding to the third pixel.
  • a coordinate pair may be obtained based on the second pixel set including pixel coordinate information corresponding to the fourth pixel.
  • the server 1000 obtains a first coordinate pair in which reference coordinate information related to the sensor-based coordinate system of the third feature point (eg, P3 in FIG. 8 ) and pixel coordinate information corresponding to the third pixel are linked.
  • the server 1000 obtains a second coordinate pair in which reference coordinate information related to the sensor coordinate system of the fourth feature point (eg, P4 in FIG. 8 ) and pixel coordinate information corresponding to the fourth pixel are linked.
  • the server 1000 may correct the external parameter of the camera based on the coordinate pair.
  • the server 1000 may obtain information about the actual height (h), the actual width (d), and/or the actual width (w) of the second calibration reference object.
  • the server 1000 may calculate information about the actual height (h), actual width (d), and/or actual width (w) of the second calibration reference object from reference coordinate information related to the sensor-based coordinate system.
  • the server 1000 provides reference coordinate information of the third feature point (eg, P3 in FIG. 8 ) of the second calibration reference object and reference coordinate information of the fourth feature point (eg, P4 in FIG. 8 ) of the second calibration reference object.
  • Information on the actual height (h), actual width (d), and/or actual width (w) of the second calibration reference object may be calculated based on .
  • the server 1000 provides pixel coordinate information corresponding to a third pixel corresponding to the third feature point (eg, P3 of FIG. 8) of the second calibration reference object and the fourth feature point (eg, FIG. 8 ) of the fourth calibration reference object.
  • a distance between the third pixel and the fourth pixel may be calculated based on pixel coordinate information corresponding to the fourth pixel corresponding to P4 of 8).
  • the server 1000 may correct the external parameter of the camera based on the actual length information of the second calibration reference object related to the sensor-based coordinate system and the inter-pixel distance information based on the image-based pixel coordinate information. Specifically, since the coordinate pair includes image-based pixel coordinate information acquired through the camera and reference coordinate information related to the sensor-based coordinate system, the server 1000 establishes a relationship between the camera coordinate system and the sensor coordinate system outside the camera based on the coordinate pair. It is possible to correct the external parameters of the camera related to the transformation relationship of .
  • FIG. 8 description has been focused on calibrating external parameters of the camera centered on the third feature point P3 included in the second calibration reference object and the fourth feature point P4 adjacent to the third feature point P3.
  • the third feature point P3 and the fourth feature point P4 shown in FIG. 8 are only examples for convenience of description, and the server 1000 may use any reference area included in the second calibration reference object (eg , vertices, lines, planes, etc.) may be implemented to correct external parameters of the camera.
  • the second calibration reference object in the form of a rectangular parallelepiped has been described in FIG. 8, this is only an example, and the server 1000 can be implemented to calibrate the external parameters of the camera using information of an object of any shape. .
  • the camera calibration operation is performed in the server 1000 in FIGS. 2 to 8, this is only an example, and the camera calibration operation is performed in an external device (or external server) separate from the server 1000. can be configured.
  • the learning set generation method includes the steps of acquiring a first image captured from a first camera 110 and a second image captured from a second camera 120.
  • S2000 Recognizing the target object from the first image and obtaining a 2D first bounding box related to the target object
  • S3000 Recognizing the target object from the second image and obtaining a 2D second bounding box related to the target object
  • S4000 Acquiring a bounding box
  • S5000 Acquiring sensing data corresponding to the target bounding box It may include a step (S6000), and a step (S7000) of generating a training set for training the neural network model.
  • the server 1000 may obtain an image from at least one camera.
  • the server 1000 may obtain a first image of a target object photographed through a first camera 110 located at a first position with respect to the target object.
  • the server 1000 may obtain a second image in which the target object is photographed through the second camera 120 located at a second location with respect to the target object.
  • the first image and the second image may be synchronized images for each frame.
  • the server 1000 performs synchronization between a first image obtained from the first camera 110, a second image obtained from the second camera 120, and/or sensing data obtained from the sensor 200. may be performed, and the first image and the second image in step S2000 shown in FIG. 3 may mean images after synchronization for each frame.
  • the learning set generation method may include recognizing a target object from a first image and obtaining first object information related to the target object (S3000).
  • the server 1000 detects the target object for each frame of the first image and first object related to the target object. information can be obtained.
  • the first object information refers to a 2-dimensional bounding box related to the target object detected in the first image and/or landmarks of the target object (e.g., eyes, nose, ears, shoulders, elbows, hands, pelvis, knees, It may include at least one of image information (eg, cell coordinates, etc.) corresponding to a foot, etc.).
  • the server 1000 detects a target object from a first image by utilizing a deep learning technique related to object detection (eg, yolo, yoloV3, ssd, Retinanet, etc.), and detects the target object in the first image.
  • a mask of an area corresponding to may be obtained.
  • the server 1000 may obtain a 2D first bounding box related to the target object based on the mask of the first image.
  • the server 1000 may utilize any technique for improving performance of target object detection.
  • the server 1000 utilizes a Simple Online and Realtime Tracking (hereinafter, SORT) algorithm in which a Kalman filter is added to an object detection technique to increase the accuracy of target object detection and perform an operation for tracking the location of an object. can be implemented to
  • SORT Simple Online and Realtime Tracking
  • the server 1000 uses a deep learning technique (eg, AlphaPose) related to pose estimation to determine landmarks (eg, eyes, nose, ears, shoulders, and elbows) of the target object from the first image. , hand, pelvis, knee, foot, etc.) may obtain first cell information (eg, cell coordinate information).
  • first cell information eg, cell coordinate information
  • the server 1000 may obtain first cell information corresponding to a landmark of the target object as object information related to the target object by performing pose estimation on the target object detected from the first image.
  • the above-described object detection technique and pose estimation technique are only examples, and the server 1000 may be implemented to detect a target object from an image using any suitable method.
  • the learning set generation method may include recognizing a target object from a second image and acquiring second object information related to the target object (S4000).
  • the server 1000 detects the target object for each frame of the second image, and the second object related to the target object. information can be obtained.
  • the second object information refers to a 2D bounding box related to the target object detected in the second image and/or landmarks of the target object (e.g., eyes, nose, ears, shoulders, elbows, hands, pelvis, and knees).
  • , feet, etc. may include at least one of image information (eg, cell coordinates, etc.)
  • the server 1000 detects a target object from the second image by utilizing a deep learning technique related to object detection (eg, yolo, yoloV3, ssd, Retinanet, etc.), and detects the target object in the second image.
  • a mask of an area corresponding to may be obtained.
  • the server 1000 may obtain a 2D second bounding box related to the target object based on the mask of the second image.
  • the server 1000 may utilize any technique for improving performance of target object detection.
  • the server 1000 utilizes a Simple Online and Realtime Tracking (hereinafter, SORT) algorithm in which a Kalman filter is added to an object detection technique to increase the accuracy of target object detection and perform an operation for tracking the location of an object. can be implemented to
  • SORT Simple Online and Realtime Tracking
  • the server 1000 uses a deep learning technique (eg, AlphaPose) related to pose estimation to determine landmarks (eg, eyes, nose, ears, shoulders, and elbows) of the target object from the second image. , hand, pelvis, knee, foot, etc.) corresponding to the second cell information (eg, cell coordinate information) may be obtained.
  • the server 1000 may obtain second cell information corresponding to a landmark of the target object as object information related to the target object by performing pose estimation on the target object detected from the second image.
  • the above-described object detection technique and pose estimation technique are only examples, and the server 1000 may be implemented to detect a target object from an image using any suitable method.
  • the server 1000 includes a first object related to the target object obtained from the first image.
  • a 3D target bounding box related to the target object may be obtained from second object information related to the target object obtained from the information and the second image.
  • the server 1000 reverse-projects each of the first bounding box included in the first object information and the second bounding box included in the second object information onto 3D space coordinates, thereby providing 3 values related to the target object.
  • the target bounding box of the dimension can be obtained.
  • the server 1000 reverse-projects each of the first cell information included in the first object information and the second cell information included in the second object information onto a 3D spatial coordinate, thereby creating a 3D image related to the target object.
  • the target bounding box of can be obtained.
  • FIGS. 9 to 14 an embodiment of obtaining a target bounding box based on object information related to a 2-dimensional bounding box will be described, and referring to FIG. 14, object information related to a landmark of a target object will be described. Another embodiment of acquiring a target bounding box based on the above will be described.
  • FIG. 9 is a flowchart embodying a step (S5000) of obtaining a target bounding box according to an embodiment of the present application.
  • Acquiring a target bounding box according to an embodiment of the present application includes obtaining a first projection volume by reverse-projecting a 2-dimensional first bounding box included in the first object information onto 3-dimensional spatial coordinates. (S5100), obtaining a second projection volume by reverse-projecting the 2-dimensional second bounding box included in the second object information onto 3-dimensional spatial coordinates (S5200), and Based on the method, a target bounding box related to the target object may be obtained (S5300).
  • step S5100 of obtaining a first projection volume by reverse-projecting the 2D first bounding box included in the first object information onto 3D spatial coordinates the server 1000 includes the target object included in the first image and A first projection volume related to the target object may be obtained by reverse-projecting the related 2D first bounding box onto 3D spatial coordinates. Specifically, the server 1000 may obtain a first projection volume by reverse-projecting the first bounding box onto 3D spatial coordinates using internal parameters and/or external parameters of the first camera 110 .
  • step S5200 of obtaining a second projection volume by projecting the 2D second bounding box included in the second object information onto 3D spatial coordinates the server 1000 is configured to display a related object related to the target object included in the second image.
  • a second projected volume related to the target object may be calculated by reverse-projecting the 2D second bounding box onto 3D spatial coordinates.
  • the server 1000 may obtain a second projection volume by reverse-projecting the second bounding box onto 3D spatial coordinates using internal parameters and/or external parameters of the second camera 120 .
  • step S5300 of obtaining a target bounding box related to the target object based on the first projection volume and the second projection volume the server 1000 determines an intersection volume between the first projection volume and the second projection volume. and a 3D target bounding box related to the target object may be obtained based on an intersection volume.
  • 10 is a flowchart embodying a step (S5300) of obtaining a target bounding box related to a target object according to an embodiment of the present application.
  • 11 is a diagram illustrating an aspect of obtaining a 3D target bounding box according to an embodiment of the present application.
  • Acquiring a target bounding box related to the target object includes acquiring at least one first plane constituting a first projection volume (S5310), constructing a second projection volume. It may include obtaining at least one second plane to be used (S5312), and obtaining a common plane of the first plane and the second plane and obtaining a target bounding box based on the common plane (S5314).
  • the server 1000 may acquire at least one first plane constituting the first projection volume.
  • the server 1000 may obtain a first plane including a first line (eg, m1 in FIG. 11 ) and a second line (eg, m2 in FIG. 11 ) constituting the first projection volume.
  • the server 1000 may acquire at least one second plane constituting the second projection volume.
  • the server 1000 may obtain a second plane including the third line (eg, l1 in FIG. 11 ) and the fourth line (eg, l2 in FIG. 11 ) constituting the second projection volume.
  • step S5314 of obtaining a common plane of the first plane and the second plane and acquiring a target bounding box based on the common plane the server 1000 connects at least one first plane constituting the first projection volume with a second plane.
  • a common plane between at least one second plane constituting the two projection volumes may be obtained.
  • the server 1000 may obtain an intersection volume between the first projection volume and the second projection volume based on the obtained plurality of common planes.
  • the server 1000 may be implemented to generate a 3D target bounding box related to the target object based on the cross volume.
  • an intersection volume including a vertex (eg, v1 in FIG. 11 ) corresponding to a position distant from the first camera (or the second camera) is shown to create.
  • the server 1000 may be implemented to obtain an intersection volume between the first projection volume and the second projection volume in consideration of the angle or tilt of the camera.
  • the server 1000 may be implemented to correct a vertex (eg, v1 in FIG. 11 ) corresponding to a location distant from the first camera (or the second camera) and generate an intersection volume.
  • the server 1000 may be configured to generate an intersection volume excluding a specific vertex (eg, v1 in FIG. 11 ).
  • the server 1000 obtains characteristic information related to a projection volume (or target object) corresponding to a bounding box obtained from each image, and performs 3D target bounding based on similarity between the characteristic information. It can be implemented to acquire the box. Specifically, the server 1000 provides the first characteristic information related to the first projection volume (or target object) corresponding to the first bounding box obtained from the first image and the second bounding box corresponding to the second bounding box obtained from the second image. 2 Second characteristic information related to the projection volume (or target object) may be acquired, and a target bounding box may be obtained based on a degree of similarity between the first characteristic information and the second characteristic information.
  • 12 is a flowchart embodying a step (S5300) of obtaining a target bounding box related to a target object according to an embodiment of the present application.
  • 13 is a diagram illustrating an aspect of determining a 3D target bounding box according to an embodiment of the present application.
  • Acquiring a target bounding box related to the target object includes obtaining 3-dimensional temporary bounding boxes based on the first projection volume and the second projection volume (S5320), 1 Acquiring first characteristic information related to a bounding box (S5322), obtaining second characteristic information related to a second bounding box (S5324), provisional based on the similarity between the first characteristic information and the second characteristic information It may include allocating matching points to the bounding boxes (S5326), and determining a target bounding box among temporary bounding boxes based on the matching points (S5328).
  • the server 1000 includes a 2D bounding box related to the first target object included in the first image.
  • the projected volume can be obtained by reverse projecting to the 3D space.
  • the server 1000 may obtain a projected volume by reverse-projecting a 2D bounding box related to the first target object included in the second image onto a 3D space.
  • the server 1000 may obtain a projected volume by reverse-projecting a 2D bounding box related to the second target object included in the first image onto a 3D space.
  • the server 1000 may obtain a projected volume by reverse-projecting a 2D bounding box related to the second target object included in the second image onto a 3D space.
  • the server 1000 may generate a plurality of temporary bounding boxes according to a combination of a projected volume related to the first target object and a projected volume related to the second target object. For example, the server 1000 calculates an intersection volume based on a projection volume obtained from a bounding box related to a first target object of a first image and a projection volume obtained from a bounding box related to a first target object of a second image, and , a 3-dimensional temporary bounding box (eg, the first temporary bounding box in FIG. 13) may be obtained based on the obtained intersecting volume.
  • a 3-dimensional temporary bounding box eg, the first temporary bounding box in FIG. 13
  • the server 1000 calculates an intersection volume based on a projection volume obtained from a bounding box related to the first target object of the first image and a projection volume obtained from the bounding box related to the second target object of the second image, , a 3D temporary bounding box (eg, the second temporary bounding box in FIG. 13) may be obtained based on the obtained intersecting volume.
  • a 3D temporary bounding box eg, the second temporary bounding box in FIG. 13
  • the second temporary bounding box shown in FIG. 13 is a temporary bounding box obtained based on an intersection volume between a projected volume obtained from a first target object and a projected volume obtained from a second target object, obtained from a different target object. There may be errors that have been made.
  • the server 1000 may be implemented to determine a target bounding box among temporary bounding boxes. Specifically, the server 1000 acquires characteristic information related to the projection volume (or target object), assigns a matching score to the temporary bounding box according to the degree of similarity between the characteristic information, and selects among temporary bounding boxes based on the matching score. It can be implemented to determine the target bounding box.
  • the characteristic information may include any information that can be used to determine the degree of similarity between the first bounding box and the second bounding box, including color information and distribution information related to the projected volume (or target object).
  • the first bounding box may mean encompassing an arbitrary bounding box obtained from the first image
  • the second bounding box may mean encompassing an arbitrary bounding box obtained from the second image.
  • the server 1000 determines the size of the first projection volume (or target object) corresponding to the first bounding box related to the 3D temporary bounding box.
  • First characteristic information may be obtained.
  • the server 1000 provides first characteristic information (eg, a bounding box corresponding to a first target object of a first image) related to a first temporary bounding box and a corresponding first target object. color information of the first target object) may be obtained.
  • the server 1000 may provide first characteristic information (eg, a bounding box corresponding to the first target object of the first image) of the first target object corresponding to the first bounding box related to the second temporary bounding box. color information of the first target object) may be obtained.
  • the server 1000 determines the size of the second projection volume (or target object) corresponding to the second bounding box related to the 3D temporary bounding box.
  • Second characteristic information may be obtained.
  • the server 1000 may provide second characteristic information (eg, a bounding box corresponding to the first target object of the second image) and a corresponding first target object related to the first temporary bounding box. color information of the first target object) may be obtained.
  • the server 1000 may provide second characteristic information (eg, a bounding box corresponding to the second target object of the second image) related to the second temporary bounding box and a corresponding second target object. color information of the second target object) may be obtained.
  • the server 1000 may utilize a Local Maximal Occurrence (Lomo) feature technique to acquire characteristic information related to a target object corresponding to each bounding box.
  • the lomo feature technique is a technique that can determine whether the object is the same object by focusing on object characteristics, for example, object color, in order to identify objects in images from different angles.
  • the server 1000 according to an embodiment of the present application may determine a degree of similarity between matched target objects corresponding to the first bounding box and the second bounding box by utilizing the lomo feature technique.
  • step S5326 of allocating a matching score to the temporary bounding box based on the similarity between the first characteristic information and the second characteristic information the server 1000 uses the first projection volume (or target object) obtained from the first image.
  • a matching score may be given to the 3D temporary bounding box based on the similarity between the first characteristic information of the second projection volume (or target object) obtained from the second image.
  • the server 1000 displays first characteristic information (eg, color information) corresponding to the first bounding box of a first image related to a first temporary bounding box and second bounding information of a second image related to the first temporary bounding box.
  • a first score may be assigned to the first temporary bounding box based on a degree of similarity between second characteristic information (eg, color information) corresponding to the box.
  • the server 1000 provides the first characteristic information (eg, color information) corresponding to the first bounding box of the first image related to the second temporary bounding box and the second image related to the second temporary bounding box.
  • a second score may be given to the second temporary bounding box based on a degree of similarity between second characteristic information (eg, color information) corresponding to the second bounding box.
  • the server 1000 places a second temporary bounding box obtained from the first bounding box corresponding to the first target object in the first image and the second bounding box corresponding to the first target object in the second image.
  • a relatively high score may be given compared to the second score assigned to the bounding box.
  • the server 1000 may assign a relatively lower score than the first score assigned to the first temporary bounding box to the second temporary bounding box.
  • the server 1000 uniformly allocates a predetermined score so that the temporary bounding box is not determined as the target bounding box. there is.
  • the server 1000 may utilize a cosine similarity between the first characteristic information and the second characteristic information in assigning a matching score to the temporary bounding box.
  • Cosine similarity is one of the methods for measuring the similarity between arbitrary vectors. The higher the cosine similarity, the higher the probability that arbitrary vectors are identical to each other.
  • the server 1000 according to an embodiment of the present application may measure cosine similarity between the first characteristic information and the second characteristic information, and assign a matching score to the temporary bounding box based on the cosine similarity.
  • this is only an example, and the server 1000 evaluates the similarity between the first characteristic information and the second characteristic information using any suitable technique, and assigns a matching score to the temporary bounding box based on the evaluated similarity. will be able to configure.
  • the server 1000 selects or determines a target bounding box from among temporary bounding boxes based on the matching score of each temporary bounding box.
  • the server 1000 may compare matching scores of temporary bounding boxes and determine a temporary bounding box assigned a high score as a target bounding box.
  • the server 1000 may also determine a temporary bounding box having an optimal matching score among temporary bounding boxes as a target bounding box through a Hungarian algorithm.
  • the server 1000 compares the first score assigned to the first temporary bounding box with the second score assigned to the second temporary bounding box, and selects at least one of the first temporary bounding box and the second temporary bounding box as a first. It can be determined as the target bounding box related to the target object.
  • the first temporary bounding box of FIG. 13 that is, the 3D image generated from the first bounding box obtained from the first target object of the first image and the second bounding box obtained from the first target object of the second image.
  • the temporary bounding box is generated from the second temporary bounding box of FIG. 13 (ie, the first bounding box obtained from the first target object of the first image and the second bounding box obtained from the second target object of the second image).
  • the server 1000 compares the first score assigned to the first temporary bounding box and the second score assigned to the second temporary bounding box to determine the first temporary bounding box as the target bounding box related to the first target object.
  • the content of determining the target bounding box related to the first target object has been mainly described. However, this is for convenience of description, and may be analogically applied to the content of determining the target bounding box related to the second target object.
  • FIG. 14 is a flowchart embodying a step of obtaining a target bounding box related to a target object according to another embodiment of the present application.
  • Acquiring a 3D target bounding box related to the target object obtains a first projection straight line by projecting first cell information related to the target object included in the first object information. (S5400), obtaining a second projection straight line by projecting the second cell information related to the target object included in the second object information (S5500), and based on the first projection straight line and the second projection straight line, the target object A step of acquiring a 3D target bounding box related to the object (S5600) may be included.
  • the server 1000 includes the landmark of the target object included in the first object information (eg , eyes, nose, ears, shoulders, elbows, hands, pelvis, knees, and feet) may be projected onto 3D space coordinates to obtain a first projection straight line.
  • the landmark of the target object included in the first object information eg , eyes, nose, ears, shoulders, elbows, hands, pelvis, knees, and feet
  • the server 1000 includes the landmark of the target object included in the second object information (eg , eyes, nose, ears, shoulders, elbows, hands, pelvis, knees, and feet) may be projected onto 3D space coordinates to obtain a second projection straight line.
  • the landmark of the target object included in the second object information eg , eyes, nose, ears, shoulders, elbows, hands, pelvis, knees, and feet
  • step S5600 of acquiring a 3D target bounding box related to the target object based on the first projection straight line and the second projection straight line the server 1000 performs the target object based on the first projection straight line and the second projection straight line.
  • a 3D target bounding box related to can be calculated.
  • the server 1000 may obtain an intersection point between the first projection straight line and the second projection straight line when there is an intersection point between the first projection straight line and the second projection straight line.
  • the server 1000 may obtain coordinates on 3D spatial coordinates closest to the first projection straight line and the second projection straight line when there is no intersection between the first projection straight line and the second projection straight line.
  • the server 1000 obtains a first projection straight line and a second projection straight line corresponding to each of a plurality of landmarks related to the target object, and the intersection point between the first projection straight line and the second projection straight line (or the first projection straight line and the second projection straight line). Coordinates on 3D spatial coordinates closest to the second projected straight line) may be obtained.
  • the server 1000 obtains a 3D target bounding box including intersection points corresponding to each landmark of the target object (or coordinates on 3D space coordinates closest to the first projection straight line and the second projection straight line). can do.
  • the target bounding box may be implemented in an arbitrary shape (eg, rectangular parallelepiped) including intersection points.
  • the server 1000 uses a plurality of bounding boxes (eg, the first temporary bounding box and the second temporary bounding box) based on the distance between projection straight lines corresponding to each landmark. It can be implemented to determine the target bounding box of
  • the server 1000 calculates the distance between the first projection straight line and the second projection straight line corresponding to each landmark of the target object, and based on the distance between the first projection straight line and the second projection straight line, a plurality of bounding boxes ( For example, a matching score may be assigned to each of the first temporary bounding box and the second temporary bounding box). For example, the server 1000 calculates distance information including an average value and/or a median value of distances between a first projection straight line and a second projection straight line corresponding to at least one landmark related to the first temporary bounding box, A first score may be assigned to the first temporary bounding box based on the distance information.
  • the server 1000 calculates distance information including an average value and/or a median value of distances between the first projection straight line and the second projection straight line corresponding to at least one landmark related to the second temporary bounding box, A second score may be assigned to the second temporary bounding box based on the distance information. For example, the server 1000 may assign a smaller value to the bounding box as distance information including an average value and/or a median value of distances between the first projection straight line and the second projection straight line includes a smaller value. In particular, when the first projection line and the second projection line intersect, the server 1000 may assign 0 points to the intersection point of the corresponding bounding box.
  • the server 1000 may compare the first score and the second score to determine at least one of the first temporary bounding box and the second temporary bounding box as the target bounding box. For example, a temporary bounding box having a lower score may be determined as a target bounding box by comparing the first score and the second score. In addition, the server 1000 may determine a bounding box having an optimal matching score among the first temporary bounding box and the second temporary bounding box as the target bounding box through a Hungarian algorithm.
  • the server 1000 assigns a higher value to the temporary bounding box as the distance information includes a smaller value, and determines the temporary bounding box having a higher score as the target bounding box. could be implemented to do so.
  • the method of generating a learning set may include acquiring sensing data corresponding to a target bounding box (S6000).
  • the server 1000 may acquire sensing data (eg, radar data or lidar data) related to the target bounding box.
  • the sensing data may include image-type data obtained from the sensor 200 .
  • the server 1000 since the server 1000 can perform an operation to synchronize the sensing data and image data acquired through the camera, the server 1000 corresponds to the target bounding box frame by frame. Sensing data can be obtained.
  • the method for generating a training set may include generating a training set for training a neural network model (S7000).
  • the server 1000 performs learning for learning the neural network model based on the target bounding box related to the target object acquired through at least one camera and the sensing data.
  • a set can be created.
  • the server 1000 may create a training set for training a neural network model that outputs a target bounding box related to a target object based on sensing data (eg, radar data or lidar data).
  • the method for generating a learning set includes a first image obtained from the first camera 110, a second image obtained from the second camera 120, and / or a step of synchronizing between sensing data obtained from the sensor 200 may be further included.
  • the server 1000 reads an image broadcast on the web from the first camera 110 or the second camera 120, thereby obtaining the first image and the second image obtained from the first camera 110. It may be implemented to match the synchronization between the second images acquired from the camera 120 .
  • the server 1000 may acquire a first video and a second video by using OBS studio 27, and may be implemented to time sync the first video and the second video based on the time standard of the common server 1000. there is.
  • the server 1000 may obtain arbitrary data including frame information (eg, frame number information, frame time information, etc.) and meta information through the sensor 200 as described above.
  • the server 1000 may be implemented to match time synchronization between image data and sensing data based on frame information and/or meta information.
  • the server 1000 may be implemented to perform an operation of synchronizing image data obtained from at least one camera and sensing data obtained from a sensor by using any suitable method.
  • the learning set obtained according to an embodiment of the present application detects a target object included in the sensing data based on sensing data (eg, radar data or lidar data), and a 3D target bounding box corresponding to the detected target object. It can be used to train a neural network model that outputs Specifically, the training set may include a 3D target bounding box corresponding to a target object based on image data obtained through the above-described training set generation method and sensing data. In this case, the neural network model may receive sensing data and update a parameter of at least one node included in the neural network model to output a 3D target bounding box corresponding to the target object as an output value.
  • sensing data eg, radar data or lidar data
  • the trained neural network model may be configured to receive sensing data (eg, radar data or lidar data) and output a target bounding box related to a target object included in the sensing data.
  • sensing data eg, radar data or lidar data
  • the trained neural network model according to an embodiment of the present application recognizes a target object outside the vehicle or a target object inside the vehicle based on sensing data obtained from a sensor (eg, lidar sensor or radar sensor) mounted on the vehicle. can be applied to fields that recognize
  • the trained neural network model according to an embodiment of the present application may be used for fall detection of an object at home or in a nursing home. Specifically, it is possible to detect a fall of a target object by installing a sensor at a certain location such as a wall or ceiling, recognizing a target object (e.g., a person) using a trained neural network model, and calculating the change rate of the target object's height. there is.
  • this is only an example, and may be used in any appropriate field for detecting a target object based on any type of sensing data.
  • the learning set generation system 10 automatically labels and creates a learning set for learning an object recognition neural network model based on sensing data in association with object information detected from camera-based image data, Advantageous effects of significantly saving time and cost required for labeling work and easily obtaining a learning set can be provided.
  • the learning set generation system 10 calculates a target bounding box related to a target object from camera-based image data by using a similarity between characteristic information or landmarks of the target object.
  • a higher-quality training set can be obtained by elaborately generating the bounding box.
  • Various operations of the server 1000 described above may be stored in the memory 1200 of the server 1000, and the controller 1300 of the server 1000 may be provided to perform the operations stored in the memory 1200.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

본 출원의 일 실시예에 따른 학습 세트 생성 방법은, 적어도 2 이상의 카메라에 대하여 캘리브레이션을 수행하는 단계; 제1 카메라로부터 촬영된 제1 영상과 제2 카메라로부터 촬영된 제2 영상을 획득하는 단계; 상기 제1 영상으로부터 대상 객체를 인식하고 상기 대상 객체와 관련된 제1 객체 정보를 획득하는 단계; 상기 제2 영상으로부터 상기 대상 객체를 인식하고 상기 대상 객체와 관련된 제2 객체 정보를 획득하는 단계; 상기 제1 객체 정보 및 상기 제2 객체 정보에 상기 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 단계; 상기 대상 바운딩박스에 대응되는 센싱 데이터를 획득하는 단계-상기 센싱 데이터는 라이더 센서 및 레이더 센서 중 적어도 하나를 통하여 획득됨-; 및 상기 센싱 데이터 및 상기 대상 바운딩박스에 기초하여, 상기 센싱 데이터에 포함된 객체를 검출하는 신경망 모델을 학습시키기 위한 학습 세트를 생성하는 단계;를 포함한다.

Description

학습 세트 생성 방법, 학습 세트 생성 장치, 및 학습 세트 생성 시스템
본 출원은 학습 세트 생성 방법, 학습 세트 생성 장치, 및 학습 세트 생성 시스템에 관한 것이다. 구체적으로 본 출원은 레이더(Radar) 데이터 또는 라이더(Lidar) 데이터를 포함하는 센싱 데이터로부터 객체를 검출하는 신경망 모델을 학습시키기 위한 학습 세트 생성 방법, 학습 세트 생성 장치, 및 학습 세트 생성 시스템에 관한 것이다.
인공 지능 기술이 발전하면서 다양한 산업 분야에 이용되기 위한 인공 지능 모델에 대한 연구와 개발이 증가되고 있다. 특히 자동차 산업과 관련하여 다양한 센서(예컨대, 레이더 센서, 라이더 센서 등)를 이용하여 측정한 데이터에 기반하여 객체를 인식하고, 객체 인식 결과에 기반하여 자동차를 자동적으로 제어하는 인공 지능 모델에 대한 관심이 높아지고 있다.
인공 지능 모델을 훈련시키기 위하여 가장 어려우면서 중요한 작업 중 하나는 인공 지능 모델을 학습시키기 위한 학습 세트에 대한 라벨링 작업이다. 종래에는 레이더 센서 또는 라이더 센서로부터 획득된 센싱 데이터에 포함된 포인트 클라우드(point cloud)에 전문가가 수작업으로 객체 정보를 할당하거나 어노테이션(annotation)하는 방식을 채택하였다. 다만, 종래의 방식은 학습 세트를 준비하는 데 상당한 시간과 비용이 소요된다는 문제가 존재하였다. 또한, 레이더 센서는 센서의 특성 상 해상도(resolution)가 상대적으로 낮아 레이더 데이터에 포함된 포인트 클라우드에 기초하여 객체의 정확한 형태를 유추하기 어려워 라벨링 작업이 불가능하거나, 라벨링을 수작업으로 하더라도 정확도가 낮다는 제약이 존재하였다.
따라서, 센싱 데이터로부터 학습 세트를 자동적으로 생성하는 학습 세트 생성 방법, 장치 및 시스템의 개발이 요구된다.
본 발명이 해결하고자 하는 일 과제는, 레이더 센서 또는 라이더 센서로부터 획득한 센싱 데이터로부터 객체를 검출하는 신경망 모델을 훈련시키기 위한 학습 세트 생성 방법, 학습 세트 생성 장치, 및 학습 세트 생성 시스템을 제공하는 것이다.
본 발명이 해결하고자 하는 과제가 상술한 과제로 제한되는 것은 아니며, 언급되지 아니한 과제들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 출원의 일 실시예에 따른 학습 세트 생성 방법은, 적어도 2 이상의 카메라에 대하여 캘리브레이션을 수행하는 단계; 제1 카메라로부터 촬영된 제1 영상과 제2 카메라로부터 촬영된 제2 영상을 획득하는 단계; 상기 제1 영상으로부터 대상 객체를 인식하고 상기 대상 객체와 관련된 제1 객체 정보를 획득하는 단계; 상기 제2 영상으로부터 상기 대상 객체를 인식하고 상기 대상 객체와 관련된 제2 객체 정보를 획득하는 단계; 상기 제1 객체 정보 및 상기 제2 객체 정보에 상기 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 단계; 상기 대상 바운딩박스에 대응되는 센싱 데이터를 획득하는 단계-상기 센싱 데이터는 라이더 센서 및 레이더 센서 중 적어도 하나를 통하여 획득됨-; 및 상기 센싱 데이터 및 상기 대상 바운딩박스에 기초하여, 상기 센싱 데이터에 포함된 객체를 검출하는 신경망 모델을 학습시키기 위한 학습 세트를 생성하는 단계;를 포함할 수 있다.
본 출원의 일 실시예에 따른 학습 세트 생성 장치는, 제1 카메라, 제2 카메라 및 센서 중 적어도 하나와 통신하는 송수신부; 및 상기 제1 카메라 및 상기 제2 카메라를 통하여 영상 데이터를 획득하고, 상기 센서를 통하여 센싱 데이터를 획득하고, 상기 영상 데이터 및 상기 센싱 데이터에 기반하여 학습 세트를 생성하는 컨트롤러;를 포함하되, 상기 컨트롤러는, 상기 제1 카메라로부터 촬영된 제1 영상과 상기 제2 카메라로부터 촬영된 제2 영상을 획득하고, 상기 제1 영상으로부터 대상 객체를 인식하고 상기 대상 객체와 관련된 제1 객체 정보를 획득하고, 상기 제2 영상으로부터 상기 대상 객체를 인식하고 상기 대상 객체와 관련된 제2 객체 정보를 획득하고, 상기 제1 객체 정보 및 상기 제2 객체 정보에 기초하여 상기 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하고, 상기 대상 바운딩박스에 대응되는 센서 데이터-상기 센서 데이터는 라이더 센서 및 레이더 센서 중 적어도 하나를 통하여 획득됨-;를 획득하고, 상기 센서 데이터 및 상기 대상 바운딩박스에 기초하여, 상기 센싱 데이터에 포함된 객체를 검출하는 신경망 모델을 학습시키기 위한 학습 세트를 생성하도록 구성될 수 있다.
본 발명의 과제의 해결 수단이 상술한 해결 수단들로 제한되는 것은 아니며, 언급되지 아니한 해결 수단들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 출원의 실시예에 따른 학습 세트 생성 방법, 장치 및 시스템에 의하면, 센싱 데이터에 대한 라벨링 작업에 영상 데이터를 연계시킴으로써 학습 세트의 준비에 소요되는 시간 및 비용을 절약할 수 있다.
본 출원의 실시예에 따른 학습 세트 생성 방법, 장치 및 시스템에 의하면, 객체의 특성 정보 간의 유사도 또는 객체의 랜드마크를 이용하여 대상 객체와 관련된 바운딩박스를 획득함으로써, 보다 정교한 학습 세트를 생성할 수 있다.
본 발명의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.
도 1은 본 출원의 일 실시예에 따른 학습 세트 생성 시스템의 개략도이다.
도 2는 본 출원의 일 실시예에 따른 학습 세트 생성 시스템의 동작들을 나타낸 도면이다.
도 3은 본 출원의 일 실시예에 따라 학습 세트를 생성하는 방법을 나타낸 순서도이다.
도 4는 본 출원의 일 실시예에 따른 적어도 2 이상의 카메라의 캘리브레이션을 수행하는 단계를 구체화한 순서도이다.
도 5는 본 출원의 일 실시예에 따른 카메라의 내부 파라미터에 대한 캘리브레이션을 수행하는 단계를 구체화한 순서도이다.
도 6은 본 출원의 일 실시예에 따른 제1 캘리브레이션 기준 객체의 일 예를 도시한 도면이다.
도 7은 본 출원의 일 실시예에 따른 카메라의 외부 파라미터에 대한 캘리브레이션을 수행하는 단계를 구체화한 순서도이다.
도 8은 본 출원의 일 실시예에 따른 제2 캘리브레이션 기준 객체를 이용하여 카메라 캘리브레이션을 수행하는 일 양상을 도시한 도면이다.
도 9는 본 출원의 일 실시예에 따른 대상 바운딩박스를 획득하는 단계를 구체화한 순서도이다.
도 10은 본 출원의 일 실시예에 따른 대상 객체와 관련된 대상 바운딩박스를 획득하는 단계를 구체화한 순서도이다.
도 11은 본 출원의 일 실시예에 따른 3차원의 대상 바운딩박스를 획득하는 일 양상을 도시한 도면이다.
도 12는 본 출원의 일 실시예에 따른 대상 객체와 관련된 대상 바운딩박스를 획득하는 단계를 구체화한 순서도이다.
도 13은 본 출원의 일 실시예에 따른 3차원의 대상 바운딩박스를 결정하는 일 양상을 도시한 도면이다.
도 14는 본 출원의 다른 실시예에 따른 대상 객체와 관련된 대상 바운딩박스를 획득하는 단계를 구체화한 순서도이다.
본 출원의 일 실시예에 따른 학습 세트 생성 방법은, 적어도 2 이상의 카메라에 대하여 캘리브레이션을 수행하는 단계; 제1 카메라로부터 촬영된 제1 영상과 제2 카메라로부터 촬영된 제2 영상을 획득하는 단계; 상기 제1 영상으로부터 대상 객체를 인식하고 상기 대상 객체와 관련된 제1 객체 정보를 획득하는 단계; 상기 제2 영상으로부터 상기 대상 객체를 인식하고 상기 대상 객체와 관련된 제2 객체 정보를 획득하는 단계; 상기 제1 객체 정보 및 상기 제2 객체 정보에 상기 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 단계; 상기 대상 바운딩박스에 대응되는 센싱 데이터를 획득하는 단계-상기 센싱 데이터는 라이더 센서 및 레이더 센서 중 적어도 하나를 통하여 획득됨-; 및 상기 센싱 데이터 및 상기 대상 바운딩박스에 기초하여, 상기 센싱 데이터에 포함된 객체를 검출하는 신경망 모델을 학습시키기 위한 학습 세트를 생성하는 단계;를 포함할 수 있다.
본 출원의 일 실시예에 따르면, 상기 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 단계는, 상기 제1 객체 정보에 포함된 제1 바운딩박스를 3차원 공간좌표에 리버스 투영(Revere project)하여 제1 투영 체적을 획득하는 단계; 상기 제2 객체 정보에 포함된 제2 바운딩박스를 3차원 공간좌표에 리버스 투영(Revere project)하여 제2 투영 체적을 획득하는 단계; 및 상기 제1 투영 체적 및 상기 제2 투영 체적에 기초하여 상기 제1 투영 체적과 상기 제2 투영 체적 간의 교차 체적을 획득하고, 상기 교차 체적에 기초하여 상기 대상 객체와 관련된 상기 대상 바운딩박스를 획득하는 단계;를 포함할 수 있다.
본 출원의 일 실시예에 따르면, 상기 대상 객체와 관련된 상기 대상 바운딩박스를 획득하는 단계는, 상기 제1 투영 체적을 구성하는 적어도 하나의 제1 평면을 획득하는 단계; 상기 제2 투영 체적을 구성하는 적어도 하나의 제2 평면을 획득하는 단계; 및 상기 제1 평면 및 상기 제2 평면의 공통 평면을 획득하고, 상기 공통 평면에 기초하여 상기 대상 바운딩박스를 획득하는 단계;를 포함할 수 있다.
본 출원의 일 실시예에 따르면, 상기 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 단계는, 상기 제1 투영 체적 및 상기 제2 투영 체적에 기초하여 적어도 2 이상의 3차원의 임시 바운딩박스들을 획득하는 단계; 상기 제1 바운딩박스와 관련된 제1 특성 정보를 획득하는 단계; 상기 제2 바운딩박스와 관련된 제2 특성 정보를 획득하는 단계; 상기 제1 특성 정보와 상기 제2 특성 정보의 유사도에 기초하여 상기 임시 바운딩박스에 매칭 점수를 할당하는 단계; 및 상기 매칭 점수에 기초하여 상기 임시 바운딩박스들 중에서 상기 대상 바운딩박스를 결정하는 단계;를 포함할 수 있다.
본 출원의 일 실시예에 따르면, 상기 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 단계는, 상기 제1 객체 정보에 포함된 상기 대상 객체와 관련된 제1 셀 정보를 3차원 공간좌표에 투영하여 제1 투영 직선을 획득하는 단계; 상기 제2 객체 정보에 포함된 상기 대상 객체와 관련된 제2 셀 정보를 3차원 공간좌표에 투영하여 제2 투영 직선을 획득하는 단계; 및 상기 제1 투영 직선 및 상기 제2 투영 직선에 기초하여 상기 대상 객체와 관련된 3차원 대상 바운딩박스를 획득하는 단계;를 포함할 수 있다.
본 출원의 일 실시예에 따르면, 상기 제1 투영 직선 및 상기 제2 투영 직선에 기초하여 상기 대상 객체와 관련된 3차원 대상 바운딩박스를 획득하는 단계는, 상기 제1 투영 직선 및 상기 제2 투영 직선에 기초하여 제1 임시 바운딩박스 및 제2 임시 바운딩박스를 포함하는 적어도 2 이상의 3차원의 임시 바운딩박스들을 획득하는 단계; 상기 제1 투영 직선 및 상기 제2 투영 직선 간의 거리를 연산하는 단계; 상기 연산된 거리에 기초하여 상기 제1 임시 바운딩박스에 제1 점수 및 상기 제2 임시 바운딩박스에 제2 점수를 할당하는 단계; 및 상기 제1 점수 및 상기 제2 점수를 비교하여 상기 제1 임시 바운딩박스 및 상기 제2 임시 바운딩박스 중에서 적어도 하나를 대상 바운딩박스로 결정하는 단계;를 포함할 수 있다.
본 출원의 일 실시예에 따르면, 상기 적어도 2 이상의 카메라에 대하여 캘리브레이션을 수행하는 단계는, 적어도 2 이상의 카메라의 내부 파라미터의 캘리브레이션을 수행하는 단계를 포함하되, 상기 적어도 2 이상의 카메라의 내부 파라미터의 캘리브레이션을 수행하는 단계는, 상기 카메라를 통하여 제1 캘리브레이션 기준 객체에 대한 이미지를 획득하는 단계; 상기 이미지에 기초하여 상기 제1 캘리브레이션 기준 객체와 관련된 제1 픽셀 세트를 획득하는 단계; 상기 카메라의 좌표계 정보를 획득하는 단계; 및 상기 좌표계 정보 및 상기 제1 픽셀 세트에 기초하여 상기 카메라의 내부 파라미터(intrinsic parameter)를 보정하는 단계;를 포함할 수 있다.
본 출원의 일 실시예에 따르면, 상기 적어도 2 이상의 카메라에 대하여 캘리브레이션을 수행하는 단계는, 적어도 2 이상의 카메라의 외부 파라미터의 캘리브레이션을 수행하는 단계를 포함하되, 상기 적어도 2 이상의 카메라의 외부 파라미터의 캘리브레이션을 수행하는 단계는, 제2 캘리브레이션 기준 객체에 대한 기준 좌표 정보를 획득하는 단계-상기 기준 좌표 정보는 라이더 센서 및 레이더 센서 중 적어도 하나의 센서 기반 좌표계와 관련됨-; 상기 카메라를 통하여 상기 제2 캘리브레이션 기준 객체에 대한 이미지를 획득하는 단계; 상기 이미지에 기초하여 상기 제2 캘리브레이션 기준 객체와 관련된 제2 픽셀 세트를 획득하는 단계; 상기 기준 좌표 정보 및 상기 제2 픽셀 세트에 기초하여 좌표 쌍(pair)을 획득하는 단계; 및 상기 좌표 쌍에 기초하여 상기 카메라의 외부 파라미터에 대한 보정을 수행하는 단계;를 포함할 수 있다.
본 출원의 일 실시예에 따르면, 상기 학습 세트 생성 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체가 제공될 수 있다.
본 출원의 일 실시예에 따른 학습 세트 생성 장치는, 제1 카메라, 제2 카메라 및 센서 중 적어도 하나와 통신하는 송수신부; 및 상기 제1 카메라 및 상기 제2 카메라를 통하여 영상 데이터를 획득하고, 상기 센서를 통하여 센싱 데이터를 획득하고, 상기 영상 데이터 및 상기 센싱 데이터에 기반하여 학습 세트를 생성하는 컨트롤러;를 포함하되, 상기 컨트롤러는, 상기 제1 카메라로부터 촬영된 제1 영상과 상기 제2 카메라로부터 촬영된 제2 영상을 획득하고, 상기 제1 영상으로부터 대상 객체를 인식하고 상기 대상 객체와 관련된 제1 객체 정보를 획득하고, 상기 제2 영상으로부터 상기 대상 객체를 인식하고 상기 대상 객체와 관련된 제2 객체 정보를 획득하고, 상기 제1 객체 정보 및 상기 제2 객체 정보에 기초하여 상기 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하고, 상기 대상 바운딩박스에 대응되는 센서 데이터-상기 센서 데이터는 라이더 센서 및 레이더 센서 중 적어도 하나를 통하여 획득됨-;를 획득하고, 상기 센서 데이터 및 상기 대상 바운딩박스에 기초하여, 상기 센싱 데이터에 포함된 객체를 검출하는 신경망 모델을 학습시키기 위한 학습 세트를 생성하도록 구성될 수 있다.
본 출원의 상술한 목적, 특징들 및 장점은 첨부된 도면과 관련된 다음의 상세한 설명을 통해 보다 분명해질 것이다. 다만, 본 출원은 다양한 변경을 가할 수 있고 여러 가지 실시예들을 가질 수 있는 바, 이하에서는 특정 실시예들을 도면에 예시하고 이를 상세히 설명하고자 한다.
명세서 전체에 걸쳐서 동일한 참조번호들은 원칙적으로 동일한 구성요소들을 나타낸다. 또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명하며, 이에 대한 중복되는 설명은 생략하기로 한다.
본 출원과 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 출원의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 이하의 실시예에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.
이하의 실시예에서, 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
이하의 실시예에서, 포함하다 또는 가지다 등의 용어는 명세서상에 기재된 특징, 또는 구성요소가 존재함을 의미하는 것이고, 하나 이상의 다른 특징들 또는 구성요소가 부가될 가능성을 미리 배제하는 것은 아니다.
도면에서는 설명의 편의를 위하여 구성 요소들이 그 크기가 과장 또는 축소될 수 있다. 예컨대, 도면에서 나타난 각 구성의 크기 및 두께는 설명의 편의를 위해 임의로 나타낸 것으로, 본 발명이 반드시 도시된 바에 한정되지 않는다.
어떤 실시예가 달리 구현 가능한 경우에 특정한 프로세스의 순서는 설명되는 순서와 다르게 수행될 수도 있다. 예를 들어, 연속하여 설명되는 두 프로세스가 실질적으로 동시에 수행될 수도 있고, 설명되는 순서와 반대의 순서로 진행될 수 있다.
이하의 실시예에서, 구성 요소 등이 연결되었다고 할 때, 구성 요소들이 직접적으로 연결된 경우뿐만 아니라 구성요소들 중간에 구성 요소들이 개재되어 간접적으로 연결된 경우도 포함한다.
예컨대, 본 명세서에서 구성 요소 등이 전기적으로 연결되었다고 할 때, 구성 요소 등이 직접 전기적으로 연결된 경우뿐만 아니라, 그 중간에 구성 요소 등이 개재되어 간접적으로 전기적 연결된 경우도 포함한다.
이하에서는 도 1 내지 도 14을 참고하여 본 출원의 학습 세트 생성 방법, 학습 세트 생성 장치 및 학습 세트 생성 시스템에 관하여 설명한다.
도 1은 본 출원의 일 실시예에 따른 학습 세트 생성 시스템(10)의 개략도이다.
본 출원의 일 실시예에 따른 학습 세트 생성 시스템(10)은 적어도 하나의 카메라(예컨대, 제1 카메라(110) 및 제2 카메라(120)), 센서(200) 및 서버(1000, 혹은 학습 세트 생성 장치)를 포함할 수 있다.
적어도 하나의 카메라는 대상 객체를 촬영한 영상을 획득하고, 임의의 송수신부를 통하여 영상을 서버(1000)로 송신할 수 있다. 일 예로, 제1 카메라(110)는 대상 객체에 대하여 제1 위치에 배치되어 제1 각도(혹은 제1 기울기)로 대상 객체와 관련된 제1 영상을 획득할 수 있다. 다른 예로, 제2 카메라(120)는 대상 객체에 대하여 제1 위치와는 상이한 제2 위치(또는 제1 위치와는 인접한 제2 위치)에 배치되어 제2 각도(혹은 제2 기울기)로 대상 객체와 관련된 제2 영상을 획득할 수 있다.
한편, 도 1에서는 학습 세트 생성 시스템(10)이 제1 카메라(110) 및 제2 카메라(120)를 포함하는 것으로 도시하였다. 다만 이는 설명의 편의를 위한 예시에 불과하며, 학습 세트 생성 시스템(10)은 임의의 적절한 수의 카메라를 포함하도록 구성될 수 있다. 예컨대, 학습 세트 생성 시스템(10)은 단일의 카메라를 포함할 수 있다. 다른 예를 들어, 학습 세트 생성 시스템(10)은 적어도 2 이상의 카메라를 포함할 수 있다.
센서(200)는 대상 객체와 관련된 센싱 데이터를 획득하고, 임의의 송수신부를 통하여 센싱 데이터를 서버(1000)로 송신할 수 있다. 일 예로, 센서(200)는 레이더 센서(Radar sensor) 및/또는 라이더 센서(Lidar sensor) 중 적어도 하나일 수 있다. 다만, 이는 예시에 불과하며, 센서(200)는 레이더 센서(Radar sensor) 및/또는 라이더 센서(Lidar sensor) 이외의 객체를 검출하기 위한 임의의 센서일 수 있다.
한편, 센서(200)는 대상 객체에 대하여 제3 위치에 배치되어 대상 객체에 대한 센싱 데이터를 획득할 수 있다. 여기서, 제3 위치는 제1 위치 및/또는 제2 위치와는 인접하거나 상이할 수 있다.
서버(1000) 혹은 학습 세트 생성 장치(이하에서는 서버(1000)로 지칭)는 송수신부(1100), 메모리(1200) 및 컨트롤러(1300)를 포함할 수 있다.
서버(1000)의 송수신부(1100)는 적어도 하나의 카메라(110, 120) 및 센서(200)를 포함한 임의의 외부 기기와 통신을 수행할 수 있다. 예컨대, 서버(1000)는, 송수신부(1100)를 통해, 적어도 하나의 카메라(110, 120)로부터 영상 데이터를 획득할 수 있다. 또한, 서버(1000)는 송수신부(1100)를 통해, 센서(200)로부터 센싱 데이터를 획득할 수 있다.
서버(1000)는, 송수신부(1100)를 통해 네트워크에 접속하여 각종 데이터를 송수신할 수 있다. 송수신부(1100)는 크게 유선 타입과 무선 타입을 포함할 수 있다. 유선 타입과 무선 타입은 각각의 장단점을 가지므로, 경우에 따라서 서버(1000)에는 유선 타입과 무선 타입이 동시에 마련될 수도 있다. 여기서, 무선 타입의 경우에는 주로 와이파이(Wi-Fi) 같은 WLAN(Wireless Local Area Network) 계열의 통신 방식을 이용할 수 있다. 또는, 무선 타입의 경우에는 셀룰러 통신, 예컨대, LTE, 5G 계열의 통신 방식을 이용할 수 있다. 다만, 무선 통신 프로토콜이 상술한 예시에 제한되는 것은 아니며, 임의의 적절한 무선 타입의 통신 방식을 이용하는 것도 가능하다. 유선 타입의 경우에는 LAN(Local Area Network)이나 USB(Universal Serial Bus) 통신이 대표적인 예이며 그 외의 다른 방식도 가능하다.
서버(1000)의 메모리(1200)는 각종 정보를 저장할 수 있다. 메모리(1200)에는 각종 데이터가 임시적으로 또는 반영구적으로 저장될 수 있다. 메모리(1200)의 예로는 하드 디스크(HDD: Hard Disk Drive), SSD(Solid State Drive), 플래쉬 메모리(flash memory), 롬(ROM: Read-Only Memory), 램(RAM: Random Access Memory) 등이 있을 수 있다. 메모리(1200)는 서버(1000)에 내장되는 형태나 탈부착 가능한 형태로 제공될 수 있다. 메모리(1200)에는 서버(1000)를 구동하기 위한 운용 프로그램(OS: Operating System)이나 서버(1000)의 각 구성을 동작시키기 위한 프로그램을 비롯해 서버(1000)의 동작에 필요한 각종 데이터가 저장될 수 있다.
컨트롤러(1300, 혹은 프로세서)는 서버(1000)의 전반적인 동작을 제어할 수 있다. 예컨대, 컨트롤러(1300)는 후술할 카메라(110, 120)의 내부 파라미터 또는 외부 파라미터를 캘리브레이션(calibration)하는 동작, 카메라(110, 120)로부터 영상을 획득하거나 센서(200)로부터 센싱 데이터를 획득하는 동작, 영상으로부터 대상 객체를 인식하고 대상 객체와 관련된 객체 정보를 획득하는 동작, 객체 정보에 기초하여 3차원의 대상 바운딩박스를 획득하는 동작, 및 대상 바운딩박스와 센싱 데이터에 기초하여 학습 세트를 생성하는 동작 등 서버(1000)의 전반적인 동작을 제어할 수 있다. 구체적으로 컨트롤러(1300)는 메모리(1200)로부터 서버(1000)의 전반적인 동작을 위한 프로그램을 로딩하여 실행할 수 있다. 컨트롤러(1300)는 하드웨어나 소프트웨어 또는 이들의 조합에 따라 AP(Application Processor), CPU(Central Processing Unit), MCU(Microcontroller Unit)나 이와 유사한 장치로 구현될 수 있다. 이때, 하드웨어적으로는 전기적 신호를 처리하여 제어 기능을 수행하는 전자 회로 형태로 제공될 수 있으며, 소프트웨어적으로는 하드웨어적 회로를 구동시키는 프로그램이나 코드 형태로 제공될 수 있다.
이하에서는 도 2 내지 도 13을 참고하여 본 출원의 실시예들에 따른 학습 세트 생성 시스템(10)의 동작을 구체적으로 서술한다.
도 2는 본 출원의 일 실시예에 따른 학습 세트 생성 시스템(10)의 동작들을 나타낸 도면이다.
본 출원의 일 실시예에 따른 학습 세트 생성 시스템(10)의 서버(1000)는 적어도 하나의 카메라(예, 제1 카메라(110) 또는 제2 카메라(120))의 내부 파라미터 및/또는 외부 파라미터를 보정하는 동작을 수행할 수 있다.
일 예로, 서버(1000)는 적어도 하나의 카메라를 통하여 제1 캘리브레이션 기준 객체에 대한 이미지를 획득하고, 제1 캘리브레이션 기준 객체에 대한 이미지에 포함된 특징점에 기초하여 제1 캘리브레이션 기준 객체와 관련된 특징점의 픽셀 좌표 정보를 획득할 수 있다. 또한, 서버(1000)는 카메라의 좌표계 정보를 획득할 수 있다. 이때, 서버(1000)는 카메라의 좌표계 정보 및 제1 캘리브레이션 기준 객체와 관련된 픽셀 좌표 정보에 기초하여 적어도 하나의 카메라의 내부 파라미터를 보정하는 동작을 수행할 수 있다.
다른 예로, 서버(1000)는 제2 캘리브레이션 기준 객체에 대한 기준 좌표 정보를 획득할 수 있다. 여기서, 기준 좌표 정보란, 레이더(Radar) 센서 또는 라이더(Lidar) 센서 등을 포함하여 센서 기반 좌표계와 관련된 좌표 정보를 포괄하는 의미일 수 있다. 또한 서버(1000)는 적어도 하나의 카메라를 통하여 제2 캘리브레이션 기준 객체에 대한 이미지에 포함된 특징점을 획득하고, 제2 캘리브레이션 기준 객체와 관련된 특징점의 픽셀 좌표 정보를 획득할 수 있다. 또한, 서버(1000)는 기준 좌표 정보 및 픽셀 좌표 정보를 매칭시켜 좌표 쌍을 획득하고, 좌표 쌍에 기초하여 카메라의 외부 파라미터를 보정하는 동작을 수행할 수 있다.
카메라 캘리브레이션과 관련된 학습 세트 생성 시스템(10)의 동작에 대하여는 도 4 내지 도 8에서 구체적으로 서술한다.
본 출원의 일 실시예에 따른 학습 세트 생성 시스템(10)의 서버(1000)는 적어도 하나의 카메라(예, 제1 카메라(110) 또는 제2 카메라(120))로부터 영상을 획득하거나 센서(200)로부터 센싱 데이터를 획득할 수 있다. 예컨대, 서버(1000)는 카메라를 통하여 대상 객체가 포함된 영상을 획득할 수 있다. 또한, 서버(1000)는 센서(200)를 통하여 대상 객체와 관련된 데이터를 측정한 센싱 데이터를 획득할 수 있다.
한편 도 2에서는 도시하지 않았으나, 본 출원의 일 실시예에 따른 학습 세트 생성 시스템(10)의 서버(1000)는 센서(200)를 통하여 프레임 정보(예, 프레임 수 정보, 프레임 시간 정보), 메타 정보 등을 포함한 임의의 데이터를 획득할 수 있다. 여기서, 서버(1000)는 프레임 정보, 메타 정보 등에 기초하여 센싱 데이터와 카메라를 통하여 획득한 영상 데이터 간의 싱크(sync)를 맞추는 동작을 수행할 수 있다.
본 출원의 일 실시예에 따른 학습 세트 생성 시스템(10)의 서버(1000)는 카메라를 통하여 획득한 영상의 프레임별로 대상 객체를 검출(혹은 인식)하고, 대상 객체와 관련된 객체 정보를 획득하는 동작을 수행할 수 있다. 여기서, 대상 객체와 관련된 객체 정보는 대상 객체와 관련된 2차원의 바운딩박스에 대한 정보 및/또는 대상 객체의 랜드마크(예, 눈, 코, 귀, 어깨, 팔꿈치, 손, 골반, 무릎, 발 등)에 대응되는 영상 정보(예, 영상 좌표 정보 등)를 포함하여 대상 객체와 관련된 임의의 영상 정보를 포함할 수 있다.
일 실시예에 따르면, 서버(1000)는 제1 카메라(110)로부터 획득한 제1 영상으로부터 대상 객체를 검출하고 대상 객체 검출 결과에 기초하여 대상 객체와 관련된 2차원의 제1 바운딩박스를 연산할 수 있다. 또한, 서버(1000)는 제2 카메라(120)로부터 획득한 제2 영상으로부터 대상 객체를 검출하고 대상 객체 검출 결과에 기초하여 대상 객체와 관련된 2차원의 제2 바운딩박스를 획득할 수 있다. 예컨대, 서버(1000)는 딥 러닝 기법(예컨대, yolo, yoloV3, ssd, Retinanet 등)을 활용하여 영상으로부터 대상 객체를 검출하고 대상 객체에 해당하는 영역의 마스크(mask)를 획득할 수 있다. 또한 서버(1000)는 마스크에 기초하여 대상 객체와 관련된 바운딩박스를 연산하는 동작을 수행할 수 있다. 다른 예로, 서버(1000)는 대상 객체 검출의 성능을 높이기 위한 임의의 기법을 활용할 수 있다. 예컨대, 서버(1000)는 객체 검출 기법에 칼만 필터(Kalman filter)를 추가한 Simple Online and Realtime Tracking(이하, SORT) 알고리즘을 활용하여 대상 객체 검출의 정확도를 높이고 사물의 위치를 추적하는 연산을 수행하도록 구현될 수 있다.
다른 실시예에 따르면, 서버(1000)는 제1 카메라(110)로부터 획득한 제1 영상으로부터 대상 객체를 검출하고, 검출된 대상 객체에 대하여 포즈 추정(pose estimation)을 수행하여 대상 객체의 랜드마크와 관련된 객체 정보(예, 제1 셀 정보)를 획득할 수 있다. 또한 서버(1000)는 제2 카메라(120)로부터 획득한 제2 영상으로부터 대상 객체를 검출하고, 검출된 대상 객체에 대하여 포즈 추정(pose estimation)을 수행하여 대상 객체의 랜드마크와 관련된 객체 정보(예, 제2 셀 정보)를 획득할 수 있다. 예컨대, 서버(1000)는 딥 러닝 기법(예, AlphaPose 등)을 활용하여 대상 객체와 관련된 2차원 바운딩박스 내에서 대상 객체의 랜드마크와 관련된 영상 정보를 추출할 수 있다.
다만 상술한 객체 검출 기법과 포즈 추정 기법은 예시에 불과하며, 서버(1000)는 임의의 적절한 방법을 활용하여 영상으로부터 대상 객체를 검출하도록 구현될 수 있을 것이다.
본 출원의 일 실시예에 따른 학습 세트 생성 시스템(10)의 서버(1000)는 대상 객체와 관련된 객체 정보(예, 바운딩박스 또는 대상 객체의 랜드마크에 대응되는 영상 정보 등)에 기반하여 3차원의 대상 바운딩박스를 획득하는 동작을 수행할 수 있다.
일 예로, 서버(1000)는 제1 영상의 대상 객체와 관련된 제1 바운딩박스와 제2 영상의 대상 객체와 관련된 제2 바운딩박스에 기초하여 대상 객체와 관련된 3차원 대상 바운딩박스를 연산하는 동작을 수행할 수 있다. 구체적으로 서버(1000)는 제1 바운딩박스를 3차원 공간좌표에 리버스 투영하여 대상 객체와 관련된 제1 투영 체적을 획득할 수 있다. 또한, 서버(1000)는 제2 바운딩박스를 3차원 공간좌표에 리버스 투영하여 대상 객체와 관련된 제2 투영 체적을 획득할 수 있다. 이때, 서버(1000)는 제1 투영 체적과 제2 투영 체적에 기초하여 교차 체적(Intersection volume)을 획득하고, 교차 체적에 기반하여 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득할 수 있다.
다른 예로, 서버(1000)는 대상 객체의 랜드마크(예, 눈, 코, 귀, 어깨, 팔꿈치, 손, 골반, 무릎, 발 등)에 대응되는 제1 영상의 셀 정보(예, 셀 좌표 등)와 제2 영상의 셀 정보(예, 셀 좌표 등)에 기초하여 대상 객체와 관련된 3차원의 대상 바운딩박스를 연산하는 동작을 수행할 수 있다. 구체적으로 서버(1000)는 대상 객체의 랜드마크에 대응되는 제1 영상의 제1 셀 좌표를 3차원 공간좌표에 투영하여 제1 투영 직선을 획득할 수 있다. 또한 서버(1000)는 대상 객체의 랜드마크에 대응되는 제2 영상의 제2 셀 좌표를 3차원 공간좌표에 투영하여 제2 투영 직선을 획득할 수 있다. 이때, 서버(1000)는 제1 투영 직선과 제2 투영 직선 간의 교차점을 연산하고, 적어도 하나의 대상 객체의 랜드마크에 대응되는 교차점들(또는 제1 투영 직선과 제2 투영 직선에 대하여 가장 가까운 3차원 공간좌표)에 기초하여 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득할 수 있다.
대상 바운딩박스를 획득하는 동작에 대하여는 도 9 내지 도 14에서 보다 구체적으로 서술한다.
본 출원의 일 실시예에 따른 학습 세트 생성 시스템(10)의 서버(1000)는 센서(2000)를 통하여 대상 객체와 관련된 3차원의 대상 바운딩박스에 대응되는 센싱 데이터를 획득할 수 있다. 이때, 서버(1000)는 대상 바운딩박스 및 센싱 데이터에 기초하여 센싱 데이터로부터 대상 객체와 관련된 3차원의 대상 바운딩박스를 출력하는 신경망 모델을 훈련시키기 위한 학습 세트를 생성하는 동작을 수행할 수 있다.
한편 도 2에서는 도시하지 않았으나, 본 출원의 일 실시예에 따른 학습 세트 생성 시스템(10)의 서버(1000)는 제1 카메라(110)로부터 획득한 제1 영상, 제2 카메라(120)로부터 획득한 제2 영상, 및/또는 센서(200)로부터 획득한 센싱 데이터 간의 싱크(sync)를 맞추는 동작을 수행할 수 있다.
일 예로, 서버(1000)는 제1 카메라(110) 또는 제2 카메라(120)로부터 웹으로 브로드캐스트(broadcast)한 영상을 읽음으로써, 제1 카메라(110)로부터 획득한 제1 영상과 제2 카메라(120)로부터 획득한 제2 영상 간의 싱크를 맞추도록 구현될 수 있다. 예컨대, 서버(1000)는 OBS studio 27을 활용하여 제1 영상과 제2 영상을 획득하고, 공통의 서버의 시간 기준으로 제1 영상과 제2 영상의 타임 싱크를 맞추도록 구현될 수 있다.
다른 예로, 서버(1000)는 전술한 바와 같이, 센서(200)를 통하여 프레임 정보(예, 프레임 수 정보, 프레임 시간 정보) 및/또는 메타 정보 등을 포함한 임의의 데이터를 획득할 수 있다. 이때, 서버(1000)는 센싱 데이터에 포함된 프레임 정보에 기초하여 영상 데이터와 센싱 데이터 간의 타임 싱크를 맞추도록 구현될 수 있다.
다만, 상술한 내용은 예시에 불과하며, 서버(1000)는 임의의 적절한 방법을 활용하여, 적어도 하나의 카메라로부터 획득한 영상 데이터와 센서로부터 획득한 센싱 데이터 간의 싱크를 맞추는 동작을 수행하도록 구현될 수 있다.
이하에서는 도 3 내지 도 13을 참고하여, 본 출원의 일 실시예에 따른 학습 세트 생성 방법에 대하여 구체적으로 서술한다.
도 3은 본 출원의 일 실시예에 따라 학습 세트를 생성하는 방법을 나타낸 순서도이다.
본 출원의 일 실시예에 따른 학습 세트를 생성하는 방법은, 적어도 2 이상의 카메라의 캘리브레이션을 수행하는 단계(S1000), 제1 카메라로부터 촬영된 제1 영상과 제2 카메라로부터 촬영된 제2 영상을 획득하는 단계(S2000), 제1 영상으로부터 대상 객체를 인식하고 대상 객체와 관련된 제1 객체 정보를 획득하는 단계(S3000), 제2 영상으로부터 대상 객체를 인식하고 대상 객체와 관련된 제2 객체 정보를 획득하는 단계(S4000), 제1 객체 정보 및 제2 객체 정보에 기초하여 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 단계(S5000), 대상 바운딩박스에 대응되는 센싱 데이터를 획득하는 단계(S6000), 및 신경망 모델을 학습시키기 위한 학습 세트를 생성하는 단계(S7000)를 포함할 수 있다.
적어도 2 이상의 카메라의 캘리브레이션을 수행하는 단계(S1000)에서는, 본 출원의 일 실시예에 따른 서버(1000)는 제1 카메라(110) 또는 제2 카메라(120) 각각의 내부 파라미터를 보정할 수 있다. 예컨대, 서버(1000)는 제1 캘리브레이션 기준 객체에 대한 이미지로부터 획득한 픽셀 좌표 정보 및 각 카메라의 좌표계 정보에 기초하여 카메라(110 혹은 120)의 내부 파라미터를 보정할 수 있다.
또한, 적어도 2 이상의 카메라의 캘리브레이션을 수행하는 단계(S1000)에서는, 서버(1000)는 제1 카메라(110) 또는 제2 카메라(120) 각각의 외부 파라미터를 보정할 수 있다. 예컨대, 서버(1000)는 제2 캘리브레이션 기준 객체에 대한 이미지로부터 획득한 픽셀 좌표 정보 및 센서(200)의 좌표계와 관련된 기준 좌표 정보에 기초하여 적어도 하나의 카메라(110 혹은 120)의 외부 파라미터를 보정할 수 있다. 여기서, 기준 좌표 정보란, 전술한 바와 같이 레이더(Radar) 센서 또는 라이더(Lidar) 센서의 좌표계와 관련된 정보를 포괄하는 의미일 수 있다.
이하에서는 도 4 내지 8을 참고하여 본 출원의 일 실시예에 따른 적어도 2 이상의 카메라의 캘리브레이션을 수행하는 단계(S1000)를 보다 구체적으로 설명하기로 한다.
도 4는 본 출원의 일 실시예에 따른 적어도 2 이상의 카메라의 캘리브레이션을 수행하는 단계(S1000)를 구체화한 순서도이다.
본 출원의 일 실시예에 따른 적어도 2 이상의 카메라의 캘리브레이션을 수행하는 단계(S1000)는 카메라의 내부 파라미터(intrinsic parameter)에 대한 캘리브레이션을 수행하는 단계(S1100) 및 카메라의 외부 파라미터(extrinsic parameter)에 대한 캘리브레이션을 수행하는 단계(S1200)를 포함할 수 있다.
카메라의 내부 파라미터(intrinsic parameter)에 대한 캘리브레이션을 수행하는 단계(S1100)에서는, 서버(1000)는 카메라를 통하여 획득한 이미지로부터 제1 기준 객체의 특징점과 관련된 픽셀 좌표 정보를 획득하고, 픽셀 좌표 정보에 기초하여 카메라의 내부 파라미터를 보정할 수 있다. 한편, 내부 파라미터(intrinsic parameter)는 초점 거리(focal length), 초점(principal point) 및 비대칭계수(skew coefficient) 중 적어도 하나를 포함할 수 있다.
도 5는 본 출원의 일 실시예에 따른 카메라의 내부 파라미터에 대한 캘리브레이션을 수행하는 단계(S1100)를 구체화한 순서도이다. 도 6은 본 출원의 일 실시예에 따른 제1 캘리브레이션 기준 객체의 일 예를 도시한 도면이다.
본 출원의 일 실시예에 따른 카메라의 내부 파라미터에 대한 캘리브레이션을 수행하는 단계(S1100)는, 카메라를 통하여 제1 캘리브레이션 기준 객체에 대한 이미지를 획득하는 단계(S1110), 이미지에 기초하여 제1 캘리브레이션 기준 객체와 관련된 제1 픽셀 세트를 획득하는 단계(S1120), 카메라의 좌표계 정보를 획득하는 단계(S1130), 및 카메라의 좌표계 정보 및 제1 픽셀 세트에 기초하여 카메라의 내부 파라미터를 보정하는 단계(S1140)를 포함할 수 있다.
카메라를 통하여 제1 캘리브레이션 기준 객체에 대한 이미지를 획득하는 단계(S1110)에서는, 서버(1000)는, 카메라(110 또는 120)를 통하여 제1 캘리브레이션 기준 객체와 관련된 이미지를 획득할 수 있다. 구체적으로 서버(1000)는 카메라(110 혹은 120)을 이용하여 다양한 각도에서 촬영하여 획득한 제1 캘리브레이션 기준 객체와 관련된 이미지를 획득할 수 있다. 일 예로, 제1 캘리브레이션 기준 객체는 체커보드(checkerboard)일 수 있다.
한편, 도 5에서는 도시하지 않았으나, 서버(1000)는 제1 캘리브레이션 기준 객체의 제1 특징점(예, 도 6의 P1)과 제2 특징점(예, 도 6의 P2) 사이의 실제 폭 정보를 획득할 수 있다.
이미지에 기초하여 제1 캘리브레이션 기준 객체와 관련된 제1 픽셀 세트를 획득하는 단계(S1120)에서는, 서버(1000)는 제1 캘리브레이션 기준 객체와 관련된 이미지로부터 제1 특징점(예, 도 6의 P1)에 대응되는 제1 픽셀과 제2 특징점(예, 도 6의 P2)에 대응되는 제2 픽셀을 검출할 수 있다. 또한, 서버(1000)는 제1 픽셀에 대응되는 픽셀 좌표 정보와 제2 픽셀에 대응되는 픽셀 좌표 정보를 포함하는 제1 픽셀 세트를 획득할 수 있다.
카메라의 좌표계 정보를 획득하는 단계(S1130)에서는, 서버(1000)는, 카메라 자체의 좌표계 정보를 획득할 수 있다.
좌표계 정보 및 제1 픽셀 세트에 기초하여 카메라의 내부 파라미터를 보정하는 단계(S1140)에서는, 서버(1000)는, 카메라 자체의 좌표계 정보 및 제1 캘리브레이션 기준 객체와 관련된 이미지로부터 획득한 제1 픽셀 세트에 기초하여 카메라의 내부 파라미터(예, 초점 거리, 초점, 비대칭 계수 등)을 보정할 수 있다. 구체적으로 서버(1000)는 제1 캘리브레이션 기준 객체의 제1 특징점(예, 도 6의 P1)에 대응되는 제1 픽셀에 대응되는 픽셀 좌표 정보와 제1 캘리브레이션 기준 객체의 제2 특징점(예, 도 6의 P2)에 대응되는 제2 픽셀에 대응되는 픽셀 좌표 정보에 기초하여 제1 픽셀과 제2 픽셀 사이의 폭을 연산할 수 있다. 이때, 서버(1000)는 제1 특징점(예, 도 6의 P1)과 제2 특징점(예, 도 6의 P2)의 실제 폭 정보와, 제1 픽셀과 제2 픽셀 간의 폭 정보에 기초하여, 카메라의 내부 파라미터(예, 초점 거리, 초점, 비대칭 계수 등)를 보정할 수 있다.
한편, 도 6에서는 제1 캘리브레이션 기준 객체에 포함된 제1 특징점(P1)과 제1 특징점(P1)에 인접한 제2 특징점(P2)을 중심으로 카메라의 내부 파라미터를 보정하는 내용을 중심으로 설명하였다. 다만, 도 6에 도시된 제1 특징점(P1)과 제2 특징점(P2)은 설명의 편의를 위한 예시에 불과하며, 서버(1000)는 제1 캘리브레이션 기준 객체에 포함된 임의의 특징 영역(예, 꼭지점, 선, 면 등)에 기초하여 카메라의 내부 파라미터를 보정하도록 구현될 수 있다.
또한, 도 6에서는 체커보드(checkerboard)를 중심으로 제1 캘리브레이션 기준 객체를 설명하였으나, 이는 예시에 불과하며 서버(1000)는 임의의 유형, 형태의 객체의 정보를 이용하여 카메라의 내부 파라미터를 보정할 수 있다.
카메라의 외부 파라미터(extrinsic parameter)에 대한 캘리브레이션을 수행하는 단계(S1200)에서는, 서버(1000)는 카메라를 통하여 획득한 이미지로부터 제2 기준 객체의 특징점과 관련된 픽셀 좌표 정보를 획득하고, 제2 기준 객체의 특징점과 관련되고 센서 기반 좌표계에 대한 기준 좌표 정보를 획득할 수 있다. 이때, 서버(1000)는 픽셀 좌표 정보와 기준 좌표 정보에 기초하여 카메라의 외부 파라미터를 보정할 수 있다. 한편, 외부 파라미터(extrinsic parameter)는 카메라 좌표계와 임의의 외부 좌표계 사이의 변환 관계와 관련된 임의의 파라미터를 포괄하는 의미로, 회전(rotation) 변환 또는 평행이동(translation) 변환과 관련된 파라미터를 포함할 수 있다.
도 7은 본 출원의 일 실시예에 따른 카메라의 외부 파라미터에 대한 캘리브레이션을 수행하는 단계(S1200)를 구체화한 순서도이다. 도 8은 본 출원의 일 실시예에 따른 제2 캘리브레이션 기준 객체를 이용하여 카메라 캘리브레이션을 수행하는 일 양상을 도시한 도면이다.
본 출원의 일 실시예에 따른 카메라의 외부 파라미터에 대한 캘리브레이션을 수행하는 단계(S1200)는, 제2 캘리브레이션 기준 객체에 대한 기준 좌표 정보를 획득하는 단계(S1210), 카메라를 통하여 제2 캘리브레이션 기준 객체에 대한 이미지를 획득하는 단계(S1220), 이미지에 기초하여 제2 캘리브레이션 기준 객체와 관련된 제2 픽셀 세트를 획득하는 단계(S1230), 기준 좌표 정보 및 제2 픽셀 세트에 기초하여 좌표 쌍(pair)을 획득하는 단계(S1240), 및 좌표 쌍에 기초하여 카메라의 외부 파라미터를 보정하는 단계(S1250)를 포함할 수 있다.
제2 캘리브레이션 기준 객체에 대한 기준 좌표 정보를 획득하는 단계(S1210)에서는, 서버(1000)는, 제2 캘리브레이션 기준 객체에 대한 기준 좌표 정보를 획득할 수 있다. 여기서, 기준 좌표 정보란, 레이더(Radar) 센서 또는 라이더(Lidar) 센서 등을 포함하여 센서 기반 좌표계와 관련된 좌표 정보를 포괄하는 의미일 수 있다. 구체적으로 센서(200)는 미리 결정된 센서 기반 좌표계의 특정 위치에 배치된 제2 캘리브레이션 기준 객체에 대한 센싱 데이터를 측정하고, 센싱 데이터를 서버(1000)로 송신할 수 있다.
이때, 서버(1000)는 제2 캘리브레이션 기준 객체가 위치하는 센서 기반 좌표계에 대한 좌표 정보와 제2 캘리브레이션 기준 객체의 정보(예, 실제 높이(h), 실제 너비(d) 및/또는 실제 폭(w))에 기초하여 제2 캘리브레이션 기준 객체의 임의의 특징점(예, 도 8의 제3 특징점(P3), 제4 특징점(P4) 등)의 센서 기반 좌표계에서의 기준 좌표 정보를 획득할 수 있다.
카메라를 통하여 제2 캘리브레이션 기준 객체에 대한 이미지를 획득하는 단계(S1220)에서는, 서버(1000)는, 카메라(110 또는 120)를 통하여 제2 캘리브레이션 기준 객체와 관련된 이미지를 획득할 수 있다. 구체적으로 서버(1000)는 카메라(110 혹은 120)을 이용하여 다양한 각도에서 촬영하여 획득한 제2 캘리브레이션 기준 객체와 관련된 이미지를 획득할 수 있다. 일 예로, 제2 캘리브레이션 기준 객체는 직육각형의 박스(Box)일 수 있다.
이미지에 기초하여 제2 캘리브레이션 기준 객체와 관련된 제2 픽셀 세트를 획득하는 단계(S1230)에서는, 서버(1000)는, 제2 캘리브레이션 기준 객체와 관련된 이미지로부터 제3 특징점(예, 도 8의 P3)에 대응되는 제3 픽셀과 제4 특징점(예, 도 8의 P4)에 대응되는 제4 픽셀을 검출할 수 있다. 또한, 서버(1000)는 제3 픽셀에 대응되는 픽셀 좌표 정보와 제4 픽셀에 대응되는 픽셀 좌표 정보를 포함하는 제2 픽셀 세트를 획득할 수 있다.
기준 좌표 정보 및 제2 픽셀 세트에 기초하여 좌표 쌍(pair)을 획득하는 단계(S1240)에서는, 서버(1000)는, 센서 기반 좌표계와 관련된 기준 좌표 정보 및 제3 픽셀에 대응되는 픽셀 좌표 정보와 제4 픽셀에 대응되는 픽셀 좌표 정보를 포함하는 제2 픽셀 세트에 기초하여 좌표 쌍(pair)을 획득할 수 있다. 예컨대, 서버(1000)는 제3 특징점(예, 도 8의 P3)의 센서 기반 좌표계와 관련된 기준 좌표 정보와 제3 픽셀에 대응되는 픽셀 좌표 정보가 연계된 제1 좌표 쌍(pair)을 획득할 수 있다. 다른 예로, 서버(1000)는 제4 특징점(예, 도 8의 P4)의 센서 좌표계와 관련된 기준 좌표 정보와 제4 픽셀에 대응되는 픽셀 좌표 정보가 연계된 제2 좌표 쌍(pair)을 획득할 수 있다.
좌표 쌍에 기초하여 카메라의 외부 파라미터를 보정하는 단계(S1250)에서는, 서버(1000)는 좌표 쌍에 기초하여 카메라의 외부 파라미터를 보정할 수 있다.
예를 들면, 서버(1000)는 제2 캘리브레이션 기준 객체의 실제 높이(h), 실제 너비(d) 및/또는 실제 폭(w)에 대한 정보를 획득할 수 있다. 혹은 서버(1000)는 센서 기반 좌표계와 관련된 기준 좌표 정보로부터 제2 캘리브레이션 기준 객체의 실제 높이(h), 실제 너비(d) 및/또는 실제 폭(w)에 대한 정보를 연산할 수 있다. 구체적으로 서버(1000)는 제2 캘리브레이션 기준 객체의 제3 특징점(예, 도 8의 P3)의 기준 좌표 정보와 제2 캘리브레이션 기준 객체의 제4 특징점(예, 도 8의 P4)의 기준 좌표 정보에 기초하여 제2 캘리브레이션 기준 객체의 실제 높이(h), 실제 너비(d) 및/또는 실제 폭(w)에 대한 정보를 연산할 수 있다.
또한, 서버(1000)는 제2 캘리브레이션 기준 객체의 제3 특징점(예, 도 8의 P3)에 대응되는 제3 픽셀에 해당하는 픽셀 좌표 정보와 제4 캘리브레이션 기준 객체의 제4 특징점(예, 도 8의 P4)에 대응되는 제4 픽셀에 해당하는 픽셀 좌표 정보에 기초하여 제3 픽셀과 제4 픽셀 사이의 거리를 연산할 수 있다.
이때, 서버(1000)는 센서 기반 좌표계와 관련된 제2 캘리브레이션 기준 객체의 실제 길이 정보, 및 이미지 기반의 픽셀 좌표 정보에 기반한 픽셀 간 거리 정보에 기초하여 카메라의 외부 파라미터를 보정할 수 있다. 구체적으로 좌표 쌍은 카메라를 통하여 획득한 이미지 기반의 픽셀 좌표 정보와 센서 기반 좌표계와 관련된 기준 좌표 정보를 포함하고 있기 때문에, 서버(1000)는 좌표 쌍에 기초하여 카메라 좌표계와 카메라 외부의 센서 좌표계 사이의 변환 관계와 관련된 카메라의 외부 파라미터를 보정할 수 있다.
한편 도 8에서는 제2 캘리브레이션 기준 객체에 포함된 제3 특징점(P3)과 제3 특징점(P3)에 인접한 제4 특징점(P4)를 중심으로 카메라의 외부 파라미터를 보정하는 내용을 중심으로 설명하였다. 다만, 도 8에 도시된 제3 특징점(P3)과 제4 특징점(P4)은 설명의 편의를 위한 예시에 불과하며, 서버(1000)는 제2 캘리브레이션 기준 객체에 포함된 임의의 기준 영역(예, 꼭지점, 선, 면 등)에 기초하여 카메라의 외부 파라미터를 보정하도록 구현될 수 있다.
또한, 도 8에서는 직육면체 형태의 제2 캘리브레이션 기준 객체를 중심으로 설명하였으나, 이는 예시에 불과하며 서버(1000)는 임의의 형태의 객체의 정보를 이용하여 카메라의 외부 파라미터를 보정하도록 구현될 수 있다.
또한, 도 2 내지 도 8에서는 카메라 캘리브레이션 동작이 서버(1000)에서 수행되는 것으로 서술하였으나, 이는 예시에 불과하며, 카메라 캘리브레이션 동작은 서버(1000)와는 별도의 외부 장치(혹은 외부 서버)에서 수행되도록 구성될 수 있다.
다시 도 3을 참고하면, 본 출원의 일 실시예에 따른 학습 세트 생성 방법은, 제1 카메라(110)로부터 촬영된 제1 영상과 제2 카메라(120)로부터 촬영된 제2 영상을 획득하는 단계(S2000), 제1 영상으로부터 대상 객체를 인식하고 대상 객체와 관련된 2차원의 제1 바운딩박스를 획득하는 단계(S3000), 제2 영상으로부터 대상 객체를 인식하고 대상 객체와 관련된 2차원의 제2 바운딩박스를 획득하는 단계(S4000), 제1 바운딩박스 및 제2 바운딩박스에 기초하여 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 단계(S5000) 대상 바운딩박스에 대응되는 센싱 데이터를 획득하는 단계(S6000), 및 신경망 모델을 학습시키기 위한 학습 세트를 생성하는 단계(S7000)를 포함할 수 있다.
제1 카메라로부터 촬영된 제1 영상과 제2 카메라로부터 촬영된 제2 영상을 획득하는 단계(S2000)에서는, 서버(1000)는 적어도 하나의 카메라로부터 영상을 획득할 수 있다. 일 예로, 서버(1000)는 대상 객체에 대하여 제1 위치에 위치하는 제1 카메라(110)를 통하여 대상 객체가 촬영된 제1 영상을 획득할 수 있다. 다른 예로, 서버(1000)는 대상 객체에 대하여 제2 위치에 위치하는 제2 카메라(120)를 통하여 대상 객체가 촬영된 제2 영상을 획득할 수 있다.
한편 전술한 바와 같이, 제1 영상과 제2 영상은 프레임별로 싱크가 맞춰진 영상일 수 있다. 예컨대, 서버(1000)는 제1 카메라(110)로부터 획득한 제1 영상, 제2 카메라(120)로부터 획득한 제2 영상, 및/또는 센서(200)로부터 획득한 센싱 데이터 간의 싱크(sync)를 맞추는 동작을 수행할 수 있으며, 도 3에서 도시된 S2000 단계의 제1 영상과 제2 영상은 프레임별로 싱크가 맞춰진 후의 영상들을 의미할 수 있다.
본 출원의 일 실시예에 따른 학습 세트 생성 방법은, 제1 영상으로부터 대상 객체를 인식하고 대상 객체와 관련된 제1 객체 정보를 획득하는 단계(S3000)를 포함할 수 있다. 제1 영상으로부터 대상 객체를 인식하고 대상 객체와 관련된 제1 객체 정보를 획득하는 단계(S3000)에서는, 서버(1000)는 제1 영상의 프레임별로 대상 객체를 검출하고, 대상 객체와 관련된 제1 객체 정보를 획득할 수 있다. 여기서 제1 객체 정보란, 제1 영상 내에서 검출된 대상 객체와 관련된 2차원의 바운딩박스 및/또는 대상 객체의 랜드마크(예, 눈, 코, 귀, 어깨, 팔꿈치, 손, 골반, 무릎, 발 등)에 대응되는 영상 정보(예, 셀 좌표 등) 중 적어도 하나를 포함할 수 있다.
일 예로, 서버(1000)는 객체 검출(object detection)과 관련된 딥 러닝 기법(예, yolo, yoloV3, ssd, Retinanet 등)을 활용하여 제1 영상으로부터 대상 객체를 검출하고, 제1 영상 내의 대상 객체에 해당하는 영역의 마스크(mask)를 획득할 수 있다. 또한, 서버(1000)는 제1 영상의 마스크에 기초하여 대상 객체와 관련된 2차원의 제1 바운딩박스를 획득할 수 있다. 추가적으로 서버(1000)는 대상 객체 검출의 성능을 높이기 위한 임의의 기법을 활용할 수 있다. 예컨대, 서버(1000)는 객체 검출 기법에 칼만 필터(Kalman filter)를 추가한 Simple Online and Realtime Tracking(이하, SORT) 알고리즘을 활용하여 대상 객체 검출의 정확도를 높이고 사물의 위치를 추적하는 연산을 수행하도록 구현될 수 있다.
다른 예로, 서버(1000)는 포즈 추정(pose estimation)과 관련된 딥 러닝 기법(예, AlphaPose)을 활용하여 제1 영상으로부터 대상 객체의 랜드마크(예, 예, 눈, 코, 귀, 어깨, 팔꿈치, 손, 골반, 무릎, 발 등)에 대응되는 제1 셀 정보(예, 셀 좌표 정보)를 획득할 수 있다. 구체적으로 서버(1000)는 제1 영상으로부터 검출된 대상 객체에 대하여 포즈 추정을 수행하여 대상 객체와 관련된 객체 정보로서 대상 객체의 랜드마크에 대응되는 제1 셀 정보를 획득할 수 있다.
다만 상술한 객체 검출 기법과 포즈 추정 기법은 예시에 불과하며, 서버(1000)는 임의의 적절한 방법을 활용하여 영상으로부터 대상 객체를 검출하도록 구현될 수 있을 것이다.
본 출원의 일 실시예에 따른 학습 세트 생성 방법은, 제2 영상으로부터 대상 객체를 인식하고 대상 객체와 관련된 제2 객체 정보를 획득하는 단계 (S4000)를 포함할 수 있다. 제2 영상으로부터 대상 객체를 인식하고 대상 객체와 관련된 제2 객체 정보를 획득하는 단계(S4000)에서는, 서버(1000)는 제2 영상의 프레임별로 대상 객체를 검출하고, 대상 객체와 관련된 제2 객체 정보를 획득할 수 있다. 여기서, 제2 객체 정보란, 제2 영상 내에서 검출된 대상 객체와 관련된 2차원의 바운딩박스 및/또는 대상 객체의 랜드마크(예, 눈, 코, 귀, 어깨, 팔꿈치, 손, 골반, 무릎, 발 등)에 대응되는 영상 정보(예, 셀 좌표 등) 중 적어도 하나를 포함할 수 있다.
일 예로, 서버(1000)는 객체 검출(object detection)과 관련된 딥 러닝 기법(예, yolo, yoloV3, ssd, Retinanet 등)을 활용하여 제2 영상으로부터 대상 객체를 검출하고, 제2 영상 내의 대상 객체에 해당하는 영역의 마스크(mask)를 획득할 수 있다. 또한, 서버(1000)는 제2 영상의 마스크에 기초하여 대상 객체와 관련된 2차원의 제2 바운딩박스를 획득할 수 있다. 추가적으로 서버(1000)는 대상 객체 검출의 성능을 높이기 위한 임의의 기법을 활용할 수 있다. 예컨대, 서버(1000)는 객체 검출 기법에 칼만 필터(Kalman filter)를 추가한 Simple Online and Realtime Tracking(이하, SORT) 알고리즘을 활용하여 대상 객체 검출의 정확도를 높이고 사물의 위치를 추적하는 연산을 수행하도록 구현될 수 있다.
다른 예로, 서버(1000)는 포즈 추정(pose estimation)과 관련된 딥 러닝 기법(예, AlphaPose)을 활용하여 제2 영상으로부터 대상 객체의 랜드마크(예, 예, 눈, 코, 귀, 어깨, 팔꿈치, 손, 골반, 무릎, 발 등)에 대응되는 제2 셀 정보(예, 셀 좌표 정보)를 획득할 수 있다. 구체적으로 서버(1000)는 제2 영상으로부터 검출된 대상 객체에 대하여 포즈 추정을 수행하여 대상 객체와 관련된 객체 정보로서 대상 객체의 랜드마크에 대응되는 제2 셀 정보를 획득할 수 있다.
다만 상술한 객체 검출 기법과 포즈 추정 기법은 예시에 불과하며, 서버(1000)는 임의의 적절한 방법을 활용하여 영상으로부터 대상 객체를 검출하도록 구현될 수 있을 것이다.
제1 객체 정보 및 제2 객체 정보에 기초하여 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 단계(S5000)에서는, 서버(1000)는, 제1 영상으로부터 획득된 대상 객체와 관련된 제1 객체 정보 및 제2 영상으로부터 획득된 대상 객체와 관련된 제2 객체 정보로부터 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득할 수 있다.
일 예로, 서버(1000)는 제1 객체 정보에 포함된 제1 바운딩박스와 제2 객체 정보에 포함된 제2 바운딩박스 각각을 3차원 공간좌표에 리버스 투영(Reverse project)함으로써 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득할 수 있다. 다른 예로, 서버(1000)는 제1 객체 정보에 포함된 제1 셀 정보와 제2 객체 정보에 포함된 제2 셀 정보 각각을 3차원 공간좌표에 투영(Reverse project)함으로써 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득할 수 있다.
이하에서는 도 9 내지 도 14를 참고하여 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 단계(S5000)를 보다 구체적으로 서술한다. 구체적으로 도 9 내지 도 13을 참고하여 2차원의 바운딩박스와 관련된 객체 정보에 기초하여 대상 바운딩박스를 획득하는 일 실시예를 서술하며, 도 14를 참고하여 대상 객체의 랜드마크와 관련된 객체 정보에 기초하여 대상 바운딩박스를 획득하는 다른 실시예를 서술한다.
도 9는 본 출원의 일 실시예에 따른 대상 바운딩박스를 획득하는 단계(S5000)를 구체화한 순서도이다. 본 출원의 일 실시예에 따른 대상 바운딩박스를 획득하는 단계(S5000)는 제1 객체 정보에 포함된 2차원의 제1 바운딩박스를 3차원 공간좌표에 리버스 투영하여 제1 투영 체적을 획득하는 단계(S5100), 제2 객체 정보에 포함된 2차원의 제2 바운딩박스를 3차원 공간좌표에 리버스 투영하여 제2 투영 체적을 획득하는 단계(S5200), 및 제1 투영 체적 및 제2 투영 체적에 기초하여 대상 객체와 관련된 대상 바운딩박스를 획득하는 단계(S5300)를 포함할 수 있다.
제1 객체 정보에 포함된 2차원의 제1 바운딩박스를 3차원 공간좌표에 리버스 투영하여 제1 투영 체적을 획득하는 단계(S5100)에서는, 서버(1000)는 제1 영상에 포함된 대상 객체와 관련된 2차원의 제1 바운딩박스를 3차원 공간좌표에 리버스 투영하여 대상 객체와 관련된 제1 투영 체적을 획득할 수 있다. 구체적으로, 서버(1000)는 제1 카메라(110)의 내부 파라미터 및/또는 외부 파라미터를 이용하여 제1 바운딩박스를 3차원 공간좌표에 리버스 투영하여 제1 투영 체적을 획득할 수 있다.
제2 객체 정보에 포함된 2차원의 제2 바운딩박스를 3차원 공간좌표에 투영하여 제2 투영 체적을 획득하는 단계(S5200)에서는, 서버(1000)는 제2 영상에 포함된 대상 객체와 관련된 2차원의 제2 바운딩박스를 3차원 공간좌표에 리버스 투영하여 대상 객체와 관련된 제2 투영 체적을 연산할 수 있다. 구체적으로, 서버(1000)는 제2 카메라(120)의 내부 파라미터 및/또는 외부 파라미터를 이용하여 제2 바운딩박스를 3차원 공간좌표에 리버스 투영하여 제2 투영 체적을 획득할 수 있다.
제1 투영 체적 및 제2 투영 체적에 기초하여 대상 객체와 관련된 대상 바운딩박스를 획득하는 단계(S5300)에서는, 서버(1000)는 제1 투영 체적 및 제2 투영 체적 간의 교차 체적(intersection volume)을 획득하고, 교차 체적(intersection volume)에 기반하여 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득할 수 있다.
이하에서는 도 10 및 도 11을 참고하여 본 출원의 일 실시예에 따른 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 방법에 대하여 구체적으로 서술한다.
도 10은 본 출원의 일 실시예에 따른 대상 객체와 관련된 대상 바운딩박스를 획득하는 단계(S5300)를 구체화한 순서도이다. 도 11은 본 출원의 일 실시예에 따른 3차원의 대상 바운딩박스를 획득하는 일 양상을 도시한 도면이다.
본 출원의 일 실시예에 따른 대상 객체와 관련된 대상 바운딩박스를 획득하는 단계(S5300)는 제1 투영 체적을 구성하는 적어도 하나의 제1 평면을 획득하는 단계(S5310), 제2 투영 체적을 구성하는 적어도 하나의 제2 평면을 획득하는 단계(S5312), 및 제1 평면 및 제2 평면의 공통 평면을 획득하고 공통 평면에 기초하여 대상 바운딩박스를 획득하는 단계(S5314)를 포함할 수 있다.
제1 투영 체적을 구성하는 적어도 하나의 제1 평면을 획득하는 단계(S5310)에서는, 서버(1000)는 제1 투영 체적을 구성하는 적어도 하나의 제1 평면을 획득할 수 있다. 구체적으로 서버(1000)는, 제1 투영 체적을 구성하는 제1 라인(예, 도 11의 m1) 및 제2 라인(예, 도 11의 m2)을 포함하는 제1 평면을 획득할 수 있다.
제2 투영 체적을 구성하는 적어도 하나의 제2 평면을 획득하는 단계(S5312)에서는, 서버(1000)는 제2 투영 체적을 구성하는 적어도 하나의 제2 평면을 획득할 수 있다. 구체적으로 서버(1000)는, 제2 투영 체적을 구성하는 제3 라인(예, 도 11의 l1) 및 제4 라인(예, 도 11의 l2)을 포함하는 제2 평면을 획득할 수 있다.
제1 평면 및 제2 평면의 공통 평면을 획득하고 공통 평면에 기초하여 대상 바운딩박스를 획득하는 단계(S5314)에서는, 서버(1000)는 제1 투영 체적을 구성하는 적어도 하나의 제1 평면과 제2 투영 체적을 구성하는 적어도 하나의 제2 평면 간의 공통 평면을 획득할 수 있다. 또한, 서버(1000)는 획득한 복수의 공통 평면들에 기초하여 제1 투영 체적과 제2 투영 체적 간의 교차 체적을 획득할 수 있다. 또한, 서버(1000)는 교차 체적에 기반하여 대상 객체와 관련된 3차원의 대상 바운딩박스를 생성하도록 구현될 수 있다.
한편, 도 11에서는 제1 투영 체적과 제2 투영 체적 간의 교차 체적과 관련하여 제1 카메라(또는 제2 카메라)로부터 먼 위치에 대응되는 꼭지점(예, 도 11의 v1)을 포함하여 교차 체적을 생성하는 것으로 도시하였다. 다만 이는 예시에 불과하며, 서버(1000)는 카메라의 각도나 기울기(tilt)를 고려하여 제1 투영 체적과 제2 투영 체적 간의 교차 체적을 획득하도록 구현될 수 있다. 예컨대, 서버(1000)는, 제1 카메라(또는 제2 카메라)로부터 먼 위치에 대응되는 꼭지점(예, 도 11의 v1)는 보정하고 교차 체적을 생성하도록 구현될 수 있다. 구체적으로 서버(1000)는 특정 꼭지점(예, 도 11의 v1)은 제외하고 교차 체적을 생성하도록 구성될 수 있다.
한편, 제1 영상(또는 제2 영상)으로부터 획득한 바운딩박스가 복수개인 경우(즉, 각 영상에 대상 객체가 복수인 경우)에는 제1 영상으로부터 획득한 바운딩박스와 제2 영상으로부터 획득한 바운딩박스가 어떻게 매칭되는지 불분명한 경우가 존재할 수 있다.
본 출원의 일 실시예에 따른 서버(1000)는 각 영상으로부터 획득한 바운딩박스에 대응되는 투영 체적(혹은 대상 객체)과 관련된 특성 정보를 획득하고, 특성 정보 간의 유사도에 기초하여 3차원의 대상 바운딩박스를 획득하도록 구현될 수 있다. 구체적으로 서버(1000)는 제1 영상으로부터 획득한 제1 바운딩박스와 대응되는 제1 투영 체적(또는 대상 객체)과 관련된 제1 특성 정보 및 제2 영상으로부터 획득한 제2 바운딩박스와 대응되는 제2 투영 체적(또는 대상 객체)과 관련된 제2 특성 정보를 획득하고, 제1 특성 정보와 제2 특성 정보 간의 유사도에 기반하여 대상 바운딩박스를 획득할 수 있다.
이하에서는 도 12 및 도 13을 참고하여 본 출원의 일 실시예에 따른 대상 바운딩박스를 획득하는 내용에 대하여 보다 구체적으로 설명한다.
도 12는 본 출원의 일 실시예에 따른 대상 객체와 관련된 대상 바운딩박스를 획득하는 단계(S5300)를 구체화한 순서도이다. 도 13은 본 출원의 일 실시예에 따른 3차원의 대상 바운딩박스를 결정하는 일 양상을 도시한 도면이다.
본 출원의 일 실시예에 따른 대상 객체와 관련된 대상 바운딩박스를 획득하는 단계(S5300)는 제1 투영 체적 및 제2 투영 체적에 기초하여 3차원의 임시 바운딩박스들을 획득하는 단계(S5320), 제1 바운딩박스와 관련된 제1 특성 정보를 획득하는 단계(S5322), 제2 바운딩박스와 관련된 제2 특성 정보를 획득하는 단계(S5324), 제1 특성 정보와 제2 특성 정보의 유사도에 기초하여 임시 바운딩박스에 매칭 점수를 할당하는 단계(S5326), 및 매칭 점수에 기초하여 임시 바운딩박스들 중에서 대상 바운딩박스를 결정하는 단계(S5328)를 포함할 수 있다.
제1 투영 체적 및 제2 투영 체적에 기초하여 3차원의 임시 바운딩박스들을 획득하는 단계(S5320)에서는, 서버(1000)는, 제1 영상에 포함된 제1 대상객체와 관련된 2차원의 바운딩박스를 3차원 공간에 리버스 투영하여 투영체적을 획득할 수 있다. 또한, 서버(1000)는 제2 영상에 포함된 제1 대상객체와 관련된 2차원의 바운딩박스를 3차원 공간에 리버스 투영하여 투영체적을 획득할 수 있다. 또한, 서버(1000)는 제1 영상에 포함된 제2 대상객체와 관련된 2차원의 바운딩박스를 3차원 공간에 리버스 투영하여 투영체적을 획득할 수 있다. 또한, 서버(1000)는 제2 영상에 포함된 제2 대상객체와 관련된 2차원의 바운딩박스를 3차원 공간에 리버스 투영하여 투영체적을 획득할 수 있다.
이때, 서버(1000)는 제1 대상 객체와 관련된 투영 체적과 제2 대상 객체와 관련된 투영 체적 간의 조합에 따라 복수 개의 임시 바운딩박스를 생성할 수 있다. 예컨대, 서버(1000)는 제1 영상의 제1 대상 객체와 관련된 바운딩박스로부터 획득한 투영체적과 제2 영상의 제1 대상 객체와 관련된 바운딩박스로부터 획득한 투영체적에 기반하여 교차 체적을 연산하고, 획득된 교차 체적에 기반하여 3차원의 임시 바운딩박스(예, 도 13의 제1 임시 바운딩박스)를 획득할 수 있다. 또한, 서버(1000)는 제1 영상의 제1 대상 객체와 관련된 바운딩박스로부터 획득한 투영체적과 제2 영상의 제2 대상 객체와 관련된 바운딩박스로부터 획득한 투영체적에 기반하여 교차 체적을 연산하고, 획득된 교차 체적에 기반하여 3차원의 임시 바운딩박스(예, 도 13의 제2 임시 바운딩박스)를 획득할 수 있다.
다만, 생성된 복수 개의 임시 바운딩박스들 중에는 오차가 존재할 수 있다. 예컨대, 도 13에 도시된 제2 임시 바운딩박스는 제1 대상 객체로부터 획득된 투영 체적과 제2 대상 객체로부터 획득된 투영 체적 간의 교차 체적에 기반하여 획득된 임시 바운딩박스로, 상이한 대상 객체로부터 획득되었다는 오류가 존재할 수 있다.
따라서, 본 출원의 일 실시예에 따른 서버(1000)는 임시 바운딩박스들 중에서 대상 바운딩박스를 결정하도록 구현될 수 있다. 구체적으로, 서버(1000)는 투영 체적(또는 대상 객체)과 관련된 특성 정보들을 획득하고, 특성 정보 간의 유사도에 따라여 임시 바운딩박스에 대하여 매칭 점수를 부여하고, 매칭 점수에 기반하여 임시 바운딩박스 중에서 대상 바운딩박스를 결정하도록 구현될 수 있다. 여기서, 특성 정보란 투영 체적(또는 대상 객체)과 관련된 색 정보, 분포 정보 등을 포함하여 제1 바운딩박스와 제2 바운딩박스 간의 유사도 판별에 이용할 수 있는 임의의 정보를 포괄하는 의미일 수 있다. 또한 여기서 제1 바운딩박스는 제1 영상으로부터 획득된 임의의 바운딩박스를 포괄하는 의미일 수 있으며, 제2 바운딩박스는 제2 영상으로부터 획득된 임의의 바운딩박스를 포괄하는 의미일 수 있다.
제1 바운딩박스와 관련된 제1 특성 정보를 획득하는 단계(S5322)에서는, 서버(1000)는, 3차원의 임시 바운딩박스와 관련된 제1 바운딩박스에 대응되는 제1 투영 체적(또는 대상 객체)의 제1 특성 정보를 획득할 수 있다. 예컨대, 서버(1000)는 제1 임시 바운딩박스와 관련된 제1 바운딩박스(예컨대, 제1 영상의 제1 대상 객체에 대응되는 바운딩박스)와 대응되는 제1 대상 객체의 제1 특성 정보(예컨대, 제1 대상 객체의 색 정보)를 획득할 수 있다. 또한, 서버(1000)는 제2 임시 바운딩박스와 관련된 제1 바운딩박스(예컨대, 제1 영상의 제1 대상 객체에 대응되는 바운딩박스)와 대응되는 제1 대상 객체의 제1 특성 정보(예컨대, 제1 대상 객체의 색 정보)를 획득할 수 있다.
제2 바운딩박스와 관련된 제2 특성 정보를 획득하는 단계(S5324)에서는, 서버(1000)는, 3차원의 임시 바운딩박스와 관련된 제2 바운딩박스에 대응되는 제2 투영 체적(또는 대상 객체)의 제2 특성 정보를 획득할 수 있다. 예컨대, 서버(1000)는 제1 임시 바운딩박스와 관련된 제2 바운딩박스(예컨대, 제2 영상의 제1 대상 객체에 대응되는 바운딩박스)와 대응되는 제1 대상 객체의 제2 특성 정보(예컨대, 제1 대상 객체의 색 정보)를 획득할 수 있다. 또한, 서버(1000)는 제2 임시 바운딩박스와 관련된 제2 바운딩박스(예컨대, 제2 영상의 제2 대상 객체에 대응되는 바운딩박스)와 대응되는 제2 대상 객체의 제2 특성 정보(예컨대, 제2 대상 객체의 색 정보)를 획득할 수 있다.
일 예로, 서버(1000)는 각 바운딩박스에 대응되는 대상 객체와 관련된 특성 정보를 획득하는 데 로모(Local Maximal Occurrence, Lomo) 피처 기법을 활용할 수 있다. 로모 피처 기법은 다른 각도의 영상에서의 객체 식별을 위하여 객체의 특성, 예컨대 객체의 색을 중점적으로 고려하여 동일한 객체인지 여부를 판단할 수 있는 기법이다. 본 출원의 일 실시예에 따른 서버(1000)는 로모 피처 기법을 활용하여 매칭된 제1 바운딩박스와 제2 바운딩박스에 대응되는 대상 객체 간의 유사도를 판단할 수 있다.
제1 특성 정보와 제2 특성 정보의 유사도에 기초하여 임시 바운딩박스에 매칭 점수를 할당하는 단계(S5326)에서는, 서버(1000)는, 제1 영상으로부터 획득한 제1 투영 체적(또는 대상 객체)의 제1 특성 정보와 제2 영상으로부터 획득한 제2 투영 체적(또는 대상 객체)의 제2 특성 정보 간의 유사도에 기초하여 3차원의 임시 바운딩박스에 매칭 점수를 부여할 수 있다. 예컨대, 서버(1000)는 제1 임시 바운딩박스와 관련된 제1 영상의 제1 바운딩박스에 대응되는 제1 특성 정보(예, 색 정보)와 제1 임시 바운딩박스와 관련된 제2 영상의 제2 바운딩박스에 대응되는 제2 특성 정보(예, 색 정보) 간에 유사도에 기반하여 제1 임시 바운딩박스에 제1 점수를 부여할 수 있다. 다른 예를 들어, 서버(1000)는 제2 임시 바운딩박스와 관련된 제1 영상의 제1 바운딩박스에 대응되는 제1 특성 정보(예, 색 정보)와 제2 임시 바운딩박스와 관련된 제2 영상의 제2 바운딩박스에 대응되는 제2 특성 정보(예, 색 정보) 간에 유사도에 기반하여 제2 임시 바운딩박스에 제2 점수를 부여할 수 있다. 이때, 서버(1000)는 제1 영상의 제1 대상 객체에 대응되는 제1 바운딩박스와 제2 영상의 제1 대상 객체에 대응되는 제2 바운딩박스로부터 획득된 제1 임시 바운딩박스에 제2 임시 바운딩박스에 할당된 제2 점수에 비하여 상대적으로 높은 점수를 부여할 수 있다.
한편, 제2 임시 바운딩박스는 제1 영상의 제1 대상 객체에 대응되는 제1 바운딩박스와 제2 영상의 제2 대상 객체에 대응되는 제2 바운딩박스로부터 생성되었기 때문에, 특성 정보 간의 유사도가 제1 임시 바운딩박스의 경우보다 낮을 수 있다. 일 예로, 서버(1000)는 제2 임시 바운딩박스에 제1 임시 바운딩박스에 할당된 제1 점수보다 상대적으로 낮은 점수를 부여할 수 있다. 다른 예로, 서버(1000)는 제1 특성 정보와 제2 특성 정보 간의 유사도가 미리 결정된 기준보다 낮은 경우에는 미리 결정된 점수를 일률적으로 할당하여 해당 임시 바운딩박스를 대상 바운딩박스로 결정하지 않도록 구현될 수 있다.
본 출원의 일 실시예에 따른 서버(1000)는, 임시 바운딩박스에 매칭 점수를 할당하는데, 제1 특성 정보와 제2 특성 정보 간의 코사인 유사성(cosine similarity)을 활용할 수 있다. 코사인 유사성은 임의의 벡터 간의 유사성을 측정하는 방법 중 하나로, 코사인 유사성이 높을수록 임의의 벡터들이 서로 동일할 확률이 높음을 의미한다. 본 출원의 일 실시예에 따른 서버(1000)는, 제1 특성 정보와 제2 특성 정보 간의 코사인 유사성을 측정하고, 코사인 유사성에 기반하여 임시 바운딩박스에 매칭 점수를 부여할 수 있다. 다만, 이는 예시에 불과하며, 서버(1000)는 임의의 적절한 기법을 활용하여 제1 특성 정보와 제2 특성 정보 간의 유사도를 평가하고, 평가된 유사도에 기반하여 임시 바운딩박스에 매칭 점수를 부여하도록 구성될 수 있을 것이다.
매칭 점수에 기초하여 임시 바운딩박스들 중에서 대상 바운딩박스를 결정하는 단계(S5328)에서는, 서버(1000)는, 각 임시 바운딩박스의 매칭 점수에 기초하여 임시 바운딩박스들 중에서 대상 바운딩박스를 선택하거나 결정할 수 있다. 구체적으로 서버(1000)는, 임시 바운딩박스들의 매칭 점수를 비교하여 높은 점수를 할당 받은 임시 바운딩박스를 대상 바운딩박스로 결정할 수 있다. 이때, 또한, 서버(1000)는 Hungarian algorithm을 통해 임시 바운딩박스들 중에서 최적의 매칭 점수를 가지는 임시 바운딩박스를 대상 바운딩박스로 결정할 수 있다.
구체적으로 서버(1000)는 제1 임시 바운딩박스에 부여된 제1 점수와 제2 임시 바운딩박스에 부여된 제2 점수를 비교하여 제1 임시 바운딩박스와 제2 임시 바운딩박스 중에서 적어도 하나를 제1 대상 객체와 관련된 대상 바운딩박스로 결정할 수 있다. 예컨대, 도 13의 제1 임시 바운딩박스(즉, 제1 영상의 제1 대상 객체로부터 획득된 제1 바운딩박스 및 제2 영상의 제1 대상 객체로부터 획득된 제2 바운딩박스로부터 생성된 3차원의 임시 바운딩박스)는 도 13의 제2 임시 바운딩박스(즉, 제1 영상의 제1 대상 객체로부터 획득된 제1 바운딩박스 및 제2 영상의 제2 대상 객체로부터 획득된 제2 바운딩박스로부터 생성된 3차원의 바운딩박스)보다 높은 매칭 점수를 부여 받을 가능성이 높다. 이때, 서버(1000)는 제1 임시 바운딩박스에 부여된 제1 점수와 제2 임시 바운딩박스에 부여된 제2 점수를 비교하여 제1 임시 바운딩박스를 제1 대상 객체와 관련된 대상 바운딩박스로 결정할 수 있다.
이상에서는 제1 대상 객체와 관련된 대상 바운딩박스를 결정하는 내용을 중심으로 서술하였다. 다만 이는 설명의 편의를 위한 것이며, 제2 대상 객체와 관련된 대상 바운딩박스를 결정하는 내용에도 유추적용될 수 있다.
이하에서는 도 14를 참고하여 따른 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 다른 실시예를 구체적으로 서술한다. 도 14는 본 출원의 다른 실시예에 따른 대상 객체와 관련된 대상 바운딩박스를 획득하는 단계를 구체화한 순서도이다.
본 출원의 다른 실시예에 따른 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 단계(S5000)는 제1 객체 정보에 포함된 대상 객체와 관련된 제1 셀 정보를 투영하여 제1 투영 직선을 획득하는 단계(S5400), 제2 객체 정보에 포함된 대상 객체와 관련된 제2 셀 정보를 투영하여 제2 투영 직선을 획득하는 단계(S5500), 및 제1 투영 직선 및 제2 투영 직선에 기초하여 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 단계(S5600)을 포함할 수 있다.
제1 객체 정보에 포함된 대상 객체와 관련된 제1 셀 정보를 투영하여 제1 투영 직선을 획득하는 단계(S5400)에서는, 서버(1000)는 제1 객체 정보에 포함된 대상 객체의 랜드마크(예, 눈, 코, 귀, 어깨, 팔꿈치, 손, 골반, 무릎, 발)에 대응되는 제1 셀 정보를 3차원 공간좌표에 투영하여 제1 투영 직선을 획득할 수 있다.
제2 객체 정보에 포함된 대상 객체와 관련된 제2 셀 정보를 투영하여 제2 투영 직선을 획득하는 단계(S5500)에서는, 서버(1000)는 제2 객체 정보에 포함된 대상 객체의 랜드마크(예, 눈, 코, 귀, 어깨, 팔꿈치, 손, 골반, 무릎, 발)에 대응되는 제2 셀 정보를 3차원 공간좌표에 투영하여 제2 투영 직선을 획득할 수 있다.
제1 투영 직선 및 제2 투영 직선에 기초하여 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 단계(S5600)에서는, 서버(1000)는 제1 투영 직선과 제2 투영 직선에 기초하여 대상 객체와 관련된 3차원의 대상 바운딩박스를 연산할 수 있다. 일 예로, 서버(1000)는 제1 투영 직선과 제2 투영 직선 간의 교차점이 존재하는 경우에는 제1 투영 직선과 제2 투영 직선 간의 교차점을 획득할 수 있다. 다른 예로, 서버(1000)는 제1 투영 직선과 제2 투영 직선 간의 교차점이 존재하지 않는 경우에는, 제1 투영 직선과 제2 투영 직선으로부터 가장 가까운 3차원 공간좌표 상의 좌표를 획득할 수 있다. 또한, 서버(1000)는 대상 객체와 관련된 복수의 랜드마크 각각에 대응되는 제1 투영 직선과 제2 투영 직선을 획득하고, 제1 투영 직선과 제2 투영 직선 간의 교차점(또는 제1 투영 직선과 제2 투영 직선에 대하여 가장 가까운 3차원 공간좌표 상의 좌표)를 획득할 수 있다.
이때, 서버(1000)는 대상 객체의 각 랜드마크에 대응되는 교차점(또는 제1 투영 직선과 제2 투영 직선에 대하여 가장 가까운 3차원 공간좌표 상의 좌표)들을 포함하는 3차원 상의 대상 바운딩박스를 획득할 수 있다. 이때, 대상 바운딩박스는 교차점들을 포함하는 임의의 형태(예, 직육면체)로 구현될 수 있다.
한편, 전술한 바와 같이, 제1 영상(또는 제2 영상)으로부터 획득한 랜드마크의 교차점들이 어떤 조합으로 매칭되는지 불분명한 경우가 발생할 수 있다. 구체적으로, 대상 객체에 대하여 복수의 3차원의 바운딩박스(예, 제1 임시 바운딩박스, 제2 임시 바운딩박스 등)가 획득되는 경우가 존재할 수 있다. 이때, 본 출원의 일 실시예에 따른 서버(1000)는 각 랜드마크에 대응되는 투영 직선 사이의 거리에 기반하여 복수의 바운딩박스(예, 제1 임시 바운딩박스, 제2 임시 바운딩박스 중에서 3차원의 대상 바운딩박스를 결정하도록 구현될 수 있다.
구체적으로 서버(1000)는 대상 객체의 각 랜드마크에 대응되는 제1 투영 직선과 제2 투영 직선 간의 거리를 연산하고, 제1 투영 직선과 제2 투영 직선 간의 거리에 기반하여 복수의 바운딩박스(예, 제1 임시 바운딩박스, 제2 임시 바운딩박스) 각각에 매칭 점수를 부여할 수 있다. 일 예로, 서버(1000)는 제1 임시 바운딩박스와 관련된 적어도 하나의 랜드마크에 대응되는 제1 투영 직선과 제2 투영 직선 간의 거리들의 평균값 및/또는 중간값 등을 포함한 거리 정보를 연산하고, 거리 정보에 기초하여 제1 임시 바운딩박스에 제1 점수를 부여할 수 있다. 다른 예로, 서버(1000)는 제2 임시 바운딩박스와 관련된 적어도 하나의 랜드마크에 대응되는 제1 투영 직선과 제2 투영 직선 간의 거리들의 평균값 및/또는 중간값 등을 포함한 거리 정보를 연산하고, 거리 정보에 기초하여 제2 임시 바운딩박스에 제2 점수를 부여할 수 있다. 예컨대, 서버(1000)는 제1 투영 직선과 제2 투영 직선 간의 거리들의 평균값 및/또는 중간값 등을 포함한 거리 정보가 작은 값을 포함할수록, 바운딩박스에 더 작은 값을 부여할 수 있다. 특히 서버(1000)는 제1 투영 직선과 제2 투영 직선이 교차하는 경우에는 대응되는 바운딩박스의 교차점에 대하여 0점을 부여할 수 있다.
이때, 서버(1000)는 제1 점수와 제2 점수를 비교하여 제1 임시 바운딩박스와 제2 임시 바운딩박스 중에서 적어도 하나를 대상 바운딩박스로 결정할 수 있다. 예컨대, 제1 점수와 제2 점수를 비교하여 더 낮은 점수를 가지는 임시 바운딩박스를 대상 바운딩박스로 결정할 수 있다. 또한, 서버(1000)는 Hungarian algorithm을 통해 제1 임시바운딩박스와 제2 임시 바운딩박스 중에서 최적의 매칭 점수를 가지는 바운딩박스를 대상 바운딩박스로 결정할 수 있다.
다만, 상술한 내용은 예시에 불과하며, 서버(1000)는 거리 정보가 작은 값을 포함할수록, 임시 바운딩박스에 더 높은 값을 부여하고, 더 높은 점수를 가지는 임시 바운딩박스를 대상 바운딩박스로 결정하도록 구현될 수 있을 것이다.
다시 도 3을 참고하면, 본 출원의 일 실시예에 따른 학습 세트를 생성하는 방법은 대상 바운딩박스에 대응되는 센싱 데이터를 획득하는 단계(S6000)를 포함할 수 있다. 대상 바운딩박스에 대응되는 센싱 데이터를 획득하는 단계(S6000)에서는, 서버(1000)는 대상 바운딩박스와 관련된 센싱 데이터(예컨대, 레이더 데이터 또는 라이더 데이터)를 획득할 수 있다. 여기서, 센싱 데이터는 센서(200)로부터 획득된 이미지 형태의 데이터를 포함할 수 있다. 또한, 서버(1000)는, 전술한 바와 같이, 센싱 데이터와 카메라를 통하여 획득된 영상 데이터 간의 싱크(sync)를 맞추는 동작을 수행할 수 있기 때문에, 서버(1000)는 프레임별로 대상 바운딩박스에 대응되는 센싱 데이터를 획득할 수 있다.
다시 도 3을 참고하면, 본 출원의 일 실시예에 따른 학습 세트를 생성하는 방법은 신경망 모델을 학습시키기 위한 학습 세트를 생성하는 단계(S7000)를 포함할 수 있다. 신경망 모델을 학습시키기 위한 학습 세트를 생성하는 단계(S7000)에서는, 서버(1000)는 적어도 하나의 카메라를 통하여 획득한 대상 객체와 관련된 대상 바운딩박스와 센싱 데이터에 기초하여 신경망 모델을 학습시키기 위한 학습 세트를 생성할 수 있다. 예컨대, 서버(1000)는 센싱 데이터(예컨대, 레이더 데이터 또는 라이더 데이터)에 기초하여 대상 객체와 관련된 대상 바운딩박스를 출력하는 신경망 모델을 학습시키기 위한 학습 세트를 생성할 수 있다.
한편 도 3에서는 도시하지 않았으나, 본 출원의 일 실시예에 따른 학습 세트를 생성하는 방법은 제1 카메라(110)로부터 획득한 제1 영상, 제2 카메라(120)로부터 획득한 제2 영상, 및/또는 센서(200)로부터 획득한 센싱 데이터 간의 싱크(sync)를 맞추는 단계를 더 포함할 수 있다.
일 예로, 서버(1000)는 제1 카메라(110) 또는 제2 카메라(120)로부터 웹으로 브로드캐스트(broadcast)한 영상을 읽음으로써, 제1 카메라(110)로부터 획득한 제1 영상과 제2 카메라(120)로부터 획득한 제2 영상 간의 싱크를 맞추도록 구현될 수 있다. 예컨대, 서버(1000)는 OBS studio 27을 활용하여 제1 영상과 제2 영상을 획득하고, 공통의 서버(1000)의 시간 기준으로 제1 영상과 제2 영상의 타임 싱크를 맞추도록 구현될 수 있다.
다른 예로, 서버(1000)는 전술한 바와 같이, 센서(200)를 통하여 프레임 정보(예, 프레임 수 정보, 프레임 시간 정보 등), 메타 정보 등을 포함한 임의의 데이터를 획득할 수 있다. 이때, 서버(1000)는 프레임 정보 및/또는 메타 정보에 기초하여 영상 데이터와 센싱 데이터 간의 타임 싱크를 맞추도록 구현될 수 있다.
다만, 상술한 내용은 예시에 불과하며, 서버(1000)는 임의의 적절한 방법을 활용하여, 적어도 하나의 카메라로부터 획득한 영상 데이터와 센서로부터 획득한 센싱 데이터 간의 싱크를 맞추는 동작을 수행하도록 구현될 수 있다.
본 출원의 일 실시예에 따라 획득된 학습 세트는 센싱 데이터(예, 레이더 데이터 또는 라이더 데이터)에 기반하여 센싱 데이터에 포함된 대상 객체를 검출하고 검출된 대상 객체에 대응되는 3차원의 대상 바운딩박스를 출력하는 신경망 모델을 학습시키는 데 이용될 수 있다. 구체적으로 학습 세트는 전술한 학습 세트 생성 방법을 통하여 획득된 영상 데이터에 기반한 대상 객체에 대응되는 3차원의 대상 바운딩박스와 센싱 데이터를 포함할 수 있다. 이때 신경망 모델은 센싱 데이터를 입력 받고, 대상 객체에 대응되는 3차원의 대상 바운딩박스를 출력값으로 출력하도록 신경망 모델에 포함된 적어도 하나의 노드의 파라미터가 갱신될 수 있다.
학습이 완료된 신경망 모델은 센싱 데이터(예컨대, 레이더 데이터 또는 라이다 데이터)를 수신하고, 센싱 데이터에 포함된 대상 객체와 관련된 대상 바운딩박스를 출력하도록 구성될 수 있다.
본 출원의 일 실시예에 따른 학습이 완료된 신경망 모델은 차량에 탑재된 센서(예컨대, 라이더 센서 또는 레이더 센서)로부터 획득된 센싱 데이터에 기초하여, 차량 외부의 대상 객체를 인식하거나 차량 내부의 대상 객체를 인식하는 분야에 적용될 수 있다. 또한, 본 출원의 일 실시예에 따른 학습이 완료된 신경망 모델은 가정 또는 요양원 등에서의 객체의 낙상 감지(fall detection)에 이용될 수 있다. 구체적으로 벽이나 천장 등 일정 위치에 센서를 설치하고, 학습이 완료된 신경망 모델을 이용하여 대상 객체(예, 사람)를 인식하고, 대상 객체의 높이의 변화율을 연산하여 대상 객체의 낙상을 감지할 수 있다. 다만, 이는 예시에 불과하며, 임의의 유형의 센싱 데이터에 기초하여 대상 객체를 검출하는 임의의 적절한 분야에 활용될 수 있을 것이다.
본 출원의 일 실시예에 따른 학습 세트 생성 시스템(10)은 센싱 데이터 기반한 객체 인식 신경망 모델을 학습시키기 위한 학습 세트를 카메라 기반의 영상 데이터로부터 검출한 객체 정보와 연계하여 자동적으로 라벨링하여 생성함으로써, 라벨링 작업에 소요되는 시간 및 비용을 상당히 절약하고 용이하게 학습 세트를 획득할 수 있다는 유리한 효과를 제공할 수 있다.
또한, 본 출원의 일 실시예에 따른 학습 세트 생성 시스템(10)은 카메라 기반의 영상 데이터로부터 대상 객체와 관련된 대상 바운딩박스를 연산함에 있어, 특성 정보 간의 유사도 또는 대상 객체의 랜드마크를 이용하여 대상 바운딩박스를 정교하게 생성함으로써 보다 퀄리티가 높은 학습 세트를 획득할 수 있다.
상술한 서버(1000)의 다양한 동작들은 서버(1000)의 메모리(1200)에 저장될 수 있으며, 서버(1000)의 컨트롤러(1300)는 메모리(1200)에 저장된 동작들을 수행하도록 제공될 수 있다.
이상에서 실시 형태들에 설명된 특징, 구조, 효과 등은 본 발명의 적어도 하나의 실시 형태에 포함되며, 반드시 하나의 실시 형태에만 한정되는 것은 아니다. 나아가, 각 실시 형태에서 예시된 특징, 구조, 효과 등은 실시 형태들이 속하는 분야의 통상의 지식을 가지는 자에 의해 다른 실시 형태들에 대해서도 조합 또는 변형되어 실시 가능하다. 따라서 이러한 조합과 변형에 관계된 내용들은 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
또한, 이상에서 실시 형태를 중심으로 설명하였으나 이는 단지 예시일 뿐 본 발명을 한정하는 것이 아니며, 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시 형태의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 즉, 실시 형태에 구체적으로 나타난 각 구성 요소는 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (10)

  1. 객체를 검출하는 신경망 모델을 훈련시키기 위한 학습 세트를 생성하는 학습 세트 생성 장치가 센싱 데이터에 기초하여 객체를 검출하는 신경망 모델을 훈련시키기 위한 학습 세트를 생성하는 방법에 있어서, 상기 방법은,
    적어도 2 이상의 카메라에 대하여 캘리브레이션을 수행하는 단계;
    제1 카메라로부터 촬영된 제1 영상과 제2 카메라로부터 촬영된 제2 영상을 획득하는 단계;
    상기 제1 영상으로부터 대상 객체를 인식하고 상기 대상 객체와 관련된 제1 객체 정보를 획득하는 단계;
    상기 제2 영상으로부터 상기 대상 객체를 인식하고 상기 대상 객체와 관련된 제2 객체 정보를 획득하는 단계;
    상기 제1 객체 정보 및 상기 제2 객체 정보에 기초하여 상기 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 단계;
    상기 대상 바운딩박스에 대응되는 센싱 데이터를 획득하는 단계-상기 센싱 데이터는 라이더 센서 및 레이더 센서 중 적어도 하나를 통하여 획득됨-; 및
    상기 센싱 데이터 및 상기 대상 바운딩박스에 기초하여, 상기 센싱 데이터에 포함된 객체를 검출하는 신경망 모델을 학습시키기 위한 학습 세트를 생성하는 단계;를 포함하는,
    학습 세트 생성 방법.
  2. 제1 항에 있어서,
    상기 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 단계는,
    상기 제1 객체 정보에 포함된 제1 바운딩박스를 3차원 공간좌표에 리버스 투영(Revere project)하여 제1 투영 체적을 획득하는 단계;
    상기 제2 객체 정보에 포함된 제2 바운딩박스를 3차원 공간좌표에 리버스 투영(Revere project)하여 제2 투영 체적을 획득하는 단계; 및
    상기 제1 투영 체적 및 상기 제2 투영 체적에 기초하여 상기 제1 투영 체적과 상기 제2 투영 체적 간의 교차 체적을 획득하고, 상기 교차 체적에 기초하여 상기 대상 객체와 관련된 상기 대상 바운딩박스를 획득하는 단계;를 포함하는,
    학습 세트 생성 방법.
  3. 제2 항에 있어서,
    상기 대상 객체와 관련된 상기 대상 바운딩박스를 획득하는 단계는,
    상기 제1 투영 체적을 구성하는 적어도 하나의 제1 평면을 획득하는 단계;
    상기 제2 투영 체적을 구성하는 적어도 하나의 제2 평면을 획득하는 단계; 및
    상기 제1 평면 및 상기 제2 평면의 공통 평면을 획득하고, 상기 공통 평면에 기초하여 상기 대상 바운딩박스를 획득하는 단계;를 포함하는,
    학습 세트 생성 방법.
  4. 제2 항에 있어서,
    상기 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 단계는,
    상기 제1 투영 체적 및 상기 제2 투영 체적에 기초하여 적어도 2 이상의 3차원의 임시 바운딩박스들을 획득하는 단계;
    상기 제1 바운딩박스와 관련된 제1 특성 정보를 획득하는 단계;
    상기 제2 바운딩박스와 관련된 제2 특성 정보를 획득하는 단계;
    상기 제1 특성 정보와 상기 제2 특성 정보의 유사도에 기초하여 상기 임시 바운딩박스에 매칭 점수를 할당하는 단계; 및
    상기 매칭 점수에 기초하여 상기 임시 바운딩박스들 중에서 상기 대상 바운딩박스를 결정하는 단계;를 포함하는,
    학습 세트 생성 방법.
  5. 제1 항에 있어서,
    상기 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하는 단계는,
    상기 제1 객체 정보에 포함된 상기 대상 객체와 관련된 제1 셀 정보를 3차원 공간좌표에 투영하여 제1 투영 직선을 획득하는 단계;
    상기 제2 객체 정보에 포함된 상기 대상 객체와 관련된 제2 셀 정보를 3차원 공간좌표에 투영하여 제2 투영 직선을 획득하는 단계; 및
    상기 제1 투영 직선 및 상기 제2 투영 직선에 기초하여 상기 대상 객체와 관련된 3차원 대상 바운딩박스를 획득하는 단계;를 포함하는,
    학습 세트 생성 방법.
  6. 제5 항에 있어서,
    상기 제1 투영 직선 및 상기 제2 투영 직선에 기초하여 상기 대상 객체와 관련된 3차원 대상 바운딩박스를 획득하는 단계는,
    상기 제1 투영 직선 및 상기 제2 투영 직선에 기초하여 제1 임시 바운딩박스 및 제2 임시 바운딩박스를 포함하는 적어도 2 이상의 3차원의 임시 바운딩박스들을 획득하는 단계;
    상기 제1 투영 직선 및 상기 제2 투영 직선 간의 거리를 연산하는 단계;
    상기 연산된 거리에 기초하여 상기 제1 임시 바운딩박스에 제1 점수 및 상기 제2 임시 바운딩박스에 제2 점수를 할당하는 단계; 및
    상기 제1 점수 및 상기 제2 점수를 비교하여 상기 제1 임시 바운딩박스 및 상기 제2 임시 바운딩박스 중에서 적어도 하나를 대상 바운딩박스로 결정하는 단계;를 포함하는,
    학습 세트 생성 방법.
  7. 제1 항에 있어서,
    상기 적어도 2 이상의 카메라에 대하여 캘리브레이션을 수행하는 단계는,
    적어도 2 이상의 카메라의 내부 파라미터의 캘리브레이션을 수행하는 단계를 포함하되,
    상기 적어도 2 이상의 카메라의 내부 파라미터의 캘리브레이션을 수행하는 단계는,
    상기 카메라를 통하여 제1 캘리브레이션 기준 객체에 대한 이미지를 획득하는 단계;
    상기 이미지에 기초하여 상기 제1 캘리브레이션 기준 객체와 관련된 제1 픽셀 세트를 획득하는 단계;
    상기 카메라의 좌표계 정보를 획득하는 단계; 및
    상기 좌표계 정보 및 상기 제1 픽셀 세트에 기초하여 상기 카메라의 내부 파라미터(intrinsic parameter)를 보정하는 단계;를 포함하는,
    학습 세트 생성 방법.
  8. 제7 항에 있어서,
    상기 적어도 2 이상의 카메라에 대하여 캘리브레이션을 수행하는 단계는,
    적어도 2 이상의 카메라의 외부 파라미터의 캘리브레이션을 수행하는 단계를 포함하되,
    상기 적어도 2 이상의 카메라의 외부 파라미터의 캘리브레이션을 수행하는 단계는,
    제2 캘리브레이션 기준 객체에 대한 기준 좌표 정보를 획득하는 단계-상기 기준 좌표 정보는 라이더 센서 및 레이더 센서 중 적어도 하나의 센서 기반 좌표계와 관련됨-;
    상기 카메라를 통하여 상기 제2 캘리브레이션 기준 객체에 대한 이미지를 획득하는 단계;
    상기 이미지에 기초하여 상기 제2 캘리브레이션 기준 객체와 관련된 제2 픽셀 세트를 획득하는 단계;
    상기 기준 좌표 정보 및 상기 제2 픽셀 세트에 기초하여 좌표 쌍(pair)을 획득하는 단계; 및
    상기 좌표 쌍에 기초하여 상기 카메라의 외부 파라미터에 대한 보정을 수행하는 단계;를 포함하는,
    학습 세트 생성 방법.
  9. 컴퓨터에 제1 항 내지 제8 항 중 어느 하나의 항에 따른 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체.
  10. 센싱 데이터에 기초하여 객체를 검출하는 신경망 모델을 훈련시키기 위한 학습 세트를 생성하는 학습 세트 생성 장치에 있어서,
    제1 카메라, 제2 카메라 및 센서 중 적어도 하나와 통신하는 송수신부; 및
    상기 제1 카메라 및 상기 제2 카메라를 통하여 영상 데이터를 획득하고, 상기 센서를 통하여 센싱 데이터를 획득하고, 상기 영상 데이터 및 상기 센싱 데이터에 기반하여 학습 세트를 생성하는 컨트롤러;를 포함하되,
    상기 컨트롤러는,
    상기 제1 카메라로부터 촬영된 제1 영상과 상기 제2 카메라로부터 촬영된 제2 영상을 획득하고, 상기 제1 영상으로부터 대상 객체를 인식하고 상기 대상 객체와 관련된 제1 객체 정보를 획득하고, 상기 제2 영상으로부터 상기 대상 객체를 인식하고 상기 대상 객체와 관련된 제2 객체 정보를 획득하고, 상기 제1 객체 정보 및 상기 제2 객체 정보에 기초하여 상기 대상 객체와 관련된 3차원의 대상 바운딩박스를 획득하고, 상기 대상 바운딩박스에 대응되는 센서 데이터-상기 센서 데이터는 라이더 센서 및 레이더 센서 중 적어도 하나를 통하여 획득됨-;를 획득하고, 상기 센서 데이터 및 상기 대상 바운딩박스에 기초하여, 상기 센싱 데이터에 포함된 객체를 검출하는 신경망 모델을 학습시키기 위한 학습 세트를 생성하도록 구성되는,
    학습 세트 생성 장치.
PCT/KR2022/015177 2021-10-12 2022-10-07 학습 세트 생성 방법, 학습 세트 생성 장치, 및 학습 세트 생성 시스템 WO2023063661A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2022-0100621 2021-10-12
KR10-2021-0134610 2021-10-12
KR1020210134610A KR102433287B1 (ko) 2021-10-12 2021-10-12 학습 세트 생성 방법, 학습 세트 생성 장치, 및 학습 세트 생성 시스템
KR1020220100621A KR102639637B1 (ko) 2021-10-12 2022-08-11 학습 세트 생성 방법, 학습 세트 생성 장치, 및 학습 세트 생성 시스템

Publications (1)

Publication Number Publication Date
WO2023063661A1 true WO2023063661A1 (ko) 2023-04-20

Family

ID=85988825

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/015177 WO2023063661A1 (ko) 2021-10-12 2022-10-07 학습 세트 생성 방법, 학습 세트 생성 장치, 및 학습 세트 생성 시스템

Country Status (2)

Country Link
KR (1) KR102639637B1 (ko)
WO (1) WO2023063661A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116485917A (zh) * 2023-06-19 2023-07-25 擎翌(上海)智能科技有限公司 拍摄装置与雷达装置的联合标定方法、***、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120148145A1 (en) * 2010-12-08 2012-06-14 Cognex Corporation System and method for finding correspondence between cameras in a three-dimensional vision system
US20200082180A1 (en) * 2018-09-12 2020-03-12 TuSimple System and method for three-dimensional (3d) object detection
KR20200071960A (ko) * 2018-12-12 2020-06-22 충북대학교 산학협력단 카메라 및 라이다 센서 융합을 이용한 객체 검출 방법 및 그를 위한 장치
US20210312655A1 (en) * 2020-04-03 2021-10-07 Fanuc Corporation 3d pose estimation by a 2d camera
KR102433287B1 (ko) * 2021-10-12 2022-08-18 주식회사 에너자이(ENERZAi) 학습 세트 생성 방법, 학습 세트 생성 장치, 및 학습 세트 생성 시스템

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120148145A1 (en) * 2010-12-08 2012-06-14 Cognex Corporation System and method for finding correspondence between cameras in a three-dimensional vision system
US20200082180A1 (en) * 2018-09-12 2020-03-12 TuSimple System and method for three-dimensional (3d) object detection
KR20200071960A (ko) * 2018-12-12 2020-06-22 충북대학교 산학협력단 카메라 및 라이다 센서 융합을 이용한 객체 검출 방법 및 그를 위한 장치
US20210312655A1 (en) * 2020-04-03 2021-10-07 Fanuc Corporation 3d pose estimation by a 2d camera
KR102433287B1 (ko) * 2021-10-12 2022-08-18 주식회사 에너자이(ENERZAi) 학습 세트 생성 방법, 학습 세트 생성 장치, 및 학습 세트 생성 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LI PEILIANG; CHEN XIAOZHI; SHEN SHAOJIE: "Stereo R-CNN Based 3D Object Detection for Autonomous Driving", 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 15 June 2019 (2019-06-15), pages 7636 - 7644, XP033686629, DOI: 10.1109/CVPR.2019.00783 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116485917A (zh) * 2023-06-19 2023-07-25 擎翌(上海)智能科技有限公司 拍摄装置与雷达装置的联合标定方法、***、设备及介质
CN116485917B (zh) * 2023-06-19 2023-09-22 擎翌(上海)智能科技有限公司 拍摄装置与雷达装置的联合标定方法、***、设备及介质

Also Published As

Publication number Publication date
KR102639637B1 (ko) 2024-02-22
KR20230052208A (ko) 2023-04-19

Similar Documents

Publication Publication Date Title
WO2017008224A1 (zh) 一种移动物体的距离检测方法、装置及飞行器
JP4681856B2 (ja) カメラの校正方法及びカメラの校正装置
WO2016074169A1 (zh) 一种对目标物体的检测方法、检测装置以及机器人
WO2016065627A1 (zh) 一种基于位置的控制方法、装置、可移动机器以及机器人
WO2014058248A1 (ko) 단일객체에 대한 기울기를 추정하는 영상을 감시하는 장치 및 방법
WO2015194865A1 (ko) 검색 기반 상관 매칭을 이용하여 이동 로봇의 위치를 인식하기 위한 장치 및 그 방법
WO2023063661A1 (ko) 학습 세트 생성 방법, 학습 세트 생성 장치, 및 학습 세트 생성 시스템
WO2019199112A1 (ko) 자율 작업 시스템, 방법 및 컴퓨터 판독 가능한 기록매체
WO2019142997A1 (ko) 광학식 이미지 안정화 움직임에 의한 이미지의 변화를 보상하기 위한 장치 및 방법
WO2019156480A1 (ko) 시선에 기반한 관심 영역 검출 방법 및 이를 위한 전자 장치
WO2019194455A1 (en) Apparatus and method for recognizing object in image
WO2020141900A1 (ko) 이동 로봇 및 그 구동 방법
WO2022039404A1 (ko) 광시야각의 스테레오 카메라 장치 및 이를 이용한 깊이 영상 처리 방법
WO2019245320A1 (ko) 이미지 센서와 복수의 지자기 센서를 융합하여 위치 보정하는 이동 로봇 장치 및 제어 방법
WO2020091347A1 (ko) 3차원 깊이 측정 장치 및 방법
WO2020204291A1 (ko) 전자 장치 및 그의 발열 제어 방법
WO2020224089A1 (zh) 图案码位置调整方法、装置及计算机可读存储介质
WO2020130579A1 (ko) 이미지 처리 방법 및 그 전자 장치
WO2021221333A1 (ko) 맵 정보과 영상 매칭을 통한 실시간 로봇 위치 예측 방법 및 로봇
WO2021002530A1 (ko) 벽면 포인팅 기반 실내 구조 정보를 생성하는 휴대용 단말기 및 그 동작 방법
KR102433287B1 (ko) 학습 세트 생성 방법, 학습 세트 생성 장치, 및 학습 세트 생성 시스템
WO2022225135A1 (ko) 로봇, 로봇 및 사용자 단말을 포함하는 시스템 및 그 제어 방법
WO2020149527A1 (en) Apparatus and method for encoding in structured depth camera system
WO2021206209A1 (ko) 스마트 팩토리 구축을 위한 마커리스 기반의 ar 구현 방법 및 시스템
WO2018182066A1 (ko) 이미지에 동적 효과를 적용하는 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22881289

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE