IT202000016054A1 - METHOD FOR DETERMINING THE CONFIDENCE OF A DISPARITY MAP BY SELF-ADAPTIVE LEARNING OF A NEURAL NETWORK, AND RELATED SENSOR SYSTEM - Google Patents

METHOD FOR DETERMINING THE CONFIDENCE OF A DISPARITY MAP BY SELF-ADAPTIVE LEARNING OF A NEURAL NETWORK, AND RELATED SENSOR SYSTEM Download PDF

Info

Publication number
IT202000016054A1
IT202000016054A1 IT102020000016054A IT202000016054A IT202000016054A1 IT 202000016054 A1 IT202000016054 A1 IT 202000016054A1 IT 102020000016054 A IT102020000016054 A IT 102020000016054A IT 202000016054 A IT202000016054 A IT 202000016054A IT 202000016054 A1 IT202000016054 A1 IT 202000016054A1
Authority
IT
Italy
Prior art keywords
self
confidence
disparity map
disparity
pair
Prior art date
Application number
IT102020000016054A
Other languages
Italian (it)
Inventor
Matteo Poggi
Stefano Mattoccia
Fabio Tosi
Filippo Aleotti
Original Assignee
Univ Bologna Alma Mater Studiorum
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Bologna Alma Mater Studiorum filed Critical Univ Bologna Alma Mater Studiorum
Priority to IT102020000016054A priority Critical patent/IT202000016054A1/en
Priority to PCT/IT2021/050193 priority patent/WO2022003740A1/en
Publication of IT202000016054A1 publication Critical patent/IT202000016054A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Feedback Control In General (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Description

Metodo per determinare la confidenza di una mappa di disparit? mediante un apprendimento auto-adattivo di una rete neurale, e relativo sistema di sensori Method for determining the confidence of a disparity map? through a self-adaptive learning of a neural network, and related sensor system

La presente invenzione si riferisce ad un metodo per determinare la confidenza di una mappa di disparit? attraverso un apprendimento auto-adattivo di una rete neurale ed al suo sistema di sensori. Campo dell?invenzione The present invention relates to a method for determining the confidence of a disparity map? through self-adaptive learning of a neural network and its sensor system. Field of invention

Pi? in particolare, l'invenzione riguarda un metodo e un sistema di sensori del tipo menzionato, progettato in particolare per determinare la confidenza delle mappe di disparit? inferite da un algoritmo stereo o una rete attraverso una rete neurale in grado di auto-adattarsi, ma che pu? essere utilizzato per qualsiasi tipo di sistema di acquisizione di immagini, in cui ? necessario stimare la confidenza nel calcolo della profondit? o disparit?, determinando cos? il livello di affidabilit? (o incertezza) di ciascun pixel di detta immagine. Pi? in particular, the invention relates to a method and a sensor system of the aforementioned type, designed in particular for determining the confidence of disparity maps? inferred by a stereo algorithm or a network through a neural network capable of self-adaptation, but which can? be used for any type of image acquisition system, where ? necessary to estimate the confidence in the calculation of the depth? or disparity?, thus determining? the level of reliability? (or uncertainty) of each pixel of said image.

Di seguito, la descrizione sar? indirizzata a una stima della confidenza nel calcolo della profondit? o disparit? in modo autosupervisionato in una configurazione specifica, ma ? chiaro che lo stessa non dovrebbe essere considerata limitata a questo specifico utilizzo. Below, the description will be? addressed to an estimate of the confidence in the calculation of the depth? or disparity? in a self-supervised way in a specific configuration, but ? clear that the same should not be considered limited to this specific use.

Tecnica nota Known technique

Esistono sul mercato diversi sistemi per l'acquisizione di immagini in 3D, al fine di determinare la profondit? di un'immagine. There are several systems on the market for acquiring 3D images, in order to determine the depth? of an image.

Attualmente, lo stereo matching ? una delle strategie pi? popolari per percepire con precisione la struttura 3D della scena, attraverso due telecamere sincronizzate e diversi algoritmi, progettati a mano o basati su reti neurali profonde. Currently, stereo matching ? one of the strategies popular to accurately perceive the 3D structure of the scene, through two synchronized cameras and different algorithms, designed by hand or based on deep neural networks.

In molte applicazioni pratiche, oltre all'inferenza di disparit?, viene spesso eseguita anche la stima della confidenza. Per tale scopo, ? stata proposta una vasta gamma di metodi basati su misure tradizionali o strategie basate sull'apprendimento. In many practical applications, in addition to disparity inference, confidence estimation is also often performed. For this purpose, ? A wide range of methods based on traditional measures or learning-based strategies have been proposed.

Recentemente ? stato dimostrato come le reti all'avanguardia che elaborano i segnali disponibili da qualsiasi configurazione stereo (ovvero la coppia stereo di input e la mappa di disparit? di output) siano sostanzialmente equivalenti a quelle che elaborano l'intero volume di costi, supportando ulteriormente l'evidenza che il la stessa mappa delle disparit? contiene indizi sufficienti per identificare i valori anomali. Recently ? State-of-the-art networks that process signals available from any stereo configuration (i.e., input stereo pair and output disparity map) have been shown to be substantially equivalent to those that process full cost volume, further supporting the 'evidence that the same map of disparities? it contains enough clues to identify the outliers.

Tale caratteristica ? altamente desiderabile, poich? potenzialmente apre la strada per l'apprendimento della stima della confidenza per qualsiasi telecamera stereo, anche senza alcuna conoscenza dell'algoritmo stereo/rete implementata. This feature? highly desirable, since? potentially paves the way for learning confidence estimation for any stereo camera, even without any knowledge of the implemented stereo/network algorithm.

Questo fatto ? molto interessante poich? si verifica spesso con la maggior parte dei dispositivi industriali/standard (ad es. Stereolab ZED 2) o dispositivi di consumo (ad es. Smartphone). This fact ? very interesting since? often occurs with most industrial/standard devices (e.g. Stereolab ZED 2) or consumer devices (e.g. smartphones).

Tuttavia, questa opportunit? ? stata studiata solo parzialmente in letteratura. Inoltre, tutti i metodi sopra menzionati sono fortemente vincolati alla necessit? di etichette di profondit? di ?ground truth? acquisite nel dominio di destinazione. However, this opportunity ? been studied only partially in the literature. Furthermore, all the methods mentioned above are strongly constrained by the need to of depth labels? of ?ground truth? acquired in the destination domain.

Tuttavia, poich? l?ottenimento di tali etichette ? complicato e richiede tempo, sono stati proposti in letteratura alcuni metodi auto-supervisionati. Sebbene questi metodi abbiano dimostrato che la stima della confidenza pu? essere appresa senza la necessit? di sensori attivi, presentano vari inconvenienti. However, since l?obtaining these labels ? complicated and time consuming, some self-supervised methods have been proposed in the literature. While these methods have shown that confidence estimation can be learned without the need? of active sensors, have various drawbacks.

Uno degli inconvenienti delle soluzioni tecniche note che sono richieste sequenze stereo statiche. One of the drawbacks of known technical solutions is that static stereo sequences are required.

Inoltre, un inconveniente di un?altra delle soluzioni tecniche note ? che ha bisogno di accedere al volume dei costi (una rappresentazione interna usata tipicamente da algoritmi di matching stereo), raramente esposto nel caso dei sensori stereo disponibili sopra menzionati o non definito affatto nella maggior parte delle reti neurali moderne. Furthermore, a drawback of another of the known technical solutions? which needs access to the cost volume (an internal representation typically used by stereo matching algorithms), rarely exposed in the case of the available stereo sensors mentioned above or not defined at all in most modern neural networks.

Di conseguenza, le soluzioni disponibili nella tecnica nota non sono pensate per gestire l'adattamento, necessario per attenuare i problemi di spostamento del dominio. Pertanto, una soluzione per l'implementazione immediata della stima della confidenza autoadattiva sarebbe altamente desiderabile per molte applicazioni pratiche. Consequently, the solutions available in the prior art are not designed to handle scaling, which is necessary to mitigate domain shifting problems. Therefore, a solution for immediately implementing self-adaptive confidence estimation would be highly desirable for many practical applications.

Un esempio significativo riguarda gli smartphone, oggi dotati di pi? telecamere e algoritmi/reti stereo distribuiti per realt? aumentata o altre applicazioni in ambienti imprevedibili a priori. A significant example concerns smartphones, now equipped with more? distributed stereo cameras and algorithms/networks for reality? augmented or other applications in a priori unpredictable environments.

Segue una breve rassegna delle tecniche note in letteratura riguardanti le misure di confidenza e le recenti tendenze allo stereo matching. A brief review of the techniques known in the literature concerning confidence measures and the recent trends in stereo matching follows.

Le misure di confidenza possono essere suddivise in due categorie principali: misure convenzionali e misure apprese. Confidence measures can be divided into two main categories: conventional measures and learned measures.

La prima categoria consiste nel metodo convenzionale calcolato in genere dall'analisi del volume dei costi come il rapporto tra due minimi, come nel cosiddetto Peak-Ratio o PKR, o, come recentemente proposto, determinando le propriet? locali della mappa delle disparit?, come il numero di pixel con la stessa ipotesi di disparit?. The first category consists of the conventional method usually calculated from the analysis of the volume of costs as the ratio between two minima, as in the so-called Peak-Ratio or PKR, or, as recently proposed, by determining the properties of the disparity map, such as the number of pixels with the same disparity hypothesis.

Per quanto riguarda le misure apprese, pi? misure convenzionali vengono solitamente combinate e fornite come input ad un classificatore basato su random forest o per una rete neurale convoluzionale (CNN), opportunamente addestrati usando etichette di profondit?. As for the measures learned, pi? conventional measures are usually combined and fed as input to a random forest-based classifier or a convolutional neural network (CNN), suitably trained using depth labels.

I metodi appresi possono richiedere: The methods learned may require:

1) pieno accesso al volume dei costi per estrarre misure convenzionali o elaborare il volume stesso; 1) full access to the cost volume to extract conventional measures or process the volume itself;

2) mappe di disparit? sia per l?immagine sinistra, sia per la destra; o 2) disparity maps? both for the left image and for the right; or

3) solo l'immagine di input sinistra e la corrispondente mappa di disparit?. 3) only the left input image and the corresponding disparity map.

I tre requisiti di cui sopra si traducono in vincoli da pi? difficili a pi? lievi durante l'implementazione, la maggior parte di essi di solito non viene soddisfatta dalle telecamere stereo standard poich? espone all'utente solo la coppia stereo di input e la mappa di disparit? di output. Do the three requirements above translate into constraints from more? difficult to pi? slight during implementation, most of them usually not satisfied by standard stereo cameras since does it expose only the input stereo pair and disparity map to the user? of outputs.

Recentemente, ? stato dimostrato che, sebbene una CNN con accesso a tutto il volume dei costi possa funzionare meglio delle reti che elaborano la disparit? e solo l'immagine di riferimento, il margine tra i due approcci ? ridotto e, nella maggior parte dei casi, trascurabile, a scapito di una versatilit? molto minore della prima. Recently, ? It has been shown that although a CNN with access to all cost volume can perform better than networks that process disparity? and only the reference image, the margin between the two approaches ? reduced and, in most cases, negligible, at the expense of versatility? much smaller than the first.

Per quanto riguarda le applicazioni delle misure di confidenza, oltre al tradizionale compito di filtraggio dei valori anomali, molte applicazioni di livello superiore sfruttano tale indizio per scopi diversi. As for the applications of confidence measures, in addition to the traditional task of filtering outliers, many higher-level applications exploit this clue for different purposes.

In particolare, ? stata stimata la confidenza e utilizzata per rilevare ?punti di controllo? e migliorare l'ottimizzazione globale del volume dei costi. ? stata inoltre proposta una modulazione basata sulla confidenza del volume di costi applicato prima dell'ottimizzazione del Semi-Global Matching (SGM). Inoltre, sono stati ridotti gli effetti ?streaking? dell'algoritmo stereo SGM utilizzando una somma ponderata delle linee di scansione secondo una misura di confidenza. In particular, ? confidence was estimated and used to detect ?control points? and improve overall cost volume optimization. ? a modulation based on the confidence of the volume of costs applied before the optimization of the Semi-Global Matching (SGM) has also been proposed. Also, have the ?streaking? effects been reduced? of the SGM stereo algorithm using a weighted sum of scan lines according to a confidence measure.

Allo stesso modo, altri approcci prevedono la fusione di pi? scanline di SGM usando un classificatore di foresta casuale. Similarly, other approaches involve merging multiple? scanline of SGM using a random forest classifier.

Inoltre, sono stati proposti metodi che agiscono al di fuori degli algoritmi stereo per la fusione dell?output di multipli algoritmi stereo, fusione di sensori di natura differente e adattamento senza supervisione di modelli profondi (deep networks) per la corrispondenza stereo. Furthermore, methods acting outside the stereo algorithms have been proposed for fusion of the output of multiple stereo algorithms, fusion of sensors of different nature and unsupervised adaptation of deep networks for stereo matching.

L'apprendimento auto-supervisionato ? stato scarsamente studiato per la stima della confidenza. Self-supervised learning ? been poorly studied for confidence estimation.

Secondo alcuni approcci (Mostegel et al., [1]), vengono sfruttati video stereo, guardando a coerenze e contraddizioni tra i diversi punti di vista di una scena statica al fine di ottenere candidati corretti e sbagliati da un determinato algoritmo stereo. According to some approaches (Mostegel et al., [1]), stereo videos are exploited, looking at coherences and contradictions between the different points of view of a static scene in order to obtain correct and wrong candidates from a given stereo algorithm.

In altri approcci, (vedi Tosi et al. [2]), invece, ? stato fatto affidamento sulle tradizionali misure di confidenza per ottenere questi due insiemi secondo un consenso o meno tra loro. In other approaches, (see Tosi et al. [2]), however, ? Traditional confidence measures were relied upon to obtain these two sets as consensus or otherwise.

Inoltre, all'inizio, le CNN hanno sostituito i singoli passaggi della pipeline stereo, come il calcolo dei costi, convergendo rapidamente verso soluzioni end-to-end che stimano le mappe di disparit? densa mediante reti 2D o 3D. Also, early on, did CNNs replace single steps of the stereo pipeline, such as costing, quickly converging towards end-to-end solutions that estimate disparity maps? dense using 2D or 3D networks.

L'ultima tendenza nel settore consiste nel formulare la stima della disparit? come un problema di apprendimento continuo, grazie all'auto-supervisione abilitata dalla ri-proiezione dell'immagine. The latest trend in the sector is to formulate the estimate of the disparity? as a continuous learning problem, thanks to the self-supervision enabled by image re-projection.

Scopo dell?invenzione Purpose of the invention

Alla luce di quanto sopra, ? quindi uno scopo della presente invenzione il superamento degli inconvenienti menzionati nei metodi auto-supervisionati proposti della tecnica nota, fornendo un metodo per determinare la confidenza di una mappa di disparit? attraverso un apprendimento auto-adattivo di una rete neurale. In light of the above, therefore an object of the present invention is to overcome the drawbacks mentioned in the proposed self-supervised methods of the prior art by providing a method for determining the confidence of a disparity map? through a self-adaptive learning of a neural network.

Un altro scopo della presente invenzione ? quello di fornire un metodo per auto-adattare una misura di confidenza non vincolata al sistema stereo impiegato. Another object of the present invention ? that of providing a method for self-adapting a confidence measure unconstrained by the stereo system employed.

Un ulteriore scopo dell'invenzione ? quello di fornire una nuova funzione di perdita basata su segnali disponibili dalla coppia stereo di ingresso e solo sulla disparit? di uscita, senza bisogno di ulteriori informazioni per apprendere/adattarsi all'ambiente rilevato. A further object of the invention ? to provide a new function of loss based on signals available from the stereo pair of input and only on the disparity? output, without the need for additional information to learn/adapt to the detected environment.

Un altro scopo della presente invenzione ? quello di fornire un metodo e un sistema di elevata affidabilit?, facili da implementare e competitivi in termini di costi rispetto alla tecnica nota. Another object of the present invention ? that of providing a highly reliable method and system, easy to implement and competitive in terms of costs with respect to the prior art.

Inoltre, scopo della presente invenzione ? quello di fornire gli strumenti necessari per l'esecuzione del metodo e degli apparati per eseguire tale metodo. Furthermore, the purpose of the present invention ? that of providing the tools necessary for the execution of the method and the apparatuses for carrying out this method.

Oggetto dell?invenzione Object of the invention

Pertanto, uno specifico obiettivo della presente invenzione ? un metodo per determinare la confidenza di una mappa di disparit? Therefore, a specific objective of the present invention ? a method to determine the confidence of a disparity map?

mediante addestramento di una rete neurale, in cui la confidenza rappresenta il livello di affidabilit? o incertezza di ciascun pixel di detta mappa di disparit? da almeno una coppia di immagini digitali di una scena, comprendente le seguenti fasi: A. acquisire detta almeno una coppia di immagini digitali di detta scena; B. calcolare detta mappa di disparit? per ciascun pixel di detta coppia di immagini digitali C. estrarre almeno un criterio di auto-supervisione da detta almeno una coppia di immagini digitali etta mappa di disparit? D. calcolare una mappa di confi da detta mappa di disparit? mediante detta rete neurale; E. calcolare un segnale di perdita da detta mappa di confidenza ?? e detto almeno un criterio di auto-supervisione; e F. ottimizzare detta rete neurale addestrando detta rete neurale con le informazioni associate a detto segnale di perdita by training a neural network, in which confidence represents the level of reliability? or uncertainty of each pixel of said disparity map? from at least one pair of digital images of a scene, comprising the following steps: A. acquiring said at least one pair of digital images of said scene; B. calculate said disparity map? for each pixel of said pair of digital images C. extracting at least one self-supervision criterion from said at least one pair of digital images and said disparity map? Q. Calculate a confi map from said disparity map? by means of said neural network; E. calculate a loss signal from said confidence map?? and said at least one self-supervision criterion; and F. optimizing said neural network by training said neural network with information associated with said loss signal

Sempre secondo l?invenzione, detto almeno un criterio autoadattativo estratto in detta fase C pu? comprendere almeno uno dei seguenti criteri: un criterio di auto-supervisione relativo ad un errore di riproiezione tra detta almeno una coppia di immagini digitali un criterio di auto-supervisione relativo ad un accordo di disparit? tra pixels di detta mappa di disparit? e/o un criterio di auto-supervisione relativo al vincolo di unicit? di ogni pixel rispettivamente in e Still according to the invention, said at least one self-adaptive criterion extracted in said phase C can include at least one of the following criteria: a self-supervision criterion relating to a reprojection error between said at least one pair of digital images a self-supervising criterion relating to a disparity agreement? between pixels of said disparity map? and/or a self-supervision criterion related to the uniqueness constraint? of each pixel respectively in and

Vantaggiosamente secondo l?invenzione, detto criterio di autosupervisione relativo all?errore di riproiezione tra detta almeno una coppia di immagini digitali pu? essere calcolato secondo <la seguente equazione:> Advantageously according to the invention, said self-supervision criterion relating to the reprojection error between said at least one pair of digital images can be calculated according to <the following equation:>

dove e where is

con essendo una e dell?immagine di riferimento, SSIM ? l?indice di somiglianza strutturale e un parametro fra 0 e 1, preferibilmente impostato a 0.85. with being one and of the reference image, SSIM ? the structural similarity index and a parameter between 0 and 1, preferably set to 0.85.

Convenientemente secondo l?invenzione, detto criterio di autosupervisione relativo all?accordo di disparit? tra pixels di detta mappa di disparit? pu? essere calcolato secondo la seguente equazione: Conveniently according to the invention, said self-supervision criterion relating to the disparity agreement? between pixels of said disparity map? can? be calculated according to the following equation:

dove con un istogramma che codifica, per ciascun pixel di detta mappa di disparit? il numero di pixel vicini in una finestra ?aventi la stessa disparit? where with a histogram that encodes, for each pixel of said disparity map? the number of neighboring pixels in a window? having the same disparity?

Ancora secondo l?invenzione, detto criterio di autosupervisione relativo al vincolo di unicit? di ciascun pixel rispettivamente in pu? essere calcolato secondo la seguente <equazione:> Still according to the invention, said self-supervision criterion relating to the uniqueness constraint? of each pixel respectively in pu? be calculated according to the following <equation:>

dove Where

Sempre secondo l?invenzione, detto segnale di perdita pu? essere un segnale di perdita di entropia incrociata binaria multimodale calcolata secondo la seguente equazione: Always according to the invention, said signal of loss can? be a signal of multimode binary cross-entropy loss calculated according to the following equation:

dove ? l?output di detta rete neurale, e ? sono due insiemi di etichette di prossimit? derivate rispettivamente in modo tale che detto almeno uno dei criteri di auto-supervisione sia rispettato o meno. Where ? the? output of said neural network, and ? are two sets of proximity labels? derived respectively in such a way that said at least one of the self-supervision criteria is met or not.

Vantaggiosamente secondo l?invenzione, detta fase B pu? essere eseguita secondo la seguente formula Advantageously according to the invention, said phase B can? be performed according to the following formula

Convenientemente secondo l?invenzione, detta fase B pu? essere eseguita mediante una rete Conveniently according to the invention, said phase B can be performed via a network

Sempre secondo l?invenzione, detta fase A pu? essere eseguita da una unit? di rilevamento di immagini 10 che comprenda almeno un dispositivo di rilevamento di immagini digitali per l?acquisizione di detta almeno una coppia di immagini digitali detta fase B pu? essere eseguita da primi mezzi di elaborazione, connessi a detto dispositivo di rilevamento di immagini, detta fase C pu? essere eseguita da un filtro, connesso a detto dispositivo di rilevamento di immagini e detti primi mezzi di elaborazione, e dette fasi E e F possono essere eseguite da secondi mezzi di elaborazione, connessi a detto filtro e detta rete neurale. Still according to the invention, said phase A can? be performed by a unit? detection device 10 which comprises at least one digital image detection device for the acquisition of said at least one pair of digital images said phase B can? be performed by first processing means, connected to said image detection device, said phase C can? be performed by a filter, connected to said image detection device and said first processing means, and said steps E and F can be performed by second processing means, connected to said filter and said neural network.

Convenientemente secondo l?invenzione, detta fase A pu? essere eseguita da una tecnica di matching stereo, in modo tale da acquisire una immagine di riferimento e una immagine di destinazione di detta scena. Conveniently according to the invention, said phase A can? be performed by a stereo matching technique, in such a way as to acquire a reference image and a target image of said scene.

? inoltre oggetto della presente invenzione una unit? di elaborazione per determinare la confidenza di una mappa di disparit? ? further object of the present invention is a unit? of processing to determine the confidence of a disparity map?

in cui la confidenza rappresenta il livello di certezza o where confidence represents the level of certainty o

incertezza di ciascun pixel di detta mappa di disparit? da almeno una coppia di immagini digitali di una scena, in cui la mappa di disparit? ? ottenuta attraverso una rete e in cui l?unit? di elaborazione ? configurata per eseguire le fasi B-F di detto metodo. uncertainty of each pixel of said disparity map? from at least one pair of digital images of a scene, in which the disparity map? ? obtained through a network and in which the unit? of processing ? configured to perform steps B-F of said method.

Vantaggiosamente secondo l?invenzione, detta unit? di elaborazione pu? comprendere: mezzi di elaborazione, connessi a detta unit? di rilevazione di immagini, un filtro, connesso a detta unit? di rilevazione di immagini e detti mezzi di elaborazione, e configurato per estrarre almeno un criterio di auto-supervisione da detta almeno una coppia di immagini digitali e detta mappa di disparit? e una rete neurale, connessa a detti mezzi di elaborazione, configurata per produrre una mappa di confidenza Advantageously according to the invention, said unit? processing can? understand: processing means, connected to said unit? of detection of images, a filter, connected to said unit? detection apparatus and said processing means, and configured to extract at least one self-supervision criterion from said at least one pair of digital images and said disparity map? and a neural network, connected to said processing means, configured to produce a confidence map

di detta mappa di disparit? in cui detti mezzi di elaborazione sono configurati per determinare detta mappa di disparit? da detta almeno una coppia di immagini digitali e per calcolare un segnale di perdita da detta mappa di confidenza ? e detto almeno un criterio di auto-supervisione. of said disparity map? wherein said processing means is configured to determine said disparity map? from said at least one pair of digital images and for calculating a leak signal from said confidence map ? and called at least one self-supervision criterion.

? anche oggetto della presente invenzione un sistema di sensori per determinare la confidenza di una mappa di disparit? da almeno una coppia di immagini digitali di una scena, comprendente una unit? di rilevamento di immagini configurata per acquisire detta almeno una coppia di immagini digitali di detta scena, e una unit? di elaborazione, connessa a detta unit? di rilevazione di immagini. ? Also object of the present invention is a sensor system for determining the confidence of a disparity map? from at least one pair of digital images of a scene, comprising a unit? detection of images configured to acquire said at least one pair of digital images of said scene, and a unit? of elaboration, connected to said unity? image detection.

Inoltre, ? oggetto della presente invenzione un programma per elaboratore comprendente istruzioni che, quando il programma ? eseguito da un elaboratore, causano l?esecuzione da parte dell?elaboratore delle fasi del metodo. Furthermore, ? object of the present invention is a computer program comprising instructions which, when the program is executed by a processor, they cause the processor to execute the steps of the method.

? infine oggetto della presente invenzione un mezzo di memorizzazione leggibile da un elaboratore comprendente istruzioni che, quando eseguite da un elaboratore, causano l?esecuzione da parte dell?elaboratore delle fasi del metodo. ? Finally, the object of the present invention is a storage medium readable by a computer comprising instructions which, when executed by a computer, cause the execution by the computer of the steps of the method.

Breve descrizione dei disegni Brief description of the drawings

La presente invenzione verr? ora descritta, a scopo illustrativo ma non limitativo, secondo le sue forme di realizzazione preferite, con particolare riferimento alle figure dei disegni allegati, in cui: This invention will come now described, for illustrative but non-limiting purposes, according to its preferred embodiments, with particular reference to the figures of the attached drawings, in which:

Fig. 1 illustra uno schema a blocchi di una forma di realizzazione del sistema di sensori per determinare la confidenza di una mappa di disparit? mediante l'apprendimento auto-adattivo di una rete neurale, secondo la presente invenzione; Fig. 1 illustrates a block diagram of one embodiment of the sensor system for determining the confidence of a disparity map. by self-adaptive learning of a neural network, according to the present invention;

Fig. 2 illustra un diagramma di flusso relativo alle fasi del metodo per determinare la confidenza di una mappa di disparit? mediante l'apprendimento auto-adattivo di una rete neurale, secondo la presente invenzione; Fig. 2 illustrates a flowchart relating to the steps of the method for determining the confidence of a disparity map? by self-adaptive learning of a neural network, according to the present invention;

Fig. 3 illustra, data una regione evidenziata, una serie di valori anomali e una serie di valori non anomali, che sono determinati utilizzando diverse configurazioni di criteri di autosupervisione, secondo la presente invenzione; Fig. 3 illustrates, given a highlighted region, a set of outliers and a set of non-outliers, which are determined using different configurations of self-supervision criteria, according to the present invention;

Fig. 4 illustra una tabella che riporta i punteggi AUC (Area under the curve) per reti addestrate su una prima serie di immagini di prova e testato su una serie di immagini di test mai viste durante l?addestramento; Fig. 4 illustrates a table reporting the AUC (Area under the curve) scores for networks trained on a first set of test images and tested on a set of test images never seen during training;

Fig. 5 illustra da sinistra: un'immagine di riferimento, una mappa delle disparit? e mappe di confidenza ottenute mediante approcci auto-supervisionati esistenti [2], [1], la tecnica proposta e la tecnica proposta durante l'adattamento online; Fig. 5 illustrates from left: a reference image, a disparity map? and confidence maps obtained by existing self-supervised approaches [2], [1], the proposed technique and the proposed technique during online adaptation;

Fig. 6 illustra due esempi di immagine di riferimento Fig. 6 illustrates two examples of reference image

e relative mappe delle disparit? acquisite con un Apple iPhone XS, seguite dalle mappe di confidenze stimate dopo poche iterazioni di apprendimento online; e and related disparity maps? captured with an Apple iPhone XS, followed by estimated confidence maps after a few iterations of online learning; And

Fig. 7 mostra alcune immagini di riferimento, mappe di disparit? ottenute mediante vari algoritmi e mappe di confidenza ottenute mediante approcci auto-supervisionati esistenti [2], [1] e la tecnica proposta. Fig. 7 shows some reference images, disparity maps? obtained by various algorithms and confidence maps obtained by existing self-supervised approaches [2], [1] and the proposed technique.

Descrizione dettagliata Detailed description

Nelle varie figure, le parti simili saranno indicate con gli stessi numeri di riferimento. In the various figures, similar parts will be indicated by the same reference numerals.

Con riferimento alla sopra menzionata Fig. 1, viene mostrato un sistema di sensori per determinare la confidenza di una mappa di disparit? attraverso un apprendimento auto-adattivo di una rete neurale, indicato nel suo insieme con il numero di riferimento 1, che comprende un'unit? di rilevamento di immagini 10 e un'unit? di elaborazione U, collegata a detta unit? di rilevamento di immagini 10. With reference to the aforementioned Fig. 1, a sensor system is shown for determining the confidence of a disparity map? through a self-adaptive learning of a neural network, indicated as a whole with the reference number 1, which includes a unit? of image detection 10 and a unit? processing U, connected to said unit? image detection 10.

Nella presente forma di realizzazione, detta unit? di elaborazione U comprende primi mezzi di elaborazione 11 collegati a detta unit? di rilevamento di immagini 10, un filtro 12 collegato a detta unit? di rilevamento di immagini 10 e detti primi mezzi di elaborazione 11, secondi mezzi di elaborazione 13, collegati a detto filtro 12, e una rete neurale o rete di confidenza 14, collegata a detti primi mezzi di elaborazione 11 e a detti secondi mezzi di elaborazione 13. In the present embodiment, said unit? processing unit U comprises first processing means 11 connected to said unit? of image detection 10, a filter 12 connected to said unit? detection devices 10 and said first processing means 11, second processing means 13, connected to said filter 12, and a neural network or confidence network 14, connected to said first processing means 11 and to said second processing means 13 .

Nella forma di realizzazione secondo la presente invenzione, detti primi mezzi di elaborazione 11 e detti secondi mezzi di elaborazione 13 sono due mezzi di elaborazione diversi. In the embodiment according to the present invention, said first processing means 11 and said second processing means 13 are two different processing means.

Tuttavia, in altre forme di realizzazione della presente invenzione, detti primi mezzi di elaborazione 11 e detti secondi mezzi di elaborazione 13 possono essere considerati come gli stessi mezzi di elaborazione o integrati, ad esempio in uno stesso sistema a microprocessore. However, in other embodiments of the present invention, said first processing means 11 and said second processing means 13 can be considered as the same processing means or integrated, for example in the same microprocessor system.

Inoltre, nella forma di realizzazione in questione, detta unit? di rilevamento di immagini 10 ? un sistema di visione stereoscopica. Furthermore, in the embodiment in question, said unit? of image detection 10 ? a stereoscopic vision system.

Tuttavia, in altre forme di realizzazione della presente invenzione, detta unit? di rilevamento di immagini 10 pu? essere qualsiasi altro sistema anche secondo l'arte nota in grado di ottenere mappe di disparit? o di distanza da immagini digitali o altri metodi. However, in other embodiments of the present invention, said unit? of image detection 10 pu? be any other system also according to the prior art able to obtain disparity maps? or away from digital images or other methods.

In particolare, detta unit? di rilevamento di immagini 10 comprende un primo dispositivo di rilevamento di immagini 100 e un secondo dispositivo di rilevamento di immagini 101, come una videocamera, una macchina fotografica o un sensore, disposti ad una distanza fissa predeterminata l'uno dall'altro. In particular, this unit? sensing device 10 comprises a first image sensing device 100 and a second image sensing device 101, such as a video camera, camera or sensor, arranged at a predetermined fixed distance from each other.

In altre forme di realizzazione secondo la presente invenzione, l'unit? di rilevamento di immagini 10 pu? comprendere un numero di dispositivi di rilevamento diversi da due, ad esempio uno, come nei sistemi monoculari per la stima della profondit? dalle immagini. In other embodiments according to the present invention, the unit? of image detection 10 pu? include a number of sensing devices other than two, for example one, as in monocular systems for depth estimation? from the pictures.

Pi? specificamente, ciascuno di detti dispositivi di rilevamento di immagini 100, 101 rileva una rispettiva immagine dell'oggetto o della scena osservata. Pi? specifically, each of said image detection devices 100, 101 detects a respective image of the observed object or scene.

Come sar? meglio spiegato di seguito, l'immagine acquisita per mezzo di detto dispositivo di rilevamento di immagini 100, cio? l'immagine di sinistra, sar? considerata come immagine di riferimento o mentre l'immagine acquisita attraverso detto dispositivo di rilevamento di immagini 101, cio? l'immagine destra, sar? considerata come l'immagine di destinazione o How will it be? better explained below, the image acquired by means of said image detection device 100, i.e. the image on the left, sar? considered as a reference image or while the image acquired through said image detection device 101, ie? the right image, sar? regarded as the target image or

Tuttavia, ciascuna immagine acquisita dal rispettivo dispositivo di rilevamento 100, 101 pu? essere considerata come immagine di riferimento o destinazione However, each image acquired by the respective detection device 100, 101 can be regarded as a reference or target image

Sempre facendo riferimento alla Fig. 1, detti primi mezzi di elaborazione 11 sono collegati a detti dispositivi di rilevamento di immagini 100, 101. In particolare, detti primi mezzi di elaborazione 11 sono configurati per elaborare dette immagini Again with reference to Fig. 1, said first processing means 11 are connected to said image detection devices 100, 101. In particular, said first processing means 11 are configured to process said images

per ottenere una mappa di disparit? to get a disparity map?

Nella forma di realizzazione secondo la presente invenzione, la mappa di disparit? in uscita ? calcolata assumendo come immagine di riferimento. Tuttavia, in un'altra forma di realizzazione della presente invenzione, la mappa della disparit? di uscita pu? essere calcolata assumendo come immagine di riferimento. In the embodiment according to the present invention, the disparity map? output ? calculated assuming as reference image. However, in another embodiment of the present invention, the disparity map? output can? be calculated assuming as a reference image.

Inoltre, nella forma di realizzazione illustrata schematicamente nella Fig. 1, detti primi mezzi di elaborazione 11 generano detta mappa di disparit? per mezzo di un algoritmo o una rete Furthermore, in the embodiment schematically illustrated in Fig. 1, said first processing means 11 generate said disparity map? by means of an algorithm or a network

Tuttavia, in ulteriori forme di realizzazione della presente invenzione, detti primi mezzi di elaborazione 11 prevedono l'uso di algoritmi, reti, programmi o altri sensori aggiuntivi, in grado di generare mappe di disparit?. However, in further embodiments of the present invention, said first processing means 11 provide for the use of additional algorithms, networks, programs or other sensors, capable of generating disparity maps.

Come sar? meglio descritto di seguito, detto filtro 12 ? in grado di estrarre una pluralit? di criteri di auto-supervisione da detta mappa di disparit? e dette immagini e al fine di fornire un apprendimento auto-adattivo di detta rete di confidenza 14, come meglio spiegato di seguito. How will it be? better described below, said filter 12 ? able to extract a plurality? of self-supervision criteria from said disparity map? and said images and in order to provide self-adaptive learning of said confidence network 14, as better explained below.

Nella presente forma di realizzazione, come sar? meglio descritto di seguito, i criteri di auto-supervisione estratti sono tre, qui indicati come T, A e U, relativi rispettivamente all?errore di riproiezione dell'immagine, all?accordo di disparit? tra pixel vicini di un'immagine ed al vincolo di unicit? tra pixel di immagini diverse. In the present embodiment, how will it be? better described below, the self-supervision criteria extracted are three, indicated here as T, A and U, relating respectively to the image reprojection error, to the disparity agreement? between neighboring pixels of an image and the constraint of uniqueness? between pixels of different images.

Tuttavia, in altre forme di realizzazione, ? possibile estrarre o calcolare un numero diverso di detti criteri di auto-supervisione, come uno, due o pi? di tre criteri, rispetto a quelli sopra descritti. However, in other embodiments, ? Is it possible to extract or calculate a different number of said self-supervision criteria, such as one, two or more? of three criteria, with respect to those described above.

Inoltre, in altre forme di realizzazione della presente invenzione, ? possibile estrarre criteri diversi dai criteri di autosupervisione descritti per la presente invenzione. Furthermore, in other embodiments of the present invention, ? It is possible to extract criteria other than the self-supervision criteria described for the present invention.

Detti secondi mezzi di elaborazione 13 sono quindi configurati per determinare una valutazione della perdita sulla base di detti tre criteri di auto-supervisione T, A e U, al fine di valutare l'output della rete neurale 14, in modo da addestrare la stessa online, vale a dire durante il suo funzionamento, senza dati esterni per l?addestramento della stessa. Said second processing means 13 are then configured to determine an evaluation of the loss on the basis of said three self-supervision criteria T, A and U, in order to evaluate the output of the neural network 14, so as to train the same online , i.e. during its operation, without external data for its training.

Pi? specificamente, i secondi mezzi di elaborazione 13 calcolano un segnale di perdita ?Multimodal Binary Cross Entropy? (MBCE) da una combinazione dei risultati di detti tre criteri di auto-supervisione T, A e U, e una mappa di confidenza ?viene calcolata da detta rete di confidenza 14. Pi? specifically, the second processing means 13 calculates a loss signal ?Multimodal Binary Cross Entropy? (MBCE) from a combination of the results of said three self-supervision criteria T, A and U, and a confidence map ? is calculated from said confidence network 14.

Come detto sopra, detta rete di confidenza 14 ? collegata a detti primi mezzi di elaborazione 11 e a detti secondi mezzi di elaborazione 13. As mentioned above, said confidence network 14 ? connected to said first processing means 11 and to said second processing means 13.

In particolare, detta rete di confidenza 14 ? configurata per In particular, said confidence network 14 ? configured for

<determinare detta mappa di confidenza > <?da detta mappa di disparit?> <determine said confidence map> <?from said disparity map>

Pi? specificamente, detta mappa di confidenza ?classifica i pixel della mappa di disparit? da meno a pi? affidabili (ad esempio, dal nero al bianco). Pi? specifically, said confidence map ?ranks the pixels of the disparity map? from less to more reliable (for example, from black to white).

Come verr? descritto in maggior dettaglio, detta rete di confidenza 14 ? in grado di aggiornare la propria conoscenza dell'ambiente circostante mediante la valutazione del segnale di perdita ?Multimodal Binary Cross Entropy? (MBCE) calcolato da detta seconda unit? di elaborazione 13. How will I come? described in more detail, called confidence network 14 ? able to update its knowledge of the surrounding environment by the evaluation of the signal loss ?Multimodal Binary Cross Entropy? (MBCE) calculated by the said second unit? processing 13.

Come menzionato sopra, in alcune forme di realizzazione, i primi mezzi di elaborazione 11, i secondi mezzi di elaborazione 13, il filtro 12 e la rete neurale di confidenza 14, possono essere integrati in una singola unit? di elaborazione U, opportunamente programmata. As mentioned above, in some embodiments, the first processing means 11, the second processing means 13, the filter 12 and the neural confidence network 14, may be integrated into a single unit? of processing U, suitably programmed.

Facendo ora riferimento alla Fig. 2, viene mostrato un diagramma di flusso del metodo secondo la presente invenzione, che pu? essere eseguito anche dal sistema della Fig. 1. Referring now to Fig. 2 , a flow diagram of the method according to the present invention is shown, which can be also be performed by the system of Fig. 1.

Inizialmente, la fase di acquisizione delle immagini, indicata con la lettera di riferimento A, prevede l'acquisizione di un'immagine di riferimento e di destinazione in relazione a un oggetto o una scena osservati per mezzo di detta unit? di rilevamento di immagini 10. Initially, the image acquisition phase, indicated with the reference letter A, provides for the acquisition of a reference and target image in relation to an object or a scene observed by means of said unit. image detection 10.

Nella fase B, detti primi mezzi di elaborazione 11 elaborano dette immagini e per generare mappe di disparit? mediante detto algoritmo o rete stereo In phase B, said first processing means 11 process said images and to generate disparity maps? by said algorithm or stereo network

Come detto sopra, nella forma di realizzazione in questione, il presente metodo fornisce un'elaborazione di immagini usando un algoritmo stereo S. As mentioned above, in the embodiment in question, the present method provides image processing using a stereo algorithm S.

Tuttavia, in ulteriori forme di realizzazione della presente invenzione, pu? essere possibile utilizzare algoritmi o programmi aggiuntivi o altri sensori in grado di generare mappe di disparit?. However, in further embodiments of the present invention, it can be possible to use algorithms or additional programs or other sensors capable of generating disparity maps?.

Successivamente, nella fase C, detto filtro 12 estrae dalle tre criteri di auto-supervisione T, A e U dalle due immagini e e dalla mappa di disparit? Subsequently, in phase C, said filter 12 extracts from the three self-supervision criteria T, A and U from the two images e and from the disparity map?

Nella fase D, detta rete di confidenza 14 calcola detta mappa di confidenza ?da detta mappa di disparit? In step D, said confidence network 14 calculates said confidence map ?from said disparity map?

Quindi, nella fase E, detti secondi mezzi di elaborazione 13 calcolano il segnale di perdita MBCE da detta mappa di confidenza CM e una combinazione di uno o pi? di detti criteri di autosupervisione T, A e U. Si nota che anche altri criteri di autosupervisione da detta mappa delle disparit? possono essere usati, in alternativa o in aggiunta ai tre criteri di auto-supervisione T, A e U sopra specificati, senza discostarsi dall'ambito di protezione dell'invenzione qui descritto. Then, in step E, said second processing means 13 calculate the loss signal MBCE from said confidence map CM and a combination of one or more? of said self-supervision criteria T, A and U. It is noted that also other self-supervision criteria from said map of disparities? can be used, alternatively or in addition to the three self-supervision criteria T, A and U specified above, without departing from the scope of the invention described herein.

Infine, nella fase F, detta rete di confidenza 14 viene aggiornata in base a detto segnale di perdita MBCE calcolato in detta fase E. Finally, in step F, said confidence network 14 is updated on the basis of said loss signal MBCE calculated in said step E.

In particolare, i parametri di detta rete neurale 14 vengono continuamente aggiornati al fine di adattare detta stessa rete neurale 14 all'ambiente relativo alla scena osservata. In particular, the parameters of said neural network 14 are continuously updated in order to adapt said neural network 14 to the environment relating to the observed scene.

Come gi? detto, la presente invenzione mira a proporre un paradigma auto-supervisionato adatto all'apprendimento di una misura di confidenza, non vincolato dallo specifico metodo stereo implementato e in grado di auto-adattarsi. How already? said, the present invention aims to propose a self-supervised paradigm suitable for learning a confidence measure, not constrained by the specific implemented stereo method and able to self-adapt.

Pertanto, inizialmente i sistemi stereo sono classificati in diverse categorie in base ai dati che rendono disponibili e quindi viene introdotta una strategia compatibile con tutti loro. Therefore, initially stereo systems are classified into different categories according to the data they make available and then a strategy compatible with all of them is introduced.

Sistemi di stereo matching Stereo matching systems

Sono definite tre grandi categorie principali di soluzioni di matching stereo, ognuna caratterizzata da dati diversi resi disponibili durante l'implementazione. ? chiaro che le corrispondenze stereo qui descritte sono solo possibili forme di realizzazione e anche altri sistemi di corrispondenza stereo possono essere disponibili e implementati. Three broad main categories of stereo matching solutions are defined, each characterized by different data made available during implementation. ? It should be understood that the stereo matching described herein are only possible embodiments and other stereo matching systems may also be available and implemented.

Verr? indicata una coppia stereo rettificata generica Will I come indicated a generic rectified stereo pair

rispettivamente costituita da immagine sinistra e destra e un algoritmo stereo generico o una rete profonda saranno indicati come S. Inoltre, nel resto della descrizione, al fine di semplificare la notazione, le coordinate (x, y) saranno omesse se non strettamente necessarie. respectively consisting of left and right image and a generic stereo algorithm or a deep network will be indicated as S. Furthermore, in the rest of the description, in order to simplify the notation, the coordinates (x, y) will be omitted if not strictly necessary.

Dato un qualsiasi algoritmo o rete stereo che elabora la mappa di disparit? in uscita ? definita, calcolata assumendo come immagine di riferimento, come Given any algorithm or stereo network that processes the disparity map? output ? defined, calculated assuming as a reference image, such as

Questa tripletta di immagini ? la quantit? minima di dati disponibile da qualsiasi metodo stereo e tutti i sistemi che rendono disponibili solo tali dati sono qui definiti come sistemi ?blackbox?. Tali sistemi sono telecamere stereo standardizzate altamente rappresentative (ad es. Stereolabs ZED 2) o metodi stereo implementati in dispositivi di consumo (ad es. Apple iPhone). This trifecta of images ? the quantity? of data available from any stereo method, and all systems that make only such data available are referred to herein as ?blackbox? systems. Such systems are either highly representative standardized stereo cameras (e.g. Stereolabs ZED 2) or stereo methods implemented in consumer devices (e.g. Apple iPhone).

In particolare, non consentono agli utenti finali di accedere all'implementazione n? di fornire modalit? esplicite (interfacce di programmazione dell'applicazione o API) per richiederlo. In particular, they do not allow end users to access the implementation n? to provide methods explicit (application programming interfaces or APIs) to request it.

Per ogni acquisiti sul campo dal dispositivo, forniscono la corrispondente mappa di disparit? tipicamente con approcci non divulgati basati su algoritmi stereo convenzionali o reti profonde. For each field acquired by the device, do they provide the corresponding disparity map? typically with undisclosed approaches based on conventional stereo algorithms or deep networks.

Sebbene i sistemi black-box forniscano dati disponibili in qualsiasi sistema stereo, quando vengono esposte chiamate esplicite alle API dell'algoritmo, ? possibile recuperare ulteriori informazioni. Pertanto, ? possibile implementare una seconda famiglia di sistemi, per i quali, sebbene non abbia accesso all'implementazione dell'algoritmo o ai suoi dati intermedi, sono possibili chiamate esplicite al metodo stesso (ad esempio algoritmi stereo forniti da librerie precompilate). Although black-box systems provide data available in any stereo system, when explicit calls to the algorithm API are exposed, ? more information can be retrieved. Therefore, ? It is possible to implement a second family of systems, for which, although it does not have access to the algorithm implementation or its intermediate data, explicit calls to the method itself are possible (e.g. stereo algorithms provided by precompiled libraries).

I sistemi appartenenti a questa classe sono definiti come sistemi "gray-box", poich? pi? chiamate a S consentono il recupero di segnali aggiuntivi. Ad esempio, ? semplice calcolare la coerenza da sinistra a destra (LRC) delle mappe di disparit?, una strategia popolare per ottenere uno stimatore della confidenza, anche se non esplicitamente fornito dalla stessa S nella sua implementazione originale. The systems belonging to this class are defined as "gray-box" systems, since? more calls to S allow for the retrieval of additional signals. For example, ? It is simple to compute the left-to-right consistency (LRC) of disparity maps, a popular strategy for obtaining a confidence estimator, although not explicitly provided by S itself in its original implementation.

Data la possibilit? di chiamare S due volte, ? possibile eseguire il controllo di coerenza analizzando e una seconda mappa di disparit? ottenuta assumendo come immagine di riferimento. Given the possibility? to call S twice, ? Is it possible to do the consistency check by analyzing and a second disparity map? obtained assuming as reference image.

Definendo l?operatore di ?flip? orizzontale pu? essere ottenuta come segue: By defining the operator of ?flip? horizontal can? be obtained as follows:

(1) (1)

Ottenuta la consistenza fra le due mappe di disparit? pu? essere verificata come segue: Got the consistency between the two disparity maps? can? be verified as follows:

(2) (2)

dove ? un operatore di campionamento, che raccoglie valori alle coordinate dalla mappa e ? un valore di soglia (solitamente 1) sopra al quale e sono considerate inconsistenti. Where ? a sampling operator, which collects values at coordinates from the map and ? a threshold value (usually 1) above which and are considered inconsistent.

Se l'implementazione di S ? accessibile, ? possibile ottenere ulteriori segnali elaborando strutture di dati intermedie, se significative. Il preferito ? il volume di costo V, contenente i costi corrispondenti V (x, y, d) per i pixel alle coordinate (x, y) e qualsiasi ipotesi di disparit? If the implementation of S ? accessible, ? Further signals can be obtained by processing intermediate data structures, if significant. The favourite ? the cost volume V, containing the corresponding costs V (x, y, d) for the pixels at coordinates (x, y) and any assumption of disparity?

Questa classe di sistemi, denominata "white-box", consente il calcolo di qualsiasi misura di confidenza, convenzionale o basata sull'apprendimento. This class of systems, called "white-box", allows the calculation of any confidence measure, conventional or based on learning.

Le misure di confidenza tradizionali diffuse ottenute da V sono il rapporto di picco (PKR) e la differenza sinistra-destra (LRD) <definite, rispettivamente, come>The traditional diffuse confidence measures obtained from V are the peak ratio (PKR) and the left-right difference (LRD) <defined, respectively, as>

(3)(3)

(4) (4)

ove e rispettivamente, sono le ipotesi di disparit? corrispondenti al costo minimo e al secondo minimo locale (vedi ad esempio [3]). where and respectively, are the hypotheses of disparity? corresponding to the minimum cost and the second local minimum (see for example [3]).

Per quanto riguarda LRD, dato il volume di costo calcolato assumendo I_R come immagine di riferimento, per ogni pixel i costi vengono campionati a cio? dal pixel corrispondente stimato. As regards LRD, given the cost volume calculated assuming I_R as a reference image, for each pixel the costs are sampled at what? from the estimated corresponding pixel.

I modelli black-box rappresentano il setup pi? impegnativo, ma generale, quando si tratta della stima della confidenza poich? i loro vincoli impediscono l?uso della maggior parte delle misure allo stato dell?arte, nonch? le strategie auto-supervisionate esistenti in letteratura. The black-box models represent the most setup? challenging, but general, when it comes to confidence estimation since? their constraints prevent the use of most state-of-the-art measures, as well as? the self-supervised strategies existing in the literature.

Nella forma di realizzazione qui descritta, il metodo comprende una strategia di uso generale che consente la stima della confidenza auto-supervisionata in tali contesti vincolati. In the embodiment described herein, the method comprises a general purpose strategy that allows for self-supervised confidence estimation in such constrained contexts.

Tuttavia, in ulteriori forme di realizzazione, il metodo pu? essere utilizzato anche per CNN allo stato dell?arte. Inoltre, consente l'apprendimento della stima della confidenza con qualsiasi sistema stereo e auto-adattamento in qualsiasi ambiente. However, in further embodiments, the method may also be used for state-of-the-art CNN. It also allows learning of confidence estimation with any stereo system and self-adaptation in any environment.

Determinazione dei tre criteri di auto-supervisione Determination of the three self-supervision criteria

Al fine di sviluppare una strategia auto-supervisionata adatta a qualsiasi sistema stereo, ? necessario identificare segnali che siano efficaci per generare un segnale di supervisione robusto. In order to develop a self-supervised strategy suitable for any stereo system, ? It is necessary to identify signals that are effective in generating a robust supervisory signal.

Secondo la discussione precedente, nel caso ad esempio dei modelli ?black-box?, i dati disponibili comprendono solo e According to the previous discussion, in the case of for example ?black-box? models, the data available include only and

In questa circostanza, sebbene non siano disponibili molte informazioni pertinenti rispetto ad altri modelli, vengono introdotti i tre criteri di auto-supervisione sopra menzionati per ottenere il segnale di perdita desiderato dagli scarsi dati disponibili. In this circumstance, although not much relevant information is available compared to other models, the three self-supervision criteria mentioned above are introduced to obtain the desired leak signal from the scarce data available.

Come primo criterio di auto-supervisione, viene considerato un errore di riproiezione dell'immagine. As the first criterion of self-supervision, an image reprojection error is considered.

Come primo criterio di auto-supervisione implementato nel metodo per determinare la confidenza di una mappa di disparit? attraverso un apprendimento auto-adattativo di una rete neurale secondo la presente invenzione, la riproiezione attraverso i due punti di vista disponibili in uno stereo rettificato si ? dimostrata una potente fonte di supervisione, sia per la stima della profondit? monoculare (vedi [4, 5, 6]) che stereo (vedi [7, 8]). As the first self-supervision criterion implemented in the method for determining the confidence of a disparity map? through a self-adaptive learning of a neural network according to the present invention, the reprojection through the two points of view available in a rectified stereo is ? proved to be a powerful source of supervision, both for depth estimation? monocular (see [4, 5, 6]) than stereo (see [7, 8]).

Specificatamente, viene riproiettato sulle coordinate dell'immagine di riferimento come In seguito, la differenza di apparenza fra e l?immagine riproiettata codifica quanto la riproiezione sia corretta. Specifically, it is reprojected on the coordinates of the reference image as Then, the difference in appearance between and the reprojected image encodes how correct the reprojection is.

A questo scopo, la scelta pi? diffusa ? una somma ponderata tra due termini, rispettivamente SSIM (vedi [9]) e differenza assoluta: For this purpose, the best choice? widespread ? a weighted sum between two terms, respectively SSIM (see [9]) and absolute difference:

(5) (5)

con solitamente uguale a 0.85. Maggiore ? l'errore di riproiezione dell'immagine, maggiore ? la probabilit? che ????sia errata. with usually equal to 0.85. Greater ? the image reprojection error, greater ? the probability? that ???? is wrong.

Per definizione, la corrispondenza dei pixel ? particolarmente impegnativa in regioni ambigue, come porzioni di testo senza trama dell'immagine. By definition, pixel matching ? particularly challenging in ambiguous regions, such as text-free portions of the image.

A questo scopo, la presente invenzione mira a rilevare regioni con trama ricca, essendo pi? probabile che siano correttamente stimate da S, confrontando con quello calcolato dopo la riproiezione come To this end, the present invention aims to detect rich texture regions, being more? likely to be correctly estimated from S, by comparing with that computed after reprojection as

In regioni ambigue, risulter? uguale (o anche minore) dell'errore di riproiezione, identificando cos? i pixel su cui lo stereo ? soggetto a errori. In ambiguous regions, it will result? equal (or even less) of the reprojection error, thus identifying? the pixels on which the stereo ? prone to errors.

Come secondo criterio di auto-supervisione, viene considerato l?accordo di disparit? o accordo fra le disparit? di pixel vicini. As a second criterion of self-supervision, is the disparity agreement considered? or agreement between disparities? of neighboring pixels.

In particolare, considerando che la maggior parte delle regioni di una mappa di disparit? dovrebbe essere regolare, le variazioni nei pixel vicini dovrebbero essere piccole tranne che ai limiti di profondit?. consente l'estrazione di segnali significativi per valutare la qualit? degli incarichi di disparit?. Di proposito, l'accordo di disparit? tra pixel vicini ? definito come: In particular, considering that most regions of a disparity map? should be smooth, the variations in neighboring pixels should be small except at the depth limits. allows the extraction of significant signals to evaluate the quality? of the assignments of disparity?. On purpose, the disparity agreement? between neighboring pixels? defined as:

(6) (6)

<rappresenta un istogramma che codifica, per ogni pixel > umero di pixel vicini in una finestra ?aventi la stessa disparit? d (entro un pixel in caso di precisione subpixel). <represents a histogram which encodes, for each pixel > number of neighboring pixels in a window ?having the same disparity? d (within one pixel in case of subpixel precision).

In assenza di discontinuit? di profondit?, la maggior parte dei pixel nelle vicinanze dovrebbe condividere la stessa o molto simile ipotesi di disparit?. In the absence of discontinuity? depth, most nearby pixels should share the same or very similar disparity hypothesis.

Quindi, questo secondo criterio di auto-supervisione ? definito per identificare corrispondenze stereo affidabili come So, this second criterion of self-supervision ? defined to identify reliable stereo matches such as

supponendo che pi? della met? dei pixel del vicinato condividano la stessa disparit?. assuming that more of half of neighborhood pixels share the same disparity.

Vale la pena notare che questo secondo criterio di autosupervisione spesso non ? soddisfatto in presenza di regioni con differenti valori di profondit?, anche in caso di disparit? stimate correttamente. It is worth noting that this second criterion of self-supervision is often not the case. satisfied in the presence of regions with different depth values?, even in the case of disparity? estimated correctly.

Come terzo criterio di auto-supervisione, viene considerato il vincolo di unicit?. As a third criterion of self-supervision, the uniqueness constraint is considered.

In una scena fronte-parallela ideale osservata da una camera stereo in forma standard, per ogni pixel in dovrebbe esistere al pi? un corrispondente in e viceversa. In an ideal front-parallel scene observed by a standard form stereo camera, for each pixel in there should exist at most? a correspondent in and vice versa.

Sfruttare questa propriet?, nota come unicit?, ? particolarmente utile per rilevare valori anomali nelle regioni occluse e rappresenta un'alternativa affidabile alle misure LRC e LRD, non utilizzabile quando si tratta di modelli ?black-box?. Exploiting this property, known as uniqueness, is particularly useful for detecting anomalous values in occluded regions and represents a reliable alternative to LRC and LRD measurements, which cannot be used when dealing with "black-box" models.

Il vincolo di unicit? (Uniqueness Constraint, UC) ? calcolato come segue: The constraint of uniqueness? (Uniqueness Constraint, UC) ? calculated as follows:

(7) (7)

con with

In altre parole, l?unicit? per ciascun pixel in vale se non si scontra nell'immagine di destinazione con nessun altro pixel, cio? se non coincide con lo stesso pixel in corrispondente ad altri pixels. In other words, the? uniqueness? for each pixel in is valid if it does not collide in the target image with any other pixel, cio? if it does not coincide with the same pixel corresponding to other pixels.

Questa propriet? viene sfruttata per definire un terzo criterio di auto-supervisione come This property? is used to define a third self-supervision criterion such as

Sebbene efficace nel rilevare la maggior parte delle occlusioni, il vincolo di unicit? ? spesso violato in presenza di superfici inclinate. While effective at detecting most occlusions, the uniqueness constraint? ? often violated in the presence of inclined surfaces.

Calcolo della Entropia incrociata binaria multimodale Calculation of multimodal binary cross-entropy

Dato uno o pi? dei tre criteri di auto-supervisione T, A e U descritti sopra, viene calcolata una funzione di perdita basata sull?entropia incrociata binaria, che tenga conto di ipotesi con pi? etichette. Given one or more of the three self-supervision criteria T, A and U described above, a loss function based on the binary cross-entropy is calculated, which takes into account hypotheses with pi? labels.

In particolare, per ciascun pixel dell'immagine acquisita viene definita una perdita di entropia incrociata binaria multimodale (Multi-modal Binary Cross Entropy, MBCE) come: In particular, for each pixel of the acquired image a loss of multimodal binary cross entropy (MBCE) is defined as:

dove o ? l'output della rete neurale [0,1], ovvero passato attraverso un'attivazione sigmoidea, P e Q sono due insiemi di etichette di prossimit?, derivate rispettivamente da un criterio di auto-supervisione che viene soddisfatto o meno. where or ? the output of the neural network [0,1], i.e. passed through a sigmoid activation, P and Q are two sets of proximity labels, derived respectively from a self-supervision criterion that is satisfied or not.

Ad esempio, si ritiene che i criteri di auto-supervisione siano calcolati per ciascun pixel, basandosi sulla suddetta mappa di disparit? e dette immagini I pixel che soddisfano il primo criterio di auto-supervisione basato su riproiezione delle immagini avranno etichette e viceversa quando non lo soddisfano. For example, do you think that the self-supervision criteria are calculated for each pixel, based on the aforementioned disparity map? and said images Pixels which satisfy the first self-supervision criterion based on image reprojection will have labels and vice versa when they do not satisfy it.

Pertanto, a differenza della entropia incrociata binaria tradizionale, in cui viene utilizzata una singola etichetta y e la sua controparte (1-y), vengono definiti insiemi di etichette di prossimit? disgiunti che consentono una configurazione flessibile della funzione di perdita in base ai tre criteri di auto-supervisione descritti finora. Thus, unlike traditional binary cross-entropy, where a single label y and its counterpart (1-y) are used, sets of proximity labels are defined as? disjoint elements that allow for flexible configuration of the loss function according to the three self-supervision criteria described so far.

Ad esempio, impostando la rete sar? addestrata a rilevare pixel corretti usando l'errore di riproiezione dell'immagine pi? l?accordo di disparit? e i valori anomali usando solo l'errore di riproiezione dell'immagine. For example, setting the network will be? trained to detect correct pixels using the pi? image reprojection error? the agreement of disparity? and outliers using only the image reprojection error.

L'aggiunta di elementi agli insiemi P e Q riduce progressivamente, rispettivamente, il numero di pixel considerati corretti o errati. Adding elements to the sets P and Q progressively reduces, respectively, the number of pixels considered good or bad.

Si noti che la Fig. 3 illustra, data una regione evidenziata, una serie di valori considerati corretti (mostrati anche in colore verde) e una serie di valori anomali (mostrati anche in colore rosso), che sono determinati usando le seguenti configurazioni di criteri di auto-supervisione nella entropia incrociata binaria <multimodale: a)> Note that Fig. 3 illustrates, given a highlighted region, a set of values considered correct (also shown in green color) and a set of outlier values (also shown in red color), which are determined using the following criteria configurations of self-supervision in binary cross-entropy <multimode: a)>

mentre per i pixel neri, la configurazione considerata non fornisce ipotesi. while for black pixels, the configuration considered does not provide hypotheses.

In particolare, la Fig. 3 evidenzia come combinare ipotesi multiple, come nel caso d) e nel caso e), per alcuni pixel non viene fornita alcuna supervisione quando le etichette fornite dai criteri di auto-supervisione non corrispondono. In particular, Fig. 3 highlights how to combine multiple hypotheses, as in case d) and case e), for some pixels no supervision is provided when the labels provided by the self-supervision criteria do not match.

Il sistema e il metodo per determinare la confidenza di una mappa di disparit? attraverso un apprendimento auto-supervisionato di una rete neurale possono essere utilizzabili per realizzare un sensore di stima della profondit?, in grado di fornire una stima di confidenza basata sull'apprendimento automatico senza dover acquisire set di dati per l'apprendimento, che ? molto costoso e complicato da eseguire, con tecniche appartenenti allo stato dell'arte. The system and method for determining the confidence of a disparity map? through a self-supervised learning of a neural network can be used to build a depth estimation sensor, able to provide a confidence estimate based on machine learning without having to acquire datasets for learning, which is? very expensive and complicated to perform, with state-of-the-art techniques.

Le possibili applicazioni del metodo per determinare la confidenza di una mappa di disparit? attraverso un apprendimento auto-adattivo di una rete neurale possono essere: Possible applications of the method for determining the confidence of a disparity map? through a self-adaptive learning of a neural network can be:

1) valutare, in generale, la qualit? di un algoritmo stereo trovando situazioni/schemi in cui di solito fallisce. Ad esempio, diversi algoritmi convenzionali falliscono vicino alle occlusioni; 1) evaluate, in general, the quality? of a stereo algorithm by finding situations/patterns where it usually fails. For example, several conventional algorithms fail near occlusions;

2) la mappa di confidenza stimata CM classifica i pixel da meno a pi? affidabili (per esempio, da nero a bianco). Pu? essere utilizzato per estrarre un sottoinsieme di punti affidabili da utilizzare con le tecnologie ?guided-stereo? e ?real-time self adaptive deep stereo?, filtrare i pixel meno affidabili e sostituirli con stime migliori; 2) CM estimated confidence map ranks pixels from least to most? reliable (for example, black to white). Can? be used to extract a subset of reliable points for use with ?guided-stereo? and ?real-time self adaptive deep stereo?, filter out the least reliable pixels and replace them with better estimates;

3) fusione di disparit? stereo con mappe di profondit? fornite da altri sensori di profondit? come, per esempio, quelli basati su tecnologia Time of Flight (ToF); e 3) disparity merger? stereo with depth maps? provided by other depth sensors? such as, for example, those based on Time of Flight (ToF) technology; And

4) fusione di pi? algoritmi stereo. 4) fusion of pi? stereo algorithms.

Risultati sperimentali Experimental results

In questa sezione, vengono riportati i risultati di esperimenti mirati a valutare l'efficacia dell?invenzione proposta, denominata Out-of-The-Box (OTB). In this section, the results of experiments aimed at evaluating the effectiveness of the proposed invention, called Out-of-The-Box (OTB), are reported.

Per misurare l'efficacia delle suddette misure di confidenza, viene calcolata l'Area Under Curve (AUC) di grafici di sparsificazione (vedi [3], [10], [11], [12]). To measure the effectiveness of the above confidence measures, the Area Under Curve (AUC) of sparsification graphs is calculated (see [3], [10], [11], [12]).

In particolare, data una mappa di disparit?, i pixel sono ordinati in ordine crescente di confidenza e gradualmente rimossi (ad esempio, il 5% ogni volta) dalla mappa delle disparit?. Ad ogni iterazione, il tasso di errore viene calcolato su mappa delle disparit? sparse espresso come percentuale di pixel aventi errore assoluto maggiore di In particular, given a disparity map, the pixels are sorted in increasing confidence and gradually removed (for example, 5% each time) from the disparity map. At each iteration, is the error rate calculated on a disparity map? sparse expressed as the percentage of pixels having an absolute error greater than

Tracciando l?andamento di tale errore consente di ottenere una curva di sparsificazione, la cui AUC valuta quantitativamente l?efficacia della confidenza stimata (minore ?, meglio). By tracing the trend of this error, it is possible to obtain a sparsification curve, whose AUC quantitatively evaluates the effectiveness of the estimated confidence (the lower ?, the better).

L'AUC ottimale si ottiene campionando i pixel in ordine decrescente di errore assoluto. Optimal AUC is obtained by sampling pixels in order of decreasing absolute error.

Auto-adattamento Self-adaptation

Esperimenti volti a valutare l'efficacia del metodo proposto durante l'auto-adattamento della stima della confidenza in ambienti mai visti sono stati condotti selezionando una sequenza dal dataset DrivingStereo ([19]). La sequenza 25-10-2017-07-37, contenente 6905 coppie stereo acquisite in ambiente non vincolato (cio? con oggetti in movimento), ? stata selezionata per gli esperimenti. Experiments aimed at evaluating the effectiveness of the proposed method during the self-adaptation of the confidence estimation in never seen environments were conducted by selecting a sequence from the DrivingStereo dataset ([19]). The sequence 25-10-2017-07-37, containing 6905 stereo pairs acquired in an unconstrained environment (that is with moving objects), ? was selected for the experiments.

In particolare, per questa valutazione, Census-SGM ([22]) e MADNet ([8]) sono stati scelti. Il primo perch? rappresenta la scelta preferita per implementazioni hardware su telecamere stereo personalizzate. Il secondo perch? rappresenta bene la categoria di reti end-to-end moderne per lo stereo matching caratterizzate da un buon compromesso tra precisione e velocit?. In particular, for this evaluation, Census-SGM ([22]) and MADNet ([8]) were chosen. The first why? it is the preferred choice for hardware implementations on custom stereo cameras. The second why? represents well the category of modern end-to-end networks for stereo matching characterized by a good compromise between precision and speed.

Per le reti di confidenza, ConfNet ([11]) ? stata selezionata. In questo esperimento, ? stato ipotizzato un pre-addestramento di ConfNet sfruttando le diverse tecniche di auto-supervisione note, rispettivamente SELF ([1]) e WILD ([2]), su KITTI 2012 sulle prime 20 immagini di set di addestramento ([10]). For confidence networks, ConfNet ([11]) ? been selected. In this experiment, ? A pre-training of ConfNet was hypothesized by exploiting the different known self-supervision techniques, respectively SELF ([1]) and WILD ([2]), on KITTI 2012 on the first 20 images of training sets ([10]).

Per OTB, ? stata scelta la configurazione [T<p>, A<p>, U<p>, T<q>, A<p>, U<p>]. Durante l?adattamento online, (colonna ?online? in tabella), la confidenza viene stimata per ogni coppia stereo e valutata prima del calcolo del segnale di perdita (dunque, l?aggiornamento della rete agisce solo nelle immagini successive). For OTB, ? the configuration [T<p>, A<p>, U<p>, T<q>, A<p>, U<p>] has been chosen. During the online adaptation (?online? column in the table), the confidence is estimated for each stereo pair and evaluated before the calculation of the loss signal (therefore, the network update acts only in the subsequent images).

In questo modo, ConfNet richiede 0,08 secondi per stimare una mappa di confidenza (12 FPS) contro 0,02 (50 FPS) necessari senza adattamento su scheda nVidia Titan Xp. La tabella mostrata in Fig. 4 raccoglie il risultato di questa valutazione. Si precisa che WILD non pu? usato per MADNet in quanto tale rete non prevede un volume dei costi. Inoltre, SELF richiederebbe per ottenere supervisione, mentre MADNet calcola solo la prima. Thus, ConfNet takes 0.08 seconds to estimate a confidence map (12 FPS) versus 0.02 (50 FPS) needed without scaling on nVidia Titan Xp card. The table shown in Fig. 4 collects the result of this evaluation. It is specified that WILD cannot? used for MADNet as there is no cost volume for such a network. Also, SELF would require to get supervised, while MADNet only computes the former.

Considerando la rete come una gray-box, si pu? rilassare quest?ultimo vincolo durante l?addestramento ottenendo la seconda mappa come indicato in equazione (1). Per quanto riguarda SGM, OTB ottiene risultati intermedi tra WILD e SELF. Tuttavia, mantenendo attivo l?auto-adattamento su tutta la sequenza, OTB supera entrambi di un buon margine. Per quanto riguarda MADNet, SELF risulta pi? efficace di OTB. Considering the network as a gray-box, can one? relax this last constraint during training obtaining the second map as indicated in equation (1). As far as SGM is concerned, OTB gets intermediate results between WILD and SELF. However, by keeping the self-adaptation active throughout the sequence, OTB outperforms both by a good margin. As for MADNet, SELF is more? effective than OTB.

Ancora una volta, eseguire l'adattamento online rende OTB la migliore soluzione anche in questo caso. Infine, la Fig. 5 mostra esempi qualitativi per l'algoritmo SGM. Again, doing the adaptation online makes OTB the best solution here as well. Finally, Fig. 5 shows qualitative examples for the SGM algorithm.

Apprendimento online con sensori black-box Online learning with black-box sensors

Infine viene riportato, in forma di risultati qualitativi, il risultato ottenuto imparando una stima di confidenza al volo sulle mappe della disparit? fornite da un Apple iPhone? XS, senza alcun pre-allenamento. Finally, is reported, in the form of qualitative results, the result obtained by learning a confidence estimate on the fly on disparity maps? provided by an Apple iPhone? XS, without any pre-workout.

I risultati sono ottenuti addestrando online ConfNet su una sequenza di circa 100 coppie stereo. The results are obtained by training ConfNet online on a sequence of about 100 stereo pairs.

In particolare, la Fig. 6 mostra esempi di mappe di disparit? acquisite e mappe di confidenza stimate da ConfNet addestrata online. Pi? specificamente, i pochissimi frame raccolti sono sufficienti per imparare a rilevare errori grossolani come quelli sul guscio della tartaruga. In particular, Fig. 6 shows examples of disparity maps? acquired and estimated confidence maps from online trained ConfNet. Pi? specifically, the very few frames collected are sufficient to learn how to detect gross errors such as those on the turtle's shell.

Risultati qualitativi su una variet? di algoritmi Qualitative results on a variety? of algorithms

Inoltre, come mostrato in Fig. 7 su una variet? di algoritmi, l'attuale soluzione tecnica ? migliore rispetto a strategie note che richiedono il pieno accesso al volume dei costi (vedi [2]) o scene statiche per l?addestramento ([1]). Furthermore, as shown in Fig. 7 on a variety? of algorithms, the current technical solution ? better than known strategies that require full access to cost volume (see [2]) or static scenes for training ([1]).

Conclusioni Conclusions

Alla luce di quanto sopra, ? stato introdotto un nuovo paradigma auto-supervisionato finalizzato all'apprendimento di una misura di confidenza per lo stereo. In light of the above, A new self-supervised paradigm aimed at learning a confidence measure for stereo was introduced.

In particolare, i pochi spunti forniti dalla coppia di immagini stereo in ingresso e la mappa di disparit? stimata vengono utilizzati per generare segnali di auto-supervisione al posto di ?labels? di profondit? di ?ground truth?. In particular, the few insights provided by the input stereo image pair and the disparity map? estimate are used to generate self-supervision signals instead of ?labels? of depth of ?ground truth?.

Essendo tali spunti disponibili durante l?utilizzo del sistema in qualsiasi scenario, la presente invenzione ? in grado di svolgere adattamento continuo online con qualsiasi framework, anche di tipo black-box. Since such insights are available while using the system in any scenario, the present invention is ? able to carry out continuous adaptation online with any framework, even of the black-box type.

Inoltre, i risultati sperimentali hanno dimostrato che il metodo attuale mostra prestazioni elevate se confrontato Furthermore, the experimental results have shown that the current method shows high performance when compared

con approcci auto-supervisionati esistenti e, cosa non permessa dagli altri metodi, consente ulteriori miglioramenti durante l?utilizzo sfruttando il processo di auto-adattamento online. with existing self-supervised approaches and, which is not allowed by the other methods, allows further improvements during use by taking advantage of the online self-adaptation process.

Vantaggi Advantages

Un vantaggio del metodo proposto secondo la presente invenzione ? quello di consentire l?apprendimento della stima di una confidenza autoadattante e agnostica all'algoritmo o alla rete stereo. An advantage of the method proposed according to the present invention ? that of allowing the learning of the estimation of a self-adapting and agnostic confidence to the algorithm or to the stereo network.

Un altro vantaggio della presente invenzione ? quello di apprendere una misura di confidenza efficace basata solo sulle informazioni minime disponibili in qualsiasi configurazione stereo (vale a dire, la coppia stereo di immagini in ingresso e mappa di disparit? in uscita). Another advantage of the present invention ? that of learning an effective confidence measure based only on the minimal information available in any stereo configuration (ie, the stereo pair of input images and output disparity map).

La presente invenzione ? stata descritta per scopi illustrativi ma non limitativi, secondo le sue forme di realizzazione preferite, ma si deve comprendere che possono essere introdotte modifiche e / o cambiamenti da esperti del settore senza allontanarsi dall?ambito pertinente come definito nelle rivendicazioni allegate. The present invention ? It has been described for purposes of illustration but not of limitation, according to its preferred embodiments, but it is to be understood that modifications and/or changes may be introduced by those skilled in the art without departing from the pertinent scope as defined in the appended claims.

Claims (15)

RIVENDICAZIONI 1. Metodo per determinare la confidenza di una mappa di disparit? mediante addestramento di una rete neurale (14), in cui la confidenza rappresenta il livello di affidabilit? o incertezza di ciascun pixel di detta mappa di disparit? da almeno una coppia di immagini digitali di una scena, comprendente le seguenti fasi: A. acquisire detta almeno una coppia di immagini digitali CLAIMS 1. Method for determining the confidence of a disparity map? by training a neural network (14), in which the confidence represents the level of reliability? or uncertainty of each pixel of said disparity map? from at least one pair of digital images of a scene, comprising the following phases: A. acquire said at least one pair of digital images di detta scena; B. calcolare detta mappa di disparit? per ciascun pixel di detta coppia di immagini digitali of said scene; B. calculate said disparity map? for each pixel of said pair of digital images C. estrarre almeno un criterio di auto-supervisione da detta almeno una coppia di immagini digitali e detta mappa di disparit? C. extracting at least one self-supervision criterion from said at least one pair of digital images and said disparity map? D. calcolare una mappa di confidenza da detta mappa di disparit? mediante detta rete neurale (14); E. calcolare un segnale di perdita da detta mappa di confidenza ?e detto almeno un criterio di auto-supervisione; e F. ottimizzare detta rete neurale (14) addestrando detta rete <neurale (14) con le informazioni associate a detto segnale di perdita> D. calculate a confidence map from said disparity map? by means of said neural network (14); E. calculating a loss signal from said confidence map is said at least one self-supervision criterion; and F. optimizing said neural network (14) by training said <neural network (14) with the information associated with said loss signal> 2. Metodo secondo la rivendicazione precedente, caratterizzato dal fatto che detto almeno un criterio auto-adattativo estratto in detta fase C comprende almeno uno dei seguenti criteri: un criterio di auto-supervisione relativo ad un errore di riproiezione tra detta almeno una coppia di immagini digitali 2. Method according to the preceding claim, characterized in that said at least one self-adaptive criterion extracted in said step C comprises at least one of the following criteria: a self-supervision criterion relating to a reprojection error between said at least one pair of digital images un criterio di auto-supervisione relativo ad un accordo di disparit? tra pixels di detta mappa di disparit? e/o un criterio di auto-supervisione relativo al vincolo di unicit? di ogni pixel rispettivamente in a self-supervision criterion related to a disparity agreement? between pixels of said disparity map? and/or a self-supervision criterion related to the uniqueness constraint? of each pixel respectively in 3. Metodo secondo la rivendicazione 2, caratterizzato dal fatto che detto criterio di auto-supervisione relativo all?errore di riproiezione tra detta almeno una coppia di immagini digitali 3. Method according to claim 2, characterized in that said self-supervision criterion relating to the reprojection error between said at least one pair of digital images ? calcolato secondo la seguente equazione: ? calculated according to the following equation: dove e con essendo una riproiezione di nelle coordinate dell?immagine di riferimento, SSIM ? l?indice di somiglianza strutturale e ?un parametro fra 0 e 1, preferibilmente impostato a 0.85. where and with being a reprojection of in the coordinates of the reference image, SSIM ? the structural similarity index is a parameter between 0 and 1, preferably set to 0.85. 4. Metodo secondo una qualsiasi delle rivendicazioni 2 o 3, caratterizzato dal fatto che detto criterio di auto-supervisione relativo all?accordo di disparit? tra pixels di detta mappa di disparit? ? calcolato secondo la seguente equazione: 4. Method according to any one of claims 2 or 3, characterized in that said self-supervision criterion relating to the disparity agreement? between pixels of said disparity map? ? calculated according to the following equation: dove con un istogramma che codifica, per ciascun pixel di detta mappa di disparit? il numero di pixel vicini in una finestra ?aventi la stessa disparit? where with a histogram that encodes, for each pixel of said disparity map? the number of neighboring pixels in a window? having the same disparity? 5. Metodo secondo una qualsiasi delle rivendicazioni 2 - 4, caratterizzato dal fatto che detto criterio di auto-supervisione <relativo al vincolo di unicit? di ciascun pixel rispettivamente in > ? calcolato secondo la seguente equazione: 5. Method according to any one of claims 2 - 4, characterized in that said self-supervision criterion is related to the uniqueness constraint? of each pixel respectively in > ? calculated according to the following equation: dove Where 6. Metodo secondo una qualsiasi delle rivendicazioni precedenti, caratterizzato dal fatto che detto segnale di perdita 6. Method according to any one of the preceding claims, characterized in that said loss signal ? un segnale di perdita di entropia incrociata binaria multimodale calcolata secondo la seguente equazione: ? a signal of binary cross-entropy loss multimodal calculated according to the following equation: dove ? l?output di detta rete neurale (14), sono due insiemi di etichette di prossimit? derivate rispettivamente in modo tale che detto almeno uno dei criteri di auto-supervisione sia rispettato o meno. Where ? l?output of said neural network (14), are two sets of labels of proximity? derived respectively in such a way that said at least one of the self-supervision criteria is met or not. 7. Metodo secondo una qualsiasi delle rivendicazioni precedenti, caratterizzato dal fatto che detta fase B ? eseguita secondo la seguente formula 7. Method according to any one of the preceding claims, characterized in that said phase B is performed according to the following formula 8. Metodo secondo una qualsiasi delle rivendicazioni precedenti, caratterizzato dal fatto che detta fase B ? eseguita mediante una rete 8. Method according to any one of the preceding claims, characterized in that said phase B is performed via a network 9. Metodo secondo una qualsiasi delle rivendicazioni precedenti, caratterizzato dal fatto che detta fase A ? eseguita da una unit? di rilevamento di immagini (10) che comprenda almeno un dispositivo di rilevamento di immagini digitali (100, 101) per l?acquisizione di detta almeno una coppia di immagini digitali 9. Method according to any one of the preceding claims, characterized by the fact that said phase A ? performed by a unit? detection device (10) comprising at least one digital image detection device (100, 101) for acquiring said at least one pair of digital images dal fatto che detta fase B ? eseguita da primi mezzi di elaborazione (11), connessi a detto dispositivo di rilevamento di immagini (10), dal fatto che detta fase C ? eseguita da un filtro (12), connesso a detto dispositivo di rilevamento di immagini (10) e detti primi mezzi di elaborazione (11), e dal fatto che dette fasi E e F sono eseguite da secondi mezzi di elaborazione (13), connessi a detto filtro (12) e detta rete neurale (14). from the fact that said phase B ? performed by first processing means (11), connected to said image detection device (10), by the fact that said phase C ? performed by a filter (12), connected to said image detection device (10) and said first processing means (11), and by the fact that said phases E and F are performed by second processing means (13), connected to said filter (12) and said neural network (14). 10. Metodo secondo una qualsiasi delle rivendicazioni precedenti, caratterizzato dal fatto che detta fase A ? eseguita da una tecnica di matching stereo, in modo tale da acquisire una immagine di riferimento e una immagine di destinazione di detta scena. 10. Method according to any one of the preceding claims, characterized in that said step A is performed by a stereo matching technique, in such a way as to acquire a reference image and a target image of said scene. 11. Unit? di elaborazione (U) per determinare la confidenza di una mappa di disparit? 11.Unit? processing time (U) to determine the confidence of a disparity map? in cui la confidenza rappresenta il livello di certezza o incertezza di ciascun pixel di detta mappa di disparit? da almeno una coppia di immagini digitali di una scena, <in cui la mappa di disparit? ? ottenuta attraverso una rete > e where the confidence represents the level of certainty or uncertainty of each pixel of said disparity map? from at least one pair of digital images of a scene, <in which the disparity map? ? obtained through a network > e in cui l?unit? di elaborazione (U) ? configurata per eseguire le fasi B-F di detto metodo, secondo una qualsiasi delle rivendicazioni 1-9. in which the? unit? of processing (U) ? configured to carry out steps B-F of said method, according to any one of claims 1-9. 12. Unit? di elaborazione (U) secondo la rivendicazione 11, caratterizzato dal fatto di comprendere: mezzi di elaborazione (11, 13), connessi a detta unit? di rilevazione di immagini (10), un filtro (12), connesso a detta unit? di rilevazione di immagini (10) e detti mezzi di elaborazione (11, 13), e configurato per estrarre almeno un criterio di auto-supervisione da detta almeno una coppia di immagini digitali e detta mappa di disparit? 12.Unit? processor (U) according to claim 11, characterized in that it comprises: processing means (11, 13), connected to said unit? image detection (10), a filter (12), connected to said unit? detection apparatus (10) and said processing means (11, 13), and configured to extract at least one self-supervision criterion from said at least one pair of digital images and said disparity map? e una rete neurale (14), connessa a detti mezzi di elaborazione (11, 13), configurata per produrre una mappa di confidenza ?di detta mappa di disparit? And a neural network (14), connected to said processing means (11, 13), configured to produce a confidence map ?of said disparity map? in cui detti mezzi di elaborazione (11, 13) sono configurati per determinare detta mappa di disparit? da detta almeno una coppia di immagini digitali e per calcolare un segnale di perdita da detta mappa di confidenza ?e detto almeno un criterio di auto-supervisione. wherein said processing means (11, 13) are configured to determine said disparity map? from said at least one pair of digital images and for calculating a leak signal from said confidence map is said at least one self-supervision criterion. 13. Sistema di sensori (1) per determinare la confidenza di una <mappa di disparit?> <da almeno una coppia di immagini digitali> 13. Sensor system (1) for determining the confidence of a <disparity map?> <from at least one pair of digital images> di una scena, comprendente una unit? di rilevamento di immagini (10) configurata per acquisire detta almeno una coppia di immagini digitali di detta scena, e una unit? di elaborazione (U) secondo una qualsiasi delle rivendicazioni precedenti 11 o 12, connessa a detta unit? di rilevazione di immagini (10). of a scene, comprising a unit? image sensing device (10) configured to acquire said at least one pair of digital images of said scene, e a unit? processor (U) according to any one of the preceding claims 11 or 12, connected to said unit? image detection (10). 14. Programma per elaboratore comprendente istruzioni che, quando il programma ? eseguito da un elaboratore, causano l?esecuzione da parte dell?elaboratore delle fasi del metodo secondo una qualsiasi delle rivendicazioni 1-10. 14. A computer program comprising instructions that, when the program ? executed by a computer, cause the execution by the computer of the steps of the method according to any one of claims 1-10. 15. Mezzo di memorizzazione leggibile da un elaboratore comprendente istruzioni che, quando eseguite da un elaboratore, causano l?esecuzione da parte dell?elaboratore delle fasi di metodo secondo una qualsiasi delle rivendicazioni 1-10. A computer-readable storage medium comprising instructions which, when executed by a computer, cause the computer to execute the method steps according to any one of claims 1-10.
IT102020000016054A 2020-07-02 2020-07-02 METHOD FOR DETERMINING THE CONFIDENCE OF A DISPARITY MAP BY SELF-ADAPTIVE LEARNING OF A NEURAL NETWORK, AND RELATED SENSOR SYSTEM IT202000016054A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
IT102020000016054A IT202000016054A1 (en) 2020-07-02 2020-07-02 METHOD FOR DETERMINING THE CONFIDENCE OF A DISPARITY MAP BY SELF-ADAPTIVE LEARNING OF A NEURAL NETWORK, AND RELATED SENSOR SYSTEM
PCT/IT2021/050193 WO2022003740A1 (en) 2020-07-02 2021-06-21 Method for determining the confidence of a disparity map through a self-adaptive learning of a neural network, and sensor system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT102020000016054A IT202000016054A1 (en) 2020-07-02 2020-07-02 METHOD FOR DETERMINING THE CONFIDENCE OF A DISPARITY MAP BY SELF-ADAPTIVE LEARNING OF A NEURAL NETWORK, AND RELATED SENSOR SYSTEM

Publications (1)

Publication Number Publication Date
IT202000016054A1 true IT202000016054A1 (en) 2022-01-02

Family

ID=72644653

Family Applications (1)

Application Number Title Priority Date Filing Date
IT102020000016054A IT202000016054A1 (en) 2020-07-02 2020-07-02 METHOD FOR DETERMINING THE CONFIDENCE OF A DISPARITY MAP BY SELF-ADAPTIVE LEARNING OF A NEURAL NETWORK, AND RELATED SENSOR SYSTEM

Country Status (2)

Country Link
IT (1) IT202000016054A1 (en)
WO (1) WO2022003740A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116433588A (en) * 2023-02-21 2023-07-14 广东劢智医疗科技有限公司 Multi-category classification and confidence discrimination method based on cervical cells

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW202332267A (en) * 2022-01-26 2023-08-01 美商元平台技術有限公司 Display system with machine learning (ml) based stereoscopic view synthesis over a wide field of view
CN114511609B (en) * 2022-04-18 2022-09-02 清华大学 Unsupervised light field parallax estimation system and method based on occlusion perception
CN117907242B (en) * 2024-03-15 2024-06-25 贵州省第一测绘院(贵州省北斗导航位置服务中心) Homeland mapping method, system and storage medium based on dynamic remote sensing technology

Non-Patent Citations (29)

* Cited by examiner, † Cited by third party
Title
GEIGER, A.LENZ, P.URTASUN, R.: "Are we ready for autonomous driving? The KITTI vision benchmark suite", CVPR, 2012
GODARD, C.MAC AODHA, O.BROSTOW, G.J.: "Digging into self-supervised monocular depth estimation", ICCV, 2019
GODARD, C.MAC AODHA, O.BROSTOW, G.J.: "Unsupervised monocular depth estimation with left-right consistency", CVPR, 2017
GUL, M.S.K.BATZ, M.KEINERT, J.: "Pixelwise confidences for stereo disparities using recurrent neural networks", BMVC, 2019
HIRSCHMULLER, H.: "Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference", vol. 2, 2005, IEEE, article "Accurate and efficient stereo processing by semi-global matching and mutual information", pages: 807 - 814
HU, X.MORDOHAI, P., A QUANTITATIVE EVALUATION OF CONFIDENCE MEASURES FOR STEREO VISION, vol. 34, no. 11, 2012, pages 2121 - 2133
KIM, S.KIM, S.MIN, D.SOHN, K.: "Locally adaptive fusion networks for stereo confidence estimation", IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, June 2019 (2019-06-01)
MAYER, N.ILG, E.HAUSSER, P.FISCHER, P.CREMERS, D.DOSOVITSKIY, A.BROX, T.: "A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation", THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, June 2016 (2016-06-01)
MENZE, M.GEIGER, A.: "Object scene flow for autonomous vehicles", CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, 2015
MOSTEGEL, C.RUMPLER, M.FRAUNDORFER, F.BISCHOF, H.: "Using self-contradiction to learn confidence measures in stereo vision", THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, June 2016 (2016-06-01)
POGGI MATTEO ET AL: "Good Cues to Learn From Scratch a Confidence Measure for Passive Depth Sensors", IEEE SENSORS JOURNAL, IEEE SERVICE CENTER, NEW YORK, NY, US, vol. 20, no. 22, 23 June 2020 (2020-06-23), pages 13533 - 13541, XP011815143, ISSN: 1530-437X, [retrieved on 20201015], DOI: 10.1109/JSEN.2020.3004629 *
POGGI MATTEO ET AL: "Learning a confidence measure in the disparity domain from O(1) features", COMPUTER VISION AND IMAGE UNDERSTANDING, ACADEMIC PRESS, US, vol. 193, 18 January 2020 (2020-01-18), XP086066772, ISSN: 1077-3142, [retrieved on 20200118], DOI: 10.1016/J.CVIU.2020.102905 *
POGGI MATTEO ET AL: "Self-adapting Confidence Estimation for Stereo", 30 November 2020, LECTURE NOTES IN COMPUTER SCIENCE; [LECTURE NOTES IN COMPUTER SCIENCE; LECT.NOTES COMPUTER], PAGE(S) 715 - 733, ISBN: 978-3-030-67069-6, ISSN: 0302-9743, XP047571515 *
POGGI, M.ALEOTTI, F.TOSI, F.MATTOCCIA, S.: "Towards real-time unsupervised monocular depth estimation on CPU", IEEE/JRS CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS, 2018
POGGI, M.MATTOCCIA, S.: "Learning from scratch a confidence measure", BMVC, 2016
POGGI, M.TOSI, F.MATTOCCIA, S., QUANTITATIVE EVALUATION OF CONFIDENCE MEASURES IN A MACHINE LEARNING WORLD, 2017, pages 5228 - 5237
SCHARSTEIN, D.HIRSCHMULLER, H.KITAJIMA, Y.KRATHWOHL, G.NESIC, N.WANG, X.WESTLING, P.: "German conference on pattern recognition", 2014, SPRINGER, article "High-resolution stereo datasets with subpixel-accurate ground truth", pages: 31 - 42
SCHOPS, T.SCHONBERGER, J.L.GALLIANI, S.SATTLER, T.SCHINDLER, K.POLLEFEYS, M.GEIGER, A.: "A multi-view stereo benchmark with high-resolution images and multi-camera videos", PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2017, pages 3260 - 3269
TONIONI ALESSIO ET AL: "Real-Time Self-Adaptive Deep Stereo", 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 15 June 2019 (2019-06-15), pages 195 - 204, XP033686564, DOI: 10.1109/CVPR.2019.00028 *
TONIONI, A.TOSI, F.POGGI, M.MATTOCCIA, S.DI STEFANO, L., REAL-TIME SELFADAPTIVE DEEP STEREO, June 2019 (2019-06-01)
TOSI FABIO ET AL: "Learning confidence measures in the wild", PROCEDINGS OF THE BRITISH MACHINE VISION CONFERENCE 2017, 1 January 2017 (2017-01-01), XP055778762, ISBN: 978-1-901725-60-5, Retrieved from the Internet <URL:https://vision.disi.unibo.it/~mpoggi/papers/bmvc2017.pdf> DOI: 10.5244/C.31.133 *
TOSI, F.POGGI, M.BENINCASA, A.MATTOCCIA, S., BEYOND LOCAL REASONING FOR STEREO CONFIDENCE ESTIMATION WITH DEEP LEARNING, 2018, pages 319 - 334
TOSI, F.POGGI, M.TONIONI, A.DI STEFANO, L.MATTOCCIA, S.: "Learning confidence measures in the wild", BMVC, September 2017 (2017-09-01)
WANG, Z.BOVIK, A.C.SHEIKH, H.R.SIMONCELLI, E.P.: "Image quality assessment: from error visibility to structural similarity", IEEE TRANSACTIONS ON IMAGE PROCESSING, vol. 13, no. 4, 2004, pages 600 - 612, XP011110418, DOI: 10.1109/TIP.2003.819861
YANG, G.SONG, X.HUANG, C.DENG, Z.SHI, J.ZHOU, B.: "A largescale dataset for stereo matching in autonomous driving scenarios", IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, 2019
YIRAN ZHONG ET AL: "Self-Supervised Learning for Stereo Matching with Self-Improving Ability", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 4 September 2017 (2017-09-04), XP080818196 *
ZBONTAR, J.LECUN, Y.: "Stereo matching by training a convolutional neural network to compare image patches", JOURNAL OF MACHINE LEARNING RESEARCH, vol. 17, 2016, pages 1 - 32
ZHANG, K.LU, J.LAFRUIT, G.: "Cross-based local stereo matching using orthogonal integral images", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, vol. 19, no. 7, 2009, pages 1073 - 1079, XP011254879
ZHANG, Z.CUI, Z.XU, C.JIE, Z.LI, X.YANG, J.: "Joint task-recursive learning for semantic segmentation and depth estimation", PROCEEDINGS OF THE EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV, 2018, pages 235 - 251

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116433588A (en) * 2023-02-21 2023-07-14 广东劢智医疗科技有限公司 Multi-category classification and confidence discrimination method based on cervical cells
CN116433588B (en) * 2023-02-21 2023-10-03 广东劢智医疗科技有限公司 Multi-category classification and confidence discrimination method based on cervical cells

Also Published As

Publication number Publication date
WO2022003740A1 (en) 2022-01-06

Similar Documents

Publication Publication Date Title
IT202000016054A1 (en) METHOD FOR DETERMINING THE CONFIDENCE OF A DISPARITY MAP BY SELF-ADAPTIVE LEARNING OF A NEURAL NETWORK, AND RELATED SENSOR SYSTEM
US7239718B2 (en) Apparatus and method for high-speed marker-free motion capture
US10225473B2 (en) Threshold determination in a RANSAC algorithm
US9165211B2 (en) Image processing apparatus and method
US20020048395A1 (en) Image conversion and encoding techniques
KR20110064622A (en) 3d edge extracting method and apparatus using tof camera
CN109640066B (en) Method and device for generating high-precision dense depth image
US11651581B2 (en) System and method for correspondence map determination
CN108009529A (en) A kind of feature based root and hydromechanical forest fire cigarette video object detection method
CN108256567B (en) Target identification method and system based on deep learning
JP2010157093A (en) Motion estimation device and program
JP2011237296A (en) Three dimensional shape measuring method, three dimensional shape measuring device, and program
CN110443228B (en) Pedestrian matching method and device, electronic equipment and storage medium
US10140555B2 (en) Processing system, processing method, and recording medium
Concha et al. Instant visual odometry initialization for mobile AR
Prasad et al. Epipolar geometry based learning of multi-view depth and ego-motion from monocular sequences
Poggi et al. Self-adapting confidence estimation for stereo
KR100996209B1 (en) Object Modeling Method using Gradient Template, and The System thereof
KR20190114708A (en) Hardware disparity evaluation for stereo matching
CN110717593B (en) Method and device for neural network training, mobile information measurement and key frame detection
KR20160024419A (en) System and Method for identifying stereo-scopic camera in Depth-Image-Based Rendering
KR101217231B1 (en) Method and system of object recognition
EP3127087B1 (en) Motion field estimation
WO2019230965A1 (en) Object likelihood estimation device, method, and program
JP2010009236A (en) Plane area estimation device and program