IT202000016054A1 - Metodo per determinare la confidenza di una mappa di disparità mediante un apprendimento auto-adattivo di una rete neurale, e relativo sistema di sensori - Google Patents

Metodo per determinare la confidenza di una mappa di disparità mediante un apprendimento auto-adattivo di una rete neurale, e relativo sistema di sensori Download PDF

Info

Publication number
IT202000016054A1
IT202000016054A1 IT102020000016054A IT202000016054A IT202000016054A1 IT 202000016054 A1 IT202000016054 A1 IT 202000016054A1 IT 102020000016054 A IT102020000016054 A IT 102020000016054A IT 202000016054 A IT202000016054 A IT 202000016054A IT 202000016054 A1 IT202000016054 A1 IT 202000016054A1
Authority
IT
Italy
Prior art keywords
self
confidence
disparity map
disparity
pair
Prior art date
Application number
IT102020000016054A
Other languages
English (en)
Inventor
Matteo Poggi
Stefano Mattoccia
Fabio Tosi
Filippo Aleotti
Original Assignee
Univ Bologna Alma Mater Studiorum
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Bologna Alma Mater Studiorum filed Critical Univ Bologna Alma Mater Studiorum
Priority to IT102020000016054A priority Critical patent/IT202000016054A1/it
Priority to PCT/IT2021/050193 priority patent/WO2022003740A1/en
Publication of IT202000016054A1 publication Critical patent/IT202000016054A1/it

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Feedback Control In General (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Image Analysis (AREA)

Description

Metodo per determinare la confidenza di una mappa di disparit? mediante un apprendimento auto-adattivo di una rete neurale, e relativo sistema di sensori
La presente invenzione si riferisce ad un metodo per determinare la confidenza di una mappa di disparit? attraverso un apprendimento auto-adattivo di una rete neurale ed al suo sistema di sensori. Campo dell?invenzione
Pi? in particolare, l'invenzione riguarda un metodo e un sistema di sensori del tipo menzionato, progettato in particolare per determinare la confidenza delle mappe di disparit? inferite da un algoritmo stereo o una rete attraverso una rete neurale in grado di auto-adattarsi, ma che pu? essere utilizzato per qualsiasi tipo di sistema di acquisizione di immagini, in cui ? necessario stimare la confidenza nel calcolo della profondit? o disparit?, determinando cos? il livello di affidabilit? (o incertezza) di ciascun pixel di detta immagine.
Di seguito, la descrizione sar? indirizzata a una stima della confidenza nel calcolo della profondit? o disparit? in modo autosupervisionato in una configurazione specifica, ma ? chiaro che lo stessa non dovrebbe essere considerata limitata a questo specifico utilizzo.
Tecnica nota
Esistono sul mercato diversi sistemi per l'acquisizione di immagini in 3D, al fine di determinare la profondit? di un'immagine.
Attualmente, lo stereo matching ? una delle strategie pi? popolari per percepire con precisione la struttura 3D della scena, attraverso due telecamere sincronizzate e diversi algoritmi, progettati a mano o basati su reti neurali profonde.
In molte applicazioni pratiche, oltre all'inferenza di disparit?, viene spesso eseguita anche la stima della confidenza. Per tale scopo, ? stata proposta una vasta gamma di metodi basati su misure tradizionali o strategie basate sull'apprendimento.
Recentemente ? stato dimostrato come le reti all'avanguardia che elaborano i segnali disponibili da qualsiasi configurazione stereo (ovvero la coppia stereo di input e la mappa di disparit? di output) siano sostanzialmente equivalenti a quelle che elaborano l'intero volume di costi, supportando ulteriormente l'evidenza che il la stessa mappa delle disparit? contiene indizi sufficienti per identificare i valori anomali.
Tale caratteristica ? altamente desiderabile, poich? potenzialmente apre la strada per l'apprendimento della stima della confidenza per qualsiasi telecamera stereo, anche senza alcuna conoscenza dell'algoritmo stereo/rete implementata.
Questo fatto ? molto interessante poich? si verifica spesso con la maggior parte dei dispositivi industriali/standard (ad es. Stereolab ZED 2) o dispositivi di consumo (ad es. Smartphone).
Tuttavia, questa opportunit? ? stata studiata solo parzialmente in letteratura. Inoltre, tutti i metodi sopra menzionati sono fortemente vincolati alla necessit? di etichette di profondit? di ?ground truth? acquisite nel dominio di destinazione.
Tuttavia, poich? l?ottenimento di tali etichette ? complicato e richiede tempo, sono stati proposti in letteratura alcuni metodi auto-supervisionati. Sebbene questi metodi abbiano dimostrato che la stima della confidenza pu? essere appresa senza la necessit? di sensori attivi, presentano vari inconvenienti.
Uno degli inconvenienti delle soluzioni tecniche note che sono richieste sequenze stereo statiche.
Inoltre, un inconveniente di un?altra delle soluzioni tecniche note ? che ha bisogno di accedere al volume dei costi (una rappresentazione interna usata tipicamente da algoritmi di matching stereo), raramente esposto nel caso dei sensori stereo disponibili sopra menzionati o non definito affatto nella maggior parte delle reti neurali moderne.
Di conseguenza, le soluzioni disponibili nella tecnica nota non sono pensate per gestire l'adattamento, necessario per attenuare i problemi di spostamento del dominio. Pertanto, una soluzione per l'implementazione immediata della stima della confidenza autoadattiva sarebbe altamente desiderabile per molte applicazioni pratiche.
Un esempio significativo riguarda gli smartphone, oggi dotati di pi? telecamere e algoritmi/reti stereo distribuiti per realt? aumentata o altre applicazioni in ambienti imprevedibili a priori.
Segue una breve rassegna delle tecniche note in letteratura riguardanti le misure di confidenza e le recenti tendenze allo stereo matching.
Le misure di confidenza possono essere suddivise in due categorie principali: misure convenzionali e misure apprese.
La prima categoria consiste nel metodo convenzionale calcolato in genere dall'analisi del volume dei costi come il rapporto tra due minimi, come nel cosiddetto Peak-Ratio o PKR, o, come recentemente proposto, determinando le propriet? locali della mappa delle disparit?, come il numero di pixel con la stessa ipotesi di disparit?.
Per quanto riguarda le misure apprese, pi? misure convenzionali vengono solitamente combinate e fornite come input ad un classificatore basato su random forest o per una rete neurale convoluzionale (CNN), opportunamente addestrati usando etichette di profondit?.
I metodi appresi possono richiedere:
1) pieno accesso al volume dei costi per estrarre misure convenzionali o elaborare il volume stesso;
2) mappe di disparit? sia per l?immagine sinistra, sia per la destra; o
3) solo l'immagine di input sinistra e la corrispondente mappa di disparit?.
I tre requisiti di cui sopra si traducono in vincoli da pi? difficili a pi? lievi durante l'implementazione, la maggior parte di essi di solito non viene soddisfatta dalle telecamere stereo standard poich? espone all'utente solo la coppia stereo di input e la mappa di disparit? di output.
Recentemente, ? stato dimostrato che, sebbene una CNN con accesso a tutto il volume dei costi possa funzionare meglio delle reti che elaborano la disparit? e solo l'immagine di riferimento, il margine tra i due approcci ? ridotto e, nella maggior parte dei casi, trascurabile, a scapito di una versatilit? molto minore della prima.
Per quanto riguarda le applicazioni delle misure di confidenza, oltre al tradizionale compito di filtraggio dei valori anomali, molte applicazioni di livello superiore sfruttano tale indizio per scopi diversi.
In particolare, ? stata stimata la confidenza e utilizzata per rilevare ?punti di controllo? e migliorare l'ottimizzazione globale del volume dei costi. ? stata inoltre proposta una modulazione basata sulla confidenza del volume di costi applicato prima dell'ottimizzazione del Semi-Global Matching (SGM). Inoltre, sono stati ridotti gli effetti ?streaking? dell'algoritmo stereo SGM utilizzando una somma ponderata delle linee di scansione secondo una misura di confidenza.
Allo stesso modo, altri approcci prevedono la fusione di pi? scanline di SGM usando un classificatore di foresta casuale.
Inoltre, sono stati proposti metodi che agiscono al di fuori degli algoritmi stereo per la fusione dell?output di multipli algoritmi stereo, fusione di sensori di natura differente e adattamento senza supervisione di modelli profondi (deep networks) per la corrispondenza stereo.
L'apprendimento auto-supervisionato ? stato scarsamente studiato per la stima della confidenza.
Secondo alcuni approcci (Mostegel et al., [1]), vengono sfruttati video stereo, guardando a coerenze e contraddizioni tra i diversi punti di vista di una scena statica al fine di ottenere candidati corretti e sbagliati da un determinato algoritmo stereo.
In altri approcci, (vedi Tosi et al. [2]), invece, ? stato fatto affidamento sulle tradizionali misure di confidenza per ottenere questi due insiemi secondo un consenso o meno tra loro.
Inoltre, all'inizio, le CNN hanno sostituito i singoli passaggi della pipeline stereo, come il calcolo dei costi, convergendo rapidamente verso soluzioni end-to-end che stimano le mappe di disparit? densa mediante reti 2D o 3D.
L'ultima tendenza nel settore consiste nel formulare la stima della disparit? come un problema di apprendimento continuo, grazie all'auto-supervisione abilitata dalla ri-proiezione dell'immagine.
Scopo dell?invenzione
Alla luce di quanto sopra, ? quindi uno scopo della presente invenzione il superamento degli inconvenienti menzionati nei metodi auto-supervisionati proposti della tecnica nota, fornendo un metodo per determinare la confidenza di una mappa di disparit? attraverso un apprendimento auto-adattivo di una rete neurale.
Un altro scopo della presente invenzione ? quello di fornire un metodo per auto-adattare una misura di confidenza non vincolata al sistema stereo impiegato.
Un ulteriore scopo dell'invenzione ? quello di fornire una nuova funzione di perdita basata su segnali disponibili dalla coppia stereo di ingresso e solo sulla disparit? di uscita, senza bisogno di ulteriori informazioni per apprendere/adattarsi all'ambiente rilevato.
Un altro scopo della presente invenzione ? quello di fornire un metodo e un sistema di elevata affidabilit?, facili da implementare e competitivi in termini di costi rispetto alla tecnica nota.
Inoltre, scopo della presente invenzione ? quello di fornire gli strumenti necessari per l'esecuzione del metodo e degli apparati per eseguire tale metodo.
Oggetto dell?invenzione
Pertanto, uno specifico obiettivo della presente invenzione ? un metodo per determinare la confidenza di una mappa di disparit?
mediante addestramento di una rete neurale, in cui la confidenza rappresenta il livello di affidabilit? o incertezza di ciascun pixel di detta mappa di disparit? da almeno una coppia di immagini digitali di una scena, comprendente le seguenti fasi: A. acquisire detta almeno una coppia di immagini digitali di detta scena; B. calcolare detta mappa di disparit? per ciascun pixel di detta coppia di immagini digitali C. estrarre almeno un criterio di auto-supervisione da detta almeno una coppia di immagini digitali etta mappa di disparit? D. calcolare una mappa di confi da detta mappa di disparit? mediante detta rete neurale; E. calcolare un segnale di perdita da detta mappa di confidenza ?? e detto almeno un criterio di auto-supervisione; e F. ottimizzare detta rete neurale addestrando detta rete neurale con le informazioni associate a detto segnale di perdita
Sempre secondo l?invenzione, detto almeno un criterio autoadattativo estratto in detta fase C pu? comprendere almeno uno dei seguenti criteri: un criterio di auto-supervisione relativo ad un errore di riproiezione tra detta almeno una coppia di immagini digitali un criterio di auto-supervisione relativo ad un accordo di disparit? tra pixels di detta mappa di disparit? e/o un criterio di auto-supervisione relativo al vincolo di unicit? di ogni pixel rispettivamente in e
Vantaggiosamente secondo l?invenzione, detto criterio di autosupervisione relativo all?errore di riproiezione tra detta almeno una coppia di immagini digitali pu? essere calcolato secondo <la seguente equazione:>
dove e
con essendo una e dell?immagine di riferimento, SSIM ? l?indice di somiglianza strutturale e un parametro fra 0 e 1, preferibilmente impostato a 0.85.
Convenientemente secondo l?invenzione, detto criterio di autosupervisione relativo all?accordo di disparit? tra pixels di detta mappa di disparit? pu? essere calcolato secondo la seguente equazione:
dove con un istogramma che codifica, per ciascun pixel di detta mappa di disparit? il numero di pixel vicini in una finestra ?aventi la stessa disparit?
Ancora secondo l?invenzione, detto criterio di autosupervisione relativo al vincolo di unicit? di ciascun pixel rispettivamente in pu? essere calcolato secondo la seguente <equazione:>
dove
Sempre secondo l?invenzione, detto segnale di perdita pu? essere un segnale di perdita di entropia incrociata binaria multimodale calcolata secondo la seguente equazione:
dove ? l?output di detta rete neurale, e ? sono due insiemi di etichette di prossimit? derivate rispettivamente in modo tale che detto almeno uno dei criteri di auto-supervisione sia rispettato o meno.
Vantaggiosamente secondo l?invenzione, detta fase B pu? essere eseguita secondo la seguente formula
Convenientemente secondo l?invenzione, detta fase B pu? essere eseguita mediante una rete
Sempre secondo l?invenzione, detta fase A pu? essere eseguita da una unit? di rilevamento di immagini 10 che comprenda almeno un dispositivo di rilevamento di immagini digitali per l?acquisizione di detta almeno una coppia di immagini digitali detta fase B pu? essere eseguita da primi mezzi di elaborazione, connessi a detto dispositivo di rilevamento di immagini, detta fase C pu? essere eseguita da un filtro, connesso a detto dispositivo di rilevamento di immagini e detti primi mezzi di elaborazione, e dette fasi E e F possono essere eseguite da secondi mezzi di elaborazione, connessi a detto filtro e detta rete neurale.
Convenientemente secondo l?invenzione, detta fase A pu? essere eseguita da una tecnica di matching stereo, in modo tale da acquisire una immagine di riferimento e una immagine di destinazione di detta scena.
? inoltre oggetto della presente invenzione una unit? di elaborazione per determinare la confidenza di una mappa di disparit?
in cui la confidenza rappresenta il livello di certezza o
incertezza di ciascun pixel di detta mappa di disparit? da almeno una coppia di immagini digitali di una scena, in cui la mappa di disparit? ? ottenuta attraverso una rete e in cui l?unit? di elaborazione ? configurata per eseguire le fasi B-F di detto metodo.
Vantaggiosamente secondo l?invenzione, detta unit? di elaborazione pu? comprendere: mezzi di elaborazione, connessi a detta unit? di rilevazione di immagini, un filtro, connesso a detta unit? di rilevazione di immagini e detti mezzi di elaborazione, e configurato per estrarre almeno un criterio di auto-supervisione da detta almeno una coppia di immagini digitali e detta mappa di disparit? e una rete neurale, connessa a detti mezzi di elaborazione, configurata per produrre una mappa di confidenza
di detta mappa di disparit? in cui detti mezzi di elaborazione sono configurati per determinare detta mappa di disparit? da detta almeno una coppia di immagini digitali e per calcolare un segnale di perdita da detta mappa di confidenza ? e detto almeno un criterio di auto-supervisione.
? anche oggetto della presente invenzione un sistema di sensori per determinare la confidenza di una mappa di disparit? da almeno una coppia di immagini digitali di una scena, comprendente una unit? di rilevamento di immagini configurata per acquisire detta almeno una coppia di immagini digitali di detta scena, e una unit? di elaborazione, connessa a detta unit? di rilevazione di immagini.
Inoltre, ? oggetto della presente invenzione un programma per elaboratore comprendente istruzioni che, quando il programma ? eseguito da un elaboratore, causano l?esecuzione da parte dell?elaboratore delle fasi del metodo.
? infine oggetto della presente invenzione un mezzo di memorizzazione leggibile da un elaboratore comprendente istruzioni che, quando eseguite da un elaboratore, causano l?esecuzione da parte dell?elaboratore delle fasi del metodo.
Breve descrizione dei disegni
La presente invenzione verr? ora descritta, a scopo illustrativo ma non limitativo, secondo le sue forme di realizzazione preferite, con particolare riferimento alle figure dei disegni allegati, in cui:
Fig. 1 illustra uno schema a blocchi di una forma di realizzazione del sistema di sensori per determinare la confidenza di una mappa di disparit? mediante l'apprendimento auto-adattivo di una rete neurale, secondo la presente invenzione;
Fig. 2 illustra un diagramma di flusso relativo alle fasi del metodo per determinare la confidenza di una mappa di disparit? mediante l'apprendimento auto-adattivo di una rete neurale, secondo la presente invenzione;
Fig. 3 illustra, data una regione evidenziata, una serie di valori anomali e una serie di valori non anomali, che sono determinati utilizzando diverse configurazioni di criteri di autosupervisione, secondo la presente invenzione;
Fig. 4 illustra una tabella che riporta i punteggi AUC (Area under the curve) per reti addestrate su una prima serie di immagini di prova e testato su una serie di immagini di test mai viste durante l?addestramento;
Fig. 5 illustra da sinistra: un'immagine di riferimento, una mappa delle disparit? e mappe di confidenza ottenute mediante approcci auto-supervisionati esistenti [2], [1], la tecnica proposta e la tecnica proposta durante l'adattamento online;
Fig. 6 illustra due esempi di immagine di riferimento
e relative mappe delle disparit? acquisite con un Apple iPhone XS, seguite dalle mappe di confidenze stimate dopo poche iterazioni di apprendimento online; e
Fig. 7 mostra alcune immagini di riferimento, mappe di disparit? ottenute mediante vari algoritmi e mappe di confidenza ottenute mediante approcci auto-supervisionati esistenti [2], [1] e la tecnica proposta.
Descrizione dettagliata
Nelle varie figure, le parti simili saranno indicate con gli stessi numeri di riferimento.
Con riferimento alla sopra menzionata Fig. 1, viene mostrato un sistema di sensori per determinare la confidenza di una mappa di disparit? attraverso un apprendimento auto-adattivo di una rete neurale, indicato nel suo insieme con il numero di riferimento 1, che comprende un'unit? di rilevamento di immagini 10 e un'unit? di elaborazione U, collegata a detta unit? di rilevamento di immagini 10.
Nella presente forma di realizzazione, detta unit? di elaborazione U comprende primi mezzi di elaborazione 11 collegati a detta unit? di rilevamento di immagini 10, un filtro 12 collegato a detta unit? di rilevamento di immagini 10 e detti primi mezzi di elaborazione 11, secondi mezzi di elaborazione 13, collegati a detto filtro 12, e una rete neurale o rete di confidenza 14, collegata a detti primi mezzi di elaborazione 11 e a detti secondi mezzi di elaborazione 13.
Nella forma di realizzazione secondo la presente invenzione, detti primi mezzi di elaborazione 11 e detti secondi mezzi di elaborazione 13 sono due mezzi di elaborazione diversi.
Tuttavia, in altre forme di realizzazione della presente invenzione, detti primi mezzi di elaborazione 11 e detti secondi mezzi di elaborazione 13 possono essere considerati come gli stessi mezzi di elaborazione o integrati, ad esempio in uno stesso sistema a microprocessore.
Inoltre, nella forma di realizzazione in questione, detta unit? di rilevamento di immagini 10 ? un sistema di visione stereoscopica.
Tuttavia, in altre forme di realizzazione della presente invenzione, detta unit? di rilevamento di immagini 10 pu? essere qualsiasi altro sistema anche secondo l'arte nota in grado di ottenere mappe di disparit? o di distanza da immagini digitali o altri metodi.
In particolare, detta unit? di rilevamento di immagini 10 comprende un primo dispositivo di rilevamento di immagini 100 e un secondo dispositivo di rilevamento di immagini 101, come una videocamera, una macchina fotografica o un sensore, disposti ad una distanza fissa predeterminata l'uno dall'altro.
In altre forme di realizzazione secondo la presente invenzione, l'unit? di rilevamento di immagini 10 pu? comprendere un numero di dispositivi di rilevamento diversi da due, ad esempio uno, come nei sistemi monoculari per la stima della profondit? dalle immagini.
Pi? specificamente, ciascuno di detti dispositivi di rilevamento di immagini 100, 101 rileva una rispettiva immagine dell'oggetto o della scena osservata.
Come sar? meglio spiegato di seguito, l'immagine acquisita per mezzo di detto dispositivo di rilevamento di immagini 100, cio? l'immagine di sinistra, sar? considerata come immagine di riferimento o mentre l'immagine acquisita attraverso detto dispositivo di rilevamento di immagini 101, cio? l'immagine destra, sar? considerata come l'immagine di destinazione o
Tuttavia, ciascuna immagine acquisita dal rispettivo dispositivo di rilevamento 100, 101 pu? essere considerata come immagine di riferimento o destinazione
Sempre facendo riferimento alla Fig. 1, detti primi mezzi di elaborazione 11 sono collegati a detti dispositivi di rilevamento di immagini 100, 101. In particolare, detti primi mezzi di elaborazione 11 sono configurati per elaborare dette immagini
per ottenere una mappa di disparit?
Nella forma di realizzazione secondo la presente invenzione, la mappa di disparit? in uscita ? calcolata assumendo come immagine di riferimento. Tuttavia, in un'altra forma di realizzazione della presente invenzione, la mappa della disparit? di uscita pu? essere calcolata assumendo come immagine di riferimento.
Inoltre, nella forma di realizzazione illustrata schematicamente nella Fig. 1, detti primi mezzi di elaborazione 11 generano detta mappa di disparit? per mezzo di un algoritmo o una rete
Tuttavia, in ulteriori forme di realizzazione della presente invenzione, detti primi mezzi di elaborazione 11 prevedono l'uso di algoritmi, reti, programmi o altri sensori aggiuntivi, in grado di generare mappe di disparit?.
Come sar? meglio descritto di seguito, detto filtro 12 ? in grado di estrarre una pluralit? di criteri di auto-supervisione da detta mappa di disparit? e dette immagini e al fine di fornire un apprendimento auto-adattivo di detta rete di confidenza 14, come meglio spiegato di seguito.
Nella presente forma di realizzazione, come sar? meglio descritto di seguito, i criteri di auto-supervisione estratti sono tre, qui indicati come T, A e U, relativi rispettivamente all?errore di riproiezione dell'immagine, all?accordo di disparit? tra pixel vicini di un'immagine ed al vincolo di unicit? tra pixel di immagini diverse.
Tuttavia, in altre forme di realizzazione, ? possibile estrarre o calcolare un numero diverso di detti criteri di auto-supervisione, come uno, due o pi? di tre criteri, rispetto a quelli sopra descritti.
Inoltre, in altre forme di realizzazione della presente invenzione, ? possibile estrarre criteri diversi dai criteri di autosupervisione descritti per la presente invenzione.
Detti secondi mezzi di elaborazione 13 sono quindi configurati per determinare una valutazione della perdita sulla base di detti tre criteri di auto-supervisione T, A e U, al fine di valutare l'output della rete neurale 14, in modo da addestrare la stessa online, vale a dire durante il suo funzionamento, senza dati esterni per l?addestramento della stessa.
Pi? specificamente, i secondi mezzi di elaborazione 13 calcolano un segnale di perdita ?Multimodal Binary Cross Entropy? (MBCE) da una combinazione dei risultati di detti tre criteri di auto-supervisione T, A e U, e una mappa di confidenza ?viene calcolata da detta rete di confidenza 14.
Come detto sopra, detta rete di confidenza 14 ? collegata a detti primi mezzi di elaborazione 11 e a detti secondi mezzi di elaborazione 13.
In particolare, detta rete di confidenza 14 ? configurata per
<determinare detta mappa di confidenza > <?da detta mappa di disparit?>
Pi? specificamente, detta mappa di confidenza ?classifica i pixel della mappa di disparit? da meno a pi? affidabili (ad esempio, dal nero al bianco).
Come verr? descritto in maggior dettaglio, detta rete di confidenza 14 ? in grado di aggiornare la propria conoscenza dell'ambiente circostante mediante la valutazione del segnale di perdita ?Multimodal Binary Cross Entropy? (MBCE) calcolato da detta seconda unit? di elaborazione 13.
Come menzionato sopra, in alcune forme di realizzazione, i primi mezzi di elaborazione 11, i secondi mezzi di elaborazione 13, il filtro 12 e la rete neurale di confidenza 14, possono essere integrati in una singola unit? di elaborazione U, opportunamente programmata.
Facendo ora riferimento alla Fig. 2, viene mostrato un diagramma di flusso del metodo secondo la presente invenzione, che pu? essere eseguito anche dal sistema della Fig. 1.
Inizialmente, la fase di acquisizione delle immagini, indicata con la lettera di riferimento A, prevede l'acquisizione di un'immagine di riferimento e di destinazione in relazione a un oggetto o una scena osservati per mezzo di detta unit? di rilevamento di immagini 10.
Nella fase B, detti primi mezzi di elaborazione 11 elaborano dette immagini e per generare mappe di disparit? mediante detto algoritmo o rete stereo
Come detto sopra, nella forma di realizzazione in questione, il presente metodo fornisce un'elaborazione di immagini usando un algoritmo stereo S.
Tuttavia, in ulteriori forme di realizzazione della presente invenzione, pu? essere possibile utilizzare algoritmi o programmi aggiuntivi o altri sensori in grado di generare mappe di disparit?.
Successivamente, nella fase C, detto filtro 12 estrae dalle tre criteri di auto-supervisione T, A e U dalle due immagini e e dalla mappa di disparit?
Nella fase D, detta rete di confidenza 14 calcola detta mappa di confidenza ?da detta mappa di disparit?
Quindi, nella fase E, detti secondi mezzi di elaborazione 13 calcolano il segnale di perdita MBCE da detta mappa di confidenza CM e una combinazione di uno o pi? di detti criteri di autosupervisione T, A e U. Si nota che anche altri criteri di autosupervisione da detta mappa delle disparit? possono essere usati, in alternativa o in aggiunta ai tre criteri di auto-supervisione T, A e U sopra specificati, senza discostarsi dall'ambito di protezione dell'invenzione qui descritto.
Infine, nella fase F, detta rete di confidenza 14 viene aggiornata in base a detto segnale di perdita MBCE calcolato in detta fase E.
In particolare, i parametri di detta rete neurale 14 vengono continuamente aggiornati al fine di adattare detta stessa rete neurale 14 all'ambiente relativo alla scena osservata.
Come gi? detto, la presente invenzione mira a proporre un paradigma auto-supervisionato adatto all'apprendimento di una misura di confidenza, non vincolato dallo specifico metodo stereo implementato e in grado di auto-adattarsi.
Pertanto, inizialmente i sistemi stereo sono classificati in diverse categorie in base ai dati che rendono disponibili e quindi viene introdotta una strategia compatibile con tutti loro.
Sistemi di stereo matching
Sono definite tre grandi categorie principali di soluzioni di matching stereo, ognuna caratterizzata da dati diversi resi disponibili durante l'implementazione. ? chiaro che le corrispondenze stereo qui descritte sono solo possibili forme di realizzazione e anche altri sistemi di corrispondenza stereo possono essere disponibili e implementati.
Verr? indicata una coppia stereo rettificata generica
rispettivamente costituita da immagine sinistra e destra e un algoritmo stereo generico o una rete profonda saranno indicati come S. Inoltre, nel resto della descrizione, al fine di semplificare la notazione, le coordinate (x, y) saranno omesse se non strettamente necessarie.
Dato un qualsiasi algoritmo o rete stereo che elabora la mappa di disparit? in uscita ? definita, calcolata assumendo come immagine di riferimento, come
Questa tripletta di immagini ? la quantit? minima di dati disponibile da qualsiasi metodo stereo e tutti i sistemi che rendono disponibili solo tali dati sono qui definiti come sistemi ?blackbox?. Tali sistemi sono telecamere stereo standardizzate altamente rappresentative (ad es. Stereolabs ZED 2) o metodi stereo implementati in dispositivi di consumo (ad es. Apple iPhone).
In particolare, non consentono agli utenti finali di accedere all'implementazione n? di fornire modalit? esplicite (interfacce di programmazione dell'applicazione o API) per richiederlo.
Per ogni acquisiti sul campo dal dispositivo, forniscono la corrispondente mappa di disparit? tipicamente con approcci non divulgati basati su algoritmi stereo convenzionali o reti profonde.
Sebbene i sistemi black-box forniscano dati disponibili in qualsiasi sistema stereo, quando vengono esposte chiamate esplicite alle API dell'algoritmo, ? possibile recuperare ulteriori informazioni. Pertanto, ? possibile implementare una seconda famiglia di sistemi, per i quali, sebbene non abbia accesso all'implementazione dell'algoritmo o ai suoi dati intermedi, sono possibili chiamate esplicite al metodo stesso (ad esempio algoritmi stereo forniti da librerie precompilate).
I sistemi appartenenti a questa classe sono definiti come sistemi "gray-box", poich? pi? chiamate a S consentono il recupero di segnali aggiuntivi. Ad esempio, ? semplice calcolare la coerenza da sinistra a destra (LRC) delle mappe di disparit?, una strategia popolare per ottenere uno stimatore della confidenza, anche se non esplicitamente fornito dalla stessa S nella sua implementazione originale.
Data la possibilit? di chiamare S due volte, ? possibile eseguire il controllo di coerenza analizzando e una seconda mappa di disparit? ottenuta assumendo come immagine di riferimento.
Definendo l?operatore di ?flip? orizzontale pu? essere ottenuta come segue:
(1)
Ottenuta la consistenza fra le due mappe di disparit? pu? essere verificata come segue:
(2)
dove ? un operatore di campionamento, che raccoglie valori alle coordinate dalla mappa e ? un valore di soglia (solitamente 1) sopra al quale e sono considerate inconsistenti.
Se l'implementazione di S ? accessibile, ? possibile ottenere ulteriori segnali elaborando strutture di dati intermedie, se significative. Il preferito ? il volume di costo V, contenente i costi corrispondenti V (x, y, d) per i pixel alle coordinate (x, y) e qualsiasi ipotesi di disparit?
Questa classe di sistemi, denominata "white-box", consente il calcolo di qualsiasi misura di confidenza, convenzionale o basata sull'apprendimento.
Le misure di confidenza tradizionali diffuse ottenute da V sono il rapporto di picco (PKR) e la differenza sinistra-destra (LRD) <definite, rispettivamente, come>
(3)
(4)
ove e rispettivamente, sono le ipotesi di disparit? corrispondenti al costo minimo e al secondo minimo locale (vedi ad esempio [3]).
Per quanto riguarda LRD, dato il volume di costo calcolato assumendo I_R come immagine di riferimento, per ogni pixel i costi vengono campionati a cio? dal pixel corrispondente stimato.
I modelli black-box rappresentano il setup pi? impegnativo, ma generale, quando si tratta della stima della confidenza poich? i loro vincoli impediscono l?uso della maggior parte delle misure allo stato dell?arte, nonch? le strategie auto-supervisionate esistenti in letteratura.
Nella forma di realizzazione qui descritta, il metodo comprende una strategia di uso generale che consente la stima della confidenza auto-supervisionata in tali contesti vincolati.
Tuttavia, in ulteriori forme di realizzazione, il metodo pu? essere utilizzato anche per CNN allo stato dell?arte. Inoltre, consente l'apprendimento della stima della confidenza con qualsiasi sistema stereo e auto-adattamento in qualsiasi ambiente.
Determinazione dei tre criteri di auto-supervisione
Al fine di sviluppare una strategia auto-supervisionata adatta a qualsiasi sistema stereo, ? necessario identificare segnali che siano efficaci per generare un segnale di supervisione robusto.
Secondo la discussione precedente, nel caso ad esempio dei modelli ?black-box?, i dati disponibili comprendono solo e
In questa circostanza, sebbene non siano disponibili molte informazioni pertinenti rispetto ad altri modelli, vengono introdotti i tre criteri di auto-supervisione sopra menzionati per ottenere il segnale di perdita desiderato dagli scarsi dati disponibili.
Come primo criterio di auto-supervisione, viene considerato un errore di riproiezione dell'immagine.
Come primo criterio di auto-supervisione implementato nel metodo per determinare la confidenza di una mappa di disparit? attraverso un apprendimento auto-adattativo di una rete neurale secondo la presente invenzione, la riproiezione attraverso i due punti di vista disponibili in uno stereo rettificato si ? dimostrata una potente fonte di supervisione, sia per la stima della profondit? monoculare (vedi [4, 5, 6]) che stereo (vedi [7, 8]).
Specificatamente, viene riproiettato sulle coordinate dell'immagine di riferimento come In seguito, la differenza di apparenza fra e l?immagine riproiettata codifica quanto la riproiezione sia corretta.
A questo scopo, la scelta pi? diffusa ? una somma ponderata tra due termini, rispettivamente SSIM (vedi [9]) e differenza assoluta:
(5)
con solitamente uguale a 0.85. Maggiore ? l'errore di riproiezione dell'immagine, maggiore ? la probabilit? che ????sia errata.
Per definizione, la corrispondenza dei pixel ? particolarmente impegnativa in regioni ambigue, come porzioni di testo senza trama dell'immagine.
A questo scopo, la presente invenzione mira a rilevare regioni con trama ricca, essendo pi? probabile che siano correttamente stimate da S, confrontando con quello calcolato dopo la riproiezione come
In regioni ambigue, risulter? uguale (o anche minore) dell'errore di riproiezione, identificando cos? i pixel su cui lo stereo ? soggetto a errori.
Come secondo criterio di auto-supervisione, viene considerato l?accordo di disparit? o accordo fra le disparit? di pixel vicini.
In particolare, considerando che la maggior parte delle regioni di una mappa di disparit? dovrebbe essere regolare, le variazioni nei pixel vicini dovrebbero essere piccole tranne che ai limiti di profondit?. consente l'estrazione di segnali significativi per valutare la qualit? degli incarichi di disparit?. Di proposito, l'accordo di disparit? tra pixel vicini ? definito come:
(6)
<rappresenta un istogramma che codifica, per ogni pixel > umero di pixel vicini in una finestra ?aventi la stessa disparit? d (entro un pixel in caso di precisione subpixel).
In assenza di discontinuit? di profondit?, la maggior parte dei pixel nelle vicinanze dovrebbe condividere la stessa o molto simile ipotesi di disparit?.
Quindi, questo secondo criterio di auto-supervisione ? definito per identificare corrispondenze stereo affidabili come
supponendo che pi? della met? dei pixel del vicinato condividano la stessa disparit?.
Vale la pena notare che questo secondo criterio di autosupervisione spesso non ? soddisfatto in presenza di regioni con differenti valori di profondit?, anche in caso di disparit? stimate correttamente.
Come terzo criterio di auto-supervisione, viene considerato il vincolo di unicit?.
In una scena fronte-parallela ideale osservata da una camera stereo in forma standard, per ogni pixel in dovrebbe esistere al pi? un corrispondente in e viceversa.
Sfruttare questa propriet?, nota come unicit?, ? particolarmente utile per rilevare valori anomali nelle regioni occluse e rappresenta un'alternativa affidabile alle misure LRC e LRD, non utilizzabile quando si tratta di modelli ?black-box?.
Il vincolo di unicit? (Uniqueness Constraint, UC) ? calcolato come segue:
(7)
con
In altre parole, l?unicit? per ciascun pixel in vale se non si scontra nell'immagine di destinazione con nessun altro pixel, cio? se non coincide con lo stesso pixel in corrispondente ad altri pixels.
Questa propriet? viene sfruttata per definire un terzo criterio di auto-supervisione come
Sebbene efficace nel rilevare la maggior parte delle occlusioni, il vincolo di unicit? ? spesso violato in presenza di superfici inclinate.
Calcolo della Entropia incrociata binaria multimodale
Dato uno o pi? dei tre criteri di auto-supervisione T, A e U descritti sopra, viene calcolata una funzione di perdita basata sull?entropia incrociata binaria, che tenga conto di ipotesi con pi? etichette.
In particolare, per ciascun pixel dell'immagine acquisita viene definita una perdita di entropia incrociata binaria multimodale (Multi-modal Binary Cross Entropy, MBCE) come:
dove o ? l'output della rete neurale [0,1], ovvero passato attraverso un'attivazione sigmoidea, P e Q sono due insiemi di etichette di prossimit?, derivate rispettivamente da un criterio di auto-supervisione che viene soddisfatto o meno.
Ad esempio, si ritiene che i criteri di auto-supervisione siano calcolati per ciascun pixel, basandosi sulla suddetta mappa di disparit? e dette immagini I pixel che soddisfano il primo criterio di auto-supervisione basato su riproiezione delle immagini avranno etichette e viceversa quando non lo soddisfano.
Pertanto, a differenza della entropia incrociata binaria tradizionale, in cui viene utilizzata una singola etichetta y e la sua controparte (1-y), vengono definiti insiemi di etichette di prossimit? disgiunti che consentono una configurazione flessibile della funzione di perdita in base ai tre criteri di auto-supervisione descritti finora.
Ad esempio, impostando la rete sar? addestrata a rilevare pixel corretti usando l'errore di riproiezione dell'immagine pi? l?accordo di disparit? e i valori anomali usando solo l'errore di riproiezione dell'immagine.
L'aggiunta di elementi agli insiemi P e Q riduce progressivamente, rispettivamente, il numero di pixel considerati corretti o errati.
Si noti che la Fig. 3 illustra, data una regione evidenziata, una serie di valori considerati corretti (mostrati anche in colore verde) e una serie di valori anomali (mostrati anche in colore rosso), che sono determinati usando le seguenti configurazioni di criteri di auto-supervisione nella entropia incrociata binaria <multimodale: a)>
mentre per i pixel neri, la configurazione considerata non fornisce ipotesi.
In particolare, la Fig. 3 evidenzia come combinare ipotesi multiple, come nel caso d) e nel caso e), per alcuni pixel non viene fornita alcuna supervisione quando le etichette fornite dai criteri di auto-supervisione non corrispondono.
Il sistema e il metodo per determinare la confidenza di una mappa di disparit? attraverso un apprendimento auto-supervisionato di una rete neurale possono essere utilizzabili per realizzare un sensore di stima della profondit?, in grado di fornire una stima di confidenza basata sull'apprendimento automatico senza dover acquisire set di dati per l'apprendimento, che ? molto costoso e complicato da eseguire, con tecniche appartenenti allo stato dell'arte.
Le possibili applicazioni del metodo per determinare la confidenza di una mappa di disparit? attraverso un apprendimento auto-adattivo di una rete neurale possono essere:
1) valutare, in generale, la qualit? di un algoritmo stereo trovando situazioni/schemi in cui di solito fallisce. Ad esempio, diversi algoritmi convenzionali falliscono vicino alle occlusioni;
2) la mappa di confidenza stimata CM classifica i pixel da meno a pi? affidabili (per esempio, da nero a bianco). Pu? essere utilizzato per estrarre un sottoinsieme di punti affidabili da utilizzare con le tecnologie ?guided-stereo? e ?real-time self adaptive deep stereo?, filtrare i pixel meno affidabili e sostituirli con stime migliori;
3) fusione di disparit? stereo con mappe di profondit? fornite da altri sensori di profondit? come, per esempio, quelli basati su tecnologia Time of Flight (ToF); e
4) fusione di pi? algoritmi stereo.
Risultati sperimentali
In questa sezione, vengono riportati i risultati di esperimenti mirati a valutare l'efficacia dell?invenzione proposta, denominata Out-of-The-Box (OTB).
Per misurare l'efficacia delle suddette misure di confidenza, viene calcolata l'Area Under Curve (AUC) di grafici di sparsificazione (vedi [3], [10], [11], [12]).
In particolare, data una mappa di disparit?, i pixel sono ordinati in ordine crescente di confidenza e gradualmente rimossi (ad esempio, il 5% ogni volta) dalla mappa delle disparit?. Ad ogni iterazione, il tasso di errore viene calcolato su mappa delle disparit? sparse espresso come percentuale di pixel aventi errore assoluto maggiore di
Tracciando l?andamento di tale errore consente di ottenere una curva di sparsificazione, la cui AUC valuta quantitativamente l?efficacia della confidenza stimata (minore ?, meglio).
L'AUC ottimale si ottiene campionando i pixel in ordine decrescente di errore assoluto.
Auto-adattamento
Esperimenti volti a valutare l'efficacia del metodo proposto durante l'auto-adattamento della stima della confidenza in ambienti mai visti sono stati condotti selezionando una sequenza dal dataset DrivingStereo ([19]). La sequenza 25-10-2017-07-37, contenente 6905 coppie stereo acquisite in ambiente non vincolato (cio? con oggetti in movimento), ? stata selezionata per gli esperimenti.
In particolare, per questa valutazione, Census-SGM ([22]) e MADNet ([8]) sono stati scelti. Il primo perch? rappresenta la scelta preferita per implementazioni hardware su telecamere stereo personalizzate. Il secondo perch? rappresenta bene la categoria di reti end-to-end moderne per lo stereo matching caratterizzate da un buon compromesso tra precisione e velocit?.
Per le reti di confidenza, ConfNet ([11]) ? stata selezionata. In questo esperimento, ? stato ipotizzato un pre-addestramento di ConfNet sfruttando le diverse tecniche di auto-supervisione note, rispettivamente SELF ([1]) e WILD ([2]), su KITTI 2012 sulle prime 20 immagini di set di addestramento ([10]).
Per OTB, ? stata scelta la configurazione [T<p>, A<p>, U<p>, T<q>, A<p>, U<p>]. Durante l?adattamento online, (colonna ?online? in tabella), la confidenza viene stimata per ogni coppia stereo e valutata prima del calcolo del segnale di perdita (dunque, l?aggiornamento della rete agisce solo nelle immagini successive).
In questo modo, ConfNet richiede 0,08 secondi per stimare una mappa di confidenza (12 FPS) contro 0,02 (50 FPS) necessari senza adattamento su scheda nVidia Titan Xp. La tabella mostrata in Fig. 4 raccoglie il risultato di questa valutazione. Si precisa che WILD non pu? usato per MADNet in quanto tale rete non prevede un volume dei costi. Inoltre, SELF richiederebbe per ottenere supervisione, mentre MADNet calcola solo la prima.
Considerando la rete come una gray-box, si pu? rilassare quest?ultimo vincolo durante l?addestramento ottenendo la seconda mappa come indicato in equazione (1). Per quanto riguarda SGM, OTB ottiene risultati intermedi tra WILD e SELF. Tuttavia, mantenendo attivo l?auto-adattamento su tutta la sequenza, OTB supera entrambi di un buon margine. Per quanto riguarda MADNet, SELF risulta pi? efficace di OTB.
Ancora una volta, eseguire l'adattamento online rende OTB la migliore soluzione anche in questo caso. Infine, la Fig. 5 mostra esempi qualitativi per l'algoritmo SGM.
Apprendimento online con sensori black-box
Infine viene riportato, in forma di risultati qualitativi, il risultato ottenuto imparando una stima di confidenza al volo sulle mappe della disparit? fornite da un Apple iPhone? XS, senza alcun pre-allenamento.
I risultati sono ottenuti addestrando online ConfNet su una sequenza di circa 100 coppie stereo.
In particolare, la Fig. 6 mostra esempi di mappe di disparit? acquisite e mappe di confidenza stimate da ConfNet addestrata online. Pi? specificamente, i pochissimi frame raccolti sono sufficienti per imparare a rilevare errori grossolani come quelli sul guscio della tartaruga.
Risultati qualitativi su una variet? di algoritmi
Inoltre, come mostrato in Fig. 7 su una variet? di algoritmi, l'attuale soluzione tecnica ? migliore rispetto a strategie note che richiedono il pieno accesso al volume dei costi (vedi [2]) o scene statiche per l?addestramento ([1]).
Conclusioni
Alla luce di quanto sopra, ? stato introdotto un nuovo paradigma auto-supervisionato finalizzato all'apprendimento di una misura di confidenza per lo stereo.
In particolare, i pochi spunti forniti dalla coppia di immagini stereo in ingresso e la mappa di disparit? stimata vengono utilizzati per generare segnali di auto-supervisione al posto di ?labels? di profondit? di ?ground truth?.
Essendo tali spunti disponibili durante l?utilizzo del sistema in qualsiasi scenario, la presente invenzione ? in grado di svolgere adattamento continuo online con qualsiasi framework, anche di tipo black-box.
Inoltre, i risultati sperimentali hanno dimostrato che il metodo attuale mostra prestazioni elevate se confrontato
con approcci auto-supervisionati esistenti e, cosa non permessa dagli altri metodi, consente ulteriori miglioramenti durante l?utilizzo sfruttando il processo di auto-adattamento online.
Vantaggi
Un vantaggio del metodo proposto secondo la presente invenzione ? quello di consentire l?apprendimento della stima di una confidenza autoadattante e agnostica all'algoritmo o alla rete stereo.
Un altro vantaggio della presente invenzione ? quello di apprendere una misura di confidenza efficace basata solo sulle informazioni minime disponibili in qualsiasi configurazione stereo (vale a dire, la coppia stereo di immagini in ingresso e mappa di disparit? in uscita).
La presente invenzione ? stata descritta per scopi illustrativi ma non limitativi, secondo le sue forme di realizzazione preferite, ma si deve comprendere che possono essere introdotte modifiche e / o cambiamenti da esperti del settore senza allontanarsi dall?ambito pertinente come definito nelle rivendicazioni allegate.

Claims (15)

  1. RIVENDICAZIONI 1. Metodo per determinare la confidenza di una mappa di disparit? mediante addestramento di una rete neurale (14), in cui la confidenza rappresenta il livello di affidabilit? o incertezza di ciascun pixel di detta mappa di disparit? da almeno una coppia di immagini digitali di una scena, comprendente le seguenti fasi: A. acquisire detta almeno una coppia di immagini digitali
    di detta scena; B. calcolare detta mappa di disparit? per ciascun pixel di detta coppia di immagini digitali
    C. estrarre almeno un criterio di auto-supervisione da detta almeno una coppia di immagini digitali e detta mappa di disparit?
    D. calcolare una mappa di confidenza da detta mappa di disparit? mediante detta rete neurale (14); E. calcolare un segnale di perdita da detta mappa di confidenza ?e detto almeno un criterio di auto-supervisione; e F. ottimizzare detta rete neurale (14) addestrando detta rete <neurale (14) con le informazioni associate a detto segnale di perdita>
  2. 2. Metodo secondo la rivendicazione precedente, caratterizzato dal fatto che detto almeno un criterio auto-adattativo estratto in detta fase C comprende almeno uno dei seguenti criteri: un criterio di auto-supervisione relativo ad un errore di riproiezione tra detta almeno una coppia di immagini digitali
    un criterio di auto-supervisione relativo ad un accordo di disparit? tra pixels di detta mappa di disparit? e/o un criterio di auto-supervisione relativo al vincolo di unicit? di ogni pixel rispettivamente in
  3. 3. Metodo secondo la rivendicazione 2, caratterizzato dal fatto che detto criterio di auto-supervisione relativo all?errore di riproiezione tra detta almeno una coppia di immagini digitali
    ? calcolato secondo la seguente equazione:
    dove e con essendo una riproiezione di nelle coordinate dell?immagine di riferimento, SSIM ? l?indice di somiglianza strutturale e ?un parametro fra 0 e 1, preferibilmente impostato a 0.85.
  4. 4. Metodo secondo una qualsiasi delle rivendicazioni 2 o 3, caratterizzato dal fatto che detto criterio di auto-supervisione relativo all?accordo di disparit? tra pixels di detta mappa di disparit? ? calcolato secondo la seguente equazione:
    dove con un istogramma che codifica, per ciascun pixel di detta mappa di disparit? il numero di pixel vicini in una finestra ?aventi la stessa disparit?
  5. 5. Metodo secondo una qualsiasi delle rivendicazioni 2 - 4, caratterizzato dal fatto che detto criterio di auto-supervisione <relativo al vincolo di unicit? di ciascun pixel rispettivamente in > ? calcolato secondo la seguente equazione:
    dove
  6. 6. Metodo secondo una qualsiasi delle rivendicazioni precedenti, caratterizzato dal fatto che detto segnale di perdita
    ? un segnale di perdita di entropia incrociata binaria multimodale calcolata secondo la seguente equazione:
    dove ? l?output di detta rete neurale (14), sono due insiemi di etichette di prossimit? derivate rispettivamente in modo tale che detto almeno uno dei criteri di auto-supervisione sia rispettato o meno.
  7. 7. Metodo secondo una qualsiasi delle rivendicazioni precedenti, caratterizzato dal fatto che detta fase B ? eseguita secondo la seguente formula
  8. 8. Metodo secondo una qualsiasi delle rivendicazioni precedenti, caratterizzato dal fatto che detta fase B ? eseguita mediante una rete
  9. 9. Metodo secondo una qualsiasi delle rivendicazioni precedenti, caratterizzato dal fatto che detta fase A ? eseguita da una unit? di rilevamento di immagini (10) che comprenda almeno un dispositivo di rilevamento di immagini digitali (100, 101) per l?acquisizione di detta almeno una coppia di immagini digitali
    dal fatto che detta fase B ? eseguita da primi mezzi di elaborazione (11), connessi a detto dispositivo di rilevamento di immagini (10), dal fatto che detta fase C ? eseguita da un filtro (12), connesso a detto dispositivo di rilevamento di immagini (10) e detti primi mezzi di elaborazione (11), e dal fatto che dette fasi E e F sono eseguite da secondi mezzi di elaborazione (13), connessi a detto filtro (12) e detta rete neurale (14).
  10. 10. Metodo secondo una qualsiasi delle rivendicazioni precedenti, caratterizzato dal fatto che detta fase A ? eseguita da una tecnica di matching stereo, in modo tale da acquisire una immagine di riferimento e una immagine di destinazione di detta scena.
  11. 11. Unit? di elaborazione (U) per determinare la confidenza di una mappa di disparit?
    in cui la confidenza rappresenta il livello di certezza o incertezza di ciascun pixel di detta mappa di disparit? da almeno una coppia di immagini digitali di una scena, <in cui la mappa di disparit? ? ottenuta attraverso una rete > e
    in cui l?unit? di elaborazione (U) ? configurata per eseguire le fasi B-F di detto metodo, secondo una qualsiasi delle rivendicazioni 1-9.
  12. 12. Unit? di elaborazione (U) secondo la rivendicazione 11, caratterizzato dal fatto di comprendere: mezzi di elaborazione (11, 13), connessi a detta unit? di rilevazione di immagini (10), un filtro (12), connesso a detta unit? di rilevazione di immagini (10) e detti mezzi di elaborazione (11, 13), e configurato per estrarre almeno un criterio di auto-supervisione da detta almeno una coppia di immagini digitali e detta mappa di disparit?
    e una rete neurale (14), connessa a detti mezzi di elaborazione (11, 13), configurata per produrre una mappa di confidenza ?di detta mappa di disparit?
    in cui detti mezzi di elaborazione (11, 13) sono configurati per determinare detta mappa di disparit? da detta almeno una coppia di immagini digitali e per calcolare un segnale di perdita da detta mappa di confidenza ?e detto almeno un criterio di auto-supervisione.
  13. 13. Sistema di sensori (1) per determinare la confidenza di una <mappa di disparit?> <da almeno una coppia di immagini digitali>
    di una scena, comprendente una unit? di rilevamento di immagini (10) configurata per acquisire detta almeno una coppia di immagini digitali di detta scena, e una unit? di elaborazione (U) secondo una qualsiasi delle rivendicazioni precedenti 11 o 12, connessa a detta unit? di rilevazione di immagini (10).
  14. 14. Programma per elaboratore comprendente istruzioni che, quando il programma ? eseguito da un elaboratore, causano l?esecuzione da parte dell?elaboratore delle fasi del metodo secondo una qualsiasi delle rivendicazioni 1-10.
  15. 15. Mezzo di memorizzazione leggibile da un elaboratore comprendente istruzioni che, quando eseguite da un elaboratore, causano l?esecuzione da parte dell?elaboratore delle fasi di metodo secondo una qualsiasi delle rivendicazioni 1-10.
IT102020000016054A 2020-07-02 2020-07-02 Metodo per determinare la confidenza di una mappa di disparità mediante un apprendimento auto-adattivo di una rete neurale, e relativo sistema di sensori IT202000016054A1 (it)

Priority Applications (2)

Application Number Priority Date Filing Date Title
IT102020000016054A IT202000016054A1 (it) 2020-07-02 2020-07-02 Metodo per determinare la confidenza di una mappa di disparità mediante un apprendimento auto-adattivo di una rete neurale, e relativo sistema di sensori
PCT/IT2021/050193 WO2022003740A1 (en) 2020-07-02 2021-06-21 Method for determining the confidence of a disparity map through a self-adaptive learning of a neural network, and sensor system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
IT102020000016054A IT202000016054A1 (it) 2020-07-02 2020-07-02 Metodo per determinare la confidenza di una mappa di disparità mediante un apprendimento auto-adattivo di una rete neurale, e relativo sistema di sensori

Publications (1)

Publication Number Publication Date
IT202000016054A1 true IT202000016054A1 (it) 2022-01-02

Family

ID=72644653

Family Applications (1)

Application Number Title Priority Date Filing Date
IT102020000016054A IT202000016054A1 (it) 2020-07-02 2020-07-02 Metodo per determinare la confidenza di una mappa di disparità mediante un apprendimento auto-adattivo di una rete neurale, e relativo sistema di sensori

Country Status (2)

Country Link
IT (1) IT202000016054A1 (it)
WO (1) WO2022003740A1 (it)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116433588A (zh) * 2023-02-21 2023-07-14 广东劢智医疗科技有限公司 一种基于宫颈细胞的多类别分类与置信判别方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW202332267A (zh) * 2022-01-26 2023-08-01 美商元平台技術有限公司 具有基於機器學習的寬視野立體視圖合成的顯示系統
CN114511609B (zh) * 2022-04-18 2022-09-02 清华大学 基于遮挡感知的无监督光场视差估计***及方法
CN117907242B (zh) * 2024-03-15 2024-06-25 贵州省第一测绘院(贵州省北斗导航位置服务中心) 基于动态遥感技术的国土测绘方法、***及存储介质

Non-Patent Citations (29)

* Cited by examiner, † Cited by third party
Title
GEIGER, A.LENZ, P.URTASUN, R.: "Are we ready for autonomous driving? The KITTI vision benchmark suite", CVPR, 2012
GODARD, C.MAC AODHA, O.BROSTOW, G.J.: "Digging into self-supervised monocular depth estimation", ICCV, 2019
GODARD, C.MAC AODHA, O.BROSTOW, G.J.: "Unsupervised monocular depth estimation with left-right consistency", CVPR, 2017
GUL, M.S.K.BATZ, M.KEINERT, J.: "Pixelwise confidences for stereo disparities using recurrent neural networks", BMVC, 2019
HIRSCHMULLER, H.: "Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference", vol. 2, 2005, IEEE, article "Accurate and efficient stereo processing by semi-global matching and mutual information", pages: 807 - 814
HU, X.MORDOHAI, P., A QUANTITATIVE EVALUATION OF CONFIDENCE MEASURES FOR STEREO VISION, vol. 34, no. 11, 2012, pages 2121 - 2133
KIM, S.KIM, S.MIN, D.SOHN, K.: "Locally adaptive fusion networks for stereo confidence estimation", IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, June 2019 (2019-06-01)
MAYER, N.ILG, E.HAUSSER, P.FISCHER, P.CREMERS, D.DOSOVITSKIY, A.BROX, T.: "A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation", THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, June 2016 (2016-06-01)
MENZE, M.GEIGER, A.: "Object scene flow for autonomous vehicles", CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, 2015
MOSTEGEL, C.RUMPLER, M.FRAUNDORFER, F.BISCHOF, H.: "Using self-contradiction to learn confidence measures in stereo vision", THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, June 2016 (2016-06-01)
POGGI MATTEO ET AL: "Good Cues to Learn From Scratch a Confidence Measure for Passive Depth Sensors", IEEE SENSORS JOURNAL, IEEE SERVICE CENTER, NEW YORK, NY, US, vol. 20, no. 22, 23 June 2020 (2020-06-23), pages 13533 - 13541, XP011815143, ISSN: 1530-437X, [retrieved on 20201015], DOI: 10.1109/JSEN.2020.3004629 *
POGGI MATTEO ET AL: "Learning a confidence measure in the disparity domain from O(1) features", COMPUTER VISION AND IMAGE UNDERSTANDING, ACADEMIC PRESS, US, vol. 193, 18 January 2020 (2020-01-18), XP086066772, ISSN: 1077-3142, [retrieved on 20200118], DOI: 10.1016/J.CVIU.2020.102905 *
POGGI MATTEO ET AL: "Self-adapting Confidence Estimation for Stereo", 30 November 2020, LECTURE NOTES IN COMPUTER SCIENCE; [LECTURE NOTES IN COMPUTER SCIENCE; LECT.NOTES COMPUTER], PAGE(S) 715 - 733, ISBN: 978-3-030-67069-6, ISSN: 0302-9743, XP047571515 *
POGGI, M.ALEOTTI, F.TOSI, F.MATTOCCIA, S.: "Towards real-time unsupervised monocular depth estimation on CPU", IEEE/JRS CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS (IROS, 2018
POGGI, M.MATTOCCIA, S.: "Learning from scratch a confidence measure", BMVC, 2016
POGGI, M.TOSI, F.MATTOCCIA, S., QUANTITATIVE EVALUATION OF CONFIDENCE MEASURES IN A MACHINE LEARNING WORLD, 2017, pages 5228 - 5237
SCHARSTEIN, D.HIRSCHMULLER, H.KITAJIMA, Y.KRATHWOHL, G.NESIC, N.WANG, X.WESTLING, P.: "German conference on pattern recognition", 2014, SPRINGER, article "High-resolution stereo datasets with subpixel-accurate ground truth", pages: 31 - 42
SCHOPS, T.SCHONBERGER, J.L.GALLIANI, S.SATTLER, T.SCHINDLER, K.POLLEFEYS, M.GEIGER, A.: "A multi-view stereo benchmark with high-resolution images and multi-camera videos", PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, 2017, pages 3260 - 3269
TONIONI ALESSIO ET AL: "Real-Time Self-Adaptive Deep Stereo", 2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 15 June 2019 (2019-06-15), pages 195 - 204, XP033686564, DOI: 10.1109/CVPR.2019.00028 *
TONIONI, A.TOSI, F.POGGI, M.MATTOCCIA, S.DI STEFANO, L., REAL-TIME SELFADAPTIVE DEEP STEREO, June 2019 (2019-06-01)
TOSI FABIO ET AL: "Learning confidence measures in the wild", PROCEDINGS OF THE BRITISH MACHINE VISION CONFERENCE 2017, 1 January 2017 (2017-01-01), XP055778762, ISBN: 978-1-901725-60-5, Retrieved from the Internet <URL:https://vision.disi.unibo.it/~mpoggi/papers/bmvc2017.pdf> DOI: 10.5244/C.31.133 *
TOSI, F.POGGI, M.BENINCASA, A.MATTOCCIA, S., BEYOND LOCAL REASONING FOR STEREO CONFIDENCE ESTIMATION WITH DEEP LEARNING, 2018, pages 319 - 334
TOSI, F.POGGI, M.TONIONI, A.DI STEFANO, L.MATTOCCIA, S.: "Learning confidence measures in the wild", BMVC, September 2017 (2017-09-01)
WANG, Z.BOVIK, A.C.SHEIKH, H.R.SIMONCELLI, E.P.: "Image quality assessment: from error visibility to structural similarity", IEEE TRANSACTIONS ON IMAGE PROCESSING, vol. 13, no. 4, 2004, pages 600 - 612, XP011110418, DOI: 10.1109/TIP.2003.819861
YANG, G.SONG, X.HUANG, C.DENG, Z.SHI, J.ZHOU, B.: "A largescale dataset for stereo matching in autonomous driving scenarios", IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR, 2019
YIRAN ZHONG ET AL: "Self-Supervised Learning for Stereo Matching with Self-Improving Ability", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 4 September 2017 (2017-09-04), XP080818196 *
ZBONTAR, J.LECUN, Y.: "Stereo matching by training a convolutional neural network to compare image patches", JOURNAL OF MACHINE LEARNING RESEARCH, vol. 17, 2016, pages 1 - 32
ZHANG, K.LU, J.LAFRUIT, G.: "Cross-based local stereo matching using orthogonal integral images", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, vol. 19, no. 7, 2009, pages 1073 - 1079, XP011254879
ZHANG, Z.CUI, Z.XU, C.JIE, Z.LI, X.YANG, J.: "Joint task-recursive learning for semantic segmentation and depth estimation", PROCEEDINGS OF THE EUROPEAN CONFERENCE ON COMPUTER VISION (ECCV, 2018, pages 235 - 251

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116433588A (zh) * 2023-02-21 2023-07-14 广东劢智医疗科技有限公司 一种基于宫颈细胞的多类别分类与置信判别方法
CN116433588B (zh) * 2023-02-21 2023-10-03 广东劢智医疗科技有限公司 一种基于宫颈细胞的多类别分类与置信判别方法

Also Published As

Publication number Publication date
WO2022003740A1 (en) 2022-01-06

Similar Documents

Publication Publication Date Title
IT202000016054A1 (it) Metodo per determinare la confidenza di una mappa di disparità mediante un apprendimento auto-adattivo di una rete neurale, e relativo sistema di sensori
US7239718B2 (en) Apparatus and method for high-speed marker-free motion capture
US20190141247A1 (en) Threshold determination in a ransac algorithm
US9165211B2 (en) Image processing apparatus and method
CN111724439A (zh) 一种动态场景下的视觉定位方法及装置
CN109640066B (zh) 高精度稠密深度图像的生成方法和装置
KR20110064622A (ko) 티오에프 카메라를 이용한 3차원 에지 추출 방법 및 장치
US11651581B2 (en) System and method for correspondence map determination
CN108256567B (zh) 一种基于深度学习的目标识别方法及***
JP5262705B2 (ja) 運動推定装置及びプログラム
JP2011237296A (ja) 3次元形状計測方法、3次元形状計測装置、及びプログラム
CN110717593B (zh) 神经网络训练、移动信息测量、关键帧检测的方法及装置
CN110443228B (zh) 一种行人匹配方法、装置、电子设备及存储介质
US10140555B2 (en) Processing system, processing method, and recording medium
Concha et al. Instant visual odometry initialization for mobile AR
Prasad et al. Epipolar geometry based learning of multi-view depth and ego-motion from monocular sequences
Poggi et al. Self-adapting confidence estimation for stereo
KR100996209B1 (ko) 변화값 템플릿을 이용한 객체 모델링 방법 및 그 시스템
KR20190114708A (ko) 스테레오 매칭을 위한 하드웨어 디스패러티 평가
KR20160024419A (ko) Dibr 방식의 입체영상 카메라 판별 방법 및 장치
KR101217231B1 (ko) 물체 인식 방법 및 시스템
EP3127087B1 (en) Motion field estimation
WO2019230965A1 (ja) 物体らしさ推定装置、方法、およびプログラム
JP2010009236A (ja) 平面領域推定装置及びプログラム
KR101853276B1 (ko) 깊이 영상에서의 손 영역 검출 방법 및 그 장치