DE102019134253A1

DE102019134253A1 - Vorrichtung, Verfahren und computerlesbares Speichermedium zur Erfassung von Objekten in einem Videosignal beruhend auf visuellen Anzeichen unter Verwendung einer Ausgabe eines Maschinenlernmodells

Info

Publication number: DE102019134253A1
Application number: DE102019134253.8A
Authority: DE
Inventors: Christian EGGERT
Original assignee: Hoya Corp
Current assignee: Hoya Corp
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2021-06-17
Also published as: WO2021116810A1; JP2023506219A; US20230023972A1; EP4073699A1; JP2024050897A; CN115104136A

Abstract

Detektionen in Videobildern eines Videosignals, die aus einem Maschinenlernmodell ausgegeben werden (S305), werden zur Erzeugung einer Detektionskette assoziiert (S307). Eine Anzeige einer Detektion in dem Videosignal wird beruhend auf einer Position der Detektion in der Detektionskette, dem Konfidenzwert der Detektion und dem Ort der Detektion veranlasst (S309).

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich auf eine Vorrichtung, ein Verfahren und ein computerlesbares Speichermedium zur Erfassung von Objekten in einem Videosignal beruhend auf visuellen Anzeichen unter Verwendung einer Ausgabe eines Maschinenlernmodells.
HINTERGRUND
Herkömmliches maschinelles Lernen kann helfen, eine Entscheidungsfunktion zu finden, die Merkmale, die sich auf ein Detektionsziel in einem Bild beziehen, auf Klassenbezeichnungen abbildet. Maschinenlernalgorithmen müssen sich einer Trainingsphase unterziehen, in der die Entscheidungsfunktion modifiziert wird, um Fehler bei Trainingsdaten zu minimieren. Nach Abschluss der Trainingsphase ist die Entscheidungsfunktion fest und wird zum Vorhersagen von zuvor nicht gesehener Daten verwendet.
Um dem Maschinenlernalgorithmen geeignete Merkmale (beispielsweise eine Farbverteilung, Gradientenhistogramme, usw.) bereitzustellen, die sich auf das Detektionsziel beziehen, wird tiefes Lernen angewendet, das ein Verfahren darstellt, das automatisch geeignete Merkmale auffinden kann.
Tiefes Lernen verwendet üblicherweise tiefe neuronale Faltungsnetzwerke. Verglichen mit herkömmlichen neuronalen Netzwerken sind die ersten Schichten durch Faltungsoperationen ersetzt. Dies ermöglicht es neuronalen Faltungsnetzwerken, Bildfilter zu lernen, die Merkmale extrahieren können. Da die Filterkoeffizienten nunmehr Teil der Entscheidungsfunktion sind, kann der Trainingsprozess auch die Merkmalsextraktion optimieren. Daher kann ein neuronales Faltungsnetzwerk automatisch nützliche Merkmale auffinden.
Zwischen Klassifizierung und Objektklassendetektion muss unterschieden werden. Bei einer Klassifizierung ist die Eingabe ein Bild und die Ausgabe eine Klassenbezeichnung. Die Klassifizierung kann daher Fragen beantworten, wie „Enthält dieses Bild ein Detektionsziel, zum Beispiel einen Polypen? (ja/nein)“. Dagegen liefert eine Objektklassendetektion nicht nur Klassenbezeichnungen, sondern auch den Ort der Objekte in der Form von Rahmen. Ein Objektdetektor kann als Klassifizierer betrachtet werden, der bei vielen verschiedenen Bildstellen angewendet wird. Ein bekannter Ansatz für eine Objektdetektion ist der Single-Shot MultiBox Detector (SSD), der offenbart wurde durch W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C-Y. Fu, A. C. Berg: „SSD: Single Shot MultiBox Detector“, European Conference on Computer Vision 2016.
KURZZUSAMMENFASSUNG
Ein Grundprinzip des SSD ist die Platzierung eines imaginären Gitters sogenannter Ankerkästchen über einem Bild. An jedem Ort gibt es eine Vielzahl von Ankerkästchen mit verschiedenen Maßstäben und Seitenverhältnissen. Zur Erfassung eines Detektionsziels, beispielsweise eines Polypen, lautet die Frage „Enthält dieses Ankerkästchen das Detektionsziel, beispielsweise einen Polypen (ja/nein)?“. Daher ist ein neuronales Netzwerk mit zwei Ausgabeneuronen für jedes Ankerkästchen erforderlich. In Abhängigkeit davon, welches der zwei Ausgabeneuronen stärker aktiviert wird, wird ein Ankerkästchen als positiv oder negativ klassifiziert.
Ein Detektor, wie der SSD, liefert ein Gerüst für eine Objektdetektion bei Stehbildern.
Eine Aufgabe vorliegender Erfindung besteht in der Bereitstellung eines Objektdetektions- und Anzeigeverfahrens, das zeitlich konsistente Detektionen in einem Videosignal beruhend auf einer Ausgabe aus einem Maschinenlernmodell erzielen kann.
Diese Aufgabe wird durch eine Vorrichtung, ein Verfahren und ein computerlesbares Speichermedium wie in den beiliegenden Patentansprüchen definiert gelöst.
Gemäß einer Ausgestaltung vorliegender Erfindung ist eine Vorrichtung bereitgestellt, die umfasst:

eine Einrichtung zum Erhalten einer oder mehrerer aktueller Detektionen, die aus einem Maschinenlernmodell für zumindest ein aktuelles Videobild einer Reihe aufeinanderfolgender Videobilder eines Videosignals ausgegeben werden, wobei das zumindest eine aktuelle Videobild in das Maschinenlernmodell eingegeben wird, wobei eine aktuelle Detektion der einen oder mehreren aktuellen Detektionen einen Konfidenzwert, der eine Wahrscheinlichkeit angibt, dass die aktuelle Detektion ein durch das Maschinenlernmodell zu erfassendes Detektionsziel enthält, und einen Ort des Detektionsziels in dem zumindest einen aktuellen Videobild umfasst,
eine Einrichtung zur Erzeugung einer Detektionskette durch Assoziieren von aus dem Maschinenlernmodell ausgegebenen Detektionen, wobei eine aktuelle Detektion der einen oder mehreren aktuellen Detektionen mit einer vorhergehenden Detektion einer oder mehrerer vorhergehender Detektionen assoziiert ist, die von dem Maschinenlernmodell für zumindest ein vorhergehendes Videobild der Reihe erhalten werden, das dem zumindest einem aktuellen Videobild vorhergeht und in das Maschinenlernmodell eingegeben wurde, wobei eine vorhergehende Detektion der einen oder mehreren vorhergehenden Detektionen einen Konfidenzwert, der eine Wahrscheinlichkeit angibt, dass die vorhergehende Detektion das Detektionsziel enthält, und einen Ort des Detektionsziels in dem zumindest einen vorhergehenden Videobild umfasst, wobei die aktuelle Detektion mit der vorhergehenden Detektion beruhend auf den Orten der aktuellen und vorhergehenden Detektionen assoziiert ist,
eine Einrichtung zur Veranlassung einer Anzeige der zumindest einen aktuellen Detektion in dem Videosignal beruhend auf einer Position der aktuellen Detektion in der Detektionskette, dem Konfidenzwert der aktuellen Detektion und dem Ort der aktuellen Detektion und
eine Einrichtung zur Wiederholung des Erhaltens, der Erzeugung und Veranlassung der Anzeige für zumindest ein nächstes Videobild in der Reihe als das zumindest eine aktuelle Videobild.

Gemäß einem Ausführungsbeispiel vorliegender Erfindung ist die aktuelle Detektion mit der vorhergehenden Detektion derart assoziiert, dass die aktuelle Detektion und die vorhergehende Detektion zur selben Detektionskette gehören, wenn eine Überlappung der Orte der aktuellen und vorhergehenden Detektionen eine vorbestimmte Bedingung erfüllt.
Gemäß einem Ausführungsbeispiel vorliegender Erfindung wird die Anzeige der aktuellen Detektion veranlasst, wenn die aktuelle Detektion zu N+M Detektionen der Detektionskette gehört, wobei N und M positive ganze Zahlen größer oder gleich 1 sind, und wobei N die N zeitlich ersten Detektionen der Detektionskette angibt, und wobei die Anzeige der aktuellen Detektion nicht veranlasst wird, wenn die aktuelle Detektion zu den N zeitlich ersten Detektionen der Detektionskette gehört.
Gemäß einem Ausführungsbeispiel vorliegender Erfindung wird die Anzeige der aktuellen Detektion veranlasst, wenn der Konfidenzwert der aktuellen Detektion größer oder gleich einem ersten Schwellenwert ist.
Gemäß einem Ausführungsbeispiel vorliegender Erfindung wird die Anzeige der aktuellen Detektion veranlasst, wenn der Konfidenzwert der aktuellen Detektion größer oder gleich einem zweiten Schwellenwert ist, der kleiner als der erste Schwellenwert ist, und wenn der Konfidenzwert der vorhergehenden Detektion, die zur selben Detektionskette wie die aktuelle Detektion gehört, größer oder gleich dem ersten Schwellenwert ist.
Gemäß einem Ausführungsbeispiel vorliegender Erfindung umfasst die Vorrichtung ferner eine Einrichtung zur Durchführung einer Glättung über Orte der Detektionen der Detektionskette.
Gemäß einem Ausführungsbeispiel vorliegender Erfindung wird das Videosignal während eines Untersuchungsprozesses durch ein Endoskop erfasst.
Gemäß einem Ausführungsbeispiel vorliegender Erfindung ist das Detektionsziel ein Polyp.
Gemäß einem Ausführungsbeispiel vorliegender Erfindung ist ein Objektdetektions- und Anzeigeverfahren bereitgestellt, das zeitlich konsistente Detektionen in einem Videosignal unter Verwendung einer Ausgabe eines Maschinenlernmodells beruhend auf visuellen Anzeichen in Videobildern des Videosignals erzielt.
Gemäß einer Beispielimplementierung verarbeitet das Objektdetektions- und Anzeigeverfahren ein Videosignal von Bewegtbildern, wobei eine Ausgabe eines Maschinenlernmodells verwendet wird, und das Objektdetektions- und Anzeigeverfahren Artefakte unterdrücken kann, wie unechte Detektionen, untergegangene Detektionen und instabile Lokalisation, was nachstehend beschrieben wird, während es auch die Last hinsichtlich eines Trainierens des Maschinenlernmodells unterdrückt.
Gemäß einem Ausführungsbeispiel vorliegender Erfindung wird ein heuristischer Ansatz zur Durchführung einer Objektdetektion in einem Videosignal von Bewegtbildern durch Verwenden einer Ausgabe eines Maschinenlernmodells angewendet, wodurch die Qualität von Detektionen visuell verbessert wird.
Erfindungsgemäß kann ein Arzt, der beispielsweise eine endoskopische Untersuchung wie eine Darmspiegelung durchführt, beim Fokussieren seiner Aufmerksamkeit auf relevante Bildbereiche unterstützt werden, die Gewebe enthalten, das mit dem Auftreten von Polypen konsistent ist.
Im Folgenden wird die Erfindung anhand von Ausführungsbeispielen unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben.
Figurenliste

1 zeigt eine schematische Darstellung des Kriteriums Schnittmenge über Vereinigungsmenge (IoU), das gemäß einem Ausführungsbeispiel vorliegender Erfindung zum Gruppieren von Detektionen in Detektionsketten verwendet wird.
2 zeigt eine Darstellung, die schematisch eine „ideale“ Lösung des Durchführens einer Objektdetektion in einem Videosignal und einen heuristischen Ansatz eines Durchführens einer Objektdetektion gemäß einem Ausführungsbeispiel vorliegender Erfindung veranschaulicht.
3 zeigt ein Ablaufdiagramm eines Objektdetektions- und Anzeigeprozesses gemäß einem Ausführungsbeispiel vorliegender Erfindung.
4 zeigt ein schematisches Blockschaltbild einer Konfiguration einer Steuereinheit, in der Ausführungsbeispiele der Erfindung implementierbar sind.
5 zeigt eine Darstellung einer PR-Kurve, wenn gemäß einem Ausführungsbeispiel vorliegender Erfindung eine Flimmerunterdrückung bei dem Objektdetektions- und Anzeigeprozess angewendet wird.
6 zeigt eine Darstellung einer Hystereseschwellenwertbildung, die gemäß einem Ausführungsbeispiel vorliegender Erfindung bei dem Objektdetektions- und Anzeigeprozess angewendet wird.
7 zeigt eine Darstellung einer PR-Kurve, wenn gemäß einem Ausführungsbeispiel vorliegender Erfindung die Hystereseschwellenwertbildung bei dem Objektdetektions- und Anzeigeprozess angewendet wird.

BESCHREIBUNG DER AUSFÜHRUNGSBEISPIELE
Erfindungsgemäß wird eine Ausgabe eines Maschinenlernmodells verwendet. Das Maschinenlernmodell gibt eine oder mehrere Detektionen pro Videobild eines Videosignals aus, das in das Maschinenlernmodell eingegeben wird. Beispielsweise wird das Videosignal durch ein Endoskop während eines Untersuchungsprozesses erfasst.
Das Maschinenlernmodell gibt insbesondere einen Konfidenzwert und einen Ort jeder Detektion aus. Der Konfidenzwert gibt eine Wahrscheinlichkeit an, dass die Detektion ein durch das Maschinenlernmodell zu erfassendes Detektionsziel enthält, und der Ort gibt den Bereich des Detektionsziels im Videobild an. Das Detektionsziel ist beispielsweise ein Polyp.
Als Maschinenlernmodell wird beispielsweise ein neuronales Netzwerk mit zwei Ausgabeneuronen für jedes Ankerkästchen wie vorstehend angeführt verwendet. In Abhängigkeit davon, welches der zwei Ausgabeneuronen stärker aktiviert wird, wird ein Ankerkästchen als positiv oder negativ klassifiziert. Der Ort des Detektionsziels beruht auf dem Ort des Ankerkästchens. Die Ausgabe aus den zwei Neuronen bildet den Konfidenzwert.
Das Maschinenlernmodell wurde unter Verwendung von Trainingsdaten für eine Objektdetektion trainiert, d.h. Trainingsdaten zur Detektion eines Detektionsziels, wie eines Polypen, die Bilder und Objekte mit Anmerkungen beispielsweise in der Form von Rahmen umfassen.
Zur objektiven Auswertung von Leistungsverbesserungen bei Datensätzen und Filterverfahren des Maschinenlernmodells werden für die Aufgabe der Objektdetektion Standardmesswerte verwendet. Die relevanten Messwerte, die verwendet werden, sind Precision, Recall und Average Precision (AP). Die Precision ist als der Bruchteil richtig erfasster Elemente verglichen mit der Gesamtanzahl von Detektionen definiert, die durch das Maschinenlernmodell zurückgegeben werden. Der Recall ist als der Bruchteil korrekt erfasster Elemente verglichen mit der Gesamtanzahl von zu erfassenden Elementen definiert. Precision und Recall können daher als Formeln wie folgt definiert werden $Precision = TP/ (TP + FP) Recall = TP/ (TP + FN)$
wobei TP die Anzahl von wahren positiven (richtigen) Detektionen, FP die Anzahl von falschen positiven (falschen) Detektionen und FN die Anzahl von falschen negativen (verpassten) Detektionen darstellt.
Zur Klassifizierung der Detektionen als „wahr“ oder „falsch“ muss die Qualität der Lokalisierung gemessen werden. Zur Messung der Lokalisierungsqualität wird das Kriterium Schnittmenge über Vereinigungsmenge (IoU) angewendet: $IoU (A,B) = | A \cap B | / | A \cup B |$
Nur im Fall einer perfekten Lokalisierung wird die Schnittmenge über Vereinigungsmenge 1. Sowohl Unter- als auch Über-Detektion werden bestraft. Eine Detektion wird als korrekt klassifiziert, wenn das IoU zwischen der Detektion und der Anmerkung >_ 0,5 ist. 1 veranschaulicht Beispiele schlechter Lokalisierung, akzeptabler Mindestlokalisierung und perfekter Lokalisierung.
Obwohl Precision und Recall nützliche Werkzeuge zur Bewertung der Leistung eines Algorithmus sind, haben sie einen ernsten Nachteil: der Klassifizierer gibt einen Konfidenzwert aus, der die Wahrscheinlichkeit misst, dass eine Bildregion ein Detektionsziel, wie einen Polypen enthält. Für eine endgültige Entscheidung, ob die Detektion anzuzeigen ist, muss ein Schwellenwert angewendet werden. Allerdings hängen die Werte von Precision und Recall von diesem Schwellenwert ab. Beispielsweise ist es immer möglich, die Precision auf Kosten des Recalls zu erhöhen, indem der Schwellenwert erhöht wird.
In den nachstehend beschriebenen 5 und 7 werden daher Precision (P) und Recall (R) über alle möglichen Schwellenwerte bewertet, um eine Precision-Recall-Kurve aufzutragen. Die Fläche unter der Kurve wird Average Precision (AP) genannt und dient als Indikator, wie gut verschiedene Klassifizierer im Allgemeinen arbeiten. Dieser Wert kann dazu verwendet werden, verschiedene Klassifizierer miteinander zu vergleichen.
Im Folgenden wird angenommen, dass das Maschinenlernmodell, dessen Ausgabe erfindungsgemäß verwendet wird, zum Erzielen einer guten Leistung trainiert wurde, wenn es Detektionen beruhend auf einem Videobild eines Videosignals produziert. Allerdings könnten Informationen über vergangene Videobilder die Leistung noch weiter verbessern.
Die Erzeugung von Detektionen lediglich beruhend auf dem aktuellen Videobild kann zu den folgenden Artefakten führen:

- Unechte Detektionen: falsche Positive, die zum Erscheinen für einen einzelnen Bildrahmen eines Videosignals tendieren und im nächsten Bild des Videosignals verschwinden.
- Verloren gegangene Detektionen: wenn das Maschinenlernmodell ein Detektionsziel erfasst hat, beispielsweise einen Polypen, ist die Detektion üblicherweise über eine Vielzahl aufeinanderfolgender Rahmen des Videosignals sehr stabil. Manchmal fällt die Konfidenz der Detektion allerdings kurzzeitig unter den Detektionsschwellenwert, was ein Flimmern der Detektion verursacht.
- Instabile Lokalisierung: das Maschinenlernmodell schätzt einen Rahmen zum Lokalisieren jeder Detektion. Wenn sich das eingegebene Bild leicht ändert, ändert sich auch die Lokalisierung. Diese Änderung könnte aber für einen Benutzer als nicht gleichmäßig erscheinen.

Ein Detektor, der vergangene Videobilder in Betracht ziehen kann, könnte eine gute Chance zur Verringerung dieser Artefakte haben. Das Trainieren eines derartigen Detektors würde aber das Sammeln von Videosequenzen als Datensätze erfordern. Dies wäre eine große Last für die Ärzte, da sie jedes einzelne Bild in dem Videosignal bezeichnen müssten.
Zur Vermeidung eines Trainierens des Maschinenlernmodells unter Verwendung von Videosequenzen wird erfindungsgemäß eine heuristische Lösung zur visuellen Verbesserung der Qualität von Detektionen angewendet. Zu diesem Zweck wird eine Filterheuristik eingeführt, die die vorstehend angeführten Artefakte adressiert. 2 zeigt eine Darstellung, die schematisch eine „ideale“ Lösung und die erfindungsgemäße Lösung veranschaulicht.
Die „ideale“ Lösung ist links in 2 gezeigt. Beispielsweise nimmt eine Architektur Deep Convolutional Neural Network (DCNN) Long Short-term Memory (LSTM) eine Vielzahl von Videobildern als Eingabe an und gibt Detektionen beruhend auf visuellen Anzeichen über eine Vielzahl von Bildern aus.
Die erfindungsgemäße Lösung ist rechts in 2 gezeigt. Die Vorhersage beruht auf einzelnen Bildern, die über eine Heuristik gefiltert werden.
Der Unterschied zwischen den beiden Lösungen ist, dass ein echter Mehrfachbild-Detektor dazu fähig wäre, sich auf die visuellen Anzeichen von einer Vielzahl von Videobildern zu verlassen. Die erfindungsgemäße heuristische Lösung verlässt sich auf die visuellen Anzeichen des aktuellen Bildes, um eine Detektion zu produzieren. Wie vorstehend beschrieben umfasst eine Detektion einen Ort und einen Konfidenzwert. Die Heuristik kann daher mit diesen Werten arbeiten.
Gemäß einem Ausführungsbeispiel vorliegender Erfindung werden vor Anwendung einer Filterheuristik Detektionen über eine Vielzahl von Videobildern miteinander assoziiert. Gemäß einem Ausführungsbeispiel vorliegender Erfindung wird angenommen, dass Detektionen im Allgemeinen nicht dazu tendieren, sich über aufeinanderfolgende Videobilder schnell zu bewegen, und die Orte der Detektionen werden verwendet, um Detektionen miteinander zu assoziieren. Gemäß einem Implementierungsbeispiel wird das vorstehend beschriebene Kriterium Schnittmenge über Vereinigungsmenge verwendet, um Detektionen miteinander zu assoziieren. Beispielsweise werden Detektionen in aufeinanderfolgenden Videobildern mit einem IoU ≥ 0,3 als Teil derselben Detektionskette betrachtet. Aufeinanderfolgende Detektionen mit einem IoU < 0,3 werden als Teil verschiedener Detektionsketten betrachtet. Nachstehend beschriebene Filterstufen arbeiten jeweils bei diesen Detektionsketten.
Vor der Beschreibung der Filterstufen wird auf 3 Bezug genommen, die einen Prozess einer Objektdetektion und Anzeige gemäß einem Ausführungsbeispiel vorliegender Erfindung veranschaulicht.
In Schritt S305 in 3 wird (werden) eine oder mehrere aktuelle Detektionen für zumindest ein aktuelles Videobild, das in ein Maschinenlernmodell eingegeben wird, als Ausgabe aus dem Maschinenlernmodell erhalten. Das zumindest eine aktuelle Videobild gehört zu einer Reihe aufeinanderfolgender Videobilder eines Videosignals. Gemäß einer Beispielimplementierung wird das Videosignal von einer endoskopischen Einrichtung beschafft, die das Videosignal erfasst. Das Videosignal umfasst beispielsweise Bewegtbilder.
Eine aktuelle Detektion der einen oder mehreren aktuellen Detektionen umfasst einen Konfidenzwert, der eine Wahrscheinlichkeit angibt, dass die aktuelle Detektion ein durch das Maschinenlernmodell zu erfassendes Detektionsziel enthält, und einen Ort des Detektionsziels in dem zumindest einen aktuellen Videobild. In Schritt S305 wird (werden) die eine oder mehreren aktuelle(n) Detektionen für das zumindest eine aktuelle Videobild erhalten.
In Schritt S307 wird eine Detektionskette durch Assoziieren von Detektionen erzeugt, die aus dem Maschinenlernmodell ausgegeben werden. Eine aktuelle Detektion der einen oder mehreren aktuellen Detektionen wird mit einer vorhergehenden Detektion einer oder mehrerer vorhergehender Detektionen assoziiert, die von dem Maschinenlernmodell für zumindest ein vorhergehendes Videobild der Reihe erhalten wird (werden), das dem zumindest einen aktuellen Videobild vorhergeht und in das Maschinenlernmodell eingegeben wurde. Eine vorhergehende Detektion der einen oder mehreren vorhergehenden Detektionen umfasst einen Konfidenzwert, der eine Wahrscheinlichkeit angibt, dass die vorhergehende Detektion das Detektionsziel enthält, und einen Ort des Detektionsziels in dem zumindest einen vorhergehenden Videobild. Gemäß einem Ausführungsbeispiel vorliegender Erfindung wird die aktuelle Detektion mit der vorhergehenden Detektion beruhend auf den Orten der aktuellen und vorhergehenden Detektionen assoziiert. Gemäß einem alternativen Ausführungsbeispiel oder zusätzlich wird die aktuelle Detektion mit der vorhergehenden Detektion beruhend auf Geschwindigkeit und/oder Orientierung der Detektionen in den aufeinanderfolgenden Videobildern assoziiert.
In Schritt S309 wird eine Anzeige der zumindest einen aktuellen Detektion in dem Videosignal beruhend auf einer Position der aktuellen Detektion in der Detektionskette, dem Konfidenzwert der aktuellen Detektion und dem Ort der aktuellen Detektion veranlasst.
In Schritt S311 wird überprüft, ob eine Endebedingung erfüllt ist oder nicht. Ist die Endebedingung erfüllt, endet der Prozess. Ist die Endebedingung nicht erfüllt, kehrt der Prozess zu Schritt S305 zur Verarbeitung zumindest eines nächsten Videobildes in der Reihe als das zumindest eine aktuelle Videobild zurück.
Die Endebedingung ist beispielsweise erfüllt, wenn es kein nächstes Videobild in der Reihe gibt.
Gemäß einer Beispielimplementierung wird die aktuelle Detektion in Schritt S307 mit der vorhergehenden Detektion derart assoziiert, dass die aktuelle Detektion und die vorhergehende Detektion zur selben Detektionskette gehören, wenn eine Überlappung der Orte der aktuellen und vorhergehenden Detektionen eine vorbestimmte Bedingung erfüllt, beispielsweise IoU ≥ 0,3.
Ferner wird gemäß einer Beispielimplementierung in Schritt S309 die Anzeige der aktuellen Detektion veranlasst, wenn der Konfidenzwert der aktuellen Detektion größer oder gleich einem ersten Schwellenwert ist.
Nun wird auf 4 Bezug genommen, die eine Steuereinheit 40 veranschaulicht, in der Ausführungsbeispiele der Erfindung implementiert werden können. Die Steuereinheit 40 implementiert beispielsweise den Objektdetektions- und Anzeigeprozess von 3.
Die Steuereinheit 40 umfasst Verarbeitungsressourcen (beispielsweise eine Verarbeitungsschaltung) 41, Speicherressourcen (beispielsweise eine Speicherschaltung) 42 und Schnittstellen (beispielsweise eine Schnittstellenschaltung) 43, die über eine Verknüpfung (beispielsweise einen Bus, eine drahtgebundene Leitung, eine Drahtlosverbindung, usw.) 44 verbunden sind.
Gemäß einer Beispielimplementierung speichern die Speicherressourcen 42 ein Programm, das bei Ausführung durch die Verarbeitungsressourcen 41 die Steuereinheit 40 zum Arbeiten gemäß zumindest einiger Ausführungsbeispiele vorliegender Erfindung veranlasst.
Im Allgemeinen können die Ausführungsbeispiele dieser Erfindung durch Computersoftware, die in den Speicherressourcen 42 gespeichert und durch die Verarbeitungsressourcen 41 ausführbar ist, oder durch Hardware, oder durch eine Kombination aus Software und/oder Firmware und Hardware implementiert sein.
Im Folgenden werden Filterstufen beschrieben, die bei Detektionsketten arbeiten, die wie vorstehend beschrieben erhalten werden.
Filterstufe 1: Flimmerunterdrückung
Die Flimmerunterdrückung ist zum Lösen des Problems unechter Detektionen entworfen. Da unechte Detektionen nur über wenige Bilder erscheinen und dann wieder verschwinden, besteht eine Lösung für dieses Problem in der Unterdrückung der ersten Vorkommen einer Detektion in dem Bild. Beispielsweise wird in S309 nur dann, wenn ein Detektionsziel, beispielsweise ein Polyp, unabhängig in einer Vielzahl aufeinanderfolgender Videobilder am selben Ort erfasst wird, die dem Ort entsprechende Detektion angezeigt.
Es gibt zwei verschiedene Wege, eine derartige Flimmerunterdrückung zu implementieren. Ein Weg ist eine Unterdrückung ohne Vorherwissen, die immer die ersten N Vorkommnisse einer Detektion unterdrückt. Ein anderer Weg ist eine Unterdrückung mit Vorherwissen, die die ersten N Vorkommnisse einer Detektion nur unterdrückt, wenn die Detektion in dem N+1-ten Bild verschwindet.
Beide Versionen bewirken eine Erhöhung der Precision des Objektdetektions- und Anzeigeverfahrens. Da aber Detektionen bewusst unterdrückt werden, muss der Recall leiden. Diese Verringerung des Recall ist größer, wenn eine Flimmerunterdrückung ohne Vorherwissen angewendet wird, als wenn eine Flimmerunterdrückung mit Vorherwissen angewendet wird. Allerdings gibt es eine Verzögerung von N+1 Bildern, bis Wissen darüber beschafft ist, ob eine Detektion anzuzeigen ist oder nicht. Da eine derartige Latenz üblicherweise nicht akzeptabel ist, wird die Anwendung der Flimmerunterdrückung ohne Vorherwissen bevorzugt. Gemäß einer Beispielimplementierung des Objektdetektions- und Anzeigeprozesses von 3 wird in Schritt S309 die Anzeige der aktuellen Detektion veranlasst, wenn die aktuelle Detektion zu N+M Detektionen der Detektionskette gehört, wobei N und M positive ganze Zahlen größer oder gleich 1 sind, und wobei N die N zeitlich ersten Detektionen der Detektionskette angibt. Die Anzeige der aktuellen Detektion wird ferner nicht veranlasst, wenn die aktuelle Detektion zu den N zeitlich ersten Detektionen der Detektionskette gehört.
In 5 werden Precision und Recall über alle möglichen Schwellenwerte zum Auftragen von Precision-Recall-(PR-)Kurven für (1) den ursprünglichen Datensatz (d.h., bei dem Objektdetektions- und Anzeigeprozess von 3 wird keine Flimmerunterdrückung angewendet), (2) den Datensatz bei Anwendung einer Flimmerunterdrückung ohne Vorherwissen (wof) bei dem Objektdetektions- und Anzeigeprozess von 3 und (3) den Datensatz bei Anwendung einer Flimmerunterdrückung mit Vorherwissen (wf) bei dem Objektdetektions- und Anzeigeprozess von 3 ausgewertet.
Wie vorstehend beschrieben wird die Fläche unter den Kurven Average Precision (AP) genannt und dient als Indikator, wie gut der Objektdetektions- und Anzeigeprozess von 3 (1) ohne Flimmerunterdrückung, (2) mit Flimmerunterdrückung ohne Vorherwissen und (3) mit Flimmerunterdrückung mit Vorherwissen arbeitet.
5 zeigt den Effekt der Anwendung einer Flimmerunterdrückung mit und ohne Vorherwissen. Der maximale erreichbare Recall ist verringert, während die Precision in dem Hoch-Precision-Abschnitt der Kennlinie der Detektionseinrichtung (beispielsweise des Maschinenlernmodells) verbessert ist. Beide Effekte sind weniger ausgeprägt, wenn eine Flimmerunterdrückung mit Vorherwissen angewendet wird. Die Erhöhung der Precision ist für den Benutzer stark sichtbar, während dies für die Verringerung des Recall nicht der Fall ist, da der Detektor (beispielsweise das Maschinenlernmodell) für die meisten Anwendungsszenarien seinen Arbeitspunkt in dem Hoch-Precision-Bereich der PR-Kurve hat.
Obwohl die Anwendung der Flimmerunterdrückung ohne Vorherwissen bedeutet, dass der Recall stärker verringert ist, ist dieser verlorene Recall für den Benutzer kaum merkbar. Wenige verpasste Detektionen nach Sichtbarwerden des Polypen sind viel weniger merkbar als falsche Positive, die überall über dem Bild aufpoppen und sofort verschwinden.
Filterstufe 2: Hysterese
Manchmal geschieht das Gegenteil flimmernder Detektionen: Detektionen gehen während eines einzelnen Bildes verloren und werden im nächsten Bild schnell wieder erfasst. Dies kann beispielsweise beim Auftreten von Bewegungsunschärfe passieren.
Um diesen verpassten Detektionen entgegenzuwirken, wird eine Hystereseschwellenwertbildung wie in 6 veranschaulicht eingeführt.
Die Hystereseschwellenwertbildung verwendet zwei Schwellenwerte: einen hoher Schwellenwert genannten ersten Schwellenwert (der in 6 als „hoch“ bezeichnet wird) und einen niedriger Schwellenwert genannten zweiten Schwellenwert (der in 6 als „niedrig“ bezeichnet wird). Anfangs müssen Konfidenzwerte von Detektionen den hohen Schwellenwert überschreiten, um angezeigt zu werden. Das heißt, anfangs wird eine Detektion angezeigt, wenn sie in einer Vielzahl von Bildern (beispielsweise über die Zeit wie in 6 veranschaulicht) mit hoher Konfidenz am gleichen Ort erfasst wird. Wurde eine Detektion über mehrere Bilder an einem gleichen Ort angezeigt, darf die Detektion unter den hohen Schwellenwert fallen und immer noch angezeigt werden. Nur wenn die Detektion einmal unter den niedrigen Schwellenwert fällt, wird sie nicht mehr angezeigt. In 6 ist der Konfidenzwert als „Bewertung“ angegeben.
Gemäß einer Beispielimplementierung wird in Schritt S309 in 3 die Anzeige der aktuellen Detektion veranlasst, wenn der Konfidenzwert der aktuellen Detektion gleich oder größer als ein zweiter Schwellenwert ist, der kleiner als der erste Schwellenwert ist, und wenn der Konfidenzwert der vorhergehenden Detektion, die zur selben Detektionskette wie die aktuelle Detektion gehört, gleich oder größer als der erste Schwellenwert ist.
7 zeigt einen typischen Effekt der Anwendung der Hystereseschwellenwertbildung bei dem Objektdetektions- und Anzeigeprozess von 3. Bei einer gegebenen Precision kann der Recall verbessert werden. Eine mögliche Verringerung der Precision ist in der Praxis nicht beobachtbar.
Es wird angemerkt, dass die in den 5 und 7 gezeigten PR-Kurven beruhend auf verschiedenen Datensätzen erhalten wurden.
Da die Hystereseschwellenwertbildung mehr erfasste Polypen ergibt, kann sie den Recall erhöhen. Potentiell kann sie auch eine Verringerung der Precision ergeben, da sich manche dieser Detektionen als falsch herausstellen könnten. Da neuronale Netzwerke aber im Allgemeinen sehr gut in der Zuordnung hoher Konfidenzwerte, wenn ein Polyp wirklich vorhanden ist, und sehr niedriger Konfidenzwerte sind, wenn ein Polyp nicht vorhanden ist, ist ein derartiges Problem nicht aufgetreten. In einem derartigen Fall wird der Konfidenzwert des Netzwerks im Allgemeinen selbst den niedrigen Schwellenwert nicht überschreiten.
Filterstufe 3: Ortsglättung
Bei der Filterstufe 3 wird eine Glättungsverarbeitung über die Orte der Detektion durchgeführt.
Gemäß einer Beispielimplementierung wird in Schritt S309 in 3, wenn die Anzeige der zumindest einen aktuellen Detektion veranlasst wird, ihr Ort beruhend auf den Orten von Detektionen der Detektionskette geglättet, zu der die aktuelle Detektion gehört, wobei die Detektionen der aktuellen Detektion vorausgehen.
Die Glättungsverarbeitung wird beispielsweise durch Durchführung einer gewichteten Mittelung von Koordinaten der Detektionen ausgeführt. Dies erzeugt das Erscheinen, dass die Lokalisierung stabiler als ursprünglich ist. Alternativ dazu kann die Glättungsverarbeitung unter Verwendung komplexerer Filterstrukturen durchgeführt werden, beispielsweise durch Anwenden eines Kalman-Filters bei den Orten der Detektionen in dem Videosignal.
Effekte
Der gemeinsame Effekt des vorstehend beschriebenen Ansatzes, bei dem die heuristischen Filterstufen 1 bis 3 angewendet werden, wurde bei einem großen Testdatensatz von 6000 Bildern ausgewertet. Im Mittel wurde eine Verringerung bei falschen positiven Detektionen um 62% verglichen mit dem Ansatz ohne heuristische Filterung beobachtet. Gleichermaßen wurde eine 16%ige Erhöhung falscher Negativer beobachtet. Es wird wiederrum angemerkt, dass die Verringerung falscher Positiver stark sichtbar ist, während die Verringerung falscher Negativer kaum sichtbar ist: wenige Bilder, in denen ein Polyp nicht erfasst wird, wenn er in Sicht kommt, werden technisch als falsche Negative gemessen. Für einen menschlichen Benutzer ist dies kaum sichtbar. Allerdings sind falsche Positive, die über dem gesamten Video aufpoppen, für den Benutzer sehr deutlich.
An diesem Punkt wird auch angemerkt, dass eine 16%ige Erhöhung falscher Negativer nicht heißt, dass 16% mehr Polypen während einer Darmspiegelung verpasst werden. Es bedeutet, dass eine 16%ige Erhöhung in Videobildern vorliegt, in denen ein Polyp vorhanden ist, aber nicht erfasst wird. Typischerweise gibt es aber viele Videobilder, die denselben Polypen zeigen. Wenn das Netzwerk beim Erfassen von Polypen gut ist, ist es virtuell sicher, dass zumindest ein Videobild vorkommt, in dem ein bestimmter Polyp erfasst wird. In der Praxis wirkt sich die heuristische Filterung nicht auf die Anzahl von Polypen aus, die zumindest einmal erfasst werden.
Das vorstehend beschriebene Objektdetektions- und Anzeigeverfahren kann Polypen während Darmspiegelungen in Echtzeit zuverlässig erfassen.
Der dreistufige heuristische Filteransatz ermöglicht die Filterung von Detektionen über Bilder eines Videosignals, d.h. über die Zeit. Individuelle Detektionen erscheinen daher stabiler, obwohl das Objektdetektions- und Anzeigeverfahren bei Videobildern arbeitet, beispielsweise einzelnen Videobildern. Diese heuristische Filterung verbessert Ergebnisse visuell und ermöglicht zeitlich konsistente Detektionen, ohne Videodaten (und die entsprechenden Anmerkungen) während eines Trainings zu erfordern.
Es ist ersichtlich, dass die vorstehende Beschreibung die Erfindung veranschaulicht und die Erfindung nicht einschränken soll. Verschiedene Abwandlungen und Anwendungen können dem Fachmann auffallen, ohne von der wahren Idee und dem Schutzbereich der Erfindung abzuweichen, wie er durch die beigefügten Patentansprüche definiert ist.

Claims

Verfahren mit Erhalten einer oder mehrerer aktueller Detektionen, die aus einem Maschinenlernmodell für zumindest ein aktuelles Videobild einer Reihe aufeinanderfolgender Videobilder eines Videosignals ausgegeben werden, wobei das zumindest eine aktuelle Videobild in das Maschinenlernmodell eingegeben wird, wobei eine aktuelle Detektion der einen oder mehreren aktuellen Detektionen einen Konfidenzwert, der eine Wahrscheinlichkeit angibt, dass die aktuelle Detektion ein durch das Maschinenlernmodell zu erfassendes Detektionsziel enthält, und einen Ort des Detektionsziels in dem zumindest einen aktuellen Videobild umfasst, Erzeugen einer Detektionskette durch Assoziieren von aus dem Maschinenlernmodell ausgegebenen Detektionen, wobei eine aktuelle Detektion der einen oder mehreren aktuellen Detektionen mit einer vorhergehenden Detektion einer oder mehrerer vorhergehender Detektionen assoziiert wird, die von dem Maschinenlernmodell für zumindest ein vorhergehendes Videobild der Reihe erhalten werden, das dem zumindest einen aktuellen Videobild vorhergeht und in das Maschinenlernmodell eingegeben wurde, wobei eine vorhergehende Detektion der einen oder mehreren vorhergehenden Detektionen einen Konfidenzwert, der eine Wahrscheinlichkeit angibt, dass die vorhergehende Detektion das Detektionsziel enthält, und einen Ort des Detektionsziels in dem zumindest einen vorhergehenden Videobild umfasst, wobei die aktuelle Detektion mit der vorhergehenden Detektion beruhend auf den Orten der aktuellen und vorhergehenden Detektionen assoziiert wird, und Veranlassen einer Anzeige der zumindest einen aktuellen Detektion in dem Videosignal beruhend auf einer Position der aktuellen Detektion in der Detektionskette, dem Konfidenzwert der aktuellen Detektion und dem Ort der aktuellen Detektion, wobei das Erhalten, Erzeugen und Veranlassen einer Anzeige für zumindest ein nächstes Videobild in der Reihe als das zumindest eine aktuelle Videobild wiederholt werden.
Verfahren nach Anspruch 1, wobei die aktuelle Detektion mit der vorhergehenden Detektion derart assoziiert wird, dass die aktuelle Detektion und die vorhergehende Detektion zur selben Detektionskette gehören, falls eine Überlappung der Orte der aktuellen und vorhergehenden Detektionen eine vorbestimmte Bedingung erfüllt.
Verfahren nach Anspruch 1 oder 2, wobei die Anzeige der aktuellen Detektion veranlasst wird, falls die aktuelle Detektion zu N+M Detektionen der Detektionskette gehört, wobei N und M positive ganze Zahlen gleich oder größer als 1 sind, und wobei N die N zeitlich ersten Detektionen der Detektionskette angibt, und wobei die Anzeige der aktuellen Detektion nicht veranlasst wird, falls die aktuelle Detektion zu den N zeitlich ersten Detektionen der Detektionskette gehört.
Verfahren nach einem der Ansprüche 1 bis 3, wobei die Anzeige der aktuellen Detektion veranlasst wird, falls der Konfidenzwert der aktuellen Detektion gleich oder größer als ein erster Schwellenwert ist.
Verfahren nach Anspruch 4, wobei die Anzeige der aktuellen Detektion veranlasst wird, falls der Konfidenzwert der aktuellen Detektion gleich oder größer als ein zweiter Schwellenwert ist, der kleiner als der erste Schwellenwert ist, und falls der Konfidenzwert der vorhergehenden Detektion, die zur selben Detektionskette wie die aktuelle Detektion gehört, gleich oder größer als der erste Schwellenwert ist.
Verfahren nach einem der Ansprüche 1 bis 5, ferner mit Durchführen einer Glättung über Orte der Detektionen der Detektionskette.
Verfahren nach einem der Ansprüche 1 bis 6, wobei das Videosignal durch ein Endoskop während eines Untersuchungsprozesses erfasst wird.
Verfahren nach einem der Ansprüche 1 bis 7, wobei das Detektionsziel ein Polyp ist.
Computerlesbares nichtflüchtiges Speichermedium, das ein Programm speichert, das bei Ausführung durch einen Computer den Computer zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 8 veranlasst.
Vorrichtung mit zumindest einem Prozessor und mit zumindest einem Speicher, der Computerprogrammcode enthält, wobei der zumindest eine Speicher und der Computerprogrammcode mit dem zumindest einen Prozessor eingerichtet sind, die Vorrichtung zu veranlassen, zumindest folgendes durchzuführen: Erhalten einer oder mehrerer aktueller Detektionen, die aus einem Maschinenlernmodell für zumindest ein aktuelles Videobild einer Reihe aufeinanderfolgender Videobilder eines Videosignals ausgegeben werden, wobei das zumindest eine aktuelle Videobild in das Maschinenlernmodell eingegeben wird, wobei eine aktuelle Detektion der einen oder mehreren aktuellen Detektionen einen Konfidenzwert, der eine Wahrscheinlichkeit angibt, dass die aktuelle Detektion ein durch das Maschinenlernmodell zu erfassendes Detektionsziel enthält, und einen Ort des Detektionsziels in dem zumindest einen aktuellen Videobild umfasst, Erzeugen einer Detektionskette durch Assoziieren von aus dem Maschinenlernmodell ausgegebenen Detektionen, wobei eine aktuelle Detektion der einen oder mehreren aktuellen Detektionen mit einer vorhergehenden Detektion einer oder mehrerer vorhergehender Detektionen assoziiert wird, die von dem Maschinenlernmodell für zumindest ein vorhergehendes Videobild der Reihe erhalten werden, das dem zumindest einen aktuellen Videobild vorhergeht und in das Maschinenlernmodell eingegeben wurde, wobei eine vorhergehende Detektion der einen oder mehreren vorhergehenden Detektionen einen Konfidenzwert, der eine Wahrscheinlichkeit angibt, dass die vorhergehende Detektion das Detektionsziel enthält, und einen Ort des Detektionsziels in dem zumindest einen vorhergehenden Videobild umfasst, wobei die aktuelle Detektion mit der vorhergehenden Detektion beruhend auf den Orten der aktuellen und vorhergehenden Detektionen assoziiert wird, Veranlassen einer Anzeige der zumindest einen aktuellen Detektion in dem Videosignal beruhend auf einer Position der aktuellen Detektion in der Detektionskette, dem Konfidenzwert der aktuellen Detektion und dem Ort der aktuellen Detektion, und Wiederholen des Erhaltens, Erzeugens und Veranlassens einer Anzeige für zumindest ein nächstes Videobild in der Reihe als das zumindest eine aktuelle Videobild.