DE102019134253A1 - Vorrichtung, Verfahren und computerlesbares Speichermedium zur Erfassung von Objekten in einem Videosignal beruhend auf visuellen Anzeichen unter Verwendung einer Ausgabe eines Maschinenlernmodells - Google Patents

Vorrichtung, Verfahren und computerlesbares Speichermedium zur Erfassung von Objekten in einem Videosignal beruhend auf visuellen Anzeichen unter Verwendung einer Ausgabe eines Maschinenlernmodells Download PDF

Info

Publication number
DE102019134253A1
DE102019134253A1 DE102019134253.8A DE102019134253A DE102019134253A1 DE 102019134253 A1 DE102019134253 A1 DE 102019134253A1 DE 102019134253 A DE102019134253 A DE 102019134253A DE 102019134253 A1 DE102019134253 A1 DE 102019134253A1
Authority
DE
Germany
Prior art keywords
detection
current
detections
previous
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102019134253.8A
Other languages
English (en)
Inventor
Christian EGGERT
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hoya Corp
Original Assignee
Hoya Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hoya Corp filed Critical Hoya Corp
Priority to DE102019134253.8A priority Critical patent/DE102019134253A1/de
Priority to US17/783,864 priority patent/US20230023972A1/en
Priority to JP2022535945A priority patent/JP2023506219A/ja
Priority to PCT/IB2020/061174 priority patent/WO2021116810A1/en
Priority to EP20817506.7A priority patent/EP4073699A1/de
Priority to CN202080096364.8A priority patent/CN115104136A/zh
Publication of DE102019134253A1 publication Critical patent/DE102019134253A1/de
Priority to JP2024019756A priority patent/JP2024050897A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • G06T7/0014Biomedical image inspection using an image reference approach
    • G06T7/0016Biomedical image inspection using an image reference approach involving temporal comparison
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10068Endoscopic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30028Colon; Small intestine
    • G06T2207/30032Colon polyp
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/032Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Radiology & Medical Imaging (AREA)
  • Databases & Information Systems (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Endoscopes (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)

Abstract

Detektionen in Videobildern eines Videosignals, die aus einem Maschinenlernmodell ausgegeben werden (S305), werden zur Erzeugung einer Detektionskette assoziiert (S307). Eine Anzeige einer Detektion in dem Videosignal wird beruhend auf einer Position der Detektion in der Detektionskette, dem Konfidenzwert der Detektion und dem Ort der Detektion veranlasst (S309).

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung bezieht sich auf eine Vorrichtung, ein Verfahren und ein computerlesbares Speichermedium zur Erfassung von Objekten in einem Videosignal beruhend auf visuellen Anzeichen unter Verwendung einer Ausgabe eines Maschinenlernmodells.
  • HINTERGRUND
  • Herkömmliches maschinelles Lernen kann helfen, eine Entscheidungsfunktion zu finden, die Merkmale, die sich auf ein Detektionsziel in einem Bild beziehen, auf Klassenbezeichnungen abbildet. Maschinenlernalgorithmen müssen sich einer Trainingsphase unterziehen, in der die Entscheidungsfunktion modifiziert wird, um Fehler bei Trainingsdaten zu minimieren. Nach Abschluss der Trainingsphase ist die Entscheidungsfunktion fest und wird zum Vorhersagen von zuvor nicht gesehener Daten verwendet.
  • Um dem Maschinenlernalgorithmen geeignete Merkmale (beispielsweise eine Farbverteilung, Gradientenhistogramme, usw.) bereitzustellen, die sich auf das Detektionsziel beziehen, wird tiefes Lernen angewendet, das ein Verfahren darstellt, das automatisch geeignete Merkmale auffinden kann.
  • Tiefes Lernen verwendet üblicherweise tiefe neuronale Faltungsnetzwerke. Verglichen mit herkömmlichen neuronalen Netzwerken sind die ersten Schichten durch Faltungsoperationen ersetzt. Dies ermöglicht es neuronalen Faltungsnetzwerken, Bildfilter zu lernen, die Merkmale extrahieren können. Da die Filterkoeffizienten nunmehr Teil der Entscheidungsfunktion sind, kann der Trainingsprozess auch die Merkmalsextraktion optimieren. Daher kann ein neuronales Faltungsnetzwerk automatisch nützliche Merkmale auffinden.
  • Zwischen Klassifizierung und Objektklassendetektion muss unterschieden werden. Bei einer Klassifizierung ist die Eingabe ein Bild und die Ausgabe eine Klassenbezeichnung. Die Klassifizierung kann daher Fragen beantworten, wie „Enthält dieses Bild ein Detektionsziel, zum Beispiel einen Polypen? (ja/nein)“. Dagegen liefert eine Objektklassendetektion nicht nur Klassenbezeichnungen, sondern auch den Ort der Objekte in der Form von Rahmen. Ein Objektdetektor kann als Klassifizierer betrachtet werden, der bei vielen verschiedenen Bildstellen angewendet wird. Ein bekannter Ansatz für eine Objektdetektion ist der Single-Shot MultiBox Detector (SSD), der offenbart wurde durch W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C-Y. Fu, A. C. Berg: „SSD: Single Shot MultiBox Detector“, European Conference on Computer Vision 2016.
  • KURZZUSAMMENFASSUNG
  • Ein Grundprinzip des SSD ist die Platzierung eines imaginären Gitters sogenannter Ankerkästchen über einem Bild. An jedem Ort gibt es eine Vielzahl von Ankerkästchen mit verschiedenen Maßstäben und Seitenverhältnissen. Zur Erfassung eines Detektionsziels, beispielsweise eines Polypen, lautet die Frage „Enthält dieses Ankerkästchen das Detektionsziel, beispielsweise einen Polypen (ja/nein)?“. Daher ist ein neuronales Netzwerk mit zwei Ausgabeneuronen für jedes Ankerkästchen erforderlich. In Abhängigkeit davon, welches der zwei Ausgabeneuronen stärker aktiviert wird, wird ein Ankerkästchen als positiv oder negativ klassifiziert.
  • Ein Detektor, wie der SSD, liefert ein Gerüst für eine Objektdetektion bei Stehbildern.
  • Eine Aufgabe vorliegender Erfindung besteht in der Bereitstellung eines Objektdetektions- und Anzeigeverfahrens, das zeitlich konsistente Detektionen in einem Videosignal beruhend auf einer Ausgabe aus einem Maschinenlernmodell erzielen kann.
  • Diese Aufgabe wird durch eine Vorrichtung, ein Verfahren und ein computerlesbares Speichermedium wie in den beiliegenden Patentansprüchen definiert gelöst.
  • Gemäß einer Ausgestaltung vorliegender Erfindung ist eine Vorrichtung bereitgestellt, die umfasst:
    • eine Einrichtung zum Erhalten einer oder mehrerer aktueller Detektionen, die aus einem Maschinenlernmodell für zumindest ein aktuelles Videobild einer Reihe aufeinanderfolgender Videobilder eines Videosignals ausgegeben werden, wobei das zumindest eine aktuelle Videobild in das Maschinenlernmodell eingegeben wird, wobei eine aktuelle Detektion der einen oder mehreren aktuellen Detektionen einen Konfidenzwert, der eine Wahrscheinlichkeit angibt, dass die aktuelle Detektion ein durch das Maschinenlernmodell zu erfassendes Detektionsziel enthält, und einen Ort des Detektionsziels in dem zumindest einen aktuellen Videobild umfasst,
    • eine Einrichtung zur Erzeugung einer Detektionskette durch Assoziieren von aus dem Maschinenlernmodell ausgegebenen Detektionen, wobei eine aktuelle Detektion der einen oder mehreren aktuellen Detektionen mit einer vorhergehenden Detektion einer oder mehrerer vorhergehender Detektionen assoziiert ist, die von dem Maschinenlernmodell für zumindest ein vorhergehendes Videobild der Reihe erhalten werden, das dem zumindest einem aktuellen Videobild vorhergeht und in das Maschinenlernmodell eingegeben wurde, wobei eine vorhergehende Detektion der einen oder mehreren vorhergehenden Detektionen einen Konfidenzwert, der eine Wahrscheinlichkeit angibt, dass die vorhergehende Detektion das Detektionsziel enthält, und einen Ort des Detektionsziels in dem zumindest einen vorhergehenden Videobild umfasst, wobei die aktuelle Detektion mit der vorhergehenden Detektion beruhend auf den Orten der aktuellen und vorhergehenden Detektionen assoziiert ist,
    • eine Einrichtung zur Veranlassung einer Anzeige der zumindest einen aktuellen Detektion in dem Videosignal beruhend auf einer Position der aktuellen Detektion in der Detektionskette, dem Konfidenzwert der aktuellen Detektion und dem Ort der aktuellen Detektion und
    • eine Einrichtung zur Wiederholung des Erhaltens, der Erzeugung und Veranlassung der Anzeige für zumindest ein nächstes Videobild in der Reihe als das zumindest eine aktuelle Videobild.
  • Gemäß einem Ausführungsbeispiel vorliegender Erfindung ist die aktuelle Detektion mit der vorhergehenden Detektion derart assoziiert, dass die aktuelle Detektion und die vorhergehende Detektion zur selben Detektionskette gehören, wenn eine Überlappung der Orte der aktuellen und vorhergehenden Detektionen eine vorbestimmte Bedingung erfüllt.
  • Gemäß einem Ausführungsbeispiel vorliegender Erfindung wird die Anzeige der aktuellen Detektion veranlasst, wenn die aktuelle Detektion zu N+M Detektionen der Detektionskette gehört, wobei N und M positive ganze Zahlen größer oder gleich 1 sind, und wobei N die N zeitlich ersten Detektionen der Detektionskette angibt, und wobei die Anzeige der aktuellen Detektion nicht veranlasst wird, wenn die aktuelle Detektion zu den N zeitlich ersten Detektionen der Detektionskette gehört.
  • Gemäß einem Ausführungsbeispiel vorliegender Erfindung wird die Anzeige der aktuellen Detektion veranlasst, wenn der Konfidenzwert der aktuellen Detektion größer oder gleich einem ersten Schwellenwert ist.
  • Gemäß einem Ausführungsbeispiel vorliegender Erfindung wird die Anzeige der aktuellen Detektion veranlasst, wenn der Konfidenzwert der aktuellen Detektion größer oder gleich einem zweiten Schwellenwert ist, der kleiner als der erste Schwellenwert ist, und wenn der Konfidenzwert der vorhergehenden Detektion, die zur selben Detektionskette wie die aktuelle Detektion gehört, größer oder gleich dem ersten Schwellenwert ist.
  • Gemäß einem Ausführungsbeispiel vorliegender Erfindung umfasst die Vorrichtung ferner eine Einrichtung zur Durchführung einer Glättung über Orte der Detektionen der Detektionskette.
  • Gemäß einem Ausführungsbeispiel vorliegender Erfindung wird das Videosignal während eines Untersuchungsprozesses durch ein Endoskop erfasst.
  • Gemäß einem Ausführungsbeispiel vorliegender Erfindung ist das Detektionsziel ein Polyp.
  • Gemäß einem Ausführungsbeispiel vorliegender Erfindung ist ein Objektdetektions- und Anzeigeverfahren bereitgestellt, das zeitlich konsistente Detektionen in einem Videosignal unter Verwendung einer Ausgabe eines Maschinenlernmodells beruhend auf visuellen Anzeichen in Videobildern des Videosignals erzielt.
  • Gemäß einer Beispielimplementierung verarbeitet das Objektdetektions- und Anzeigeverfahren ein Videosignal von Bewegtbildern, wobei eine Ausgabe eines Maschinenlernmodells verwendet wird, und das Objektdetektions- und Anzeigeverfahren Artefakte unterdrücken kann, wie unechte Detektionen, untergegangene Detektionen und instabile Lokalisation, was nachstehend beschrieben wird, während es auch die Last hinsichtlich eines Trainierens des Maschinenlernmodells unterdrückt.
  • Gemäß einem Ausführungsbeispiel vorliegender Erfindung wird ein heuristischer Ansatz zur Durchführung einer Objektdetektion in einem Videosignal von Bewegtbildern durch Verwenden einer Ausgabe eines Maschinenlernmodells angewendet, wodurch die Qualität von Detektionen visuell verbessert wird.
  • Erfindungsgemäß kann ein Arzt, der beispielsweise eine endoskopische Untersuchung wie eine Darmspiegelung durchführt, beim Fokussieren seiner Aufmerksamkeit auf relevante Bildbereiche unterstützt werden, die Gewebe enthalten, das mit dem Auftreten von Polypen konsistent ist.
  • Im Folgenden wird die Erfindung anhand von Ausführungsbeispielen unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben.
  • Figurenliste
    • 1 zeigt eine schematische Darstellung des Kriteriums Schnittmenge über Vereinigungsmenge (IoU), das gemäß einem Ausführungsbeispiel vorliegender Erfindung zum Gruppieren von Detektionen in Detektionsketten verwendet wird.
    • 2 zeigt eine Darstellung, die schematisch eine „ideale“ Lösung des Durchführens einer Objektdetektion in einem Videosignal und einen heuristischen Ansatz eines Durchführens einer Objektdetektion gemäß einem Ausführungsbeispiel vorliegender Erfindung veranschaulicht.
    • 3 zeigt ein Ablaufdiagramm eines Objektdetektions- und Anzeigeprozesses gemäß einem Ausführungsbeispiel vorliegender Erfindung.
    • 4 zeigt ein schematisches Blockschaltbild einer Konfiguration einer Steuereinheit, in der Ausführungsbeispiele der Erfindung implementierbar sind.
    • 5 zeigt eine Darstellung einer PR-Kurve, wenn gemäß einem Ausführungsbeispiel vorliegender Erfindung eine Flimmerunterdrückung bei dem Objektdetektions- und Anzeigeprozess angewendet wird.
    • 6 zeigt eine Darstellung einer Hystereseschwellenwertbildung, die gemäß einem Ausführungsbeispiel vorliegender Erfindung bei dem Objektdetektions- und Anzeigeprozess angewendet wird.
    • 7 zeigt eine Darstellung einer PR-Kurve, wenn gemäß einem Ausführungsbeispiel vorliegender Erfindung die Hystereseschwellenwertbildung bei dem Objektdetektions- und Anzeigeprozess angewendet wird.
  • BESCHREIBUNG DER AUSFÜHRUNGSBEISPIELE
  • Erfindungsgemäß wird eine Ausgabe eines Maschinenlernmodells verwendet. Das Maschinenlernmodell gibt eine oder mehrere Detektionen pro Videobild eines Videosignals aus, das in das Maschinenlernmodell eingegeben wird. Beispielsweise wird das Videosignal durch ein Endoskop während eines Untersuchungsprozesses erfasst.
  • Das Maschinenlernmodell gibt insbesondere einen Konfidenzwert und einen Ort jeder Detektion aus. Der Konfidenzwert gibt eine Wahrscheinlichkeit an, dass die Detektion ein durch das Maschinenlernmodell zu erfassendes Detektionsziel enthält, und der Ort gibt den Bereich des Detektionsziels im Videobild an. Das Detektionsziel ist beispielsweise ein Polyp.
  • Als Maschinenlernmodell wird beispielsweise ein neuronales Netzwerk mit zwei Ausgabeneuronen für jedes Ankerkästchen wie vorstehend angeführt verwendet. In Abhängigkeit davon, welches der zwei Ausgabeneuronen stärker aktiviert wird, wird ein Ankerkästchen als positiv oder negativ klassifiziert. Der Ort des Detektionsziels beruht auf dem Ort des Ankerkästchens. Die Ausgabe aus den zwei Neuronen bildet den Konfidenzwert.
  • Das Maschinenlernmodell wurde unter Verwendung von Trainingsdaten für eine Objektdetektion trainiert, d.h. Trainingsdaten zur Detektion eines Detektionsziels, wie eines Polypen, die Bilder und Objekte mit Anmerkungen beispielsweise in der Form von Rahmen umfassen.
  • Zur objektiven Auswertung von Leistungsverbesserungen bei Datensätzen und Filterverfahren des Maschinenlernmodells werden für die Aufgabe der Objektdetektion Standardmesswerte verwendet. Die relevanten Messwerte, die verwendet werden, sind Precision, Recall und Average Precision (AP). Die Precision ist als der Bruchteil richtig erfasster Elemente verglichen mit der Gesamtanzahl von Detektionen definiert, die durch das Maschinenlernmodell zurückgegeben werden. Der Recall ist als der Bruchteil korrekt erfasster Elemente verglichen mit der Gesamtanzahl von zu erfassenden Elementen definiert. Precision und Recall können daher als Formeln wie folgt definiert werden Precision = TP/ ( TP + FP )            Recall = TP/ ( TP + FN )
    Figure DE102019134253A1_0001
    wobei TP die Anzahl von wahren positiven (richtigen) Detektionen, FP die Anzahl von falschen positiven (falschen) Detektionen und FN die Anzahl von falschen negativen (verpassten) Detektionen darstellt.
  • Zur Klassifizierung der Detektionen als „wahr“ oder „falsch“ muss die Qualität der Lokalisierung gemessen werden. Zur Messung der Lokalisierungsqualität wird das Kriterium Schnittmenge über Vereinigungsmenge (IoU) angewendet: IoU ( A ,B ) = | A B | / | A B |
    Figure DE102019134253A1_0002
  • Nur im Fall einer perfekten Lokalisierung wird die Schnittmenge über Vereinigungsmenge 1. Sowohl Unter- als auch Über-Detektion werden bestraft. Eine Detektion wird als korrekt klassifiziert, wenn das IoU zwischen der Detektion und der Anmerkung >_ 0,5 ist. 1 veranschaulicht Beispiele schlechter Lokalisierung, akzeptabler Mindestlokalisierung und perfekter Lokalisierung.
  • Obwohl Precision und Recall nützliche Werkzeuge zur Bewertung der Leistung eines Algorithmus sind, haben sie einen ernsten Nachteil: der Klassifizierer gibt einen Konfidenzwert aus, der die Wahrscheinlichkeit misst, dass eine Bildregion ein Detektionsziel, wie einen Polypen enthält. Für eine endgültige Entscheidung, ob die Detektion anzuzeigen ist, muss ein Schwellenwert angewendet werden. Allerdings hängen die Werte von Precision und Recall von diesem Schwellenwert ab. Beispielsweise ist es immer möglich, die Precision auf Kosten des Recalls zu erhöhen, indem der Schwellenwert erhöht wird.
  • In den nachstehend beschriebenen 5 und 7 werden daher Precision (P) und Recall (R) über alle möglichen Schwellenwerte bewertet, um eine Precision-Recall-Kurve aufzutragen. Die Fläche unter der Kurve wird Average Precision (AP) genannt und dient als Indikator, wie gut verschiedene Klassifizierer im Allgemeinen arbeiten. Dieser Wert kann dazu verwendet werden, verschiedene Klassifizierer miteinander zu vergleichen.
  • Im Folgenden wird angenommen, dass das Maschinenlernmodell, dessen Ausgabe erfindungsgemäß verwendet wird, zum Erzielen einer guten Leistung trainiert wurde, wenn es Detektionen beruhend auf einem Videobild eines Videosignals produziert. Allerdings könnten Informationen über vergangene Videobilder die Leistung noch weiter verbessern.
  • Die Erzeugung von Detektionen lediglich beruhend auf dem aktuellen Videobild kann zu den folgenden Artefakten führen:
    • - Unechte Detektionen: falsche Positive, die zum Erscheinen für einen einzelnen Bildrahmen eines Videosignals tendieren und im nächsten Bild des Videosignals verschwinden.
    • - Verloren gegangene Detektionen: wenn das Maschinenlernmodell ein Detektionsziel erfasst hat, beispielsweise einen Polypen, ist die Detektion üblicherweise über eine Vielzahl aufeinanderfolgender Rahmen des Videosignals sehr stabil. Manchmal fällt die Konfidenz der Detektion allerdings kurzzeitig unter den Detektionsschwellenwert, was ein Flimmern der Detektion verursacht.
    • - Instabile Lokalisierung: das Maschinenlernmodell schätzt einen Rahmen zum Lokalisieren jeder Detektion. Wenn sich das eingegebene Bild leicht ändert, ändert sich auch die Lokalisierung. Diese Änderung könnte aber für einen Benutzer als nicht gleichmäßig erscheinen.
  • Ein Detektor, der vergangene Videobilder in Betracht ziehen kann, könnte eine gute Chance zur Verringerung dieser Artefakte haben. Das Trainieren eines derartigen Detektors würde aber das Sammeln von Videosequenzen als Datensätze erfordern. Dies wäre eine große Last für die Ärzte, da sie jedes einzelne Bild in dem Videosignal bezeichnen müssten.
  • Zur Vermeidung eines Trainierens des Maschinenlernmodells unter Verwendung von Videosequenzen wird erfindungsgemäß eine heuristische Lösung zur visuellen Verbesserung der Qualität von Detektionen angewendet. Zu diesem Zweck wird eine Filterheuristik eingeführt, die die vorstehend angeführten Artefakte adressiert. 2 zeigt eine Darstellung, die schematisch eine „ideale“ Lösung und die erfindungsgemäße Lösung veranschaulicht.
  • Die „ideale“ Lösung ist links in 2 gezeigt. Beispielsweise nimmt eine Architektur Deep Convolutional Neural Network (DCNN) Long Short-term Memory (LSTM) eine Vielzahl von Videobildern als Eingabe an und gibt Detektionen beruhend auf visuellen Anzeichen über eine Vielzahl von Bildern aus.
  • Die erfindungsgemäße Lösung ist rechts in 2 gezeigt. Die Vorhersage beruht auf einzelnen Bildern, die über eine Heuristik gefiltert werden.
  • Der Unterschied zwischen den beiden Lösungen ist, dass ein echter Mehrfachbild-Detektor dazu fähig wäre, sich auf die visuellen Anzeichen von einer Vielzahl von Videobildern zu verlassen. Die erfindungsgemäße heuristische Lösung verlässt sich auf die visuellen Anzeichen des aktuellen Bildes, um eine Detektion zu produzieren. Wie vorstehend beschrieben umfasst eine Detektion einen Ort und einen Konfidenzwert. Die Heuristik kann daher mit diesen Werten arbeiten.
  • Gemäß einem Ausführungsbeispiel vorliegender Erfindung werden vor Anwendung einer Filterheuristik Detektionen über eine Vielzahl von Videobildern miteinander assoziiert. Gemäß einem Ausführungsbeispiel vorliegender Erfindung wird angenommen, dass Detektionen im Allgemeinen nicht dazu tendieren, sich über aufeinanderfolgende Videobilder schnell zu bewegen, und die Orte der Detektionen werden verwendet, um Detektionen miteinander zu assoziieren. Gemäß einem Implementierungsbeispiel wird das vorstehend beschriebene Kriterium Schnittmenge über Vereinigungsmenge verwendet, um Detektionen miteinander zu assoziieren. Beispielsweise werden Detektionen in aufeinanderfolgenden Videobildern mit einem IoU ≥ 0,3 als Teil derselben Detektionskette betrachtet. Aufeinanderfolgende Detektionen mit einem IoU < 0,3 werden als Teil verschiedener Detektionsketten betrachtet. Nachstehend beschriebene Filterstufen arbeiten jeweils bei diesen Detektionsketten.
  • Vor der Beschreibung der Filterstufen wird auf 3 Bezug genommen, die einen Prozess einer Objektdetektion und Anzeige gemäß einem Ausführungsbeispiel vorliegender Erfindung veranschaulicht.
  • In Schritt S305 in 3 wird (werden) eine oder mehrere aktuelle Detektionen für zumindest ein aktuelles Videobild, das in ein Maschinenlernmodell eingegeben wird, als Ausgabe aus dem Maschinenlernmodell erhalten. Das zumindest eine aktuelle Videobild gehört zu einer Reihe aufeinanderfolgender Videobilder eines Videosignals. Gemäß einer Beispielimplementierung wird das Videosignal von einer endoskopischen Einrichtung beschafft, die das Videosignal erfasst. Das Videosignal umfasst beispielsweise Bewegtbilder.
  • Eine aktuelle Detektion der einen oder mehreren aktuellen Detektionen umfasst einen Konfidenzwert, der eine Wahrscheinlichkeit angibt, dass die aktuelle Detektion ein durch das Maschinenlernmodell zu erfassendes Detektionsziel enthält, und einen Ort des Detektionsziels in dem zumindest einen aktuellen Videobild. In Schritt S305 wird (werden) die eine oder mehreren aktuelle(n) Detektionen für das zumindest eine aktuelle Videobild erhalten.
  • In Schritt S307 wird eine Detektionskette durch Assoziieren von Detektionen erzeugt, die aus dem Maschinenlernmodell ausgegeben werden. Eine aktuelle Detektion der einen oder mehreren aktuellen Detektionen wird mit einer vorhergehenden Detektion einer oder mehrerer vorhergehender Detektionen assoziiert, die von dem Maschinenlernmodell für zumindest ein vorhergehendes Videobild der Reihe erhalten wird (werden), das dem zumindest einen aktuellen Videobild vorhergeht und in das Maschinenlernmodell eingegeben wurde. Eine vorhergehende Detektion der einen oder mehreren vorhergehenden Detektionen umfasst einen Konfidenzwert, der eine Wahrscheinlichkeit angibt, dass die vorhergehende Detektion das Detektionsziel enthält, und einen Ort des Detektionsziels in dem zumindest einen vorhergehenden Videobild. Gemäß einem Ausführungsbeispiel vorliegender Erfindung wird die aktuelle Detektion mit der vorhergehenden Detektion beruhend auf den Orten der aktuellen und vorhergehenden Detektionen assoziiert. Gemäß einem alternativen Ausführungsbeispiel oder zusätzlich wird die aktuelle Detektion mit der vorhergehenden Detektion beruhend auf Geschwindigkeit und/oder Orientierung der Detektionen in den aufeinanderfolgenden Videobildern assoziiert.
  • In Schritt S309 wird eine Anzeige der zumindest einen aktuellen Detektion in dem Videosignal beruhend auf einer Position der aktuellen Detektion in der Detektionskette, dem Konfidenzwert der aktuellen Detektion und dem Ort der aktuellen Detektion veranlasst.
  • In Schritt S311 wird überprüft, ob eine Endebedingung erfüllt ist oder nicht. Ist die Endebedingung erfüllt, endet der Prozess. Ist die Endebedingung nicht erfüllt, kehrt der Prozess zu Schritt S305 zur Verarbeitung zumindest eines nächsten Videobildes in der Reihe als das zumindest eine aktuelle Videobild zurück.
  • Die Endebedingung ist beispielsweise erfüllt, wenn es kein nächstes Videobild in der Reihe gibt.
  • Gemäß einer Beispielimplementierung wird die aktuelle Detektion in Schritt S307 mit der vorhergehenden Detektion derart assoziiert, dass die aktuelle Detektion und die vorhergehende Detektion zur selben Detektionskette gehören, wenn eine Überlappung der Orte der aktuellen und vorhergehenden Detektionen eine vorbestimmte Bedingung erfüllt, beispielsweise IoU ≥ 0,3.
  • Ferner wird gemäß einer Beispielimplementierung in Schritt S309 die Anzeige der aktuellen Detektion veranlasst, wenn der Konfidenzwert der aktuellen Detektion größer oder gleich einem ersten Schwellenwert ist.
  • Nun wird auf 4 Bezug genommen, die eine Steuereinheit 40 veranschaulicht, in der Ausführungsbeispiele der Erfindung implementiert werden können. Die Steuereinheit 40 implementiert beispielsweise den Objektdetektions- und Anzeigeprozess von 3.
  • Die Steuereinheit 40 umfasst Verarbeitungsressourcen (beispielsweise eine Verarbeitungsschaltung) 41, Speicherressourcen (beispielsweise eine Speicherschaltung) 42 und Schnittstellen (beispielsweise eine Schnittstellenschaltung) 43, die über eine Verknüpfung (beispielsweise einen Bus, eine drahtgebundene Leitung, eine Drahtlosverbindung, usw.) 44 verbunden sind.
  • Gemäß einer Beispielimplementierung speichern die Speicherressourcen 42 ein Programm, das bei Ausführung durch die Verarbeitungsressourcen 41 die Steuereinheit 40 zum Arbeiten gemäß zumindest einiger Ausführungsbeispiele vorliegender Erfindung veranlasst.
  • Im Allgemeinen können die Ausführungsbeispiele dieser Erfindung durch Computersoftware, die in den Speicherressourcen 42 gespeichert und durch die Verarbeitungsressourcen 41 ausführbar ist, oder durch Hardware, oder durch eine Kombination aus Software und/oder Firmware und Hardware implementiert sein.
  • Im Folgenden werden Filterstufen beschrieben, die bei Detektionsketten arbeiten, die wie vorstehend beschrieben erhalten werden.
  • Filterstufe 1: Flimmerunterdrückung
  • Die Flimmerunterdrückung ist zum Lösen des Problems unechter Detektionen entworfen. Da unechte Detektionen nur über wenige Bilder erscheinen und dann wieder verschwinden, besteht eine Lösung für dieses Problem in der Unterdrückung der ersten Vorkommen einer Detektion in dem Bild. Beispielsweise wird in S309 nur dann, wenn ein Detektionsziel, beispielsweise ein Polyp, unabhängig in einer Vielzahl aufeinanderfolgender Videobilder am selben Ort erfasst wird, die dem Ort entsprechende Detektion angezeigt.
  • Es gibt zwei verschiedene Wege, eine derartige Flimmerunterdrückung zu implementieren. Ein Weg ist eine Unterdrückung ohne Vorherwissen, die immer die ersten N Vorkommnisse einer Detektion unterdrückt. Ein anderer Weg ist eine Unterdrückung mit Vorherwissen, die die ersten N Vorkommnisse einer Detektion nur unterdrückt, wenn die Detektion in dem N+1-ten Bild verschwindet.
  • Beide Versionen bewirken eine Erhöhung der Precision des Objektdetektions- und Anzeigeverfahrens. Da aber Detektionen bewusst unterdrückt werden, muss der Recall leiden. Diese Verringerung des Recall ist größer, wenn eine Flimmerunterdrückung ohne Vorherwissen angewendet wird, als wenn eine Flimmerunterdrückung mit Vorherwissen angewendet wird. Allerdings gibt es eine Verzögerung von N+1 Bildern, bis Wissen darüber beschafft ist, ob eine Detektion anzuzeigen ist oder nicht. Da eine derartige Latenz üblicherweise nicht akzeptabel ist, wird die Anwendung der Flimmerunterdrückung ohne Vorherwissen bevorzugt. Gemäß einer Beispielimplementierung des Objektdetektions- und Anzeigeprozesses von 3 wird in Schritt S309 die Anzeige der aktuellen Detektion veranlasst, wenn die aktuelle Detektion zu N+M Detektionen der Detektionskette gehört, wobei N und M positive ganze Zahlen größer oder gleich 1 sind, und wobei N die N zeitlich ersten Detektionen der Detektionskette angibt. Die Anzeige der aktuellen Detektion wird ferner nicht veranlasst, wenn die aktuelle Detektion zu den N zeitlich ersten Detektionen der Detektionskette gehört.
  • In 5 werden Precision und Recall über alle möglichen Schwellenwerte zum Auftragen von Precision-Recall-(PR-)Kurven für (1) den ursprünglichen Datensatz (d.h., bei dem Objektdetektions- und Anzeigeprozess von 3 wird keine Flimmerunterdrückung angewendet), (2) den Datensatz bei Anwendung einer Flimmerunterdrückung ohne Vorherwissen (wof) bei dem Objektdetektions- und Anzeigeprozess von 3 und (3) den Datensatz bei Anwendung einer Flimmerunterdrückung mit Vorherwissen (wf) bei dem Objektdetektions- und Anzeigeprozess von 3 ausgewertet.
  • Wie vorstehend beschrieben wird die Fläche unter den Kurven Average Precision (AP) genannt und dient als Indikator, wie gut der Objektdetektions- und Anzeigeprozess von 3 (1) ohne Flimmerunterdrückung, (2) mit Flimmerunterdrückung ohne Vorherwissen und (3) mit Flimmerunterdrückung mit Vorherwissen arbeitet.
  • 5 zeigt den Effekt der Anwendung einer Flimmerunterdrückung mit und ohne Vorherwissen. Der maximale erreichbare Recall ist verringert, während die Precision in dem Hoch-Precision-Abschnitt der Kennlinie der Detektionseinrichtung (beispielsweise des Maschinenlernmodells) verbessert ist. Beide Effekte sind weniger ausgeprägt, wenn eine Flimmerunterdrückung mit Vorherwissen angewendet wird. Die Erhöhung der Precision ist für den Benutzer stark sichtbar, während dies für die Verringerung des Recall nicht der Fall ist, da der Detektor (beispielsweise das Maschinenlernmodell) für die meisten Anwendungsszenarien seinen Arbeitspunkt in dem Hoch-Precision-Bereich der PR-Kurve hat.
  • Obwohl die Anwendung der Flimmerunterdrückung ohne Vorherwissen bedeutet, dass der Recall stärker verringert ist, ist dieser verlorene Recall für den Benutzer kaum merkbar. Wenige verpasste Detektionen nach Sichtbarwerden des Polypen sind viel weniger merkbar als falsche Positive, die überall über dem Bild aufpoppen und sofort verschwinden.
  • Filterstufe 2: Hysterese
  • Manchmal geschieht das Gegenteil flimmernder Detektionen: Detektionen gehen während eines einzelnen Bildes verloren und werden im nächsten Bild schnell wieder erfasst. Dies kann beispielsweise beim Auftreten von Bewegungsunschärfe passieren.
  • Um diesen verpassten Detektionen entgegenzuwirken, wird eine Hystereseschwellenwertbildung wie in 6 veranschaulicht eingeführt.
  • Die Hystereseschwellenwertbildung verwendet zwei Schwellenwerte: einen hoher Schwellenwert genannten ersten Schwellenwert (der in 6 als „hoch“ bezeichnet wird) und einen niedriger Schwellenwert genannten zweiten Schwellenwert (der in 6 als „niedrig“ bezeichnet wird). Anfangs müssen Konfidenzwerte von Detektionen den hohen Schwellenwert überschreiten, um angezeigt zu werden. Das heißt, anfangs wird eine Detektion angezeigt, wenn sie in einer Vielzahl von Bildern (beispielsweise über die Zeit wie in 6 veranschaulicht) mit hoher Konfidenz am gleichen Ort erfasst wird. Wurde eine Detektion über mehrere Bilder an einem gleichen Ort angezeigt, darf die Detektion unter den hohen Schwellenwert fallen und immer noch angezeigt werden. Nur wenn die Detektion einmal unter den niedrigen Schwellenwert fällt, wird sie nicht mehr angezeigt. In 6 ist der Konfidenzwert als „Bewertung“ angegeben.
  • Gemäß einer Beispielimplementierung wird in Schritt S309 in 3 die Anzeige der aktuellen Detektion veranlasst, wenn der Konfidenzwert der aktuellen Detektion gleich oder größer als ein zweiter Schwellenwert ist, der kleiner als der erste Schwellenwert ist, und wenn der Konfidenzwert der vorhergehenden Detektion, die zur selben Detektionskette wie die aktuelle Detektion gehört, gleich oder größer als der erste Schwellenwert ist.
  • 7 zeigt einen typischen Effekt der Anwendung der Hystereseschwellenwertbildung bei dem Objektdetektions- und Anzeigeprozess von 3. Bei einer gegebenen Precision kann der Recall verbessert werden. Eine mögliche Verringerung der Precision ist in der Praxis nicht beobachtbar.
  • Es wird angemerkt, dass die in den 5 und 7 gezeigten PR-Kurven beruhend auf verschiedenen Datensätzen erhalten wurden.
  • Da die Hystereseschwellenwertbildung mehr erfasste Polypen ergibt, kann sie den Recall erhöhen. Potentiell kann sie auch eine Verringerung der Precision ergeben, da sich manche dieser Detektionen als falsch herausstellen könnten. Da neuronale Netzwerke aber im Allgemeinen sehr gut in der Zuordnung hoher Konfidenzwerte, wenn ein Polyp wirklich vorhanden ist, und sehr niedriger Konfidenzwerte sind, wenn ein Polyp nicht vorhanden ist, ist ein derartiges Problem nicht aufgetreten. In einem derartigen Fall wird der Konfidenzwert des Netzwerks im Allgemeinen selbst den niedrigen Schwellenwert nicht überschreiten.
  • Filterstufe 3: Ortsglättung
  • Bei der Filterstufe 3 wird eine Glättungsverarbeitung über die Orte der Detektion durchgeführt.
  • Gemäß einer Beispielimplementierung wird in Schritt S309 in 3, wenn die Anzeige der zumindest einen aktuellen Detektion veranlasst wird, ihr Ort beruhend auf den Orten von Detektionen der Detektionskette geglättet, zu der die aktuelle Detektion gehört, wobei die Detektionen der aktuellen Detektion vorausgehen.
  • Die Glättungsverarbeitung wird beispielsweise durch Durchführung einer gewichteten Mittelung von Koordinaten der Detektionen ausgeführt. Dies erzeugt das Erscheinen, dass die Lokalisierung stabiler als ursprünglich ist. Alternativ dazu kann die Glättungsverarbeitung unter Verwendung komplexerer Filterstrukturen durchgeführt werden, beispielsweise durch Anwenden eines Kalman-Filters bei den Orten der Detektionen in dem Videosignal.
  • Effekte
  • Der gemeinsame Effekt des vorstehend beschriebenen Ansatzes, bei dem die heuristischen Filterstufen 1 bis 3 angewendet werden, wurde bei einem großen Testdatensatz von 6000 Bildern ausgewertet. Im Mittel wurde eine Verringerung bei falschen positiven Detektionen um 62% verglichen mit dem Ansatz ohne heuristische Filterung beobachtet. Gleichermaßen wurde eine 16%ige Erhöhung falscher Negativer beobachtet. Es wird wiederrum angemerkt, dass die Verringerung falscher Positiver stark sichtbar ist, während die Verringerung falscher Negativer kaum sichtbar ist: wenige Bilder, in denen ein Polyp nicht erfasst wird, wenn er in Sicht kommt, werden technisch als falsche Negative gemessen. Für einen menschlichen Benutzer ist dies kaum sichtbar. Allerdings sind falsche Positive, die über dem gesamten Video aufpoppen, für den Benutzer sehr deutlich.
  • An diesem Punkt wird auch angemerkt, dass eine 16%ige Erhöhung falscher Negativer nicht heißt, dass 16% mehr Polypen während einer Darmspiegelung verpasst werden. Es bedeutet, dass eine 16%ige Erhöhung in Videobildern vorliegt, in denen ein Polyp vorhanden ist, aber nicht erfasst wird. Typischerweise gibt es aber viele Videobilder, die denselben Polypen zeigen. Wenn das Netzwerk beim Erfassen von Polypen gut ist, ist es virtuell sicher, dass zumindest ein Videobild vorkommt, in dem ein bestimmter Polyp erfasst wird. In der Praxis wirkt sich die heuristische Filterung nicht auf die Anzahl von Polypen aus, die zumindest einmal erfasst werden.
  • Das vorstehend beschriebene Objektdetektions- und Anzeigeverfahren kann Polypen während Darmspiegelungen in Echtzeit zuverlässig erfassen.
  • Der dreistufige heuristische Filteransatz ermöglicht die Filterung von Detektionen über Bilder eines Videosignals, d.h. über die Zeit. Individuelle Detektionen erscheinen daher stabiler, obwohl das Objektdetektions- und Anzeigeverfahren bei Videobildern arbeitet, beispielsweise einzelnen Videobildern. Diese heuristische Filterung verbessert Ergebnisse visuell und ermöglicht zeitlich konsistente Detektionen, ohne Videodaten (und die entsprechenden Anmerkungen) während eines Trainings zu erfordern.
  • Es ist ersichtlich, dass die vorstehende Beschreibung die Erfindung veranschaulicht und die Erfindung nicht einschränken soll. Verschiedene Abwandlungen und Anwendungen können dem Fachmann auffallen, ohne von der wahren Idee und dem Schutzbereich der Erfindung abzuweichen, wie er durch die beigefügten Patentansprüche definiert ist.

Claims (10)

  1. Verfahren mit Erhalten einer oder mehrerer aktueller Detektionen, die aus einem Maschinenlernmodell für zumindest ein aktuelles Videobild einer Reihe aufeinanderfolgender Videobilder eines Videosignals ausgegeben werden, wobei das zumindest eine aktuelle Videobild in das Maschinenlernmodell eingegeben wird, wobei eine aktuelle Detektion der einen oder mehreren aktuellen Detektionen einen Konfidenzwert, der eine Wahrscheinlichkeit angibt, dass die aktuelle Detektion ein durch das Maschinenlernmodell zu erfassendes Detektionsziel enthält, und einen Ort des Detektionsziels in dem zumindest einen aktuellen Videobild umfasst, Erzeugen einer Detektionskette durch Assoziieren von aus dem Maschinenlernmodell ausgegebenen Detektionen, wobei eine aktuelle Detektion der einen oder mehreren aktuellen Detektionen mit einer vorhergehenden Detektion einer oder mehrerer vorhergehender Detektionen assoziiert wird, die von dem Maschinenlernmodell für zumindest ein vorhergehendes Videobild der Reihe erhalten werden, das dem zumindest einen aktuellen Videobild vorhergeht und in das Maschinenlernmodell eingegeben wurde, wobei eine vorhergehende Detektion der einen oder mehreren vorhergehenden Detektionen einen Konfidenzwert, der eine Wahrscheinlichkeit angibt, dass die vorhergehende Detektion das Detektionsziel enthält, und einen Ort des Detektionsziels in dem zumindest einen vorhergehenden Videobild umfasst, wobei die aktuelle Detektion mit der vorhergehenden Detektion beruhend auf den Orten der aktuellen und vorhergehenden Detektionen assoziiert wird, und Veranlassen einer Anzeige der zumindest einen aktuellen Detektion in dem Videosignal beruhend auf einer Position der aktuellen Detektion in der Detektionskette, dem Konfidenzwert der aktuellen Detektion und dem Ort der aktuellen Detektion, wobei das Erhalten, Erzeugen und Veranlassen einer Anzeige für zumindest ein nächstes Videobild in der Reihe als das zumindest eine aktuelle Videobild wiederholt werden.
  2. Verfahren nach Anspruch 1, wobei die aktuelle Detektion mit der vorhergehenden Detektion derart assoziiert wird, dass die aktuelle Detektion und die vorhergehende Detektion zur selben Detektionskette gehören, falls eine Überlappung der Orte der aktuellen und vorhergehenden Detektionen eine vorbestimmte Bedingung erfüllt.
  3. Verfahren nach Anspruch 1 oder 2, wobei die Anzeige der aktuellen Detektion veranlasst wird, falls die aktuelle Detektion zu N+M Detektionen der Detektionskette gehört, wobei N und M positive ganze Zahlen gleich oder größer als 1 sind, und wobei N die N zeitlich ersten Detektionen der Detektionskette angibt, und wobei die Anzeige der aktuellen Detektion nicht veranlasst wird, falls die aktuelle Detektion zu den N zeitlich ersten Detektionen der Detektionskette gehört.
  4. Verfahren nach einem der Ansprüche 1 bis 3, wobei die Anzeige der aktuellen Detektion veranlasst wird, falls der Konfidenzwert der aktuellen Detektion gleich oder größer als ein erster Schwellenwert ist.
  5. Verfahren nach Anspruch 4, wobei die Anzeige der aktuellen Detektion veranlasst wird, falls der Konfidenzwert der aktuellen Detektion gleich oder größer als ein zweiter Schwellenwert ist, der kleiner als der erste Schwellenwert ist, und falls der Konfidenzwert der vorhergehenden Detektion, die zur selben Detektionskette wie die aktuelle Detektion gehört, gleich oder größer als der erste Schwellenwert ist.
  6. Verfahren nach einem der Ansprüche 1 bis 5, ferner mit Durchführen einer Glättung über Orte der Detektionen der Detektionskette.
  7. Verfahren nach einem der Ansprüche 1 bis 6, wobei das Videosignal durch ein Endoskop während eines Untersuchungsprozesses erfasst wird.
  8. Verfahren nach einem der Ansprüche 1 bis 7, wobei das Detektionsziel ein Polyp ist.
  9. Computerlesbares nichtflüchtiges Speichermedium, das ein Programm speichert, das bei Ausführung durch einen Computer den Computer zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 8 veranlasst.
  10. Vorrichtung mit zumindest einem Prozessor und mit zumindest einem Speicher, der Computerprogrammcode enthält, wobei der zumindest eine Speicher und der Computerprogrammcode mit dem zumindest einen Prozessor eingerichtet sind, die Vorrichtung zu veranlassen, zumindest folgendes durchzuführen: Erhalten einer oder mehrerer aktueller Detektionen, die aus einem Maschinenlernmodell für zumindest ein aktuelles Videobild einer Reihe aufeinanderfolgender Videobilder eines Videosignals ausgegeben werden, wobei das zumindest eine aktuelle Videobild in das Maschinenlernmodell eingegeben wird, wobei eine aktuelle Detektion der einen oder mehreren aktuellen Detektionen einen Konfidenzwert, der eine Wahrscheinlichkeit angibt, dass die aktuelle Detektion ein durch das Maschinenlernmodell zu erfassendes Detektionsziel enthält, und einen Ort des Detektionsziels in dem zumindest einen aktuellen Videobild umfasst, Erzeugen einer Detektionskette durch Assoziieren von aus dem Maschinenlernmodell ausgegebenen Detektionen, wobei eine aktuelle Detektion der einen oder mehreren aktuellen Detektionen mit einer vorhergehenden Detektion einer oder mehrerer vorhergehender Detektionen assoziiert wird, die von dem Maschinenlernmodell für zumindest ein vorhergehendes Videobild der Reihe erhalten werden, das dem zumindest einen aktuellen Videobild vorhergeht und in das Maschinenlernmodell eingegeben wurde, wobei eine vorhergehende Detektion der einen oder mehreren vorhergehenden Detektionen einen Konfidenzwert, der eine Wahrscheinlichkeit angibt, dass die vorhergehende Detektion das Detektionsziel enthält, und einen Ort des Detektionsziels in dem zumindest einen vorhergehenden Videobild umfasst, wobei die aktuelle Detektion mit der vorhergehenden Detektion beruhend auf den Orten der aktuellen und vorhergehenden Detektionen assoziiert wird, Veranlassen einer Anzeige der zumindest einen aktuellen Detektion in dem Videosignal beruhend auf einer Position der aktuellen Detektion in der Detektionskette, dem Konfidenzwert der aktuellen Detektion und dem Ort der aktuellen Detektion, und Wiederholen des Erhaltens, Erzeugens und Veranlassens einer Anzeige für zumindest ein nächstes Videobild in der Reihe als das zumindest eine aktuelle Videobild.
DE102019134253.8A 2019-12-13 2019-12-13 Vorrichtung, Verfahren und computerlesbares Speichermedium zur Erfassung von Objekten in einem Videosignal beruhend auf visuellen Anzeichen unter Verwendung einer Ausgabe eines Maschinenlernmodells Withdrawn DE102019134253A1 (de)

Priority Applications (7)

Application Number Priority Date Filing Date Title
DE102019134253.8A DE102019134253A1 (de) 2019-12-13 2019-12-13 Vorrichtung, Verfahren und computerlesbares Speichermedium zur Erfassung von Objekten in einem Videosignal beruhend auf visuellen Anzeichen unter Verwendung einer Ausgabe eines Maschinenlernmodells
US17/783,864 US20230023972A1 (en) 2019-12-13 2020-11-26 Apparatus, method and computer-readable storage medium for detecting objects in a video signal based on visual evidence using an output of a machine learning model
JP2022535945A JP2023506219A (ja) 2019-12-13 2020-11-26 機械学習モデルの出力を使用して視覚的証拠に基づいて映像信号内の被写体を検出するための装置、方法、およびコンピュータ可読記憶媒体
PCT/IB2020/061174 WO2021116810A1 (en) 2019-12-13 2020-11-26 Apparatus, method and computer-readable storage medium for detecting objects in a video signal based on visual evidence using an output of a machine learning model
EP20817506.7A EP4073699A1 (de) 2019-12-13 2020-11-26 Vorrichtung, verfahren und computerlesbares speichermedium zum erfassen von objekten in einem videosignal basierend auf einem visuellen nachweis unter verwendung der ausgabe eines maschinenlernmodells
CN202080096364.8A CN115104136A (zh) 2019-12-13 2020-11-26 用于基于利用机器学习模型的输出的视觉证据而检测视频信号中的对象的设备、方法和计算机可读存储介质
JP2024019756A JP2024050897A (ja) 2019-12-13 2024-02-13 機械学習モデルの出力を使用して視覚的証拠に基づいて映像信号内の被写体を検出するための装置、方法、およびコンピュータ可読記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102019134253.8A DE102019134253A1 (de) 2019-12-13 2019-12-13 Vorrichtung, Verfahren und computerlesbares Speichermedium zur Erfassung von Objekten in einem Videosignal beruhend auf visuellen Anzeichen unter Verwendung einer Ausgabe eines Maschinenlernmodells

Publications (1)

Publication Number Publication Date
DE102019134253A1 true DE102019134253A1 (de) 2021-06-17

Family

ID=73695094

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019134253.8A Withdrawn DE102019134253A1 (de) 2019-12-13 2019-12-13 Vorrichtung, Verfahren und computerlesbares Speichermedium zur Erfassung von Objekten in einem Videosignal beruhend auf visuellen Anzeichen unter Verwendung einer Ausgabe eines Maschinenlernmodells

Country Status (6)

Country Link
US (1) US20230023972A1 (de)
EP (1) EP4073699A1 (de)
JP (2) JP2023506219A (de)
CN (1) CN115104136A (de)
DE (1) DE102019134253A1 (de)
WO (1) WO2021116810A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024042895A1 (ja) * 2022-08-24 2024-02-29 富士フイルム株式会社 画像処理装置、内視鏡、画像処理方法、及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5029137B2 (ja) * 2007-05-17 2012-09-19 カシオ計算機株式会社 撮像装置及びプログラム
US8351651B2 (en) * 2010-04-26 2013-01-08 Microsoft Corporation Hand-location post-process refinement in a tracking system
JP2015104016A (ja) * 2013-11-26 2015-06-04 キヤノン株式会社 被写体検出装置、撮像装置、被写体検出装置の制御方法、被写体検出装置の制御プログラムおよび記憶媒体

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BOCHINSKI, E.; EISELEIN, V.; SIKORA, T.: High-speed tracking-by-detection without using image information. In: 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). IEEE, 2017. S. 1-6. *
LIU, W.; et al.: SSD: Single shot multibox detector. In: European conference on computer vision. Springer, Cham, 2016. S. 21-37 (von der Anmelderin genannt) *
LU, Y.; LU, C.; TANG, C.: Online video object detection using association LSTM. In: Proceedings of the IEEE International Conference on Computer Vision. 2017. S. 2344-2352. *

Also Published As

Publication number Publication date
WO2021116810A1 (en) 2021-06-17
JP2023506219A (ja) 2023-02-15
US20230023972A1 (en) 2023-01-26
EP4073699A1 (de) 2022-10-19
JP2024050897A (ja) 2024-04-10
CN115104136A (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
DE69604481T2 (de) Verfahren und gerät zum trennen des vordergrunds und hintergrunds in textenthaltenden bildern
DE10037697B4 (de) Adaptive Maskentechnik zur Inspektion von Defekten
DE112014005372B4 (de) Vorrichtung und Programm zur Unterstützung der Diagnose einer Osteoporose
EP3341891A1 (de) Aktives maschinelles lernen zum trainieren eines ereignisklassifikators
DE112015000917T5 (de) Bildverarbeitungsgerät, Bildverarbeitungsverfahren und Bildverarbeitungsprogramm
DE112011105116T5 (de) Verfahren und Vorrichtung zur bildinhaltsbasierten automatischen Helligkeitserkennung
DE112015006378T5 (de) Bildverarbeitungsvorrichtung, Bildverarbeitungsverfahren und Bildverarbeitungsprogramm
DE102010041619B4 (de) Verfahren und Röntgensystem zur Summation von DSA-Serienbildern
DE112015006266T5 (de) Zellanalysegerät und Zellanalyseverfahren
AT515595A2 (de) Verfahren zur optischen Erkennung von Zeichen
DE102019134253A1 (de) Vorrichtung, Verfahren und computerlesbares Speichermedium zur Erfassung von Objekten in einem Videosignal beruhend auf visuellen Anzeichen unter Verwendung einer Ausgabe eines Maschinenlernmodells
DE102012205051B4 (de) Verfahren zur Reduzierung von Direct-Hit-Artefakten und Röntgeneinrichtung
DE112019007857T5 (de) Bewegungsanalysesystem und bewegungsanalyseprogramm
DE10142457B4 (de) Digitale Bildmessung retroreflektierender Marken
DE112018007543T5 (de) Mullerkennungssystem und verfahren zur mullerkennung
DE102006021042A1 (de) Vorrichtung und Verfahren zur computergestützten Analyse sich hinsichtlich ihrer Bildcharakteristik unterscheidender Mammogramme
DE60312301T2 (de) Bildverarbeitungsvorrichtung und -methode zur Erkennung der Umrisse eines bewegten Objektes
DE4434505C2 (de) System und Verfahren zur Bildverarbeitung
DE102019127622B4 (de) Abwehrgenerator, Verfahren zur Verhinderung eines Angriffs auf eine KI-Einheit und computerlesbares-Speichermedium
EP3316216B1 (de) Verfahren zum prüfen eines gegenstands
DE112021002441T5 (de) Bilddiagnoseverfahren, bilddiagnose-unterstützungsvorrichtung und computersystem
DE112019005655T5 (de) Myokardbildanalyseverfahren und -vorrichtung
DE102015003537A1 (de) Blockierungsdetektionsverfahren für eine kamera und eine elektronische vorrichtung mit kameras
DE112015006015T5 (de) Zellanalysevorrichtung und Verfahren
DE102010019735B4 (de) Verfahren zur automatischen Erkennung von Defektpixeln eines Detektors eines bildgebenden Durchleuchtungssystems sowie entsprechendes Durchleuchtungssystem

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06K0009000000

Ipc: G06V0010000000

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee