DE112020002954T5

DE112020002954T5 - Merkmalsgrößen-Extraktionsvorrichtung, Merkmalsgrößen-Extraktionsverfahren, Identifikationsvorrichtung, Identifikationsverfahren und Programm

Info

Publication number: DE112020002954T5
Application number: DE112020002954.9T
Authority: DE
Inventors: Tasuku Sano; Ryuhei Okuyama; Akane MINAGAWA; Yoshihiro Teshima; Akira Hamada
Original assignee: Casio Computer Co Ltd; Shinshu University NUC
Current assignee: Casio Computer Co Ltd; Shinshu University NUC
Priority date: 2019-06-19
Filing date: 2020-03-25
Publication date: 2022-03-31
Also published as: JP7138869B2; US20220245919A1; JP2022174095A; CN114008668A; WO2020255517A1; JP7496561B2; JP2021002320A

Abstract

Eine Identifikationsvorrichtung (100) umfasst: einen Erhalter (11) zum Erhalten eines aufgenommenen Bilds, das durch das Abbilden eines vorbestimmten Ziels erhalten wird; einen Spezifizierer (12) zum Spezifizieren eines linearen Bereichs, der sich in einer Vielzahl von verschiedenen Richtungen erstreckt, aus einem Bereich des durch den Erhalter (11) erhaltenen aufgenommenen Bilds, wobei der Bereich das vorbestimmte Ziel enthält, und einen Extrahierer (13) zum Extrahieren einer Merkmalsgröße, basierend auf dem Pixelwert, aus dem durch den Spezifizierer (12) spezifizierten linearen Bereich.

Description

Technisches Gebiet
Die vorliegende Erfindung betrifft eine Merkmalsgrößen-Extraktionsvorrichtung, ein Merkmalsgrößen-Extraktionsverfahren, eine Identifikationsvorrichtung, ein Identifikationsverfahren und ein Programm.
Stand der Technik
Herkömmlicherweise wird eine Kamera verwendet, um ein Bild eines Diagnoseziels, der ein Teil einer menschlichen Haut wie etwa ein Muttermal ist, aufzunehmen, wobei das aufgenommene Bild für das Unterstützen einer Diagnose des Diagnoseziels verwendet wird. Zum Beispiel wird in einer in NPL 1 beschriebenen Technik für eine derartige Diagnoseunterstützung ein aufgenommenes Gesamtbild, das viele andere Teile der Haut neben dem Diagnoseziel enthält, und ein zugeschnittenes Bild, in dem das Diagnoseziel aus dem aufgenommenen Gesamtbild ausgeschnitten ist, erhalten, werden eine Vielzahl von Merkmalsgrößen wie etwa ein Farbhistogramm aus jeweils dem erhaltenen aufgenommenen Gesamtbild und dem zugeschnittenen Bild extrahiert, wird jede aus der Vielzahl von extrahierten Merkmalsgrößen in ihre entsprechenden Identifikationsvorrichtungen aus einer Vielzahl von Identifizierern eingegeben und wird durch das Mitteln der Vielzahl von erhaltenen Ausgaben der Identifizierer eine Krankheitsrisikobewertung, die angibt, ob das Diagnoseziel krank ist oder nicht, berechnet.
Referenzliste
Nicht-Patentliteratur
Nicht-Patentliteratur 1 (NPL 1): N.C.F. Codella, Q.B. Nguyen, S. Pankanti, D. Gutman, B. Helba, A. Halpern, J.R. Smith „Deep learning ensembles for melanoma recognition in dermoscopy images“ in IBM Journal of Research and Development, vol. 61, no. 4/5, 2017
Zusammenfassung der Erfindung
Technisches Problem
In der in NPL 1 beschriebenen Technik wird eine Verarbeitungslast für die Extraktion übermäßig, weil die Merkmalsgrößen aus jeweils dem aufgenommenen Gesamtbild und dem zugeschnittenen Bild, d.h. aus zweidimensionalen Bildern, extrahiert werden. Um die Verarbeitungslast zu reduzieren, können einige Bereiche eines Diagnoseziels in dem aufgenommenen Bild spezifiziert werden und kann eine Merkmalsgröße aus den spezifizierten Bereichen extrahiert werden, wobei jedoch eine derartige Verarbeitung zur Folge haben kann, dass eine Merkmalsgröße für das Diagnoseziel nicht korrekt extrahiert werden kann, sodass unter Umständen eine Krankheit nicht korrekt unter Verwendung der Krankheitsrisikobewertung identifiziert werden kann. Das vorstehend geschilderte Problem betrifft nicht nur eine Extraktion einer Merkmalsgröße eines Diagnoseziels an einer menschlichen Haut, sondern auch eine Extraktion einer Merkmalsgröße eines beliebigen Ziels, das eine Vielzahl von Bereichen mit jeweils verschiedenen Farben und/oder Helligkeiten enthält, wie etwa eine Merkmalsgrößenextraktion eines Diagnoseziels an einem menschlichen Gebärmutterhals.
Die vorliegende Erfindung bezweckt, das oben geschilderte Problem zu beheben, wobei es eine Aufgabe der vorliegenden Erfindung ist, eine Merkmalsgrößen-Extraktionsvorrichtung, ein Merkmalsgrößen-Extraktionsverfahren, eine Identifikationsvorrichtung, ein Identifikationsverfahren und ein Programm vorzusehen, die eine Merkmalsgröße korrekt extrahieren und die Extraktionslast vermindern können.
Problemlösung
Um die oben genannte Aufgabe zu lösen, umfasst eine Merkmalsgrößen-Extraktionsvorrichtung der vorliegenden Erfindung:

eine Erhaltungseinrichtung zum Erhalten eines aufgenommenen Bilds, das durch das Abbilden eines vorbestimmten Ziels erzeugt wird,
eine Spezifizierungseinrichtung zum Spezifizieren eines linearen Bereichs, der sich in einer Vielzahl von jeweils verschiedenen Richtungen erstreckt, aus einem Bereich des durch die Erhaltungseinrichtung erhaltenen aufgenommenen Bilds, wobei der Bereich das vorbestimmte Ziel enthält, und
eine Extraktionseinrichtung zum Extrahieren einer Merkmalsgröße basierend auf einem Pixelwert aus dem durch die Spezifizierungseinrichtung spezifizierten linearen Bereich.

Vorteilhafte Effekte der Erfindung
Gemäß der vorliegenden Erfindung kann eine Merkmalsgröße korrekt extrahiert werden und die Extraktionslast reduziert werden.
Figurenliste

1 ist eine schematische Ansicht, die eine funktionelle Konfiguration einer Identifikationsvorrichtung gemäß einer Ausführungsform 1 zeigt.
2 ist eine schematische Ansicht, die einen durch einen Spezifizierer spezifizierten Bereich gemäß der Ausführungsform 1 zeigt.
3 ist eine schematische Ansicht, die ein Beispiel für das Erhalten eines Pixelwerts entlang einer gekrümmten Linie zeigt.
4 ist eine schematische Ansicht, die ein Beispiel für erhaltene eindimensionale Daten zeigt.
5 ist ein Flussdiagramm eines Lernprozesses gemäß der Ausführungsform 1.
6 ist ein Flussdiagramm eines Identifikationsprozesses gemäß der Ausführungsform 1.
7 ist eine schematische Ansicht, die eine Übersicht über die Konfiguration eines eindimensionalen CNN gemäß einer Ausführungsform 2 zeigt.
8 ist ein Flussdiagramm eines Lernprozesses gemäß der Ausführungsform 2.
9 ist ein Flussdiagramm eines Identifikationsprozesses gemäß der Ausführungsform 2.
10 ist eine schematische Ansicht, die eine funktionelle Konfiguration einer Identifikationsvorrichtung gemäß einer Ausführungsform 3 zeigt.
11 ist ein Flussdiagramm eines Optimaler-Parameter-Auswahlprozesses gemäß der Ausführungsform 3.
12 ist ein Flussdiagramm eines Aktivitätsbewertungsprozesses gemäß der Ausführungsform 3.

Beschreibung von Ausführungsformen
Im Folgenden wird eine Identifikationsvorrichtung und ähnliches gemäß den Ausführungsformen der vorliegenden Erfindung mit Bezug auf die Zeichnungen beschrieben. Dabei werden durchgehend gleiche Bezugszeichen verwendet, um gleiche oder äquivalente Komponenten anzugeben.
Ausführungsform 1
Eine Identifikationsvorrichtung 100 gemäß einer Ausführungsform 1 der vorliegenden Erfindung ist eine Vorrichtung zum Identifizieren eines vorbestimmten Ziels basierend auf einem aufgenommenen Bild, das durch das Abbilden des vorbestimmten Ziels erhalten wird. Zum Beispiel bestimmt die Identifikationsvorrichtung 100, ob ein Diagnoseziel in einem Bild gutartig oder bösartig ist, basierend auf einem aufgenommenen Bild einer menschlichen Haut, die ein Diagnoseziel (zum Beispiel einen Tumor, ein Muttermal, einen Hautfleck, ein Blutgefäß, ein atopisches Ekzem, ein Amzeimittelexanthem, einen erkrankten Hautteil wie etwa eine durch eine Collagen-Erkrankung verursachte Eruption, einen Bereich einer vermuteten Hauterkrankung) als das vorbestimmte Ziel aufweist. Die Identifikation durch die Identifikationsvorrichtung 100 wird durchgeführt, um einen Arzt beim Erstellen einer Diagnose zu unterstützen. Bei einer auf einem Bild basierenden Identifikation verwendet die Identifikationsvorrichtung 100 zweidimensionale Bilddaten nicht wie sie sind, sondern erhält eindimensionale Daten aus den Bilddaten und identifiziert ein vorbestimmtes Ziel in dem Bild unter Verwendung der erhaltenen eindimensionalen Daten.
Insbesondere erhält die Identifikationsvorrichtung 100 eindimensionale Daten aus Bilddaten (Trainingsbilddaten) in einem zuvor vorbereiteten Satz von Bilddaten für ein Training, trainiert (maschinelles Lernen) eine SVM (Support Vector Maschine) unter Verwendung einer aus den eindimensionalen Daten extrahierten Merkmalsgröße und führt eine Bildidentifikation unter Verwendung der trainierten SVM durch. Weil die Identifikationsvorrichtung 100 eine Merkmalsgröße für das Trainieren des SVM extrahiert, ist die Identifikationsvorrichtung 100 auch eine Merkmalsgrößen-Extraktionsvorrichtung.
Ein korrektes Etikett, wie es für eine Bildidentifikation üblich ist, wird den Trainingsbilddaten zugewiesen. Die Identifikationsvorrichtung 100 gemäß der Ausführungsform 1 führt eine Identifikation dazu, ob ein Muttermal gutartig oder bösartig ist, basierend auf einem Bild, in dem das Muttermal als das oben beschriebene Diagnoseziel aufgenommen ist, durch. Deshalb sind die Trainingsbilddaten Bilddaten, die ein Muttermal enthalten, das bereits als gutartig oder bösartig bekannt ist, wobei den Trainingsbilddaten jeweils ein korrektes Etikett zugewiesen ist, das angibt, ob das Muttermal in dem Bild gutartig oder bösartig ist.
Die Identifikationsvorrichtung 100 wird als eine Vorrichtung zum Identifizieren, ob ein Muttermal gutartig oder bösartig ist, beschrieben, wobei jedoch das Identifikationsziel für die Identifikationsvorrichtung 100 nicht auf eine Hauterkrankung wie etwa ein Muttermal beschränkt ist. Zum Beispiel können ein Gebärmutterhals, ein Mundraumkrebs (Zungenkrebs, Zahnfleischkrebs, Mundbodenkrebs) oder ähnliches, eine Krankheitsbezeichnung und ähnliches des Ziels basierend auf dem Bild des Ziels, das das Diagnoseziel ist, identifiziert werden. In diesem Fall sind die Trainingsbilddaten Bilddaten, die von einem Diagnoseziel, dessen Krankheitsbezeichnung bereits bekannt ist, aufgenommen wurden, wobei den Trainingsbilddaten jeweils ein korrektes Etikett zugewiesen ist, das die Krankheitsbezeichnung des Diagnoseziels in dem Bild angibt.
Weiterhin ist das Identifikationsziel nicht auf ein Diagnoseziel eines menschlichen Körpers beschränkt. Ein Bild eines anderen geeigneten Objekts wie etwa Beton kann verwendet werden, um zum Beispiel einen Verschlechterungszustand von Beton zu identifizieren. In diesem Fall sind die Trainingsbilddaten Bilddaten eines Betons, dessen Verschlechterungszustand bereits bekannt ist, wobei den Trainingsbilddaten jeweils ein korrektes Etikett mit Informationen zu dem Vorhandensein oder der Abwesenheit einer Verschlechterung des in dem Bild aufgenommenen Betons zugewiesen sind. Entsprechend ist das Identifikationsziel in den folgenden Ausführungsformen und Variationen nicht auf einen Diagnosezielbereich eines menschlichen Körpers beschränkt.
In einer funktionellen Konfiguration enthält die Identifikationsvorrichtung 100 gemäß der Ausführungsform 1 eine Steuereinrichtung 10, einen Speicher 20, eine Bildeingabeeinrichtung 31, eine Ausgabeeinrichtung 32, eine Kommunikationseinrichtung 33 und eine Operationseingabeeinrichtung 34 wie in 1 gezeigt.
Die Steuereinrichtung 10 ist mit einer zentralen Verarbeitungseinheit (CPU) und ähnlichem konfiguriert und realisiert die Funktionen der nachfolgend beschriebenen einzelnen Abschnitte (eines Erhalters 11, eines Spezifizierers 12, eines Extrahierers 13, eines Setzers 14, eines Identifizierers 15) durch die Ausführung eines in dem Speicher 20 gespeicherten Programms.
Der Speicher 20 ist mit einem Nur-Lese-Speicher (ROM), einem Direktzugriffspeicher (RAM) und/oder ähnlichem konfiguriert und speichert ein durch die CPU ausgeführtes Programm für die Steuereinrichtung 10 und andere erforderliche Daten. Der Speicher 20 speichert auch Bilddaten (Trainingsbilddaten) für das Trainieren des Identifizierers 15. Die Identifikationsvorrichtung 100 kann jedoch auch alle oder einen Teil der Trainingsbilddaten von der Kommunikationseinrichtung 33 erhalten.
Die Bildeingabeeinrichtung 31 ist eine Einrichtung zum Eingeben von Trainingsbilddaten und Bilddaten eines (unbekannten) Identifikationsziels, die von einem Benutzer vorgesehen werden. Die Bildeingabeeinrichtung 31 ist zum Beispiel eine Kamera und gibt aufgenommene Bilddaten zu der Steuereinrichtung 10 ein. Ein durch die Identifikationseirichtung 100 beim Identifizieren eines vorbestimmten Ziels verwendetes Bild ist ein Bild, das eine Vielzahl von Bereichen mit jeweils verschiedenen Farben und/oder Helligkeiten enthält. Deshalb gibt die Bildeingabeeinrichtung 31 ein Bild mit einer Vielzahl von Bereichen mit jeweils verschiedenen Farben und Helligkeiten zu der Steuereinrichtung 10 ein. Die Vielzahl von Bereichen mit jeweils verschiedenen Farben und Helligkeiten umfassen zum Beispiel einen Randbereich und andere Bereiche eines Bilds.
Die Bildeingabeeinrichtung 31 ist nicht auf eine Kamera beschränkt und kann eine beliebige Einrichtung sein, solange die Steuereinrichtung 10 damit Bilddaten erhalten kann. Wenn zum Beispiel die Bilddaten in dem Speicher 20 gespeichert werden und die Steuereinrichtung 10 die Bilddaten durch das Lesen aus dem Speicher 20 erhält, dient der Speicher 20 als die Bildeingabeeinrichtung 31. Wenn die Steuereinrichtung 10 Bilddaten von einem externen Server oder ähnlichem über die Kommunikationseinrichtung 33 erhält, dient die Kommunikationseinrichtung 33 als die Bildeingabeeinrichtung 31.
Die Ausgabeeinrichtung 32 ist eine Einrichtung, über die die Steuereinrichtung 10 ein Bildidentifikationsergebnis und ähnliches ausgeben kann. Zum Beispiel ist die Ausgabeeinrichtung 32 ein Flüssigkristalldisplay oder ein organisches EL (Elektrolumineszenz)-Display. Die Identifikationsvorrichtung 100 kann ein derartiges Display als die Ausgabeeinrichtung 32 enthalten oder kann eine Ausgabeeinrichtung 32 als eine Schnittstelle für die Verbindung mit einem externen Display enthalten. Wenn die Identifikationsvorrichtung 100 eine Ausgabeeinrichtung 32 als eine Schnittstelle enthält, werden ein Bildidentifikationsergebnis und ähnliches an einem externen Display, das über die Ausgabeeinrichtung 32 verbunden ist, angezeigt.
Die Kommunikationseinrichtung 33 ist eine Einrichtung (eine Netzwerkschnittstelle oder ähnliches) für das Senden und Empfangen von Daten zu und von einer anderen externen Einrichtung (einem Server oder ähnlichem, der zum Beispiel eine Datenbank für Bilddaten speichert). Die Steuereinrichtung 10 kann Bilddaten über die Kommunikationseinrichtung 33 erhalten.
Die Operationseingabeeinrichtung 34 ist eine Einrichtung zum Annehmen einer Benutzeroperationseingabe für die Identifikationsvorrichtung 100 wie etwa eine Tastatur, eine Maus und ein Berührungspanel. Die Identifikationsvorrichtung 100 nimmt einen Befehl und ähnliches von einem Benutzer über die Operationseingabeeinrichtung 34 an.
Im Folgenden werden Funktionen der Steuereinrichtung 10 beschrieben. Die Steuereinrichtung 10 realisiert Funktionen des Erhalters 11, des Spezifizierers 12, des Extrahierers 13, des Setzers 14 und des Identifizierers 15.
Der Erhalter 11 erhält ein durch die Bildeingabeeinrichtung 31 aufgenommenes Bild. Wie weiter oben beschrieben, ist das durch die Identifikationsvorrichtung 100 beim Identifizieren des vorbestimmten Ziels verwendete Bild das Bild, das die Vielzahl von Bereichen mit jeweils verschiedenen Farben und/oder Helligkeiten enthält, wobei der Erhalter 11 das aufgenommene Bild des vorbestimmten Ziels (einen Hautbereich, der ein Diagnoseziel ist, wie etwa ein Muttermal) einschließlich von derartigen Bereichen erhält. Der Erhalter 11 muss also das aufgenommene Bild nicht in Echtzeit erhalten, sondern kann ein zuvor erhaltenes und in dem Speicher 20 gespeichertes aufgenommenes Bild erhalten oder ein zuvor aufgenommenes und über die Kommunikationseinrichtung 33 in einem anderen Server oder ähnlichem gespeichertes aufgenommenes Bild empfangen und erhalten. Der Erhalter 11 funktioniert als eine Erhaltungseinrichtung für das Erhalten des aufgenommenen Bilds.
Der Spezifizierer 12 spezifiziert einen linearen Bereich, der sich in einer Vielzahl von verschiedenen Richtungen von einem zu identifizierenden Bereich des durch den Erhalter 11 erhaltenen aufgenommenen Bilds erstreckt. Der zu identifizierende Bereich enthält ein vorbestimmtes Ziel (Diagnoseziel oder ähnliches der Haut). Die sich in einer Vielzahl von verschiedenen Richtungen erstreckende Linie umfasst eine Vielzahl von Linien, die sich in verschiedenen Richtungen erstrecken (zum Beispiel eine Vielzahl von Linien, die sich radial von einer Nachbarschaft der Mitte des vorbestimmten Ziels erstrecken), oder eine Linie, deren lokale Bereiche in einer Vielzahl von verschiedenen Richtungen ausgerichtet sind (als ein Kreis, ein Oval, eine Spiralkurve oder ähnliches). Unter einem „lokalen Bereich oder einer Linie“ ist hier ein Teil der Linie (ein kleines Liniensegment) an verschiedenen Positionen zu verstehen. Zum Beispiel spezifiziert der Spezifizierer 12 einen linearen Bereich, in dem eine Spiralkurve 43 durch einen zu identifizierenden Bereich 42 einschließlich eines Zielbereichs 41, der ein Diagnoseziel der Haut (ein vermutlich erkrankter Teil) ist, wie in 2 gezeigt hindurchgeht. Der Zielbereich 41 umfasst eine Vielzahl von Bereichen 41a und 41b mit jeweils verschiedenen Farben und/oder Helligkeiten. Der Spezifizierer 12 funktioniert als eine Spezifizierungseinrichtung zum Spezifizieren eines derartigen linearen Bereichs.
Der Extrahierer 13 extrahiert eine Merkmalsgröße basierend auf einem Pixelwert aus dem durch den Spezifizierer 12 spezifizierten linearen Bereich. Insbesondere erhält der Extrahierer 13 zuerst eindimensionale Daten, die durch das Erhalten von Pixelwerten (RGB-Werten) entlang der (eindimensionalen) Spiralkurve 43, die sich durch den durch den Spezifizierer 12 spezifizierten Bereich erstreckt, konfiguriert werden, von einem Ende zu dem anderen Ende der Spiralkurve 43 wie in 3 gezeigt. Dabei werden die Pixelwerte durch eine R (Rot)-Komponente, eine G (Grün)-Komponente und eine B (Blau)-Komponente in dem RGB-Farbraum ausgedrückt und sind die erhaltenen eindimensionalen Daten eindimensionale Daten von drei Kanälen (Rot, Grün und Blau) wie in 4 gezeigt. In 4 wird die horizontale Achse als „Distanz“ bezeichnet und ist unter der „Distanz“ in 4 „die Distanz von einem Ende der Spiralkurve und entlang der Spiralkurve“ zu verstehen. An diese eindimensionalen Daten können zusätzliche Informationen wie etwa Zeitinformationen, die die Zeit der Aufnahme des Bilds angeben, Patienten-ID-Informationen, die angeben, zu welchem Patienten das aufgenommene Bild gehört, und Arzt-ID-Informationen, die einen Arzt des Patienten angeben, angehängt werden.
Der Extrahierer 13 berechnet vorbestimmte statistische Werte für die eindimensionalen Daten der erhaltenen R-Komponente, G-Komponente und B-Komponente wie etwa ein Mittel, eine Varianz, einen maximalen Wert, einen minimalen Wert, einen Median, einen Gradienten einer Regressionslinie (einer geraden sich eindimensionalen Daten mit einer linearen Funktion nähernden Linie, die durch die Methode der kleinsten Quadrate erhalten werden kann), ein Beitragsverhältnis der Regressionslinie (ein Maß dazu, wie gut die beobachteten eindimensionalen Daten von RGB-Komponenten durch die Regressionslinie repliziert werden, was auch als Bestimmungskoeffizient bezeichnet wird) und ähnliches. Der Extrahierer 13 behandelt auch die Differenzen zwischen RGB-Komponenten (R-Komponente - G-Komponente, R-Komponente - B-Komponente, G-Komponente - B-Komponente) und die Verhältnisse (R-Komponente / G-Komponente, R-Komponente / B-Komponente, G-Komponente / B-Komponente) zwischen denselben als die entsprechenden eindimensionalen Daten und berechnet die weiter oben genannten vorbestimmten statistischen Werte (ein Mittel, eine Varianz und ähnliches).
Der Extrahierer 13 berechnet zum Beispiel eine Summe der folgenden 16 Werte als die Merkmalsgröße: die Varianz der eindimensionalen Daten jeweils der R-Komponente und der G-Komponente, den Gradienten und das Beitragsverhältnis der Regressionslinie der eindimensionalen Daten jeder der RGB-Komponenten, die Varianz von absoluten Werten der Differenzen der eindimensionalen Daten jeder der RGB-Komponenten, die die Differenzen von RGB-Komponenten sind (R-Komponente - G-Komponente, R-Komponente - B-Komponente, G-Komponente - B-Komponente), die Gradienten und die Beitragsverhältnisse der Regressionslinien von R-Komponente / G-Komponente und R-Komponente / B-Komponente innerhalb der Verhältnisse von eindimensionalen Daten jeder der RGB-Komponenten (Verhältnisse von RGB-Komponenten (R-Komponente / G-Komponente, R-Komponente / B-Komponente, G-Komponente / B-Komponente)), die Differenz zwischen dem maximalen Wert und dem minimalen Wert in jeweils den eindimensionalen Daten von RGB-Komponenten (die Differenzen zwischen den maximalen Werten in den RGB-Komponenten und den minimalen Werten in den RGB-Komponenten). Mit anderen Worten wird in diesem Beispiel die Merkmalsgröße durch einen 16-dimensionalen Vektor ausgedrückt. Der Extrahierer 13 funktioniert als eine Extraktionseinrichtung für das Extrahieren der Merkmalsgröße.
Wie oben beschrieben, erhält der Extrahierer 13 jeden Pixelwert als einen Wert jeweils der R-Komponente, der G-Komponente und der B-Komponente in dem RGB-Farbraum, wobei jedoch der Farbraum für das Wiedergeben der Pixelwerte nicht auf den RGB-Farbraum beschränkt ist. Zum Beispiel kann auch ein YUV-Farbraum, ein Lab-Farbraum oder ähnliches verwendet werden. Weil alle diese Farbräume einen Pixelwert in drei Komponenten ausdrücken, können die R-Komponente, die Y-Komponente und die L-Komponente als eine erste Komponente in jedem Farbraum wiedergegeben werden, können die G-Komponente, die U-Komponente und die a-Komponente als eine zweite Komponente in jedem Farbraum wiedergegeben werden und können die B-Komponente, die V-Komponente und die b-Komponente als eine dritte Komponente in jedem Farbraum wiedergegeben werden.
Dann kann der Extrahierer 13 Pixelwerte in dem durch den Spezifizierer 12 spezifizierten linearen Bereich als eindimensionale Daten jeweils der ersten Komponente, der zweiten Komponente und der dritten Komponente in dem oben beschriebenen beliebigen Farbraum erhalten und kann als eine Merkmalsgröße wenigstens einen der insgesamt 16 Werte erhalten, nämlich die Varianz von eindimensionalen Daten der ersten und zweiten Komponenten, die Gradienten und die Beitragsverhältnisse der Regressionslinien der eindimensionalen Daten der ersten, zweiten und dritten Komponenten, die Varianz von absoluten Werten von Differenzen zwischen den eindimensionalen Daten, Gradienten und Beitragsverhältnissen der Regressionslinien der ersten Komponente / der zweiten Komponente und der ersten Komponente / der dritten Komponente innerhalb der Verhältnisse der eindimensionalen Daten und die Differenzen der maximalen Werte und der minimalen Werte der eindimensionalen Daten.
Der Setzer 14 setzt willkürlich Parameter, die eine Spiralkurve definieren, die sich durch einen durch den Spezifizierer 12 spezifizierten Bereich erstreckt. Die Parameter sind zum Beispiel der Typ der Spiralkurve (eine archimedische Spirale, eine Strahlspirale oder ähnliches; eine archimedische Spirale in 2), die Anzahl von Windungen der Spiralkurve (drei Windungen in 2) die Richtung (im Uhrzeigersinn von innen nach außen in 2), der Startwinkel (90-Grad-Vertikalrichtung in Bezug auf ein Dreieck des zu identifizierenden Bereichs 42 in 2) und/oder ähnliches. Der Setzer 14 funktioniert als eine Setzeinrichtung für das willkürliche Setzen von Parametern, die die Spiralkurve des spiralkurvenförmigen Bereichs definieren.
Der Identifizierer 15 identifiziert das vorbestimmte Ziel (wie etwa ein Diagnoseziel auf der Haut) unter Verwendung der durch den Extrahierer 13 extrahierten Merkmalsgröße. Insbesondere ist der Identifizierer 15 eine SVM, die ein maschinelles Lernen unter Verwendung der durch den Extrahierer 13 extrahierten Merkmalsgröße aus den Trainingsbilddaten durchgeführt hat. Dabei enthält der Identifizierer 15 eine SVM für das Identifizieren, ob ein Muttermal gutartig oder bösartig ist, weil die Identifikationsvorrichtung 100 eine Einrichtung zum Identifizieren, ob ein Muttermal gutartig oder bösartig ist, ist. Der Identifizierer 15 identifiziert, ob das Muttermal gutartig oder bösartig ist, basierend auf dem Ausgabewert, der durch das Eingeben der Merkmalsgröße als Eingabedaten zu der SVM erhalten wird. Wenn also mit anderen Worten der Ausgabewert der SVM eine Gutartigkeit angibt, ist das Identifikationsergebnis des Identifizierers 15 „gutartig“, und wenn der Ausgabewert der SVM eine Bösartigkeit angibt, ist das Identifikationsergebnis des Identifizierers 15 „bösartig“.
In dieser Ausführungsform wird die Identifikationsvorrichtung 100 als eine Einrichtung für das Identifizieren, ob ein Muttermal gutartig oder bösartig ist, beschrieben, wobei jedoch der Inhalt einer Identifikation durch die Identifikationsvorrichtung 100 nicht auf die Gutartigkeit/Bösartigkeit eines Muttermals beschränkt ist und das Identifikationsziel nicht auf ein Muttermal beschränkt ist. Die Identifikationsvorrichtung 100 kann eine Krankheitsbezeichnung (pigmentierter Nävus (Muttermal), Melanom, seborrheische Keratosis und ähnliches) einer Hauterkrankung identifizieren. In diesem Fall enthält der Identifizierer 15 eine Anzahl von SVMs für eine Ein-zu-mehrere-Identifikation gleich der Anzahl von zu identifizierenden Klassen. Wenn zum Beispiel die Identifikationsvorrichtung 100 drei Krankheiten, nämlich pigmentierter Nävus, Melanom und seborrheische Keratosis, identifiziert, enthält der Identifizierer 15 drei SVMs, nämlich eine SVM für das Identifizieren eines pigmentierten Nävus (Muttermal), eine SVM für das Identifizieren eines Melanoms und eine SVM für das Identifizieren einer seborrheischen Keratosis. Die Merkmalsgröße wird in die drei SVMs eingegeben, und eine Krankheitsbezeichnung in Entsprechung zu der SVM, die das wahrscheinlichste Ergebnis ausgibt, wird das Identifikationsergebnis des Identifizierers 15.
Wenn allgemein zum Beispiel n Klassen A, B, C... als das Identifikationsziel für die Identifikationsvorrichtung 100 vorhanden sind, enthält der Identifizierer 15 n SVMs, nämlich eine SVM für das Identifizieren von „A oder anders als A“, eine SVM für das Identifizieren von „B oder anders als B“, eine SVM für das Identifizieren von „C oder anders als C“ usw. Die Merkmalsgröße wird zu den n SVMs eingegeben, und eine Klasse (A, B, C...) in Entsprechung zu der SVM, die das wahrscheinlichste Ergebnis ausgibt, wird das Identifikationsergebnis des Identifizierers 15. Der Identifizierer 15 funktioniert als eine Identifikationseinrichtung für das Identifizieren des vorbestimmten Ziels (wie etwa eines Diagnoseziels auf der Haut).
Vorstehend wurde die funktionelle Konfiguration der Identifikationsvorrichtung 100 beschrieben. Im Folgenden wird ein Lernprozess der Identifikationsvorrichtung 100 mit Bezug auf 5 beschrieben. Der Lernprozess startet, wenn ein Benutzer die Identifikationsvorrichtung 100 über die Operationseingabeeinrichtung 34 anweist, den Lernprozess zu starten.
Der Erhalter 11 erhält Trainingsbilddaten von dem Speicher 20 (Schritt S101). Der Schritt S101 wird auch als ein Erhaltungsschritt bezeichnet. Dann extrahiert der Spezifizierer 12 den Zielbereich 41, der das vorbestimmte Ziel (einen Hautbereich, der das Diagnoseziel wie etwa ein Muttermal ist) enthält, aus den durch den Erhalter 11 erhaltenen Trainingsbilddaten (Schritt S102).
Die Extraktion des Zielbereichs 41 in dem Schritt S102 kann automatisch unter Verwendung eines DNN (Deep Neural Network) oder von ähnlichem als einem mit einem Läsionsbereich (in diesem Fall einem Muttermal) trainierten FCN (Fully Convolutional Network) durchgeführt werden, kann halbautomatisch unter Verwendung einer Technik wie etwa einer interaktiven Kurvenschneidemethode durchgeführt werden oder kann manuell durch einen Benutzer, der den Zielbereich 41 unter Verwendung der Operationseingabeeinrichtung 34 spezifiziert, durchgeführt werden, usw.
Dann berechnet der Spezifizierer 12 den zu identifizierenden Bereich 42 als ein Rechteck, das den extrahierten Zielbereich 41 umgibt (Schritt S103). Zum Beispiel berechnet der Spezifizierer 12 den zu identifizierenden Bereich 42 als ein Rechteck mit einem Hauptdurchmesser des maximalen Durchmessers von zwei Punkten innerhalb des extrahierten Zielbereichs 41 und mit einem Nebendurchmesser, der derart definiert ist, dass der Zielbereich 41 in einer Richtung orthogonal zu dem Hauptdurchmesser wie in 2 gezeigt eingeschrieben ist.
Dann setzt der Setzer 14 willkürliche Werte als die Parameter, die die Spiralkurve, die sich durch den durch den Spezifizierer 12 berechneten zu identifizierenden Bereich 42 erstreckt, definieren (den Typ der Spiralkurve, die Anzahl von Windungen der Spiralkurve, die Richtung und den Startwinkel) (Schritt S104). Zum Beispiel wird der Typ der Spiralkurve willkürlich als eine archimedische Spirale, eine Strahlspirale usw. gesetzt. Die Anzahl von Windungen der Spiralkurve wird willkürlich auf zum Beispiel von ungefähr zwei bis sechs Windungen gesetzt. Es kann eine beliebige Anzahl von Windungen gesetzt werden, wobei die Anzahl auch größer als die oben genannten sechs sein kann. Die Anzahl von Windungen muss keine Ganzzahl sein, sodass also auch 3,5, 3,25 Windungen oder ähnliches gesetzt werden können. Die Richtung der Spiralkurve wird willkürlich als im Uhrzeigersinn oder gegen den Uhrzeigersinn gesetzt. Der Startwinkel der Spiralkurve kann ein beliebiger Winkel sein, wobei jedoch zum Beispiel Kandidatenwinkel wie etwa 0, 90, 180, 270 Grad ausgewählt werden können und einer der Kandidaten willkürlich gesetzt werden kann.
Dann definiert der Spezifizierer 12 eine Spiralkurve unter Verwendung der durch den Setzer 14 gesetzten Spiralkurvenparameter derart, dass wie in 2 gezeigt die Mitte der Spiralkurve im Wesentlichen mit der Mitte des zu identifizierenden Bereichs 42 zusammenfällt und die Spiralkurve in den zu identifizierenden Bereich 42 eingeschrieben wird (Schritt S105). Der Schritt S105 wird auch als ein Spezifizierungsschritt bezeichnet, weil er den linearen Bereich, der sich in der Vielzahl von verschiedenen Richtungen von dem zu identifizierenden Bereich 42 erstreckt, spezifiziert. Die Mitte der Spiralkurve kann perfekt mit der Mitte des zu identifizierenden Bereichs 42 zusammenfallen oder nicht. Wenn die Mitte der Spiralkurve von der Mitte des zu identifizierenden Bereichs 42 verschoben wird, können die Distanz und die Richtung der zu verschiebenden Mitte der Spiralkurve willkürlich gesetzt werden. Weiterhin können die Distanz und die Richtung für das Verschieben der Mitte der Spiralkurve von der Mitte des zu identifizierenden Bereichs 42 ein Teil der in Schritt S104 gesetzten „Parameter, die die Spiralkurve definieren“ sein. Wenn die Distanz und die Richtung für die Verschiebung Teil der „Parameter, die die Spiralkurve definieren“ sind, wird das Training mit einer größeren Varietät von Spiralkurven durchgeführt, wodurch unter Umständen die Genauigkeit des Identifizierers 15 verbessert werden kann.
Dann erhält der Extrahierer 13 Pixelwerte entlang der durch den Spezifizierer 12 definierten Spiralkurve wie in 3 gezeigt und erhält eindimensionale Daten jeder der RGB-Komponenten wie in 4 gezeigt (Schritt S106). Die Pixelwerte können erhalten werden, indem ein neuer Pixelwert zu den eindimensionalen Daten immer dann hinzugefügt wird, wenn ein Pixel entlang der Spiralkurve wechselt, oder können erhalten werden, indem ein Pixelwert der Position zu den eindimensionalen Daten immer dann hinzugefügt wird, wenn eine vorbestimmte Distanz entlang der Spiralkurve zurückgelegt wurde. Der Farbraum kann wie weiter oben genannt auch ein anderer Farbraum als der RGB-Farbraum sein (ein YUV-Farbraum, ein Lab-Farbraum oder ähnliches). Wenn ein anderer Farbraum als der RGB-Farbraum verwendet wird, wandelt der Extrahierer 13 die Farbräume beim Erhalten der eindimensionalen Daten. Wenn zum Beispiel der RGB-Farbraum zu dem YUV-Farbraum gewandelt wird, erhält der Extrahierer 13 eindimensionale Daten jeweils einer Y-Komponente, einer U-Komponente und einer V-Komponente.
Der Extrahierer 13 kann die Größe der in dem Schritt S106 erhaltenen eindimensionalen Daten (Anzahl der zu erhaltenden Pixelwerte) fixieren. Wenn die Größe fixiert ist, interpoliert der Extrahierer 13 die eindimensionalen Daten linear und stellt die Größe auf eine vorbestimmte Größe ein.
Dann extrahiert der Extrahierer 13 die Merkmalsgröße (zum Beispiel den weiter oben beschriebenen 16-dimensionalen Vektor) durch das Berechnen eines Mittels und einer Varianz usw. für die erhaltenen eindimensionalen Daten und durch das Berechnen eines Mittels und einer Varianz usw. für die Differenzen und Verhältnisse der Komponenten und speichert die Merkmalsgröße in dem Speicher 20 mit dem zu den Trainingsbilddaten zugewiesenen korrekten Etikett (Schritt S107). Der Schritt S107 wird auch als ein Extraktionsschritt bezeichnet.
Dann bestimmt die Steuereinrichtung 10, ob der Prozess von dem Schritt S104 bis zu dem Schritt S107 für eine vorbestimmte Anzahl von Wiederholungen (zum Beispiel 10 mal) wiederholt wurde oder nicht (Schritt S108). Wenn der Prozess nicht wiederholt wurde (Schritt S108: Nein), kehrt der Prozess zu dem Schritt S104 zurück. Durch das Wiederholen des Prozesses mit einer vorbestimmten Anzahl von Wiederholungen, wird die willkürlich in Schritt S104 gesetzte Varietät der Parameter der Spiralkurve erhöht, wodurch die Robustheit des Trainings der SVM des Identifizierers 15 vergrößert werden kann, weil eine Merkmalsgröße basierend auf eindimensionalen Daten entlang von verschiedenen Formen von Spiralkurven extrahiert werden kann. Die Robustheit des Trainings der SVM des Identifizierers 15 kann auch erhöht werden, indem die Anzahl der Trainingsbilddaten erhöht wird. Wenn also eine sehr große Anzahl (zum Beispiel 10.000 oder mehr) von Teilen von Trainingsbilddaten vorbereitet werden kann, ist die vorbestimmte Anzahl von Wiederholungen in dem Schritt S108 unter Umständen nicht erforderlich (kann der Prozess des Schritts S108 übersprungen werden und kann der Schritt S109 unmittelbar ausgeführt werden).
Wenn der Prozess für die vorbestimmte Anzahl von Wiederholungen wiederholt wurde (Schritt S108: Ja), bestimmt die Steuereinrichtung 10, ob der Prozess von dem Schritt S103 zu dem Schritt S108 für alle die Zielbereiche in den Trainingsbilddaten durchgeführt wurde (Schritt S109). Die Zielsetzung besteht darin, eine Merkmalsgröße für ein Training für alle Zielbereiche zu extrahieren, wenn eine Vielzahl von Zielbereichen in einem Teil von Trainingsbilddaten vorhanden sind. Wenn der Prozess von dem Schritt S103 bis zu dem Schritt S108 nicht für alle Zielbereiche durchgeführt wurde (Schritt S109: Nein), kehrt der Prozess zu dem Schritt S103 zurück.
Wenn der Prozess von dem Schritt S103 bis zu dem Schritt S108 für alle Zielbereiche durchgeführt wurde (Schritt S109. Ja), bestimmt die Steuereinrichtung 10, ob die Merkmalsgrößen für alle Trainingsbilddaten extrahiert wurden (Schritt S110). Wenn die Merkmalsgrößen noch nicht für alle Trainingsbilddaten extrahiert wurden (Schritt S110: Nein), kehrt der Prozess zu dem Schritt S101 zurück.
Wenn die Merkmalsgrößen für alle Trainingsbilddaten extrahiert wurden (Schritt S110: Ja), wird die SVM des Identifizierers 15 mit den Merkmalsgrößen trainiert, werden in Schritt S107 (Schritt S111) die korrekten Etiketten in dem Speicher 20 gespeichert und wird der Lernprozess beendet. Das Flussdiagramm von 5 ist lediglich ein Beispiel, wobei die Reihenfolge des Prozesses und der Inhalt des Prozesses modifiziert werden können, um die Trainingseffizienz und die Identifikationsperformanz zu erhöhen.
Vorstehend wurde der Lernprozess beschrieben. Im Folgenden wird ein Identifikationsprozess für das Identifizieren eines Bilds unter Verwendung des in dem oben beschriebenen Lernprozess trainierten Identifizierers 15 (SVM) mit Bezug auf 6 beschrieben. Der Identifikationsprozess startet, wenn ein Benutzer die Identifikationsvorrichtung 100 über die Operationseingabeeinrichtung 34 anweist, den Identifikationsprozess zu starten.
Der Erhalter 11 erhält ein zu identifizierendes Bild von der Bildeingabeeinrichtung 31 oder von ähnlichem (Schritt S201). Der Schritt S201 wird auch als ein Erhaltungsschritt bezeichnet. Zum Beispiel erhält der Erhalter 11 das zu identifizierende Bild, wenn ein Benutzer ein Bild, das er identifizieren möchte, unter Verwendung der Bildeingabeeinrichtung 31 aufnimmt.
Dann extrahiert der Spezifizierer 12 den Zielbereich 41, der das vorbestimmte Ziel (einen Hautbereich, der ein Diagnoseziel wie etwa ein Muttermal ist) enthält, aus dem durch den Erhalter 11 erhaltenen zu identifizierenden Bild (Schritt S202). Die Extraktion des Zielbereichs 41 in dem Schritt S202 kann automatisch, halbautomatisch oder manuell ähnlich wie der Schritt S102 ausgeführt werden.
Dann berechnet der Spezifizierer 12 den zu identifizierenden Bereich 42 als ein Rechteck um den extrahierten Zielbereich 41 herum (Schritt S203). Zum Beispiel berechnet der Spezifizierer 12 den zu identifizierenden Bereich 42 als ein Rechteck mit einem Hauptdurchmesser des maximalen Durchmessers von zwei beliebigen Punkten innerhalb des Zielbereichs 41 und mit einem Nebendurchmesser, der derart definiert ist, dass der extrahierte Zielbereich 41 darin eingeschrieben ist, in einer Richtung orthogonal zu dem Hauptdurchmesser wie in 2 gezeigt.
Dann setzt der Spezifizierer 12 typische Werte (zum Beispiel den Typ einer Spiralkurve: eine archimedische Spirale; die Anzahl von Windungen der Spiralkurve: 3; die Richtung: im Uhrzeigersinn; und den Startwinkel: vertikale 90-Grad-Richtung wie in 2 gezeigt) für Parameter, die die Spiralkurve, die sich durch den berechneten zu identifizierenden Bereich 42 erstreckt definieren (den Typ der Spiralkurve, die Anzahl von Windungen der Spiralkurve, die Richtung und den Startwinkel), und definiert unter Verwendung der gesetzten Parameter die Spiralkurve derart, dass ihre Mitte mit der Mitte des zu identifizierenden Bereichs 42 zusammenfällt und die Spiralkurve in dem zu identifizierenden Bereich 42 eingeschrieben ist (Schritt S204). Der Schritt S204 wird auch als ein Spezifizierungsschritt bezeichnet, weil er einen linearen Bereich, der sich in einer Vielzahl von verschiedenen Richtungen von dem zu identifizierenden Bereich 42 erstreckt, spezifiziert. In dem Schritt S204 kann der Spezifizierer 12 anstatt von typischen Werten als Parameter für das Definieren der Spiralkurve auch willkürliche Werte setzen.
Dann erhält der Extrahierer 13 Pixelwerte entlang der durch den Spezifizierer 12 definierten Spiralkurve wie in 3 gezeigt und erhält eindimensionale Daten jeder der RGB-Komponenten wie in 4 gezeigt (Schritt S205). Der Schritt S205 wird auch als Eindimensionale-Daten-Erhaltungsschritt bezeichnet. In dem Schritt S205 funktioniert der Extrahierer 13 als Eindimensionale-Daten-Erhaltungseinrichtung. Die Einheit der Pixelwerterhaltung und der zu verwendende Farbraum sind gleich den in dem Lernprozess verwendeten (5, Schritt S106). Wenn die Größe der eindimensionalen Daten in dem Lernprozess fixiert wurde, interpoliert der Extrahierer 13 die eindimensionalen Daten linear und stellt die Größe auf die in dem Lernprozess verwendete ein.
Dann extrahiert der Extrahierer 13 die Merkmalsgröße (zum Beispiel den oben beschriebenen 16-dimensionalen Vektor) durch das Berechnen des Mittels und der Varianz usw. für die erhaltenen eindimensionalen Daten und durch das Berechnen des Mittels und der Varianz usw. für die Differenzen und Verhältnisse der Komponenten (Schritt S206).
Dann identifiziert der Identifizierer 15 das vorbestimmte Ziel (ein Muttermal) in dem in Schritt S202 extrahierten Zielbereich durch das Eingeben der in dem Schritt S206 extrahierten Merkmalsgrößen zu der in dem Lernprozess von 5 trainierten SVM (Schritt S207). Der Schritt S207 wird auch als ein Identifikationsschritt bezeichnet. Dann gibt die Steuereinrichtung 10 das durch den Identifizierer 15 identifizierte Ergebnis und mit anderen Worten, ob das Muttermal ein gutartiges oder bösartiges Muttermal ist, zu der Ausgabeeinrichtung 32 aus (Schritt S208) und wird der Identifikationsprozess beendet.
Vorstehend wurde der Identifikationsprozess beschrieben. Weil die Identifikationsvorrichtung 100 wie weiter oben beschrieben eindimensionale Daten beim Extrahieren der Merkmalsgröße aus dem Bild verwendet, kann die Verarbeitungslast im Vergleich zu einem Fall, in dem direkt zweidimensionale Bilddaten gehandhabt werden, reduziert werden. Mit anderen Worten kann die Identifikationsvorrichtung 100 eine schnelle Bildidentifikation selbständig durchführen, ohne dafür externe Computerressourcen zu verwenden. Deshalb kann die Identifikationsvorrichtung 100 verwendet werden, wenn keine Cloud-basierte Verarbeitung (Computerressourcen wie etwa ein Server im Internet) verfügbar ist, wenn eine große Anzahl von Bildern identifiziert werden muss (zum Beispiel bei einem Bildscreening und ähnlichem), wenn die Identifikation in Echtzeit durchgeführt werden muss, usw.
Weiterhin kann die Gesamtanzahl von vorbereiteten Teilen von Bilddaten für ein Training mehr Trainingsdaten (eindimensionale Daten) aus einem Bild durch das Ändern von Parametern einer beim Erhalten der eindimensionalen Daten verwendeten Linie (einer Spiralkurve) als bei einem direkten Training mit einem zweidimensionalen Bild erhalten.
In der oben beschriebenen Ausführungsform 1 wird in Schritt S111 in dem Lernprozess (5) und in dem Schritt S207 in dem Identifikationsprozess (6) eine lineare Identifikation durch die SVM durchgeführt, wobei jedoch auch eine nicht-lineare Identifikation unter Verwendung einer SVM, die für eine nicht-lineare Identifikation unter Verwendung einer Kernel-Methode oder von ähnlichem ausgebildet ist, durchgeführt werden kann. Die Identifikation kann auch durchgeführt werden, indem ein Schwellwert für jede Dimension der Merkmalsgröße gesetzt wird, die Merkmalsgröße in einem binären Vektor ausgedrückt wird, der angibt, ob eine Komponente in jeder Dimension gleich, über oder unter dem Schwellwert liegt, und eine nicht-lineare Bewertung des Berechnungsergebnisses durch diesen binären Vektor durchgeführt wird.
Ausführungsform 2
Die Identifizierungsvorrichtung 100 gemäß der Ausführungsform 1 führt eine Identifikation mit einer SVM unter Verwendung der vordefinierten Merkmalsgröße durch. Indem jedoch ein DNN wie etwa ein CNN (Convolutional Neural Network) auf die oben beschriebenen eindimensionalen Daten angewendet wird, kann eine Identifikation ohne die vorbestimmte Merkmalsgröße durchgeführt werden (Berechnungsmethode jeder Komponente eines Merkmalsgrößenvektors usw.). Im Folgenden wird eine in der oben beschriebenen Weise betriebene Identifikationsvorrichtung 101 gemäß einer Ausführungsform 2 beschrieben.
Die Identifikationsvorrichtung 101 gemäß der Ausführungsform 2 weist die gleiche funktionelle Konfiguration auf wie die Identifikationsvorrichtung 100 gemäß der Ausführungsform 1 von 1, wobei jedoch der Identifizierer 15 ein CNN anstelle einer SVM ist und der Extrahierer 13 das CNN maschinell trainiert, indem er das Gewicht und ähnliches in dem CNN des Identifizierers 15 aktualisiert. Auf diese Weise kann der Extrahierer 13 einen Ausgabewert des CNN oder eine Merkmalsmap in dem CNN als die Merkmalsgröße extrahieren.
Im Folgenden wird das in der Identifikationsvorrichtung 101 gemäß der Ausführungsform 2 verwendete CNN beschrieben. Ein CNN ist ein neuronales Netz, das die Funktion von Nervenzellen in der menschlichen Sehrinde emuliert und gewöhnlich eine Bildidentifikation und ähnliches durch eine direkte Handhabung von zweidimensionalen Bilddaten durchführt. Das CNN gemäß der Ausführungsform 2 ist jedoch ein eindimensionales Convolutional Neural Network, das wie in 7 gezeigt eindimensionale Daten in RGB (drei Kanäle) als Eingabedaten annimmt und eine N-Klasse-Identifikation durch das Verarbeiten der eindimensionalen Daten so wie sie sind durchführt.
Wie in 7 gezeigt, führt die CNN gemäß der Ausführungsform 2 eine eindimensionale Faltungsverarbeitung (Filter-Scannen) und Pooling-Verarbeitung (Fenster-Scannen) auf einer Eingabeschicht 111, die eindimensionale RGB-Daten annimmt, durch, um Merkmalsmaps 112, 113, 114, 115, 116 und 117 mit sich allmählich verkleinernden Größen zu erhalten, und erhält schließlich einen N-dimensionalen Ausgabevektor von einer Ausgabeschicht 118. In einem in 7 gezeigten Beispiel werden, indem die eindimensionalen Daten mit Filtern für eine Faltungsverarbeitung 121, 123, 124 und 125 und mit Filtern für eine horizontale Pooling-Verarbeitung 122 und 126 mit einem Schritt von zwei gescannt werden, Merkmalsmaps mit sich allmählich verkleinernden Größen berechnet und wird eine Endausgabe erhalten. Unter einem Scannen mit einem Schritt von zwei ist ein Scannen, das jeweils ein Pixel oder eine Komponente der Merkmalsmap überspringt, zu verstehen.
Gewichtsfaktoren sind jeder Komponente der Filter 121, 123, 124 und 125 zugewiesen, wobei durch das Scannen in einer horizontalen Richtung auf den eingegebenen eindimensionale Daten oder auf einer Merkmalsmap mit der gleichen Anzahl von Kanälen ein inneres Produkt des Skalarwerts an jedem Beobachtungspunkt in den eingegebenen eindimensionalen Daten oder der Merkmalsmap ausgegeben wird, sodass also eine neue Merkmalsmap erhalten werden kann. Durch das Anwenden einer Vielzahl von Filtern (n Filter) wird eine gleiche Anzahl von Merkmalsmaps (n Kanäle) erhalten. Die horizontale Größe der Merkmalsmap wird bei jedem Durchführen des Scannens mit einem Schritt von zwei halbiert. Wenn dann der Prozess zu späteren Schritten fortschreitet, wird eine globalere Merkmalsextraktion durchgeführt (expandiert die Filtergröße relativ zu der Größe der Merkmalsmap).
In dem in 7 gezeigten Beispiel sind die letzte Schicht der Zwischenschicht des CNN (Merkmalsmap 117) und die Ausgabeschicht 118 durch eine volle Verbindung 127 mit zugewiesenen Gewichtsfaktoren verbunden und wird eine gewichtete Addition ähnlich wie bei einem standardmäßigen neuronalen Netz durchgeführt. Die letzte Schicht der Zwischenschichten des CNN wird auch als eine vollständig verbundene Schicht bezeichnet, weil sie mit der Ausgabeschicht 118 über eine vollständige Verbindung 127 verbunden ist. Weil in diesem Beispiel eine Identifikation von N Klassen durchgeführt wird, enthält die Ausgabeschicht 118 N Elemente (oder Einheiten) und geben die Größen der Werte der Elemente die Größen von Wahrscheinlichkeiten der geschätzten Identifikation wieder.
In dem CNN können zu jeder Verbindung in der vollständigen Verbindung 127 zugewiesene Gewichtsfaktoren und Gewichtsfaktoren der oben beschriebenen Filter 121, 123, 124, 125 unter Verwendung von zuvor vorbereiteten Trainingsdaten erhalten werden. Insbesondere werden die Trainingsdaten als ein Eingabebild zu der Eingabeschicht 111 eingegeben und werden die Daten in einer Vorwärtsrichtung weitergereicht, wobei dann ein Ausgabeergebnis von der Ausgabeschicht 118 erhalten wird. Dann berechnet der Extrahierer 13 eine Differenz (einen Fehler) zwischen dem Ausgabeergebnis und einer korrekten Antwort (einem korrekten Etikett, das den eingegebenen Trainingsdaten zugewiesen ist) und aktualisiert die Gewichtsfaktoren, um den Fehler unter Verwendung einer Fehlerrückführungsmethode zu reduzieren. Durch das wiederholte Durchführen dieser Operation und das gleichzeitige Reduzieren der Lernrate (Größe der Aktualisierung der Gewichtsfaktoren in der Fehlerrückführungsmethode) konvergieren die Werte der Gewichtsfaktoren.
Nach dem Training jedes CNN-Gewichtsfaktors mit den Trainingsdaten kann durch das Vorwärtsführen von unbekannten Bilddaten als Eingabebilddaten die Ausgabeschicht 118 ein Ergebnis ausgeben, das eine Schätzung der Identifikation basierend auf dem Eingabebild ist. Das Ausgabeergebnis ist das Identifikationsergebnis des Identifizierers 15.
Eine Übersicht über das eindimensionale CNN in dem Identifizierer 15 der Identifikationsvorrichtung 101 wurde weiter oben gegeben. Das in 7 gezeigte CNN ist lediglich ein Beispiel für ein eindimensionales CNN. Die Identifikationsvorrichtung 101 kann ein beliebiges eindimensionales CNN verwenden, solange es ein CNN (eindimensionales CNN) ist, dessen Eingangsschicht eindimensionale Daten annimmt und die eindimensionalen Daten so wie sie sind verarbeitet.
Im Folgenden wird ein durch die Identifikationsvorrichtung 101 durchgeführter Lernprozess mit Bezug auf 8 beschrieben. Der Lernprozess beginnt, wenn ein Benutzer die Identifikationsvorrichtung 101 über die Operationseingabeeinrichtung 34 anweist, den Lernprozess zu starten.
Zuerst initialisiert der Extrahierer 13 alle Gewichtsparameter in dem CNN des Identifizierers 15 (Schritt S301). Weil die folgenden Schritte von S302 bis S307 gleich den Schritten von S101 bis S106 des Lernprozesses (5) der Ausführungsform 1 sind, wird hier auf eine wiederholte Beschreibung verzichtet.
Dann stellt der Extrahierer 13 die Größe der in dem Schritt S307 erhaltenen eindimensionalen Daten der Pixelwerte (RGB, YUV, Lab oder ähnliches in Abhängigkeit von dem zu verwendenden Farbraum) durch ein erneutes Abtasten unter Verwendung einer linearen Interpolation passend zu der Größe der Eingabeschicht des CNN des Identifizierers 15 (224 in dem Beispiel von 7) ein (Schritt S308).
Dann gibt der Extrahierer 13 die erneut abgetasteten eindimensionalen Daten zu dem CNN des Identifizierers 15 ein (Schritt S309) und erhält eine Ausgabe von dem CNN. Dann berechnet der Extrahierer 13 einen Fehler zwischen der Ausgabe aus dem CNN und dem den Trainingsbilddaten zugewiesenen korrekten Etikett (Schritt S310) und speichert den Befehl in dem Speicher 20.
Die Steuereinrichtung 10 bestimmt, ob der Prozess von dem Schritt S304 zu dem Schritt S310 für alle Zielbereiche in den Trainingsbilddaten durchgeführt wurde (Schritt S311). Zielsetzung ist es, das CNN für alle Zielbereiche einzugeben und zu trainieren, wenn eine Vielzahl von Zielbereichen in einem Teil der Trainingsbilddaten vorhanden ist. Wenn der Prozess von dem Schritt S304 zu dem Schritt S310 nicht für alle Zielbereiche durchgeführt wurde (Schritt S311: Nein), kehrt der Prozess zu dem Schritt S304 zurück.
Wenn der Prozess von dem Schritt S304 bis zu dem Schritt S310 für alle Zielbereiche durchgeführt wurde (Schritt S311: Ja), bestimmt die Steuereinrichtung 10, ob der Prozess von dem Schritt S302 bis zu dem Schritt S311 mit einer der vorbestimmten Anzahl von Trainingsbilddaten entsprechenden Anzahl von Wiederholungen durchgeführt wurde (auch als Stapelgröße bezeichnet; zum Beispiel: 50) (Schritt S312). Wenn der Prozess nicht mit einer der vorbestimmten Anzahl von Trainingsbilddaten entsprechenden Anzahl von Wiederholungen wiederholt wurde (Schritt 312: Nein), kehrt der Prozess zu Schritt S302 zurück. Der für die Anzahl der Stapelgröße wiederholte Prozess wird als Mini-Stapel bezeichnet.
Wenn der Prozess mit einer der vorbestimmten Anzahl von Teilen von Trainingsbilddaten entsprechenden Anzahl von Wiederholungen durchgeführt wurde (Schritt S312: Ja), aktualisiert der Extrahierer 13 die Gewichtsparameter in dem CNN in dem Identifizierer 15 basierend auf dem Durchschnitt der in dem Schritt 310 bis zu dieser Zeit in dem Speicher 20 gespeicherten Fehler (Schritt S313). Der Schritt S313 wird auch als ein Extraktionsschritt bezeichnet, weil der Schritt S313 als ein Schritt für das Extrahieren der Merkmalsgröße in den Trainingsbilddaten in das CNN betrachtet werden kann. Dann bestimmt die Steuereinrichtung 1, ob der Prozess von dem Schritt S302 bis zu dem Schritt S313 mit einer vorbestimmten Anzahl von Wiederholungen wiederholt wurde (zum Beispiel für eine durch das Dividieren der Anzahl von Teilen von Trainingsbilddaten durch die Stapelgröße und das Multiplizieren mit einer vorbestimmten Zahl (auch als Epochennummer bezeichnet; zum Beispiel: 100) erhaltene Anzahl) durchgeführt wurde oder nicht (Schritt S314).
Wenn der Prozess von dem Schritt S302 bis zu dem Schritt S313 nicht für die vorbestimmte Anzahl von Wiederholungen durchgeführt wurde (Schritt S314: Nein), kehrt der Prozess zu dem Schritt S302 zurück. Wenn der Prozess für die vorbestimmte Anzahl von Wiederholungen wiederholt wurde (Schritt S314: Ja), wird der Lernprozess beendet. In dem Lernprozess (8) gemäß der Ausführungsform 2 sind in Vergleich zu dem Lernprozess (5) gemäß der Ausführungsform 1 der Bestimmungsinhalt beim Wiederholen des Prozesses und die Position der Wiederholung etwas verschieden. Der Grund hierfür ist, dass, wenn beim Trainieren eines CNN die gleichen Trainingsbilddaten wiederholt in dem gleichen Mini-Batch verwendet werden, das CNN übertrainiert werden kann. Jedoch ist das Flussdiagramm von 8 lediglich beispielhaft, wobei die Reihenfolge des Prozesses und der Inhalt des Prozesses modifiziert werden können, um die Trainingseffizienz und die Identifikationsperformanz zu verbessern. Zum Beispiel kann in dem Lernprozess (8) gemäß der Ausführungsform 2 der Prozess von dem Schritt S305 bis zu dem Schritt S310) für eine vorbestimmte Anzahl von Wiederholungen ähnlich wie der Schritt S108 des Lernprozesses in 5 gemäß der Ausführungsform 1 wiederholt werden. Der Grund hierfür ist, dass in dem Schritt S305, weil jedesmal willkürliche Spiralkurvenparameter verwendet werden, auch dann, wenn die gleichen Trainingsdaten wiederholt verwendet werden, ein Übertraining vermieden werden kann und die Wiederholung zu einer Verbesserung der Identifikationsprozedur beitragen kann.
Vorstehend wurde der Lernprozess beschrieben. Im Folgenden wird ein Identifikationsprozess für das Identifizieren eines Bilds unter Verwendung des in dem oben beschriebenen Lernprozess trainierten Identifizierers 15 (CNN) mit Bezug auf 9 beschrieben. Der Identifikationsprozess startet, wenn ein Benutzer die Identifikationsvorrichtung 101 über die Operationseingabeeinrichtung 34 anweist, den Identifikationsprozess zu starten.
Weil die folgenden Schritte von S401 bis S405 gleich den Schritten von S201 bist S205 des Identifikationsprozesses (6) der Ausführungsform 1 sind, wird hier auf eine wiederholte Beschreibung derselben verzichtet. Der Extrahierer 13 stellt die Größe der in dem Schritt S405 erhaltenen eindimensionalen Daten der Pixelwerte (RGB, YUV, Lab oder ähnliches in Abhängigkeit von dem zu verwendenden Farbraum) durch ein erneutes Abtasten unter Verwendung einer linearen Interpolation passend zu der Größe der Eingabeschicht des CNN des Identifizierers 15 ein (Schritt S406).
Dann gibt der Extrahierer 13 die erneut abgetasteten eindimensionalen Daten zu dem CNN des Identifizierers 15 ein (Schritt S407). Der Identifizierer 15 erhält einen Ausgabewert des CNN als ein Identifikationsergebnis (Schritt S408). Der Schritt S408 wird auch als ein Identifikationsschritt bezeichnet. Dann gibt die Steuereinrichtung 10 das durch den Identifizierer 15 identifizierte Ergebnis zu der Ausgabeeinrichtung 32 aus (Schritt S409) und wird der Identifikationsprozess beendet.
Der Identifikationsprozess wurde weiter oben beschrieben. Wie weiter oben beschrieben, extrahiert in der Identifikationsvorrichtung 101 gemäß der Ausführungsform 2 das CNN automatisch die Merkmalsgröße durch das einfache Eingeben der eindimensionalen Daten in das CNN. Deshalb muss die Merkmalsgröße (die Berechnungsmethode jedes Elements des Merkmalsgrößenvektors und ähnliches) im Gegensatz zu der Identifikationsvorrichtung 100 nicht zuvor bestimmt werden.
Und weil in der Identifikationsvorrichtung 101 eindimensionale Daten in das CNN eingegeben werden, kann die Verarbeitungslast im Vergleich zu einem standardmäßigen CNN, das zweidimensionale Daten handhabt, reduziert werden. Mit anderen Worten kann die Identifikationsvorrichtung 101 eine schnelle Bildidentifikation selbständig durchführen, ohne externe Computerressourcen zu nutzen. Deshalb kann die Identifikationsvorrichtung 101 ähnlich wie die Identifikationsvorrichtung 100 verwendet werden, wenn eine Cloud-basierte Verarbeitung (Computerressourcen wie etwa ein Server im Internet) nicht verfügbar ist, wenn eine große Anzahl von Bildern identifiziert werden muss (zum Beispiel bei einem Bild-Screening und ähnlichem), wenn die Identifikation in Echtzeit durchgeführt werden muss usw.
Weiterhin kann ähnlich wie bei der Identifikationsvorrichtung 100 die Gesamtanzahl von Teilen von Bilddaten für das Vorbereiten des Trainings kleiner als bei einem direkten Training mit einem zweidimensionalen Bild sein, weil die Identifikationsvorrichtung 101 mehr Trainingsdaten (eindimensionale Daten) aus einem Bild erhalten kann, indem sie die Parameter einer beim Erhalten der eindimensionalen Daten verwendeten Linie (Spiralkurve) ändert.
Um den Mangel von Trainingsdaten zu kompensieren, verwendet ein standardmäßiges zweidimensionales CNN manchmal ein Übertragungslernen basierend auf einem Trainingsergebnis eines Trainings unter Verwendung eines massiven Datensatzes (zum Beispiel ImageNet) für eine allgemeine Bilderkennung. Weil jedoch das CNN in der Identifikationsvorrichtung 101 mit den eindimensionalen Merkmalsmaps, den Filtern, den Fenstern usw. wie in 7 gezeigt konfiguriert ist, ist die Anzahl von Parametern in dem CNN klein und kann dementsprechend ein bestimmter Performanzgrad erzielt werden, ohne ein Übertragungslernen durchzuführen. Mit anderen Worten können die Anzahl von Teilen der Trainingsbilddaten und die Trainingszeit reduziert werden.
Insbesondere ist für eine Bildidentifikation eines bösartigen Tumors zwar die Verteilungsbewertung einer lokalen Luminanz oder einer Farbdiskontinuität wichtig, während die Positionsbeziehung zwischen lokalen Merkmalen wie in einer zweidimensionalen CNN nicht sehr wichtig ist. Deshalb kann das CNN der Identifikationsvorrichtung 101 notwendige und ausreichende Informationen mit einer kleinen Anzahl von Parametern im Vergleich zu einem standardmäßigen zweidimensionalen CNN extrahieren.
In dem Identifizierer 15 in der Identifikationsvorrichtung 101 wird ein CNN als das DNN verwendet, wobei jedoch auch ein DNN, zu dem Daten mit einer nicht-fixierten Länge eingegeben werden können, wie etwa ein RNN (Recurrent Neural Network) anstelle eines CNN verwendet werden kann. In diesem Fall sind der Schritt S308 in dem Lernprozess (8) und das erneute Abtasten in dem Schritt S406 in dem Identifikationsprozess (9) nicht erforderlich.
Wenn eine Merkmalsgröße unter Verwendung eines DNN wie etwa eines CNN extrahiert wird, kann der Lernprozess ähnlich wie der oben beschriebene Lernprozess (8) durchgeführt werden und kann der Merkmalsgrößen-Extraktionsprozess ähnlich wie der oben beschriebene Identifikationsprozess (9) mit Ausnahme der Schritte S408 und S409 durchgeführt werden. In dem Merkmalsgrößen-Extraktionsprozess können die Werte der Ausgabeschicht 118 des CNN oder die Werte der Zwischenschicht-Merkmalsmap des CNN (einer Merkmalsmap direkt vor der Ausgabeschicht; die Merkmalsmap 117 in 7 ist wünschenswert) als die Merkmalsgröße extrahiert werden anstatt den Schritt S408 durchzuführen.
Alternativ dazu kann der Wert der Ausgabeschicht 118 des CNN als der Merkmalsgrößenvektor verwendet werden und kann die Merkmalsgröße eines Bilds unter Verwendung einer Distanzlernmethode mit dem Merkmalsgrößenvektor extrahiert werden. In diesem Fall ist die Merkmalsgröße nicht nur für eine Identifikation geeignet, sondern auch für eine Ähnlichkeitssuche.
Ausführungsform 3
In den oben beschriebenen Ausführungsformen werden die Parameter der Spiralkurve willkürlich in dem Lernprozess bestimmt und werden zu typischen Werten in dem Identifikationsprozess gesetzt. Jedoch werden die in der oben beschriebenen Weise gesetzten Spiralkurvenparameter als eine Mischung aus effektiven Parametern und weniger effektiven Parametern für eine Identifikation betrachtet. Deshalb wird für die Ausführungsform 3 ein Verfahren zum Suchen nach effektiven Parametern als Spiralkurvenparametern beschrieben.
Die Spiralkurvenparameter werden als Hyperparameter bezeichnet, weil sie nicht die in dem Lernprozess bestimmten Parameter sind (zum Beispiel die durch den Extrahierer 13 extrahierte Merkmalsgröße, das Gewicht in dem CNN oder ähnliches). Eine Rastersuche, eine zufällige Suche, eine bayesianische Optimierung und ähnliches sind als Methoden für das Suchen nach effektiven Hyperparametern (Hyperparameter-Optimierungsmethode) bekannt, wobei von diesen eine zufällige Suche in der Ausführungsform 3 verwendet wird.
Wie in 10 gezeigt, weist eine Identifikationsvorrichtung 102 gemäß der Ausführungsform 3 einen Aktivitätsbewertungs-Erhalter 16 und einen Bewerter 17 zusätzlich zu der funktionellen Konfiguration der Identifikationsvorrichtung 100 gemäß der Ausführungsform 1 oder der Identifikationsvorrichtung 101 gemäß der Ausführungsform 2 als eine funktionelle Konfiguration auf. Eine SVM oder ein CNN kann als der Identifizierer 15 verwendet werden.
Ein Testdatensatz (eine Sammlung von Testdaten) einschließlich einer Vielzahl von Teilen von Testdaten (ein Satz aus einem Teil von Bilddaten und einem korrekten Etikett für eine Bewertung) für das Bewerten der Identifikationsgenauigkeit des in dem Lernprozess trainierten Identifizierer 15 wird zu der Identifikationsvorrichtung 102 gemäß der Ausführungsform 3 gegeben. Die Identifikationsvorrichtung 102 sucht nach effektiven Parametern für eine Identifikation innerhalb einer Anzahl von Typen von Spiralkurvenparametern unter Verwendung dieses Testdatensatzes. Deshalb ist es wünschenswert, einen auf ein Identifikationsziel bezogenen Datensatz als den Testdatensatz zu der Identifikationsvorrichtung 102 zu geben. Wenn die Identifikationsvorrichtung 102 zum Beispiel ein Diagnoseziel auf einer Haut identifiziert, werden Sätze von Bilddaten einer Hautkrankheit und ein korrektes Etikett als ein Testdatensatz verwendet.
Der Aktivitätsbewertungs-Erhalter 16 enthält ein zweidimensionales CNN, zu dem zweidimensionale Bilddaten mit vertikalen und horizontalen Richtungen eingegeben werden, und erhält eine Aktivierungsmap, die einen Einflussgrad jedes Pixels der eingegebenen Bilddaten auf die Identifikation angibt, unter Verwendung dieses zweidimensionalen CNN. Dann wird auf der erhaltenen Aktivierungsmap basierend auf dem Wert (Einflussgrad) jedes Pixels, der entlang der Spiralkurve erhalten werden kann, eine Aktivitätsbewertung der für das Erstellen der Spiralkurve verwendeter Parameter der Spiralkurve erhalten. Die Aktivitätsbewertung der Parameter der Spiralkurve ist ein Wert, der den Grad eines durch ein Pixel auf der durch die Spiralkurvenparameter erhaltenen Spiralkurve auf die Identifikation ausgeübten Einflusses angibt, und wird in einem weiter unten beschriebenen Aktivitätsbewertung-Berechnungsprozess berechnet.
Der Bewerter 17 berechnet eine Aktivitätsbewertung als einen Bewertungswert der Parameter der ausgewählten Spiralkurve. Der Bewertungswert ist ein Wert für das Bewerten der Eignung der Parameter der Spiralkurve für die Identifikation durch den Identifizierer 15 basierend auf einer Identifikationsgenauigkeit (und dem durch den Aktivitätsbewertungs-Erhalter 16 erhaltenen Aktivitätswert) des basierend auf den Parametern der Spiralkurve trainierten Identifizierers 15. Deshalb wird davon ausgegangen, dass die Identifikationsgenauigkeit des Identifizierers 15 durch die Verwendung von Parametern einer Spiralkurve mit einer hohen Bewertung vergrößert wird. Der Bewerter 17 funktioniert als eine Bewertungseinrichtung.
Weil ein durch die Identifikationsvorrichtung 102 durchgeführter Lernprozess gleich den Lernprozessen der Ausführungsform 1 und der Ausführungsform 2 (5 und 8) ist, wird hier auf eine wiederholte Beschreibung verzichtet.
Der durch die Identifikationsvorrichtung 102 durchgeführte Identifikationsprozess ist gleich den Identifikationsprozessen der Ausführungsform 1 und der Ausführungsform 2 (6 und 9) mit Ausnahme des Prozesses zum Bestimmen der Spiralkurve (des Schrittes S204 in 6 und des Schrittes S404 in 9). In einem Prozess zum Bestimmen einer Spiralkurve in der Ausführungsform 3 bestimmt der Spezifizierer 12 eine Spiralkurve unter Verwendung von Spiralkurvenparametern, die durch einen weiter unten bestimmten Optimaler-Parameter-Auswahlprozesses ausgewählt werden.
Deshalb startet ein Identifikationsprozess, wenn ein Benutzer das Starten des Identifikationsprozesses für die Identifikationsvorrichtung 102 über die Operationseingabeeinrichtung 34 anweist, wobei der Optimaler-Parameter-Auswahlprozess direkt vor einem Prozess zum Bestimmen einer Spiralkurve für den Identifikationsprozess beginnt, und wobei, wenn der Optimaler-Parameter-Auswahlprozess beendet wird, der Prozess zum Bestimmen der Spiralkurve für den Identifikationsprozess und die folgenden Prozesse durchgeführt werden.
Wenn der Identifikationsprozess startet, kann der Optimaler-Parameter-Auswahlprozess parallel durchgeführt werden. Bevor der Identifikationsprozess startet, kann der Optimaler-Parameter-Auswahlprozess zuvor zum Beispiel dann durchgeführt werden, wenn ein Benutzer die Identifikationsvorrichtung 102 für das Starten des Optimaler-Parameter-Auswahlprozesses anweist. Weil durch die oben beschriebene Konfiguration in dem Prozess zum Definieren der Spiralkurve für den Identifikationsprozess der Spezifizierer 12 die Spiralkurve unter Verwendung der durch den zuvor durchgeführten Optimaler-Parameter-Auswahlprozess ausgewählten Spiralkurvenparameter bestimmen kann, muss der Optimaler-Parameter-Auswahlprozess nicht mitten während des Identifikationsprozesses (oder parallel dazu) durchgeführt werden.
Im Folgenden wird der durch die Identifikationsvorrichtung 102 durchgeführte Optimaler-Parameter-Auswahlprozess mit Bezug auf 11 beschrieben. Die Steuereinrichtung 10 wählt willkürlich Spiralkurvenparameter (den Typ der Spiralkurve, die Anzahl von Windungen, die Richtung und den Startwinkel) aus (Schritt S501). Dies ist ein ähnlicher Prozess wie der Spiralkurvenparameter-Auswahlprozess in dem Schritt S104 des Lernprozesses (5) gemäß der Ausführungsform 1.
Dann berechnet der Aktivitätsbewertungs-Erhalter 16 eine Aktivitätsbewertung Sm der in dem Schritt S501 ausgewählten Spiralkurvenparameter (Schritt S502). Details zu dem Aktivitätsberechnungsprozess werden weiter unten beschrieben.
Dann bestimmt die Steuereinrichtung 10, ob die in dem Schritt S502 berechnete Aktivitätsbewertung Sm kleiner als ein Schwellwert ist oder nicht (Schritt S503). Wenn die Aktivitätsbewertung Sm kleiner als der Schwellwert ist (Schritt S503: Ja), kehrt der Prozess zu dem Schritt S501 zurück.
Wenn die Aktivitätsbewertung Sm gleich oder über dem Schwellwert ist (Schritt S503: Nein), führt die Steuereinrichtung 10 einen Lernprozess durch (Schritt S504). Der Lernprozess ist gleich dem Lernprozess der Ausführungsform 1 und der Ausführungsform 2 (5 und 8). In dem Prozess zum willkürlichen Setzen der Spiralkurvenparameter (Schritt S104 in 5, Schritt S305 in 8) setzt der Setzer 14 die Spiralkurvenparameter nicht vollkommen willkürlich, sondern modifiziert diese nur geringfügig um die in dem Schritt S501 ausgewählten Spiralkurvenparameter herum.
Insbesondere wird der Typ der Spiralkurve nicht innerhalb der in dem Schritt S501 ausgewählten Spiralkurvenparameter herum geändert. Weiterhin werden die anderen Parameter (die Anzahl der Windungen der Spiralkurve, die Richtung und der Startwinkel) innerhalb eines bestimmten Bereichs mit den in dem Schritt S501 ausgewählten Parameterwerten in der Mitte gesetzt. Die in dem Schritt S501 ausgewählten Parameter (Parameter für eine Optimierung) dienen für das Suchen von optimalen Parametern durch das verschiedene Ändern aller Spiralkurvenparameter. Und weil die in dem Schritt S104 (oder dem Schritt S305) in dem Lernprozess gesetzten Parameter für das Vergrößern der Anzahl von Teilen von Trainingsdaten gemäß den in dem Schritt S501 ausgewählten Parametern in einer Pseudoweise gesetzt werden, ist es wünschenswert, dass die verschiedenen Parameter derart gesetzt werden, dass die Route der Spiralkurve durch den zu identifizierenden Bereich 42 geändert wird, ohne den Typ der Spiralkurve zu ändern.
Dann bewertet der Bewerter 17 die in dem Schritt S501 ausgewählten Spiralkurvenparameter (Parameter für eine Bewertung) basierend auf der Identifikationsgenauigkeit des in dem Schritt S504 trainierten Identifizierers (S505). Insbesondere erhält der Berwerter 17 eindimensionale Daten von einem linearen Bereich für eine Bewertung als einem Bereich an der unter Verwendung der oben beschriebenen Spiralkurvenparameter (Parameter für eine Bewertung) spezifizierten Spiralkurve für alle Testdaten in dem Testdatensatz. Der Bewerter 17 berechnet eine Identifikationsgenauigkeit Sa als eine Anzahl von korrekten Antworten/Anzahl von Teilen von Bilddaten, indem er veranlasst, dass der Identifizierer 15 das Diagnoseziel in den Testdaten identifiziert, basierend auf den erhaltenen eindimensionalen Daten. Dann erkennt der Bewerter 17 die berechnete Identifikationsgenauigkeit Sa als eine Bewertung S. Wenn eine Vielzahl von Diagnosezielen in einem Teil von Testbilddaten vorhanden ist, kann der Bewerter 17 jedes der Testziele identifizieren und kann die Identifikationsgenauigkeit Sa als eine Anzahl von korrekten Antworten/eine Gesamtanzahl von Diagnosezielen in allen Testdaten berechnen.
Der Bewerter 17 kann die Bewertung S unter Verwendung der folgenden Gleichung (1) berechnen, wobei er nicht nur die Identifikationsgenauigkeit Sa, sondern auch die in dem Schritt S502 berechnete Aktivitätsbewertung Sm verwendet. Dabei ist λ eine beliebige Nummer, die 0,0 < λ < 1,0 erfüllt und gesetzt ist, um einen gewichteten Durchschnitt unter Verwendung der Identifikationsgenauigkeit Sa und der Aktivitätsbewertung Sm zu finden. $S = (1 - λ) Sm + λ Sa$
Weiterhin kann der Bewerter 17 nicht nur die Bewertungsgenauigkeit Sa und die Aktivitätsbewertung Sm, sondern auch einen anderen Bewertungswert für das Bewerten der Spiralkurvenparameter berechnen und den Bewertungswert S unter Verwendung des anderen Bewertungswerts anstatt der Identifikationsgenauigkeit Sa und der Aktivitätsbewertung Sm oder zusammen mit der Identifikationsgenauigkeit Sa und der Aktivitätsbewertung Sm finden.
Dann bestimmt die Steuereinrichtung 1, ob der Prozess von dem Schritt S501 bis zu dem Schritt S505 für eine vorbestimmte Anzahl von Wiederholungen wiederholt wurde oder nicht (Schritt S506). Wenn der Prozess nicht für die vorbestimmte Anzahl von Wiederholungen wiederholt wurde (Schritt S506: Nein), kehrt der Prozess zu dem Schritt S501 zurück. Wenn der Prozess für die vorbestimmte Anzahl von Wiederholungen wiederholt wurde (Schritt S506: Ja), wählt die Steuereinrichtung 10 Spiralkurvenparameter, wenn die höchste Bewertung S in dem Schritt S505 erhalten wird (höchste Bewertungsparameter), als optimale Parameter (Schritt S507) aus und wird der Prozess beendet. In dem Schritt S507 funktioniert die Steuereinrichtung 10 als eine Parameterauswahleinrichtung.
Wenn in dem oben beschriebenen Optimaler-Parameter-Auswahlprozess (11) die in dem Schritt S502 berechnete Aktivitätsbewertung kleiner als ein Schwellwert ist, kehrt der Prozess unmittelbar zu dem Schritt S501 zurück und wählt erneut Spiralkurvenparameter aus. Es kann jedoch der Fall sein, dass eine niedrige Aktivitätsbewertung nicht unbedingt eine niedrige Identifikationsgenauigkeit Sa zur Folge hat. In Vorbereitung auf einen derartigen Fall kann der Prozess des Schritt S503 übersprungen werden und kann der Lernprozess unabhängig von der Aktivitätsbewertung durchgeführt werden und kann das Trainingsergebnis bewertet werden.
Der in dem Schritt S502 in dem Optimaler-Parameter-Auswahlprozess durchgeführte Aktivitätsbewertung-Berechnungsprozess wird im Folgenden mit Bezug auf 12 beschrieben.
Die Steuereinrichtung 10 trainiert ein zweidimensionales CNN in dem Aktivitätsbewertung-Erhalter 16 unter Verwendung von in dem Speicher 20 gespeicherten Trainingsbilddaten (Schritt S551). Insbesondere wird das zweidimensionale CNN trainiert, indem ein Prozess zum Modifizieren von Gewichtsparametern in dem zweidimensionalen CNN für eine vorbestimmte Anzahl von Wiederholungen (zum Beispiel für eine der Anzahl von Teilen der Trainingsbilddaten entsprechenden Anzahl von Wiederholungen) wiederholt wird, sodass sich ein von dem zweidimensionalen CNN, in den ein Teil von Trainingsbilddaten eingegeben wurde, ausgegebener Wert einem dem Teil von Trainingsbilddaten zugewiesenen korrekten Etikett nähert. Im Folgenden leitet die Steuereinrichtung 10 eine Variable i für das Zählen der Teile von Testaten zu 1 ein (Schritt S552).
Dann erhält der Aktivitätsbewertungs-Erhalter 16 eine Aktivierungsmap Mi der i-ten Testbildddaten (S553). Dabei wird angenommen, dass ein Klassenaktivierungsmapping (Class Activation Map bzw. CAM) als die Aktivierungsmap erhalten wird, wobei jedoch auch eine andere Aktivierungsmap (zum Beispiel eine Gradienten-gewichtete Klassenaktivierungsmap (Grad-CAM, eine geführte Grad-CAM (Guided Grad-CAM) oder ähnliches) erhalten werden kann. In jedem Fall wird jeder Pixelwert in der Aktivierungsmap Mi zu einem Wert zwischen 0 und 1 normalisiert. Wenn also mit anderen Worten das Pixel die Identifikation überhaupt nicht beeinflusst, ist der Wert gleich 0. Und je größer der Einfluss ist, desto näher geht der Wert zu 1.
Dann zeichnet der Aktivitätsbewertung-Erhalter 16 eine Spiralkurve unter Verwendung der in dem Schritt S501 in dem Optimaler-Parameter-Auswahlprozess (11) ausgewählten Spiralkurvenparameter auf der erhaltenen Aktivierungsmap Mi, erhält Pixelwerte entlang der Spiralkurve und erhält einen durchschnittlichen Wert Smi der erhaltenen Pixelwerte (Schritt S554).
Dann inkrementiert die Steuereinrichtung 10 die Variable i um 1 (Schritt S555) und bestimmt, ob die Variable i größer als die Anzahl von Teilen der Testdaten ist oder nicht (Schritt S556). Wenn die Variable i gleich oder kleiner als die Anzahl von Teilen der Testdaten ist (Schritt S556: Nein), kehrt der Prozess zu dem Schritt S553 zurück, wobei der Prozess von den Schritten S553 bis S555 wiederholt wird, bis die Variable i größer als die Anzahl von Teilen der Testdaten wird.
Wenn die Variable i größer als die Anzahl von Teilen der Testdaten wird (Schritt S556: Ja), wird die Aktivitätsbewertung Sm berechnet und erhalten, indem der durchschnittliche Wert Smi für die erhaltene Anzahl von Teilen der Testdaten berechnet wird (Schritt S557). Der Aktivitätsbewertung-Berechnungsprozess wird beendet, und der Prozess des Schritts S503 des Optimaler-Parameter-Auswahlprozesses und folgende Prozesse werden ausgeführt.
In dem oben beschriebenen Schritt S551 werden die Testbilddaten so wie sie sind in dem Training des eindimensionalen CNN (in einem standardmäßigen zweidimensionalen CNN-Trainingsprozess) verwendet, während in dem oben beschriebenen Schritt S553 die Aktivierungsmap erzeugt wird, indem eine Aktivierungsmap (Standardaktivierungsmap) für einen Teil der Testbilddaten erhalten wird.
Anstatt Bilddaten der Testdaten so wie sie sind in der oben beschriebenen Weise zu verwenden, kann ein rechteckiger Bereich mit einem darin enthaltenen Diagnoseziel aus den Bilddaten für das Training des zweidimensionalen CNN und für das Erzeugen der Aktivierungsmap in ähnlicher Weise wie für den mit Bezug auf 5 und 8 beschriebenen Lernprozess geschnitten werden. In diesem Fall kann in dem oben beschriebenen Schritt S551 das zweidimensionale CNN unter Verwendung der Größe jedes in der oben beschriebenen Weise ausgeschnittenen rechteckigen Bereichs, normalisiert auf die Größe des zweidimensionalen CNN trainiert werden. In dem oben beschriebenen Schritt S554 kann eine Aktivierungsmap für jeden auf diese Weise ausgeschnittenen rechteckigen Bereich erhalten werden. Wenn der Prozentsatz des Bereichs des Diagnoseziels in Bezug auf die gesamten Bilddaten klein ist, wird die Berechnungsgenauigkeit der Aktivitätsbewertung vergrößert, wenn der rechteckige Bereich ausgeschnitten wird, um das zweidimensionale CNN zu trainieren und die Aktivierungsmap zu erhalten. Die Aktivitätsbewertungen können berechnet werden, wenn die Bilddaten so wie sie sind verwendet werden und wenn der rechteckige Bereich ausgeschnitten wird, wobei die Spiralkurvenparameter basierend auf dem durchschnittlichen Wert der Aktivitätsbewertungen bewertet werden können.
Mit dem oben beschriebenen Optimaler-Parameter-Auswahlprozess kann in dem Identifikationsprozess gemäß der Ausführungsform 3 die Identifikationsgenauigkeit der Identifikationsvorrichtung 102 vergrößert werden, weil eine Identifikation unter Verwendung einer mit Spiralkurvenparametern mit der höchsten Bewertung (höchster Bewertungsparameter) definierten Spiralkurve durchgeführt wird.
Unter Verwendung der Identifikationsgenauigkeit Sa des Identifizierers 15 für den Testdatensatz als der Bewertung können Spiralkurvenparameter ausgewählt werden, die wahrscheinlich die Identifikationsgenauigkeit für ein Identifikationsziel mit einer ähnlichen Beschaffenheit wie die Testdaten erhöhen. Das Berechnen der Identifikationsgenauigkeit Sa erfordert Zeit, wobei jedoch durch das Verwenden der Aktivitätsbewertung Sm als der Bewertung Spiralkurvenparameter berechnet werden können, die die Identifikationsgenauigkeit effektiv in einer relativ kurzen Zeit verbessern können.
In dem oben beschriebenen Optimaler-Parameter-Auswahlprozess wurde eine zufällige Suche nach Parametern für optimierende Hyperparameter verwendet, wobei aber auch ein anderes Verfahren verwendet werden kann. Wenn zum Beispiel eine Rastersuche verwendet wird, werden in dem Schritt S501 nacheinander alle Kombinationen der Parameter ausgewählt, anstatt zufällig Spiralkurvenparameter auszuwählen.
In dem oben beschriebenen Optimaler-Parameter-Auswahlprozess (11) bewertet der Bewerter 17 die Aktivitätsbewertung Sm und die Identifikationsgenauigkeit Sa, wobei diese jedoch nicht notwendigerweise berechnet zu werden brauchen. In dem Optimaler-Parameter-Auswahlprozess kann der Bewerter 17 die Aktivitätsbewertung Sm und die Identifikationsgenauigkeit Sa berechnen und den berechneten Wert als die Bewertung S verwenden. Wenn die Aktivitätsbewertung Sm als die Bewertung S verwendet wird, kann der Schritt S504 in dem Optimaler-Parameter-Auswahlprozess übersprungen werden und bewertet in dem Schritt S505 der Bewerter 17 die Spiralkurvenparameter unter Verwendung der in dem Schritt S502 berechneten Aktivitätsbewertung als die Bewertung S.
Der oben genannte Optimaler-Parameter-Auswahlprozess wurde als ein Prozess zum Auswählen von optimalen Parametern als der Spiralkurvenparameter während des Identifikationsprozesses beschrieben. Der Optimaler-Parameter-Auswahlprozess kann auch verwendet werden, wenn der Identifikationsprozess der Ausführungsform 2 als der Merkmalsextraktionsprozess verwendet wird. In diesem Fall bestimmt in dem Prozess zum Bestimmen einer Spiralkurve (Schritt S404 in 9) der Spezifizierer 12 eine Spiralkurve unter Verwendung der in dem Optimaler-Parameter-Auswahlprozess ausgewählten Spiralkurve.
Variation
In den oben beschriebenen Ausführungsformen wird eine Spiralkurve als die „sich in einer Vielzahl von verschiedenen Richtungen erstreckende Linie“ verwendet, wenn eindimensionale Daten basierend auf Pixelwerten erhalten werden. Ein makroskopisches Merkmal kann erfasst werden, weil sich eine Spiralkurve über einen langen und kontinuierlichen linearen Bereich erstrecken kann. Außerdem können viele lokale Merkmale erfasst werden, weil die Spiralkurve keine Unterbrechungen aufweist. Die „sich in einer Vielzahl von verschiedenen Richtungen erstreckende Linie“ ist jedoch nicht auf eine Spiralkurve beschränkt.
Zum Beispiel können eine Vielzahl von geraden Linien, die sich von einer Nachbarschaft der Mitte des zu identifizierenden Bereichs erstrecken, eine Vielzahl von geraden Linien, die zwei (beliebige) Punkte in dem zu identifizierenden Bereich verbinden, konzentrische Ellipsen (einschließlich von konzentrischen Kreisen), die in der Nachbarschaft der Mitte des zu identifizierenden Bereichs zentriert sind, oder ähnliches verwendet werden. Wenn die oben genannten Linien verwendet werden, können die Daten als eindimensionale Daten verschiedener Kanäle (ähnlich wie RGB usw.) behandelt werden, ohne die Vielzahl von Linien zu verbinden. Die Linien müssen also nicht miteinander verbunden werden und als eindimensionale Daten einer langen Linie behandelt werden. Im Gegensatz zu einer Spiralkurve kann das Merkmal in jeder Linie besser erfasst werden, wenn nur der kontinuierliche Teil als eindimensionale Daten für einen Kanal behandelt wird, weil die Linien nicht kontinuierlich sind.
Eine Spiralkurve, eine oben beschriebene Vielzahl von geraden Linien, eine Vielzahl von zufälligen geraden Linien, konzentrische Ellipsen und ähnliches sind robust gegenüber einer Drehung eines Identifikationsziels, weil ein lokaler Bereich auf einer Linie in einer Vielzahl von Richtungen ausgerichtet ist und ein in dem Identifikationsziel vorhandenes Merkmal weniger wahrscheinlich übersehen wird. Manchmal wird in einer dermoskopischen Diagnose ein paralleles strukturelles Merkmal verwendet, wobei die oben genannten Typen von Linien jedoch den Vorteil aufweisen, dass ein derartiges strukturelles Merkmal erfasst und nicht übersehen wird, indem eine Vielzahl von Richtungen einbezogen werden. Eine Spiralkurve oder konzentrische Ellipsen sind besonders gut für das Extrahieren eines Merkmals in einer Umfangsrichtung wie etwa eines Umrisses, der einem Merkmal eines erkrankten Bereichs oder ähnlichem in einem dermoskopischen Bild entspricht.
Wenn die oben beschriebene „sich in einer Vielzahl von verschiedenen Richtungen erstreckende Linie“ (nicht auf eine Spiralkurve beschränkt) zum Beispiel in dem Schritt S104 in dem Lernprozess (5) verwendet wird, setzt der Setzer 14 zufällig Parameter für das Definieren der „sich in einer Vielzahl von verschiedenen Richtungen erstreckenden Linie“ (nicht auf eine Spiralkurve beschränkt). Dann definiert der Spezifizierer 12 in Schritt S105 die „sich in einer Vielzahl von verschiedenen Richtungen erstreckende Linie“, die sich in dem zu identifizierenden Bereich 42 von einer Nachbarschaft der Mitte des zu identifizierenden Bereichs 42 erstreckt, unter Verwendung der durch den Setzer 14 gesetzten Parameter. Dann erhält der Extrahierer 13 in Schritt S106 Pixelwerte entlang der durch den Spezifizierer 12 definierten „sich in einer Vielzahl von verschiedenen Richtungen erstreckenden Linie“. Diese Prozesse sind denjenigen der Schritte S305 bis S307 in dem Lernprozess (8), der Schritte S204 bis S205 in dem Identifikationsprozess (6) und der Schritte S404 bis S405 in dem Identifikationsprozess (9) ähnlich.
In dem Optimaler-Parameter-Auswahlprozess (11) wählt die Steuereinrichtung 10 in dem Schritt S501 willkürlich Spiralkurvenparameter aus, wobei dies jedoch nur ein Beispiel ist. Wenn eine andere Linie als eine Spiralkurve als die „sich in einer Vielzahl von verschiedenen Richtungen erstreckende Linie“ verwendet wird, kann die Steuereinrichtung 10 in dem Schritt S501 zufällig Parameter für das Definieren einer derartigen Linie auswählen. In diesem Fall erhält der Aktivitätsbewertung-Erhalter 16 in dem Schritt S554 des Aktivitätsbewertung-Berechnungsprozess (12) einen Pixelwert entlang der „sich in einer Vielzahl von verschiedenen Richtungen erstreckenden Linie“, die mit den in dem Schritt S501 ausgewählten Parametern definiert ist, und erhält dann den durchschnittlichen Wert Smi der Pixelwerte. Daraus resultiert, dass die Steuereinrichtung 10 die Parameter auswählen kann, wenn die höchste Bewertung S als der optimale Parameter in dem Schritt S507 erhalten wird, und zwar auch für Parameter einer anderen Linie als einer Spiralkurve.
In der oben beschriebenen Ausführungsform wurden SVM und CNN als ein Modell für den Identifizierer 15 verwendet, wobei statt dessen aber auch ein Entscheidungsbaum oder ähnliches verwendet werden kann. In der Ausführungsform 3 wurden CAM, Grad-CAM und Guided Grad-CAM des CNN als Beispiele für die Aktivierungsmap beschrieben, wobei die durch den Aktivititätsbewertung-Erhalter 16 verwendete Aktivierungsmap jedoch nicht darauf beschränkt ist. Zum Beispiel kann der Aktivitätsbewertung-Erhalter 16 eine Aktivierungsmap von RNN oder eine Saliency-Map als die Aktivierungsmap erhalten. Wenn eine Saliency-Map als Aktivierungsmap erhalten wird, nimmt jeder Pixelwert der Aktivierungsmap Mi einen Wert zwischen 0 und 1 an, was von einer Wahrscheinlichkeit, dass ein menschliches Auge auf das aus dem Pixelwert bestehende Bild gerichtet wird, abhängt. Mit anderen Worten ist der Wert gleich 0, wenn der menschliche Blick überhaupt nicht auf das Pixel gerichtet ist, und ist der Wert näher an 1, wenn das Pixel eine höhere Wahrscheinlichkeit dafür, dass der menschliche Blick auf es gerichtet ist, aufweist. Wenn eine Saliency Map als Aktivierungsmap erhalten wird, wird der Effekt der vorliegenden Erfindung effektiver erhalten, wenn das vorbestimmte Ziel ein Objekt ist, das einfach durch das menschliche Auge wahrgenommen wird, wie etwa ein Rost eines Aufbaus, ein verrottender Teil eines Gemüses, ein durch eine Identifikationseinrichtung identifiziertes Produkt usw.
Variation von Bilddaten
In den oben beschriebenen Ausführungsformen und der Variation sind die durch die Bildeingabeeinrichtung 31 erhaltenen Bilddaten nicht auf ein standardmäßiges Sichtbares-Licht-Bild beschränkt. Das auf das Diagnoseziel gestrahlte Licht kann weißes Licht (Licht, in dem jede Wellenlänge des sichtbaren Lichts gleich gemischt ist), Licht in jedem Wellenlängenbereich einschließlich von sichtbarem Licht in der Nähe von violettem und ultraviolettem Licht (unsichtbarem Licht) (zum Beispiel Licht mit einer Wellenlänge von 320 nm bis 440 nm, vorzugsweise 405 nm), Infrarotlicht einschließlich von Nahinfrarotlicht (zum Beispiel Licht mit einer Wellenlänge von 750 nm bis 1000 nm, vorzugsweise 945 nm) und ein aus diesen gemischtes Licht sein. Wenn Licht (durch das Diagnoseziel reflektiertes Licht, wenn das oben beschriebene Licht gestrahlt wird; und fluoreszierendes Licht, das durch das gestrahlte Licht an dem Diagnoseziel erzeugt wird) von dem Diagnoseziel mit einer Lichtempfangseinrichtung der Bildeingabeeinrichtung 31 empfangen wird, können Bilddaten durch das Empfangen eines aus der Vielzahl von Typen von Licht (sichtbares Licht, ultraviolettes Licht, Infrarotlicht) oder eine Mischung aus diesen Lichtern erhalten werden.
Zum Beispiel kann ein Hautfleck unter Verwendung eines ultravioletten Bilds betrachtet werden, das erhalten wird, indem ultraviolettes Licht von einem mit ultraviolettem Licht bestrahlten Diagnoseziel empfangen wird. Ein Blutgefäß kann unter Verwendung eines Infrarotlichts betrachtet werden, das durch das Empfangen von Infrarotlicht von einem mit Infrarotlicht bestrahlten Diagnoseziel erhalten wird. Die Identifikationsgenauigkeit kann durch das Hinzufügen dieser Bilder (eines ultravioletten Bilds, eines Infrarotbilds usw.) zu den standardmäßigen Sichtbares-Licht-Bildern verbessert werden.
Insbesondere wird eine Spiralkurve in dem ultravioletten Bild und dem Infrarotbild auf ähnliche Weise wie oben für die Ausführungsformen beschrieben definiert und werden eindimensionale Daten durch das Erhalten von Pixelwerten (zum Beispiel von Werten, die die Intensität des ultravioletten Lichts und des Infrarotlichts wiedergeben) entlang der Spiralkurve erhalten. Dann werden die erhaltenen eindimensionalen Daten in einer Richtung eines Kanals hinzugefügt (die Daten werden als eindimensionale Daten jedes separaten Kanals auf ähnliche Weise wie RGB usw. behandelt). Ein Lernprozess und ein Identifikationsprozess unter Verwendung der erhaltenen eindimensionalen Daten in mehreren Kanälen können auf ähnliche Weise wie in dem oben beschriebenen Lernprozess (8) und dem oben beschriebenen Identifikationsprozess (9) durch das CNN durchgeführt werden. Das ultraviolette Bild und das Infrarotbild können alleine oder in Kombination mit einem anderen Bild (einem Sichtbares-Licht-Bild, einem Infrarotbild, einem ultravioletten Bild usw.) verwendet werden.
Jede Funktion der Identifikationsvorrichtungen 100, 101 und 102 kann durch einen Computer wie etwa einen Standard-PC durchgeführt werden. Insbesondere wurde in den beschriebenen Ausführungsformen angenommen, dass Programme der durch die Identifikationsvorrichtungen 100, 101, 102 ausgeführten Lern- und Suchprozesse zuvor in dem ROM des Speichers 20 gespeichert werden. Die Programme können aber auch auf einem computerlesbaren Speichermedium wie etwa einer Diskette, einer CD-ROM, einer DVD, einer magnetooptischen (MO) Disc, einer Speicherkarte oder einem USB-Speicher gespeichert und verteilt werden, wobei ein Computer, der die oben beschriebenen Funktionen realisieren kann, durch das Lesen und Installieren des Programms konfiguriert werden kann.
Vorstehend wurden einige beispielhafte Ausführungsformen für erläuternde Zwecke beschrieben, wobei dem Fachmann deutlich sein sollte, dass verschiedene Änderungen an den Details der beschriebenen Ausführungsformen vorgenommen werden können, ohne dass deshalb der Erfindungsumfang verlassen wird. Die Beschreibung und die Zeichnungen sind beispielhaft und nicht einschränkend aufzufassen. Der Erfindungsumfang wird durch die Ansprüche definiert und umfasst alle Äquivalente derselben.
Die vorliegende Anmeldung beansprucht den Vorteil der japanischen Patentanmeldung Nr. 2019-113990 vom 19. Juni 2019 und der japanischen Patentanmeldung Nr. 2020-043778 vom 13. März 2020, die hier vollständig unter Bezugnahme eingeschlossen sind.
Industrielle Anwendbarkeit
Die vorliegende Erfindung kann auf eine Merkmalsgrößen-Extraktionsvorrichtung, ein Merkmalsgrößen-Extraktionsverfahren, ein Identifikationsverfahren, eine Identifikationsvorrichtung und ein Programm, das eine Merkmalsgröße extrahieren und die Extraktionslast reduzieren kann, angewendet werden.
Bezugszeichenliste

10: Steuereinrichtung
11: Erhalter
12: Spezifizierer
13: Extrahierer
14: Setzer
15: Identifizierer
16: Aktivitätsbewertung-Erhalter
17: Bewerter
20: Speicher
31: Bildeingabeeinrichtung
32: Ausgabeeinrichtung
33: Kommunikationseinrichtung
34: Operationseingabeeinrichtung
41: Zielbereich
41a, 41b: Bereiche
42: zu identifizierender Bereich
43: Kurve
100, 101, 102: Identifikationsvorrichtung
111: Eingabeschicht
112, 113, 114, 115, 116, 117: Merkmalsmap
118: Ausgabeschicht
121, 123, 124, 125: Filter
122, 126: Fenster
127: vollständige Verbindung

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2019113990 [0130]
JP 2020043778 [0130]

Claims

Merkmalsgrößen-Extraktionsvorrichtung, umfassend: eine Erhaltungseinrichtung zum Erhalten eines aufgenommenen Bilds, das durch das Abbilden eines vorbestimmten Ziels erzeugt wird, eine Spezifizierungseinrichtung zum Spezifizieren eines linearen Bereichs, der sich in einer Vielzahl von verschiedenen Richtungen erstreckt, aus einem Bereich des durch die Erhaltungseinrichtung erhaltenen aufgenommenen Bilds, wobei der Bereich das vorbestimmte Ziel enthält, und eine Extraktionseinrichtung zum Extrahieren einer Merkmalsgröße basierend auf einem Pixelwert aus dem durch die Spezifizierungseinrichtung spezifizierten linearen Bereich.
Merkmalsgrößen-Extraktionsvorrichtung nach Anspruch 1, wobei der lineare Bereich ein spiralkurvenförmiger Bereich ist.
Merkmalsgrößen-Extraktionsvorrichtung nach Anspruch 2, die weiterhin umfasst: eine Setzeinrichtung zum zufälligen Setzen eines Parameters, der eine Spiralkurve des spiralkurvenförmigen Bereichs definiert.
Merkmalsgrößen-Extraktionsvorrichtung nach einem der Ansprüche 1 bis 3, wobei das vorbestimmte Ziel ein Diagnoseziel ist, das ein Ziel einer Diagnose an der menschlichen Haut ist.
Merkmalsgrößen-Extraktionsvorrichtung nach einem der Ansprüche 1 bis 4, wobei die Extraktionseinrichtung einen Pixelwert des spezifizierten linearen Bereichs als eindimensionale Daten erhält und die Merkmalsgröße durch das Berechnen eines vorbestimmten statistischen Werts für die eindimensionalen Daten extrahiert.
Merkmalsgrößen-Extraktionsvorrichtung nach Anspruch 5, wobei die Extraktionseinrichtung Pixelwerte in dem spezifizierten linearen Bereich als eindimensionale Daten jeweils einer ersten Komponente, einer zweiten Komponente und einer dritten Komponente in einem vorbestimmten Farbraum erhält und, als eine Merkmalsgröße, wenigstens einen von 16 Werten extrahiert, die eine Varianz der eindimensionalen Daten jeweils der ersten Komponente und der zweiten Komponente, ein Gradient und ein Beitragsverhältnis einer Regressionslinie der eindimensionalen Daten jeweils der ersten Komponente, der zweiten Komponente und der dritten Komponente, eine Varianz von absoluten Werten von Differenzen innerhalb der eindimensionalen Daten, Gradienten und Beitragsverhältnissen von Regressionslinien der ersten Komponente / der zweiten Komponente und der ersten Komponente / der dritten Komponente innerhalb von Verhältnissen der eindimensionalen Daten und Differenzen von maximalen Werten und minimalen Werten der eindimensionalen Daten sind.
Merkmalsgrößen-Extraktionsvorrichtung nach einem der Ansprüche 1 bis 4, wobei die Extraktionseinrichtung einen Pixelwert des spezifizierten linearen Bereichs als eindimensionale Daten erhält und die Merkmalsgröße durch das Eingeben der eindimensionalen Daten in ein eindimensionales CNN (Convolutional Neural Network) extrahiert.
Merkmalsgrößen-Extraktionsvorrichtung nach Anspruch 7, das weiterhin umfasst: eine Bewertungseinrichtung zum Berechnen eines Bewertungswerts, der ein Wert ist, der eine Bewertung der Eignung eines Parameters für das Spezifizieren des linearen Bereichs wiedergibt, wobei die Spezifizierungseinrichtung, aus der Vielzahl von Parametern, einen höchsten Bewertungsparameter, der der Parameter mit einem höchsten durch die Bewertungseinrichtung berechneten Bewertungswert ist, auswählt und den linearen Bereich unter Verwendung des ausgewählten höchsten Bewertungsparameter spezifiziert.
Identifikationsvorrichtung, umfassend: eine Erhaltungseinrichtung zum Erhalten eines aufgenommenen Bilds, das durch das Abbilden eines vorbestimmten Ziels erzeugt wird, eine Spezifizierungseinrichtung zum Spezifizieren eines linearen Bereichs, der sich in einer Vielzahl von verschiedenen Richtungen erstreckt, aus einem Bereich des durch die Erhaltungseinrichtung erhaltenen aufgenommenen Bilds, wobei der Bereich das vorbestimmte Ziel enthält, eine Eindimensionale-Daten-Erhaltungseinrichtung zum Erhalten von eindimensionalen Daten, basierend auf einem Pixelwert, aus dem durch die Spezifizierungseinrichtung spezifizierten linearen Bereich, und eine Identifikationseinrichtung zum Identifizieren des vorbestimmten Ziels basierend auf den durch die Eindimensionale-Daten-Erhaltungseinrichtung erhaltenen eindimensionalen Daten.
Identifikationsvorrichtung nach Anspruch 9, wobei der lineare Bereich ein spiralkurvenförmiger Bereich ist.
Identifikationsvorrichtung nach Anspruch 10, wobei die Spezifizierungseinrichtung zufällig einen Parameter für das Spezifizieren einer Spiralkurve des spiralkurvenförmigen Bereichs setzt und den spiralkurvenförmigen Bereich unter Verwendung einer durch den zufällig gesetzten Parameter definierten Spiralkurve spezifiziert.
Identifikationsvorrichtung nach Anspruch 9 oder 10, die weiterhin umfasst: eine Bewertungseinrichtung zum Berechnen eines Bewertungswerts, der ein Wert ist, der eine Bewertung der Eignung eines Parameters für das Spezifizieren des linearen Bereichs wiedergibt, wobei die Spezifizierungseinrichtung, aus der Vielzahl von Parametern, einen höchsten Bewertungsparameter, der der Parameter mit einem höchsten durch die Bewertungseinrichtung berechneten Bewertungswert ist, auswählt und den linearen Bereich unter Verwendung des ausgewählten höchsten Bewertungsparameters spezifiziert.
Identifikationsvorrichtung nach Anspruch 12, wobei: die Bewertungseinrichtung veranlasst, dass: die Spezifizierungseinrichtung einen Parameter für eine Bewertung aus der Vielzahl von verschiedenen Parametern auswählt und den linearen Bereich aus einem ein vorbestimmtes Ziel enthaltenden Bereich in Bilddaten für eine Bewertung unter Verwendung des ausgewählten Parameters für eine Bewertung spezifiziert, die Eindimensionale-Daten-Erhaltungseinrichtung die eindimensionalen Daten aus einem linearen Bereich für eine Bewertung, der der durch die Spezifizierungseinrichtung spezifizierte lineare Bereich ist, unter Verwendung des Parameters für eine Bewertung erhält, und die Identifikationseinrichtung das vorbestimmte Ziel in den Bilddaten für eine Bewertung basierend auf den durch die Eindimensionale-Daten-Erhaltungseinrichtung erhaltenen eindimensionalen Daten aus dem linearen Bereich für eine Bewertung identifiziert, und die Bewertungseinrichtung eine Identifikationsgenauigkeit der Identifizierungseinrichtung basierend auf den aus dem linearen Bereich für eine Bewertung erhaltenen eindimensionalen Daten berechnet, den Bewertungswert basierend auf der Identifikationsgenauigkeit berechnet und eine Berechnung der Identifikationsgenauigkeit und des Bewertungswerts für jeden aus der Vielzahl von Parametern durchführt.
Identifikationsvorrichtung nach Anspruch 12 oder 13, wobei die Bewertungseinrichtung, unter Verwendung von Bilddaten für eine Bewertung, eine Aktivierungsmap, die einen Einflussgrad jedes Pixels auf die Identifikation wiedergibt, erhält und den Bewertungswert basierend auf dem aus dem linearen Bereich der Aktivierungsmap erhaltenen Einflussgrad jedes Pixels berechnet.
Identifikationsvorrichtung nach einem der Ansprüche 9 bis 14, wobei das vorbestimmte Ziel ein Diagnoseziel ist, das ein Ziel für eine Diagnose an einer menschlichen Haut ist.
Identifikationsvorrichtung nach einem der Ansprüche 9 bis 15, wobei die Identifikationseinrichtung das vorbestimmte Ziel gemäß einem Modell identifiziert, das maschinell trainiert wurde, um Eingabedaten basierend auf den eindimensionalen Daten als eine Eingabe zu verwenden und ein Identifikationsergebnis des vorbestimmten Ziels als eine Ausgabe zu verwenden.
Identifikationsvorrichtung nach Anspruch 16, die weiterhin umfasst: eine Extraktionseinrichtung zum Extrahieren einer Merkmalsgröße durch das Berechnen eines vorbestimmten statistischen Werts für durch die Eindimensionale-Daten-Erhaltungseinrichtung erhaltene eindimensionale Daten, wobei die Identifikationseinrichtung das vorbestimmte Ziel durch das Eingeben der Merkmalsgröße in eine SVM (Support Vector Maschine) als das Modell identifiziert.
Identifikationsvorrichtung nach Anspruch 16, wobei die Identifikationseinrichtung das vorbestimmte Ziel durch das Eingeben von durch die Eindimensionale-Daten-Erhaltungseinrichtung erhaltenen eindimensionalen Daten in ein eindimensionales CNN (Convolutional Neural Network) als das Modell identifiziert.
Merkmalsgrößen-Extraktionsverfahren, umfassend: Erhalten eines aufgenommenen Bilds, das durch das Abbilden eines vorbestimmten Ziels erzeugt wird, Spezifizieren eines linearen Bereichs, der sich in einer Vielzahl von verschiedenen Richtungen erstreckt, aus einem Bereich des erhaltenen aufgenommenen Bilds, wobei der Bereich das vorbestimmte Ziel enthält, und Extrahieren einer Merkmalsgröße, basierend auf einem Pixelwert, aus dem spezifizierten linearen Bereich.
Identifikationsverfahren, umfassend: Erhalten eines aufgenommenen Bilds, das durch das Abbilden eines vorbestimmten Ziels erzeugt wird, Spezifizieren eines linearen Bereichs, der sich in einer Vielzahl von verschiedenen Richtungen erstreckt, aus einem Bereich des erhaltenen aufgenommenen Bilds, wobei der Bereich das vorbestimmte Ziel enthält, Erhalten von eindimensionalen Daten, basierend auf einem Pixelwert, aus dem spezifizierten linearen Bereich, und Identifizieren des vorbestimmten Ziels basierend auf den erhaltenen eindimensionalen Daten.
Programm, das einen Computer veranlasst zum Durchführen von Folgendem: einen Erhaltungsschritt zum Erhalten eines aufgenommenen Bilds, das durch das Abbilden eines vorbestimmten Ziels erzeugt wird, einen Spezifizierungsschritt zum Spezifizieren eines linearen Bereichs, der sich in einer Vielzahl von verschiedenen Richtungen erstreckt, aus einem Bereich des durch den Erhaltungsschritt erhaltenen aufgenommenen Bilds, wobei der Bereich das vorbestimmte Ziel enthält, und einen Extraktionsschritt zum Extrahieren einer Merkmalsgröße, basierend auf einem Pixelwert, aus dem durch den Spezifizierungsschritt spezifizierten linearen Bereich.
Programm, das einen Computer veranlasst zum Durchführen von Folgendem: einen Erhaltungsschritt zum Erhalten eines aufgenommenen Bilds, das durch das Abbilden eines vorbestimmten Ziels erzeugt wird, einen Spezifizierungsschritt zum Spezifizieren eines linearen Bereichs, der sich in einer Vielzahl von verschiedenen Richtungen erstreckt, aus einem Bereich des durch den Erhaltungsschritt erhaltenen aufgenommenen Bilds, wobei der Bereich das vorbestimmte Ziel enthält, einen Eindimensionale-Daten-Erhaltungsschritt zum Erhalten von eindimensionalen Daten, basierend auf einem Pixelwert, aus dem durch den Spezifizierungsschritt spezifizierten linearen Bereich, und einen Identifikationsschritt zum Identifizieren des vorbestimmten Ziels basierend auf den durch den Eindimensionale-Daten-Erhaltungsschritt erhaltenen eindimensionalen Daten.