WO2021140601A1 - 画像処理システム、内視鏡システム及び画像処理方法 - Google Patents

画像処理システム、内視鏡システム及び画像処理方法 Download PDF

Info

Publication number
WO2021140601A1
WO2021140601A1 PCT/JP2020/000376 JP2020000376W WO2021140601A1 WO 2021140601 A1 WO2021140601 A1 WO 2021140601A1 JP 2020000376 W JP2020000376 W JP 2020000376W WO 2021140601 A1 WO2021140601 A1 WO 2021140601A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
observation method
detection
threshold value
score
Prior art date
Application number
PCT/JP2020/000376
Other languages
English (en)
French (fr)
Inventor
文行 白谷
Original Assignee
オリンパス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by オリンパス株式会社 filed Critical オリンパス株式会社
Priority to PCT/JP2020/000376 priority Critical patent/WO2021140601A1/ja
Publication of WO2021140601A1 publication Critical patent/WO2021140601A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B1/00Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor
    • A61B1/04Instruments for performing medical examinations of the interior of cavities or tubes of the body by visual or photographical inspection, e.g. endoscopes; Illuminating arrangements therefor combined with photographic or television appliances
    • A61B1/045Control thereof

Definitions

  • the present invention relates to an image processing system, an endoscope system, an image processing method, and the like.
  • the object detection system when the object detection score indicating the object-likeness exceeds a preset threshold value, a candidate frame for object detection is displayed on the screen. After learning the object detection system, this threshold is adjusted using the evaluation image set and fixed at a certain value. Adjustment of this threshold is required to adjust the trade-off between positive detection and over-detection.
  • sensitivity may be prioritized or overdetection suppression may be prioritized.
  • priority is given to reducing oversight, and an increase in overdetection is allowed.
  • priority is given to suppression of overdetection, and a decrease in sensitivity is allowed.
  • Patent Document 1 discloses a method for designating either an overdetection suppression mode or an undetected defect detection mode.
  • the over-detection suppression mode when the over-detection suppression mode is specified, defect candidate parts excluding pseudo-defects that do not need to be detected are extracted from the defect candidate parts, and when the detection mode for undetected defects is specified, defect candidates are extracted. This defective part is extracted from the parts.
  • the parameter corresponding to the feature amount of the pseudo-defect portion is used, and in the detection mode of the undetected defect, the parameter corresponding to the feature amount of the present defect portion is used.
  • the parameter is specifically a threshold value.
  • the image to be processed may be captured by various observation methods.
  • the threshold value of the detection score is fixed to one, the sensitivity and overdetection rate will vary depending on the observation method, and overdetection will be sufficiently suppressed depending on the observation method.
  • Patent Document 1 does not disclose a method of switching parameters according to an observation method.
  • an image processing system an endoscope system, an image processing method, etc. that can output a detection result according to a situation even when the observation method changes.
  • One aspect of the present disclosure includes an image acquisition unit that acquires a processing target image and a processing unit that performs processing on the processing target image, and the processing unit captures the processing target image in the first observation method.
  • the first classification score indicating the certainty and the second classification score indicating the certainty that the processed image was captured by the second observation method were obtained, and the region of interest was detected and detected in the processed image.
  • a detection score representing the certainty of the region of interest is obtained, a threshold value is set based on the first classification score and the second classification score, the set threshold value is compared with the detection score, and the threshold value is compared. It is related to an image processing system that outputs a detection result of the region of interest when the detection score is larger than that of the above.
  • Another aspect of the present disclosure includes an imaging unit that captures an in-vivo image, an image acquisition unit that acquires the in-vivo image as a processing target image, and a processing unit that performs processing on the processing target image.
  • the processing unit includes a first classification score indicating the certainty that the processed image is captured by the first observation method, and a second classification score indicating the certainty that the processed image is captured by the second observation method. Is obtained, a region of interest is detected in the image to be processed, a detection score indicating the certainty of the detected region of interest is obtained, and a threshold value is set based on the first classification score and the second classification score. It is related to an endoscopic system that compares the set threshold value with the detection score and outputs the detection result of the region of interest when the detection score is larger than the threshold value.
  • Yet another aspect of the present disclosure is a first classification score indicating the certainty that the processed image is acquired and the processed image is captured in the first observation method, and the processed image is captured in the second observation method.
  • the second classification score representing the certainty was obtained
  • the region of interest was detected in the processed image
  • the detection score representing the detected certainty of the region of interest was obtained
  • the first classification score and the first classification score were obtained.
  • An image processing method in which a threshold value is set based on the two classification scores, the set threshold value is compared with the detection score, and when the detection score is larger than the threshold value, the detection result of the region of interest is output.
  • FIG. 6A is a diagram for explaining the input and output of the region of interest detector
  • FIG. 6B is a diagram for explaining the input and output of the observation method classifier.
  • a configuration example of the learning device according to the first embodiment A configuration example of the image processing system according to the first embodiment.
  • the flowchart explaining the detection process in 1st Embodiment A configuration example of a neural network that is a detection-integrated observation method classifier.
  • Observation methods include normal light observation, which is an observation method in which imaging is performed by irradiating normal light as illumination light, special light observation, which is an observation method in which imaging is performed by irradiating special light as illumination light, and dye as a subject. It is conceivable to observe dye spraying, which is an observation method in which imaging is performed while the light is sprayed.
  • the image captured in normal light observation is referred to as a normal light image
  • the image captured in special light observation is referred to as a special light image
  • the image captured in dye spray observation is referred to as a dye spray image. Notated as.
  • Normal light is light having intensity in a wide wavelength band among the wavelength bands corresponding to visible light, and is white light in a narrow sense.
  • the special light is light having different spectral characteristics from ordinary light, and is, for example, narrow band light having a narrower wavelength band than ordinary light.
  • NBI Near Band Imaging
  • the special light may include light in a wavelength band other than visible light such as infrared light.
  • Lights of various wavelength bands are known as special lights used for special light observation, and they can be widely applied in the present embodiment.
  • the dye in the dye application observation is, for example, indigo carmine. By spraying indigo carmine, it is possible to improve the visibility of polyps.
  • Various types of dyes and combinations of target regions of interest are also known, and they can be widely applied in the dye application observation of the present embodiment.
  • the detection score is an index value indicating the certainty of the detection result.
  • the image to be processed is an in-vivo image and the detection target is a region of interest.
  • the detection target is a region of interest.
  • the region of interest in the present embodiment is an region in which the priority of observation for the user is relatively higher than that of other regions. If the user is a doctor performing diagnosis or treatment, the area of interest corresponds to, for example, the area where the lesion is imaged.
  • the region of interest may be a region that captures the foam portion or stool portion. That is, the object to be noticed by the user differs depending on the purpose of observation, but when observing the object, the area in which the priority of observation for the user is relatively higher than the other areas is the area of interest.
  • the region of interest is a lesion or a polyp.
  • the observation method for imaging the subject changes, such as the doctor switching the illumination light between normal light and special light, and spraying pigment on the body tissues. Due to this change in the observation method, the detection results vary. For example, when a detection result that appropriately detects a region of interest is obtained and a normal optical image is targeted, the detection score associated with the detection result tends to be large, and a special optical image is targeted. In some cases, there is a difference that the detection score tends to be small.
  • the sensitivity is information indicating the ratio of how many attention regions are appropriately detected in the attention region captured in the input image.
  • Such a detection mode can be realized by adjusting the threshold value so that the sensitivity when the evaluation image is input becomes x%.
  • the tendency of the detection score may differ depending on the observation method.
  • the sensitivity can be set to about x% even if the threshold value is relatively high.
  • the sensitivity cannot be set to about x% unless the threshold value is relatively low.
  • the threshold value When the threshold value is adjusted using a normal light image as an evaluation image, the desired sensitivity cannot be obtained when a special light image is input, which is inappropriate as a sensitivity priority mode. On the other hand, when the threshold value is adjusted using a special optical image, the sensitivity becomes excessively high when the normal optical image is input. Therefore, the over-detection rate may increase when inputting a normal optical image.
  • Over-detection is to erroneously detect a region that is not the region of interest as the region of interest. Further, in the following, information indicating the number of over-detections (locations / sheets) per unit image number is referred to as an over-detection rate. For example, when the threshold adjustment is performed using a normal optical image as an evaluation image in order to realize an overdetection suppression mode that satisfies the condition that the overdetection rate is near y, it is excessive when a special optical image is input. The detection rate may deviate from y. Further, when the threshold value is adjusted using the special optical image as the evaluation image, the overdetection rate may deviate from y when the normal optical image is input.
  • the sensitivity and overdetection rate vary due to changes in the observation method.
  • Conventional methods such as Patent Document 1 do not take into account changes in the observation method.
  • the conventional method for example, when the sensitivity priority mode is used, consistent detection processing cannot be performed, and the sensitivity differs depending on the observation method.
  • the over-detection suppression mode consistent detection processing cannot be performed, and the over-detection rate differs depending on the observation method.
  • the consistent detection process means that, for example, a numerical value representing sensitivity or a numerical value representing an overdetection rate is in the vicinity of a reference value regardless of the observation method.
  • the desired sensitivity may not be obtained even in the sensitivity priority mode, or the overdetection may not be sufficiently suppressed even in the overdetection suppression mode.
  • the threshold is set based on. Then, the set threshold value and the detection score are compared, and when the detection score is larger than the threshold value, the detection result of the region of interest is output.
  • the threshold value is dynamically adjusted according to the determination result of the observation method of the image to be processed, consistent detection processing can be realized even for images having different observation methods.
  • the detection process in which the detection sensitivity is consistently prioritized regardless of the observation method, or the detection process in which the suppression of over-detection is consistently prioritized can be executed. As a result, it becomes possible to provide a system capable of stable diagnostic support even when various observation methods are assumed.
  • FIG. 1 is a configuration example of a system including the image processing system 200.
  • the system includes a learning device 100, an image processing system 200, and an endoscope system 300.
  • the system is not limited to the configuration shown in FIG. 1, and various modifications such as omitting some of these components or adding other components can be performed.
  • the learning device 100 generates a trained model by performing machine learning.
  • the endoscope system 300 captures an in-vivo image with an endoscope imaging device.
  • the image processing system 200 acquires an in-vivo image as a processing target image. Then, the image processing system 200 operates according to the trained model generated by the learning device 100 to perform detection processing of the region of interest for the image to be processed.
  • the endoscope system 300 acquires and displays the detection result. In this way, by using machine learning, it becomes possible to realize a system that supports diagnosis by a doctor or the like.
  • the learning device 100, the image processing system 200, and the endoscope system 300 may be provided as separate bodies, for example.
  • the learning device 100 and the image processing system 200 are information processing devices such as a PC (Personal Computer) and a server system, respectively.
  • the learning device 100 may be realized by distributed processing by a plurality of devices.
  • the learning device 100 may be realized by cloud computing using a plurality of servers.
  • the image processing system 200 may be realized by cloud computing or the like.
  • the endoscope system 300 is a device including an insertion unit 310, a system control device 330, and a display unit 340, for example, as will be described later with reference to FIG.
  • a part or all of the system control device 330 may be realized by a device such as a server system via a network.
  • a part or all of the system control device 330 is realized by cloud computing.
  • one of the image processing system 200 and the learning device 100 may include the other.
  • the image processing system 200 (learning device 100) is a system that executes both a process of generating a learned model by performing machine learning and a detection process according to the learned model.
  • one of the image processing system 200 and the endoscope system 300 may include the other.
  • the system control device 330 of the endoscope system 300 includes an image processing system 200.
  • the system control device 330 executes both the control of each part of the endoscope system 300 and the detection process according to the trained model.
  • a system including all of the learning device 100, the image processing system 200, and the system control device 330 may be realized.
  • a server system composed of one or a plurality of servers generates a trained model by performing machine learning, a detection process according to the trained model, and control of each part of the endoscopic system 300. May be executed.
  • a server system composed of one or a plurality of servers generates a trained model by performing machine learning, a detection process according to the trained model, and control of each part of the endoscopic system 300. May be executed.
  • the specific configuration of the system shown in FIG. 1 can be modified in various ways.
  • FIG. 2 is a configuration example of the learning device 100.
  • the learning device 100 includes an image acquisition unit 110 and a learning unit 120.
  • the image acquisition unit 110 acquires a learning image.
  • the image acquisition unit 110 is, for example, a communication interface for acquiring a learning image from another device.
  • the learning image is an image in which correct answer data is added as metadata to, for example, a normal light image, a special light image, a dye spray image, or the like.
  • the learning unit 120 generates a trained model by performing machine learning based on the acquired learning image. The details of the data used for machine learning and the specific flow of the learning process will be described later.
  • the learning unit 120 is composed of the following hardware.
  • the hardware can include at least one of a circuit that processes a digital signal and a circuit that processes an analog signal.
  • hardware can consist of one or more circuit devices mounted on a circuit board or one or more circuit elements.
  • One or more circuit devices are, for example, ICs (Integrated Circuits), FPGAs (field-programmable gate arrays), and the like.
  • One or more circuit elements are, for example, resistors, capacitors, and the like.
  • the learning unit 120 may be realized by the following processor.
  • the learning device 100 includes a memory that stores information and a processor that operates based on the information stored in the memory.
  • the information is, for example, a program and various data.
  • the processor includes hardware.
  • various processors such as a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), and a DSP (Digital Signal Processor) can be used.
  • the memory may be a semiconductor memory such as SRAM (Static Random Access Memory) or DRAM (Dynamic Random Access Memory), a register, or a magnetic storage device such as an HDD (Hard Disk Drive). It may be an optical storage device such as an optical disk device.
  • the memory stores instructions that can be read by a computer, and when the instructions are executed by the processor, the functions of each part of the learning unit 120 are realized as processing.
  • Each part of the learning unit 120 is, for example, each part described later with reference to FIGS. 7 and 14.
  • the instruction here may be an instruction of an instruction set constituting a program, or an instruction instructing an operation to a hardware circuit of a processor.
  • FIG. 3 is a configuration example of the image processing system 200.
  • the image processing system 200 includes an image acquisition unit 210, a processing unit 220, and a storage unit 230.
  • the image acquisition unit 210 acquires an in-vivo image captured by the imaging device of the endoscope system 300 as a processing target image.
  • the image acquisition unit 210 is realized as a communication interface for receiving an in-vivo image from the endoscope system 300 via a network.
  • the network here may be a private network such as an intranet or a public communication network such as the Internet.
  • the network may be wired or wireless.
  • the processing unit 220 performs detection processing of the region of interest in the image to be processed by operating according to the trained model. Further, the processing unit 220 determines the information to be output based on the detection result of the trained model.
  • the processing unit 220 is composed of hardware including at least one of a circuit for processing a digital signal and a circuit for processing an analog signal.
  • hardware can consist of one or more circuit devices mounted on a circuit board or one or more circuit elements.
  • the processing unit 220 may be realized by the following processor.
  • the image processing system 200 includes a memory that stores information such as a program and various data, and a processor that operates based on the information stored in the memory.
  • the memory here may be the storage unit 230 or may be a different memory.
  • various processors such as GPU can be used.
  • the memory can be realized by various aspects such as a semiconductor memory, a register, a magnetic storage device, and an optical storage device.
  • the memory stores instructions that can be read by a computer, and when the instructions are executed by the processor, the functions of each part of the processing unit 220 are realized as processing.
  • Each part of the processing unit 220 is, for example, each part described later with reference to FIGS. 8 and 11.
  • the storage unit 230 serves as a work area for the processing unit 220 and the like, and its function can be realized by a semiconductor memory, a register, a magnetic storage device, or the like.
  • the storage unit 230 stores the image to be processed acquired by the image acquisition unit 210. Further, the storage unit 230 stores the information of the trained model generated by the learning device 100.
  • FIG. 4 is a configuration example of the endoscope system 300.
  • the endoscope system 300 includes an insertion unit 310, an external I / F unit 320, a system control device 330, a display unit 340, and a light source device 350.
  • the insertion portion 310 is a portion whose tip side is inserted into the body.
  • the insertion unit 310 includes an objective optical system 311, an image sensor 312, an actuator 313, an illumination lens 314, a light guide 315, and an AF (Auto Focus) start / end button 316.
  • the light guide 315 guides the illumination light from the light source 352 to the tip of the insertion portion 310.
  • the illumination lens 314 irradiates the subject with the illumination light guided by the light guide 315.
  • the objective optical system 311 forms an image of the reflected light reflected from the subject as a subject image.
  • the objective optical system 311 includes a focus lens, and the position where the subject image is formed can be changed according to the position of the focus lens.
  • the actuator 313 drives the focus lens based on the instruction from the AF control unit 336.
  • AF is not indispensable, and the endoscope system 300 may be configured not to include the AF control unit 336.
  • the image sensor 312 receives light from the subject that has passed through the objective optical system 311.
  • the image pickup device 312 may be a monochrome sensor or an element provided with a color filter.
  • the color filter may be a widely known bayer filter, a complementary color filter, or another filter.
  • Complementary color filters are filters that include cyan, magenta, and yellow color filters.
  • the AF start / end button 316 is an operation interface for the user to operate the AF start / end.
  • the external I / F unit 320 is an interface for inputting from the user to the endoscope system 300.
  • the external I / F unit 320 includes, for example, an AF control mode setting button, an AF area setting button, an image processing parameter adjustment button, and the like.
  • the system control device 330 performs image processing and control of the entire system.
  • the system control device 330 includes an A / D conversion unit 331, a pre-processing unit 332, a detection processing unit 333, a post-processing unit 334, a system control unit 335, an AF control unit 336, and a storage unit 337.
  • the A / D conversion unit 331 converts the analog signals sequentially output from the image sensor 312 into a digital image, and sequentially outputs the analog signals to the preprocessing unit 332.
  • the pre-processing unit 332 performs various correction processes on the in-vivo images sequentially output from the A / D conversion unit 331, and sequentially outputs them to the detection processing unit 333 and the AF control unit 336.
  • the correction process includes, for example, a white balance process, a noise reduction process, and the like.
  • the detection processing unit 333 performs a process of transmitting, for example, an image after correction processing acquired from the preprocessing unit 332 to an image processing system 200 provided outside the endoscope system 300.
  • the endoscope system 300 includes a communication unit (not shown), and the detection processing unit 333 controls the communication of the communication unit.
  • the communication unit here is a communication interface for transmitting an in-vivo image to the image processing system 200 via a given network.
  • the detection processing unit 333 performs a process of receiving the detection result from the image processing system 200 by controlling the communication of the communication unit.
  • the system control device 330 may include an image processing system 200.
  • the A / D conversion unit 331 corresponds to the image acquisition unit 210.
  • the storage unit 337 corresponds to the storage unit 230.
  • the pre-processing unit 332, the detection processing unit 333, the post-processing unit 334, and the like correspond to the processing unit 220.
  • the detection processing unit 333 operates according to the information of the learned model stored in the storage unit 337 to perform the detection processing of the region of interest for the in-vivo image which is the processing target image.
  • the trained model is a neural network
  • the detection processing unit 333 performs forward arithmetic processing on the input processing target image using the weight determined by learning. Then, the detection result is output based on the output of the output layer.
  • the post-processing unit 334 performs post-processing based on the detection result in the detection processing unit 333, and outputs the image after the post-processing to the display unit 340.
  • various processes such as emphasizing the recognition target in the image and adding information representing the detection result can be considered.
  • the post-processing unit 334 performs post-processing to generate a display image by superimposing the detection frame detected by the detection processing unit 333 on the image output from the pre-processing unit 332.
  • the system control unit 335 is connected to the image sensor 312, the AF start / end button 316, the external I / F unit 320, and the AF control unit 336, and controls each unit. Specifically, the system control unit 335 inputs and outputs various control signals.
  • the AF control unit 336 performs AF control using images sequentially output from the preprocessing unit 332.
  • the display unit 340 sequentially displays the images output from the post-processing unit 334.
  • the display unit 340 is, for example, a liquid crystal display, an EL (Electro-Luminescence) display, or the like.
  • the light source device 350 includes a light source 352 that emits illumination light.
  • the light source 352 may be a xenon light source, an LED, or a laser light source. Further, the light source 352 may be another light source, and the light emitting method is not limited.
  • the light source device 350 can irradiate normal light and special light.
  • the light source device 350 includes a white light source and a rotation filter, and can switch between normal light and special light based on the rotation of the rotation filter.
  • the light source device 350 has a configuration capable of irradiating a plurality of lights having different wavelength bands by including a plurality of light sources such as a red LED, a green LED, a blue LED, a green narrow band light LED, and a blue narrow band light LED. You may.
  • the light source device 350 irradiates normal light by lighting a red LED, a green LED, and a blue LED, and irradiates special light by lighting a green narrow band light LED and a blue narrow band light LED.
  • various configurations of a light source device that irradiates normal light and special light are known, and they can be widely applied in the present embodiment.
  • the first observation method is normal light observation and the second observation method is special light observation will be described.
  • the second observation method may be dye spray observation. That is, in the following description, the notation of special light observation or special light image can be appropriately read as dye spray observation and dye spray image.
  • machine learning using a neural network will be described. That is, the region of interest detector and the observation method classifier described below are, for example, trained models using a neural network.
  • the method of the present embodiment is not limited to this.
  • machine learning using another model such as SVM (support vector machine) may be performed, or machine learning using a method developed from various methods such as a neural network or SVM. May be done.
  • SVM support vector machine
  • FIG. 5A is a schematic diagram illustrating a neural network.
  • the neural network has an input layer into which data is input, an intermediate layer in which operations are performed based on the output from the input layer, and an output layer in which data is output based on the output from the intermediate layer.
  • a network in which the intermediate layer is two layers is illustrated, but the intermediate layer may be one layer or three or more layers.
  • the number of nodes (neurons) included in each layer is not limited to the example of FIG. 5 (A), and various modifications can be performed. Considering the accuracy, it is desirable to use deep learning using a multi-layer neural network for the learning of this embodiment.
  • the term "multilayer” here means four or more layers in a narrow sense.
  • the nodes included in a given layer are combined with the nodes in the adjacent layer.
  • a weighting coefficient is set for each bond.
  • Each node multiplies the output of the node in the previous stage by the weighting coefficient to obtain the total value of the multiplication results.
  • each node adds a bias to the total value and obtains the output of the node by applying an activation function to the addition result.
  • activation functions By sequentially executing this process from the input layer to the output layer, the output of the neural network is obtained.
  • Various functions such as a sigmoid function and a ReLU function are known as activation functions, and these can be widely applied in the present embodiment.
  • the weighting coefficient here includes a bias.
  • the learning device 100 inputs the input data of the training data to the neural network, and obtains the output by performing a forward calculation using the weighting coefficient at that time.
  • the learning unit 120 of the learning device 100 calculates an error function based on the output and the correct answer data of the training data. Then, the weighting coefficient is updated so as to reduce the error function.
  • an error backpropagation method in which the weighting coefficient is updated from the output layer to the input layer can be used.
  • FIG. 5B is a schematic diagram illustrating CNN.
  • the CNN includes a convolutional layer and a pooling layer that perform a convolutional operation.
  • the convolution layer is a layer to be filtered.
  • the pooling layer is a layer that performs a pooling operation that reduces the size in the vertical direction and the horizontal direction.
  • the example shown in FIG. 5B is a network in which the output is obtained by performing the calculation by the convolution layer and the pooling layer a plurality of times and then performing the calculation by the fully connected layer.
  • the fully connected layer is a layer that performs arithmetic processing when all the nodes of the previous layer are connected to the nodes of a given layer, and the arithmetic of each layer described above is performed using FIG. 5 (A). Correspond. Although the description is omitted in FIG. 5B, the CNN also performs arithmetic processing by the activation function.
  • Various configurations of CNNs are known, and they can be widely applied in the present embodiment. For example, as the CNN of the present embodiment, a known RPN or the like (Region Proposal Network) can be used.
  • the processing procedure is the same as in FIG. 5 (A). That is, the learning device 100 inputs the input data of the training data to the CNN, and obtains an output by performing a filter process or a pooling operation using the filter characteristics at that time. An error function is calculated based on the output and the correct answer data, and the weighting coefficient including the filter characteristic is updated so as to reduce the error function.
  • the backpropagation method can be used.
  • the detection process of the region of interest executed by the image processing system 200 is specifically a process of detecting at least one of the presence / absence, position, size, and shape of the region of interest.
  • the detection process is a process of obtaining information for specifying a rectangular frame area surrounding a region of interest and a detection score indicating the certainty of the frame area.
  • the frame area is referred to as a detection frame.
  • the information that identifies the detection frame is, for example, the coordinate value on the horizontal axis of the upper left end point of the detection frame, the coordinate value on the vertical axis of the end point, the length in the horizontal axis direction of the detection frame, and the length in the vertical axis direction of the detection frame. , And four numerical values. Since the aspect ratio of the detection frame changes as the shape of the region of interest changes, the detection frame corresponds to information representing the shape as well as the presence / absence, position, and size of the region of interest.
  • FIG. 7 is a configuration example of the learning device 100 according to the first embodiment.
  • the learning unit 120 of the learning device 100 includes a detection learning unit 121 and an observation method classification learning unit 122.
  • the detection learning unit 121 acquires the image group A1 from the image acquisition unit 110 and performs machine learning based on the image group A1 to generate a region of interest detector.
  • the learning process executed by the detection learning unit 121 is a learning process for generating a learned model applicable to both a normal light image and a special light image. That is, the image group A1 includes a learning image to which detection data which is information related to at least one of the presence / absence, a position, a size, and a shape of a region of interest is added to a normal optical image, and a special optical image. Includes a learning image to which detection data is added.
  • the detection data is mask data in which the polyp area to be detected and the background area are painted in different colors.
  • the detection data may be information for identifying a detection frame surrounding the polyp.
  • the detection frame is not limited to a rectangular frame, and may be an elliptical frame or the like as long as it surrounds the vicinity of the polyp region.
  • FIG. 6A is a diagram illustrating the input and output of the region of interest detector.
  • the region of interest detector receives the image to be processed as an input, performs processing on the image to be processed, and outputs information representing the detection result.
  • the detection learning unit 121 performs machine learning of a model including an input layer into which an image is input, an intermediate layer, and an output layer for outputting a detection result.
  • the region of interest detector is an object detection CNN such as RPN (Region Proposal Network), Faster R-CNN, and YOLO (You only Look Once).
  • the detection learning unit 121 uses the learning image included in the image group A1 as an input of the neural network, and performs a forward calculation based on the current weighting coefficient.
  • the detection learning unit 121 calculates the error between the output of the output layer and the detection data which is the correct answer data as an error function, and updates the weighting coefficient so as to reduce the error function.
  • the above is the process based on one learning image, and the detection learning unit 121 learns the weighting coefficient of the region of interest detector by repeating the above process.
  • the update of the weighting coefficient is not limited to the one performed in units of one sheet, and batch learning or the like may be used.
  • the image group A2 is a learning image in which observation method data, which is information for specifying an observation method, is added as correct answer data to a normal light image, and a learning image in which observation method data is added to a special optical image. It is an image group including an image.
  • the observation method data is, for example, a label representing either a normal light image or a special light image.
  • FIG. 6B is a diagram illustrating the input and output of the observation method classifier.
  • the observation method classifier receives the processing target image as an input, performs processing on the processing target image, and outputs information representing the observation method classification result.
  • the information representing the observation method classification result is, for example, the first classification score and the second classification score.
  • the observation method classification learning unit 122 performs machine learning of a model including an input layer into which an image is input and an output layer in which the observation method classification result is output.
  • the observation method classifier is, for example, an image classification CNN such as VGG16 or ResNet.
  • the observation method classification learning unit 122 uses the learning image included in the image group A2 as an input of the neural network, and performs a forward calculation based on the current weighting coefficient.
  • the detection learning unit 121 calculates the error between the output of the output layer and the observation method data which is the correct answer data as an error function, and updates the weighting coefficient so as to reduce the error function.
  • the observation method classification learning unit 122 learns the weighting coefficient of the observation method classifier by repeating the above processing.
  • the output of the output layer in the observation method classifier is, for example, data representing the certainty that the input image is a normal light image captured in normal light observation, and the input image is captured in special light observation. Includes data representing certainty, which is a special light image.
  • the output layer of the observation method classifier is a known softmax layer
  • the output layer outputs two probability data having a total of 1.
  • the data representing the certainty that the input image is a normal light image is referred to as a normal light score
  • the data representing the certainty that the input image is a special light image is referred to as a special light score.
  • the first classification score corresponds to the normal light score
  • the second classification score corresponds to the special light score.
  • the observation method classification learning unit 122 makes an error by using the data that the probability data that is the normal light image is 1 and the probability data that is the special light image is 0 as the correct answer data. Find the function. Further, in the observation method classification learning unit 122, when the label which is the correct answer data is a special light image, the data which the probability data which is a normal light image is 0 and the probability data which is a special light image is 1 is regarded as the correct answer data. Find the error function.
  • FIG. 8 is a configuration example of the image processing system 200 according to the first embodiment.
  • the processing unit 220 of the image processing system 200 includes an observation method classification unit 221, a threshold value setting unit 222, a detection processing unit 223, and an output processing unit 224.
  • the observation method classification unit 221 performs an observation method classification process based on the observation method classifier.
  • the threshold value setting unit 222 sets the threshold value used for the output processing of the detection result based on the result of the observation method classification processing.
  • the detection processing unit 223 performs detection processing using the region of interest detector.
  • the output processing unit 224 performs output processing based on the threshold value set by the threshold value setting unit 222 and the detection result of the detection processing unit 223.
  • FIG. 9 is a flowchart illustrating the processing of the image processing system 200 in the first embodiment.
  • the processing flow is not limited to FIG. 9, and various modifications can be performed.
  • the detection process in step S103 may be performed after the threshold value setting process in steps S104 to S106, or the detection process and the threshold value setting process may be performed in parallel.
  • each step will be described.
  • step S101 the image acquisition unit 210 acquires an in-vivo image captured by the endoscope imaging device as a processing target image.
  • the observation method classification unit 221 performs an observation method classification process for determining whether the image to be processed is a normal light image or a special light image. For example, the observation method classification unit 221 inputs the processing target image acquired by the image acquisition unit 210 into the observation method classifier, so that the normal light score indicating the probability that the processing target image is a normal light image and the processing target image are Acquires a special light score indicating the probability of being a special light image.
  • the detection processing unit 223 performs detection processing of the region of interest using the region of interest detector. Specifically, the detection processing unit 223 inputs the processing target image into the region of interest detector to obtain information on a predetermined number of detection frames in the processing target image and a detection score associated with the detection frame. get.
  • the detection result in the present embodiment represents, for example, a detection frame, and the detection score represents the certainty of the detection result.
  • the threshold value setting unit 222 sets the threshold value based on the observation method classification result. Specifically, first, in step S104, the threshold value setting unit 222 determines whether or not the observation method classification result represents normal light observation. For example, the threshold value setting unit 222 acquires the normal light score and the special light score from the observation method classification unit 221 and determines the magnitude relationship between them. The threshold setting unit 222 determines that the observation method is normal light observation when the normal light score is equal to or higher than the special light score, and when the normal light score is smaller than the special light score, the observation method is special light observation. Judge that there is.
  • the threshold value setting unit 222 sets the threshold value for normal light observation in step S105.
  • the threshold value setting unit 222 sets the threshold value for special light observation in step S106.
  • the storage unit 230 of the image processing system stores the threshold value Th1 acquired by using the normal light image as the evaluation image and the threshold value Th2 acquired by using the special light observation as the evaluation image. doing.
  • Th1 when realizing an overdetection suppression mode in which the overdetection rate is close to 0.05 (locations / image), Th1 has an overdetection rate of 0.05 when a normal optical image is input as an evaluation image. It is a threshold value set to be. Th2 is a threshold value set so that the over-detection rate when a special light image is input as an evaluation image is 0.05.
  • the threshold value setting unit 222 performs a process of setting Th1 as a threshold value in step S105, and a process of setting Th2 as a threshold value in step S106.
  • step S107 the output processing unit 224 executes the output processing of the detection result based on the detection result acquired in step S103 and the threshold value set in step S105 or S106. Specifically, the output processing unit 224 performs a process of comparing the detection score associated with the detection frame with the set threshold value. Then, the output processing unit 224 outputs the detection frame whose detection score is larger than the threshold value among the detection frames detected by the detection processing unit 223, and does not output the detection frame whose detection score is equal to or less than the threshold value.
  • the output process in step S107 is, for example, a process of generating a display image when the image processing system 200 is included in the endoscope system 300, and a process of displaying the display image on the display unit 340.
  • the output process is, for example, a process of transmitting a displayed image to the endoscope system 300.
  • the output process may be a process of transmitting information representing the detection frame to the endoscope system 300.
  • the display image generation process and display control are executed in the endoscope system 300.
  • the image processing system 200 has an image acquisition unit 210 that acquires the image to be processed and a processing unit that outputs a detection result that is the result of detecting the region of interest in the image to be processed. Includes 220.
  • the processing unit 220 has a first classification score indicating the certainty that the image to be processed has been captured in the first observation method, and the image to be processed has been captured in the second observation method.
  • the second classification score which represents the certainty, is obtained.
  • the processing unit 220 detects the region of interest in the image to be processed and obtains a detection score indicating the certainty of the detected region of interest.
  • the processing unit 220 sets the threshold value based on the first classification score and the second classification score. Then, as shown in step S107, the processing unit 220 compares the set threshold value with the detection score, and outputs the detection result of the region of interest when the detection score is larger than the threshold value.
  • the first classification score is a normal light score
  • the second classification score is a special light score
  • the second observation method may be dye spray observation
  • the second classification score in that case is information indicating the certainty that the image to be processed is a dye spray image.
  • an appropriate threshold value can be set based on the classification result of the observation method in which the image to be processed is captured. This makes it possible to suppress variations in sensitivity and over-detection according to the observation method of the image to be processed, and to perform consistent detection processing.
  • the process of obtaining the first classification score and the second classification score is performed based on the observation method classifier.
  • the process of obtaining the detection result and the detection score is performed based on the region of interest detector.
  • the processing based on each of the observation method classifier and the region of interest detector is realized by operating the processing unit 220 according to the instruction from the trained model.
  • the calculation in the processing unit 220 according to the trained model may be executed by software or hardware.
  • the multiply-accumulate operation executed at each node of FIG. 5A, the filter processing executed at the convolution layer of the CNN, and the like may be executed by software.
  • the above calculation may be executed by a circuit device such as FPGA.
  • the above calculation may be executed by a combination of software and hardware.
  • the operation of the processing unit 220 according to the command from the trained model can be realized by various aspects.
  • a trained model includes an inference algorithm and parameters used in the inference algorithm.
  • the inference algorithm is an algorithm that performs filter operations and the like based on input data.
  • the parameter is a parameter acquired by the learning process, and is, for example, a weighting coefficient.
  • both the inference algorithm and the parameters are stored in the storage unit 230, and the processing unit 220 may perform the inference processing by software by reading the inference algorithm and the parameters.
  • the inference algorithm may be realized by FPGA or the like, and the storage unit 230 may store the parameters.
  • an inference algorithm including parameters may be realized by FPGA or the like.
  • the storage unit 230 that stores the information of the trained model is, for example, the built-in memory of the FPGA.
  • the image to be processed in this embodiment is an in-vivo image captured by an endoscopic imaging device.
  • the endoscope image pickup device is an image pickup device provided in the endoscope system 300 and capable of outputting an imaging result of a subject image corresponding to a living body, and corresponds to an image pickup element 312 in a narrow sense.
  • the first observation method is an observation method in which normal light is used as illumination light
  • the second observation method is an observation method in which special light is used as illumination light.
  • the first observation method may be an observation method in which normal light is used as illumination light
  • the second observation method may be an observation method in which dye is sprayed on the subject. In this way, even if the observation method is changed by spraying the coloring material on the subject, it is possible to suppress variations in sensitivity and overdetection due to the change.
  • Special light observation and dye spray observation can improve the visibility of a specific subject as compared with normal light observation, so there is a great advantage in using them together with normal light observation.
  • the processing unit 220 has a first classification score indicating the certainty that the processed image is captured in the first observation method, and a certainty that the processed image is captured in the second observation method.
  • the second classification score which expresses the peculiarity, is obtained.
  • the trained model is an observation showing a learning image captured by the first observation method or the second observation method and whether the learning image is an image captured by the first observation method or the second observation method. It is a model acquired by method data and machine learning based on it.
  • the image processing system 200 of the present embodiment may further include a storage unit 230 that stores a first threshold value corresponding to the first observation method and a second threshold value corresponding to the second observation method.
  • the processing unit 220 sets the first threshold value as the threshold value when the first classification score is larger than the second classification score.
  • the processing unit 220 sets the second threshold value as the threshold value when the second classification score is larger than the first classification score.
  • the processing unit 220 may set the first threshold value as the threshold value or the second threshold value as the threshold value.
  • the first threshold value here is a threshold value acquired by using the image captured in the first observation method as an evaluation image, and is, for example, Th1 described above.
  • the second threshold value is a threshold value obtained by using the image captured in the second observation method as an evaluation image, and is, for example, Th2. In this way, by selecting the threshold value based on the magnitude relationship of the classification score, it is possible to set the threshold value suitable for the observation method of the image to be processed.
  • the threshold setting in this embodiment is not limited to this.
  • the processing unit 220 may set the threshold value by weighting and adding the first threshold value and the second threshold value using the weights based on the first classification score and the second classification score.
  • the threshold setting unit 222 sets the threshold value based on the following equation (1).
  • Set Th. Th SC1 x Th1 + SC2 x Th2 ... (1)
  • both the first classification score and the second classification score are in the vicinity of 0.5, it is difficult to determine whether the image to be processed is a normal light image or a special light image.
  • Th1 itself corresponding to a normal light image is set as a threshold value, that point is not taken into consideration even though the image to be processed includes some image features similar to those of the special light image.
  • the sensitivity and overdetection rate may vary.
  • Th2 itself corresponding to the special light image is set as the threshold value.
  • the above equation (1) is an example of weighting addition, and the threshold value may be obtained by different operations.
  • the classification score itself which is the probability data, is used as the weight in the weighting addition, but the processing is not limited to this.
  • the weight may be determined by preparing table data in which the first classification score and the second classification score are associated with the weight in the weighting addition and referring to the table data.
  • the image processing system 200 may be able to switch between a plurality of detection modes.
  • the storage unit 230 stores the threshold value according to the detection mode and the observation method.
  • the storage unit 230 has a threshold value Th11 suitable for sensitivity priority mode and normal light observation, Th12 suitable for overdetection suppression mode and normal light observation, and a threshold value Th21 suitable for sensitivity priority mode and special light observation.
  • Th22 which is suitable for over-detection suppression mode and special light observation, may be stored.
  • the threshold value setting unit 222 sets the threshold value based on the current detection mode and the classification score output from the observation method classification unit 221. For example, when the detection mode is the sensitivity priority mode, the threshold value setting unit 222 sets the threshold value based on Th11, Th21, the first classification score, and the second classification score. Specifically, the threshold value setting unit 222 may select either Th11 or Th21 as described above, or may perform weighting addition. When the detection mode is the over-detection suppression mode, the threshold value setting unit 222 sets the threshold value based on Th12, Th22, the first classification score, and the second classification score.
  • the method of the present embodiment only needs to be able to execute a consistent detection process for each detection mode, and the number of detection modes may be one or two or more.
  • the detection mode may be determined by user input or may be automatically determined by the system.
  • the threshold value setting unit 222 can acquire information for specifying the detection mode.
  • observation method classifier of the present embodiment may consist of a convolutional neural network. In this way, the observation method classification process for the image can be executed efficiently and with high accuracy.
  • region of interest detector of this embodiment may be CNN. In this way, it is possible to efficiently and highly accurately execute the detection process using the image as an input.
  • the endoscope system 300 includes an imaging unit that captures an in-vivo image, an image acquisition unit that acquires an in-vivo image as a processing target image, and a processing unit that performs processing on the processing target image.
  • the image pickup unit in this case is, for example, an image pickup device 312.
  • the image acquisition unit is, for example, an A / D conversion unit 331.
  • the processing unit is, for example, a pre-processing unit 332, a detection processing unit 333, a post-processing unit 334, and the like. It is also possible to think that the image acquisition unit corresponds to the A / D conversion unit 331 and the preprocessing unit 332, and the specific configuration can be modified in various ways.
  • the processing unit of the endoscope system 300 includes a first classification score indicating the certainty that the processed image is captured by the first observation method, and a second classification score indicating the certainty that the processed image is captured by the second observation method. Find the classification score.
  • the processing unit detects a region of interest in the image to be processed, and obtains a detection score indicating the certainty of the detected region of interest. Then, the processing unit sets a threshold value based on the first classification score and the previous two classification scores, compares the set threshold value with the detection score, and when the detection score is larger than the threshold value, the detection result of the region of interest. Is output.
  • the processing performed by the image processing system 200 of the present embodiment may be realized as an image processing method.
  • the image to be processed is acquired, the first classification score indicating the certainty that the image to be processed is captured in the first observation method, and the image to be processed are captured in the second observation method.
  • the second classification score indicating the certainty is obtained, the region of interest is detected in the image to be processed, the detection score representing the certainty of the detected region of interest is obtained, and based on the first classification score and the second classification score.
  • a threshold value is set, the set threshold value is compared with the detection score, and when the detection score is larger than the threshold value, the detection result of the region of interest is output.
  • observation method classifier executes only the observation method classification process.
  • the observation method classifier may execute the detection process of the region of interest in addition to the observation method classification process.
  • the first observation method is normal light observation and the second observation method is special light observation will be described, but the second observation method may be dye spray observation. ..
  • the learning unit 120 of the present embodiment is not divided into the detection learning unit 121 and the observation method classification learning unit 122, and performs a process of generating an observation method classifier that performs both the detection process and the observation method classification process.
  • the observation method classifier of the second embodiment is also referred to as a detection integrated observation method classifier.
  • a detection-integrated observation method classifier for example, a CNN for detecting a region of interest and a CNN for classifying an observation method share a feature extraction layer for extracting features while repeating convolution, pooling, and nonlinear activation processing, and detect from the feature extraction layer.
  • a configuration that is divided into the output of the result and the output of the observation method classification result is used.
  • FIG. 10 is a diagram showing a configuration of a neural network of a detection integrated observation method classifier.
  • the CNN which is a detection-integrated observation method classifier, includes a feature amount extraction layer, a detection layer, and an observation method classification layer.
  • Each of the rectangular regions in FIG. 10 represents a layer that performs some calculation such as a convolution layer, a pooling layer, and a fully connected layer.
  • the configuration of the CNN is not limited to FIG. 10, and various modifications can be performed.
  • the feature amount extraction layer accepts the image to be processed as an input and outputs the feature amount by performing an operation including a convolution operation and the like.
  • the detection layer takes the feature amount output from the feature amount extraction layer as an input, and outputs information representing the detection result.
  • the output of the detection layer is, for example, a detection frame and a detection score associated with the detection frame.
  • the observation method classification layer receives the feature amount output from the feature amount extraction layer as an input, and outputs information representing the observation method classification result.
  • the output of the observation method classification layer is, for example, a first classification score and a second classification score.
  • the learning device 100 executes a learning process for determining weighting coefficients in each of the feature amount extraction layer, the detection layer, and the observation method classification layer.
  • the learning unit 120 of the present embodiment includes a learning image in which detection data and observation method data are added as correct answer data to a normal light image, and learning in which detection data and observation method data are added to a special light image.
  • a detection-integrated observation method classifier is generated by performing learning processing based on an image group including an image for use.
  • the learning unit 120 takes a normal light image or a special light image included in the image group as an input and performs a forward calculation based on the current weighting coefficient.
  • the observation method classification learning unit 122 calculates the error between the result obtained by the forward calculation and the correct answer data as an error function, and updates the weighting coefficient so as to reduce the error function.
  • the learning unit 120 obtains the weighted sum of the error between the output of the detection layer and the detection data and the error between the output of the observation method classification layer and the observation method data as an error function.
  • all of the weighting coefficient in the feature amount extraction layer, the weighting coefficient in the detection layer, and the weighting coefficient in the observation method classification layer become learning targets.
  • FIG. 11 is a configuration example of the image processing system 200 according to the second embodiment.
  • the processing unit 220 of the image processing system 200 includes a detection classification unit 225, a threshold value setting unit 222, and an output processing unit 224.
  • the detection classification unit 225 outputs the detection result and the observation method classification result based on the detection integrated observation method classifier generated by the learning device 100.
  • the threshold value setting unit 222 and the output processing unit 224 are the same as those in the first embodiment.
  • FIG. 12 is a flowchart illustrating the processing of the image processing system 200 in the second embodiment.
  • the image acquisition unit 210 acquires an in-vivo image captured by the endoscope imaging device as a processing target image.
  • step S202 the detection classification unit 225 performs a forward calculation using the processing target image acquired by the image acquisition unit 210 as an input of the detection integrated observation method classifier.
  • the detection classification unit 225 acquires the information representing the detection result from the detection layer and the information representing the observation method classification result from the observation method classification layer. Specifically, the detection classification unit 225 acquires the detection frame, the detection score, the first classification score, and the second classification score.
  • steps S203 to S206 are the same as that of steps S104 to S107 of FIG. That is, in steps S203 to S205, the threshold value setting unit 222 sets the threshold value based on the first classification score and the second classification score. In step S206, the output processing unit 224 outputs the detection result based on the detection score and the set threshold value. However, it differs from the first embodiment in that the detection frame and the detection score are the information output by the detection integrated observation method classifier.
  • the processing unit 220 in the present embodiment obtains the first classification score, the second classification score, and the detection score by operating according to the trained model.
  • the trained model is a model acquired by machine learning based on the learning image captured by the first observation method or the second observation method and the correct answer data, and the correct answer data is the region of interest in the training image.
  • the observation method classifier can also serve as a detector for the region of interest.
  • the configuration shown in FIG. 10 it becomes possible to standardize the feature amount extraction in the detection process and the feature amount extraction in the observation method classification process. Therefore, it is possible to reduce the size of the trained model as compared with the case where each feature quantity sampling layer is provided.
  • the storage unit 230 of the image processing system 200 stores the weighting coefficient of the trained model, the capacity of the storage unit 230 can be reduced.
  • an inference processing algorithm according to the trained model is configured by using an FPGA or the like, the size of the FPGA can be reduced.
  • the first observation method is normal light observation and the second observation method is special light observation or dye spray observation has been described.
  • the observation method is not limited to two.
  • three observation methods may be used: normal light observation, special light observation, and dye spray observation.
  • the observation method is not limited to normal light observation, special light observation, and dye spray observation.
  • the observation method of the present embodiment includes a water supply observation method, which is an observation method in which an image is taken while a water supply operation for discharging water from the insertion portion is performed, and an air supply operation for discharging gas from the insertion portion.
  • air supply observation which is an observation method for imaging in a state
  • bubble observation which is an observation method for imaging a subject with bubbles attached
  • residue observation which is an observation method for imaging a subject with residues, and the like.
  • the combination of observation methods can be flexibly changed, and two or more of normal light observation, special light observation, dye spray observation, water supply observation, air supply observation, bubble observation, and residue observation can be arbitrarily combined. Further, an observation method other than the above may be used.
  • the observation method classifier When an observation method according to N (N is an integer of 3 or more) is assumed, the observation method classifier outputs the first to Nth classification scores.
  • the i-th classification score is data representing the certainty that the image input to the observation method classifier was captured in the i-th observation method.
  • i is an integer of 1 or more and N or less.
  • the 1st to Nth classification scores are probability data in which the total is 1.
  • the storage unit 230 stores threshold values Th1 to ThN suitable for each of the first to Nth observation methods.
  • the threshold value setting unit 222 sets the threshold value based on the first to Nth classification scores, which are the outputs of the observation method classifier, and the threshold values Th1 to ThN.
  • the threshold value setting unit 222 may select any one of Th1 to ThN as a threshold value based on the classification score having the maximum value among the first to Nth classification scores, or the first to third classification scores.
  • the threshold value may be calculated by weighting and adding the N classification score and Th1 to ThN.
  • FIG. 13 is an example of the threshold value corresponding to each observation method stored in the storage unit 230.
  • the storage unit 230 can be used as a threshold for realizing the sensitivity priority mode in each observation method of normal light observation, special light observation, dye spray observation, water supply observation, air supply observation, bubble observation, and residue observation. Seven suitable thresholds Th11 to Th71 are stored.
  • the storage unit 230 has seven threshold values suitable for the normal light observation, the special light observation, the dye spray observation, the water supply observation, the air supply observation, the bubble observation, and the residue observation as the threshold values for realizing the overdetection suppression mode.
  • the threshold values Th12 to Th72 are stored. That is, when the number of detection modes is M (M is an integer of 1 or more) and the number of observation methods is N, the storage unit 230 stores N ⁇ M threshold values Th11 to ThNM.
  • the threshold setting unit 222 selects N thresholds out of N ⁇ M thresholds by specifying the detection mode. For example, when the j-th detection mode (j is an integer of 1 or more and M or less) is realized, the threshold value setting unit 222 selects Th1j to ThNj. Then, the threshold value is set based on the first to Nth classification scores and the threshold values Th1j to ThNj.
  • the number of observation methods can be expanded to 3 or more.
  • the number of detection modes is not limited to 1 or 2, and may be expanded to 3 or more. In this way, even when a variety of observation methods are targeted, it is possible to realize a consistent detection process regardless of the observation method.
  • a diagnosis step by a doctor can be considered as a step of searching for a lesion by using normal light observation and a step of distinguishing the malignancy of the found lesion by using special light observation. Since the special optical image has higher visibility of the lesion than the normal optical image, it is possible to accurately distinguish the malignancy. However, the number of special light images acquired is smaller than that of a normal light image. Therefore, there is a risk that the detection accuracy will decrease due to the lack of training data in machine learning using special optical images.
  • a method of pre-training and fine-tuning is known for lack of training data.
  • the difference in the observation method between the special light image and the normal light image is not taken into consideration.
  • the test image here represents an image that is the target of inference processing using the learning result. That is, the conventional method does not disclose a method for improving the accuracy of the detection process for a special optical image.
  • pre-training is performed using an image group including a normal light image
  • fine tuning is performed using an image group including a special light image.
  • the second observation method may be dye spray observation.
  • the second observation method can be extended to other observation methods in which the detection accuracy may decrease due to the lack of training data.
  • the second observation method may be the above-mentioned air supply observation, water supply observation, bubble observation, residue observation, or the like.
  • FIG. 14 is a configuration example of the learning device 100 of the present embodiment.
  • the learning unit 120 includes a pre-training unit 123 and a fine tuning unit 124.
  • the pre-training unit 123 acquires the image group B1 from the image acquisition unit 110 and performs machine learning based on the image group B1 to perform pre-training of the detection integrated observation method classifier.
  • the image group B1 includes a learning image in which detection data is added to a normal optical image. As described above, ordinary light observation is widely used in the process of searching for a region of interest. Therefore, abundant normal optical images to which the detection data are added can be acquired.
  • the process performed by the pre-training unit 123 using the image group B1 is pre-training for the detection task.
  • the pre-training for the detection task is a learning process for updating the weighting coefficients of the feature amount extraction layer and the detection layer in FIG. 10 by using the detection data as correct answer data. That is, in the pre-training of the detection-integrated observation method classifier, the weighting coefficient of the observation method classification layer is not a learning target.
  • the fine tuning unit 124 performs learning processing using a special light image that is difficult to acquire abundantly.
  • the image group B2 is an image group including a learning image in which detection data and observation method data are added to a normal light image and a learning image in which detection data and observation method data are added to a special light image. is there.
  • the fine-tuning unit 124 generates a detection-integrated observation method classifier by executing a learning process using the image group B2 with the weighting coefficient acquired by pre-training as an initial value. In fine tuning, learning is performed for both the detection task and the observation method classification task, so that all the weighting coefficients of the feature extraction layer, the detection layer, and the observation method classification layer are the learning targets.
  • the processing after the generation of the detection integrated observation method classifier is the same as that of the second embodiment. Further, the method of the fourth embodiment and the method of the third embodiment may be combined. That is, when three or more observation methods including normal light observation are used, it is possible to combine pretraining using normal light images and fine tuning using captured images in an observation method in which the number of images to be imaged is insufficient. is there.
  • the observation method classifier and the region of interest detector may be separate bodies.
  • the region of interest detector is generated by performing pretraining using a normal light image and fine tuning using a normal light image and a special light image.
  • an observation method classifier is generated by performing pretraining for the detection task using normal optical images and performing fine tuning for the observation method classification task by diverting the feature sampling layer after pretraining. May be good.
  • the trained model is pretrained using the first image group including the images captured by the first observation method, and after the pretraining, the images captured by the first observation method and the second observation method. It may be a model learned by fine tuning using a second image group including the images captured in.
  • the trained model here is specifically a detection-integrated observation method classifier.
  • the first image group corresponds to the image group B1 and is an image group including a plurality of learning images to which detection data is added to a normal optical image.
  • the second image group corresponds to the image group B2, and the learning image to which the detection data and the observation method data are added to the normal light image and the learning to which the detection data and the observation method data are added to the special light image. It is a group of images including an image for use. When there are three or more observation methods, the second image group includes learning images captured by each observation method of the plurality of observation methods.
  • pre-training is performed in order to make up for the shortage of the number of learning images.
  • pre-training is a process of setting an initial value of a weighting coefficient when performing fine tuning. As a result, the accuracy of the detection process can be improved as compared with the case where the pre-training is not performed.
  • Illumination lens 315 ... Light guide, 316 ... AF start / end button, 320 ... External I / F unit, 330 ... System control device, 331 ... A / D conversion unit, 332 ... pre-processing unit, 333 ... detection processing unit, 334 ... post-processing unit, 335 ... system control unit, 336 ... control unit, 337 ... storage unit, 340 ... display unit , 350 ... Light source device, 352 ... Light source

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Surgery (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Biomedical Technology (AREA)
  • Optics & Photonics (AREA)
  • Pathology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Biophysics (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Image Analysis (AREA)

Abstract

画像処理システム(200)は、処理対象画像を取得する画像取得部(210)と、処理対象画像に対する処理を行う処理部(220)を含む。処理部(220)は、処理対象画像が第1観察方法において撮像された確からしさを表す第1分類スコアと、処理対象画像が第2観察方法において撮像された確からしさを表す第2分類スコアと、を求め、処理対象画像において注目領域を検出し、検出された前記注目領域の確からしさを表す検出スコアを求め、第1分類スコアと第2分類スコアとに基づいて閾値を設定し、設定された閾値と検出スコアを比較し、閾値よりも検出スコアが大きい場合に、注目領域の検出結果を出力する。

Description

画像処理システム、内視鏡システム及び画像処理方法
 本発明は、画像処理システム、内視鏡システム及び画像処理方法等に関する。
 物体検出システムにおいては、物体らしさを表す物体検出スコアが、予め設定しておいた閾値を超えたときに、物体検出の候補枠が画面に表示される。この閾値は、物体検出システムの学習後に、評価用画像セットを用いて調整され、ある値に固定される。この閾値の調整は、正検出と過検出のトレードオフを調整するために必要とされている。
 例えば病変等の注目領域の検出処理を行う医療向け診断支援においては、感度が優先される場合と過検出抑制が優先される場合がある。前者は、スクリーニング用途等のために、見落しが少なくなることを優先し、過検出の増加が許容される。後者は、病変検出AF(Auto Focus)用途等のために、過検出の抑制を優先し、感度の低下が許容される。
 特許文献1には、過検出抑制モード又は未検出欠陥の検出モードのいずれかを指定する手法が開示されている。このうち過検出抑制モードが指定されると、欠陥候補部のうち検出しなくてもよい疑似欠陥部を除いた欠陥候補部が抽出され、未検出欠陥の検出モードが指定されると、欠陥候補部のうち本欠陥部が抽出される。この際、過検出抑制モードにおいては疑似欠陥部の特徴量に対応するパラメータが用いられ、未検出欠陥の検出モードにおいては本欠陥部の特徴量に対応するパラメータが用いられる。パラメータとは、具体的には閾値である。
特開2003-344309号公報
 処理対象画像が種々の観察方法において撮像される場合がある。過検出の抑制を優先すべき状況において、検出スコアの閾値を1つに固定すると、観察方法ごとに感度、過検出率のばらつきが発生してしまい、観察方法によっては、過検出を十分に抑制できない。また感度を優先すべき状況においても同様であり、観察方法に応じたばらつきに起因して、十分な感度を得られない場合がある。特許文献1は、観察方法に応じてパラメータを切り替える手法を開示していない。
 本開示のいくつかの態様によれば、観察方法が変化する場合にも、状況に応じた検出結果を出力可能な画像処理システム、内視鏡システム及び画像処理方法等を提供できる。
 本開示の一態様は、処理対象画像を取得する画像取得部と、前記処理対象画像に対する処理を行う処理部と、を含み、前記処理部は、前記処理対象画像が第1観察方法において撮像された確からしさを表す第1分類スコアと、前記処理対象画像が第2観察方法において撮像された確からしさを表す第2分類スコアと、を求め、前記処理対象画像において注目領域を検出し、検出された前記注目領域の確からしさを表す検出スコアを求め、前記第1分類スコアと前記第2分類スコアとに基づいて、閾値を設定し、設定された前記閾値と前記検出スコアを比較し、前記閾値よりも前記検出スコアが大きい場合に、前記注目領域の検出結果を出力する画像処理システムに関係する。
 本開示の他の態様は、生体内画像を撮像する撮像部と、前記生体内画像を処理対象画像として取得する画像取得部と、前記処理対象画像に対する処理を行う処理部と、を含み、前記処理部は、前記処理対象画像が第1観察方法において撮像された確からしさを表す第1分類スコアと、前記処理対象画像が第2観察方法において撮像された確からしさを表す第2分類スコアと、を求め、前記処理対象画像において注目領域を検出し、検出された前記注目領域の確からしさを表す検出スコアを求め、前記第1分類スコアと前記第2分類スコアとに基づいて、閾値を設定し、設定された前記閾値と前記検出スコアを比較し、前記閾値よりも前記検出スコアが大きい場合に、前記注目領域の検出結果を出力する内視鏡システムに関係する。
 本開示のさらに他の態様は、処理対象画像を取得し、前記処理対象画像が第1観察方法において撮像された確からしさを表す第1分類スコアと、前記処理対象画像が第2観察方法において撮像された確からしさを表す第2分類スコアと、を求め、前記処理対象画像において注目領域を検出し、検出された前記注目領域の確からしさを表す検出スコアを求め、前記第1分類スコアと前記第2分類スコアとに基づいて、閾値を設定し、設定された前記閾値と前記検出スコアを比較し、前記閾値よりも前記検出スコアが大きい場合に、前記注目領域の検出結果を出力する画像処理方法に関係する。
画像処理システムを含むシステムの概略構成例。 学習装置の構成例。 画像処理システムの構成例。 内視鏡システムの構成例。 図5(A)、図5(B)はニューラルネットワークの構成例。 図6(A)は注目領域検出器の入力と出力を説明する図、図6(B)は観察方法分類器の入力と出力を説明する図。 第1の実施形態における学習装置の構成例。 第1の実施形態における画像処理システムの構成例。 第1の実施形態における検出処理を説明するフローチャート。 検出一体型観察方法分類器であるニューラルネットワークの構成例。 第2の実施形態における画像処理システムの構成例。 第2の実施形態における検出処理を説明するフローチャート。 記憶部に記憶される閾値に関する情報の例。 第4の実施形態における学習装置の構成例。
 以下、本実施形態について説明する。なお、以下に説明する本実施形態は、請求の範囲に記載された本発明の内容を不当に限定するものではない。また本実施形態で説明される構成の全てが、本発明の必須構成要件であるとは限らない。
1.概要
 医師が内視鏡システムを用いて診断等を行う際、種々の観察方法が用いられる。ここでの観察とは、撮像画像を用いて被写体の状態を見ることである。撮像画像とは、具体的には生体内画像である。内視鏡装置の照明光の種類や、被写体の状態に応じて、観察方法が変化する。観察方法としては、通常光を照明光として照射することによって撮像を行う観察方法である通常光観察、特殊光を照明光として照射することによって撮像を行う観察方法である特殊光観察、染料を被写体に散布した状態で撮像を行う観察方法である色素散布観察等が考えられる。以下の説明においては、通常光観察において撮像される画像を通常光画像と表記し、特殊光観察において撮像される画像を特殊光画像と表記し、色素散布観察において撮像される画像を色素散布画像と表記する。
 通常光とは、可視光に対応する波長帯域のうち、広い波長帯域において強度を有する光であって、狭義には白色光である。特殊光とは、通常光とは分光特性が異なる光であり、例えば通常光に比べて波長帯域が狭い狭帯域光である。特殊光を用いた観察手法としては、例えば390~445nmに対応する狭帯域光と、530~550nmに対応する狭帯域光を用いたNBI(Narrow Band Imaging)が考えられる。また特殊光は、赤外光等の可視光以外の波長帯域の光を含んでもよい。特殊光観察に用いられる特殊光は種々の波長帯域の光が知られており、本実施形態においてはそれらを広く適用可能である。色素散布観察における染料は、例えばインジゴカルミンである。インジゴカルミンを散布することによって、ポリープの視認性を向上させることが可能である。染料の種類や対象となる注目領域の組み合わせも種々知られており、本実施形態の色素散布観察においてはそれらを広く適用可能である。
 上述したように、物体検出処理において、検出スコアと閾値との比較に基づいて、検出結果を出力する手法が知られている。検出スコアとは、検出結果の確からしさを表す指標値である。以下、処理対象画像が生体内画像であり、検出対象が注目領域である例について説明する。例えば医師による診断をサポートする目的で、ディープラーニング等の機械学習によって検出器を作成し、当該検出器を注目領域の検出に応用する試みがなされている。本実施形態における注目領域とは、使用者にとって観察の優先順位が他の領域よりも相対的に高い領域である。ユーザが診断や治療を行う医者である場合、注目領域は、例えば病変部を写した領域に対応する。ただし、医者が観察したいと欲した対象が泡や便であれば、注目領域は、その泡部分や便部分を写した領域であってもよい。即ち、ユーザが注目すべき対象は観察目的によって異なるが、その観察に際し、ユーザにとって観察の優先順位が他の領域よりも相対的に高い領域が注目領域となる。以下、注目領域が病変、又はポリープである例について主に説明する。
 内視鏡検査中には、医師が照明光を通常光と特殊光との間で切り替える、体内組織に色素を散布する等、被写体を撮像する観察方法が変化する。この観察方法変化に起因して、検出結果にばらつきが生じる。例えば注目領域を適切に検出した検出結果が得られた際に、通常光画像を対象とした場合には、当該検出結果に対応付けられた検出スコアが大きくなりやすく、特殊光画像を対象とした場合には、検出スコアが小さくなりやすいといった差異が生じる。
 「感度がx%近傍」という条件を満たす感度優先モードを実現する場合を考える。感度とは、入力となる画像に撮像された注目領域のうち、どれだけの注目領域が適切に検出されたかの割合を表す情報である。このような検出モードは、評価用画像を入力した際の感度がx%となるように、閾値調整を行うことによって実現可能である。しかし、上記例のように観察方法によって検出スコアの傾向が異なる場合が考えられる。上記例において通常光画像を対象とした場合、相対的に高い閾値であっても感度をx%程度とすることが可能である。一方、特殊光画像を対象とした場合、相対的に低い閾値でなければ感度をx%程度とすることができない。通常光画像を評価用画像として用いた閾値調整が行われた場合、特殊光画像が入力されると所望の感度が得られなくなってしまうため感度優先モードとして不適切である。一方、特殊光画像を用いた閾値調整が行われた場合、通常光画像の入力時には感度が過剰に高くなってしまう。そのため、通常光画像の入力時に過検出率が増大するおそれがある。
 また過検出抑制モードについても同様である。過検出とは、注目領域でない領域を誤って注目領域として検出することである。また以下では、単位画像枚数当たりの過検出数(箇所/枚)を表す情報を過検出率と表記する。例えば「過検出率がy近傍」という条件を満たす過検出抑制モードを実現するために、通常光画像を評価用画像として用いた閾値調整が行われた場合、特殊光画像が入力されると過検出率がyから乖離するおそれがある。また特殊光画像を評価用画像として用いた閾値調整が行われた場合、通常光画像が入力されると過検出率がyから乖離するおそれがある。
 以上のように、固定の閾値を用いた場合、観察方法の変化に起因して感度や過検出率がばらついてしまう。特許文献1等の従来手法では、観察方法の変化が考慮されていない。従来手法においては、例えば感度優先モードを用いる場合、一貫した検出処理を行えず、感度が観察方法によって異なってしまう。過検出抑制モードにおいても同様に、一貫した検出処理を行えず、過検出率が観察方法によって異なってしまう。一貫した検出処理とは、例えば感度を表す数値又は過検出率を表す数値が、観察方法によらずに基準値の近傍となることを表す。結果として、観察方法によっては、感度優先モードであるのに所望の感度を得られない、或いは、過検出抑制モードであるのに過検出が十分に抑制されないおそれがある。
 本実施形態の手法においては、処理対象画像が第1観察方法において撮像された確からしさを表す第1分類スコアと、処理対象画像が第2観察方法において撮像された確からしさを表す第2分類スコアと、に基づいて、閾値が設定される。そして設定された閾値と検出スコアを比較し、閾値よりも検出スコアが大きい場合に、注目領域の検出結果が出力される。このようにすれば、処理対象画像の観察方法の判定結果に応じて動的に閾値が調整されるため、観察方法が異なる画像に対しても、一貫した検出処理を実現できる。具体的には、観察方法によらず一貫して検出感度が優先される検出処理、又は、一貫して過検出の抑制が優先される検出処理を実行できる。結果として、多様な観察方法が想定される場合にも、安定した診断支援が可能なシステムを提供すること等が可能になる。
 以下、まず図1~図4を用いて本実施形態に係る画像処理システム200を含むシステムの概略構成を説明する。その後、第1~第4の実施形態において、具体的な手法や処理の流れについて説明する。
 図1は、画像処理システム200を含むシステムの構成例である。システムは、学習装置100と、画像処理システム200と、内視鏡システム300を含む。ただしシステムは図1の構成に限定されず、これらの一部の構成要素を省略したり、他の構成要素を追加するなどの種々の変形実施が可能である。
 学習装置100は、機械学習を行うことによって学習済モデルを生成する。内視鏡システム300は、内視鏡撮像装置によって生体内画像を撮像する。画像処理システム200は、生体内画像を処理対象画像として取得する。そして画像処理システム200は、学習装置100が生成した学習済モデルに従って動作することによって、処理対象画像を対象とした注目領域の検出処理を行う。内視鏡システム300は、検出結果を取得、表示する。このようにすれば、機械学習を用いることによって、医師による診断等をサポートするシステムを実現することが可能になる。
 学習装置100、画像処理システム200、内視鏡システム300は、例えばそれぞれが別体として設けられてもよい。学習装置100及び画像処理システム200は、それぞれが例えばPC(Personal Computer)やサーバシステム等の情報処理装置である。なお学習装置100は、複数の装置による分散処理によって実現されてもよい。例えば学習装置100は複数のサーバを用いたクラウドコンピューティングによって実現されてもよい。画像処理システム200も同様に、クラウドコンピューティング等によって実現されてもよい。内視鏡システム300は、例えば図4を用いて後述するように、挿入部310と、システム制御装置330と、表示部340とを含む装置である。ただし、システム制御装置330の一部又は全部が、サーバシステム等のネットワークを介した機器によって実現されてもよい。例えばシステム制御装置330の一部又は全部は、クラウドコンピューティングによって実現される。
 また、画像処理システム200及び学習装置100の一方が他方を含んでもよい。この場合、画像処理システム200(学習装置100)は、機械学習を行うことによって学習済モデルを生成する処理と、当該学習済モデルに従った検出処理の両方を実行するシステムである。また画像処理システム200及び内視鏡システム300の一方が、他方を含んでもよい。例えば、内視鏡システム300のシステム制御装置330が画像処理システム200を含む。この場合、システム制御装置330は、内視鏡システム300の各部の制御と、学習済モデルに従った検出処理の両方を実行する。或いは、学習装置100、画像処理システム200、システム制御装置330の全てを含むシステムが実現されてもよい。例えば、1又は複数のサーバからなるサーバシステムが、機械学習を行うことによって学習済モデルを生成する処理と、当該学習済モデルに従った検出処理と、内視鏡システム300の各部の制御と、を実行してもよい。以上のように、図1に示すシステムの具体的な構成は種々の変形実施が可能である。
 図2は、学習装置100の構成例である。学習装置100は、画像取得部110と、学習部120を含む。画像取得部110は、学習用画像を取得する。画像取得部110は、例えば他の装置から学習用画像を取得するための通信インターフェースである。学習用画像とは、例えば通常光画像、特殊光画像、色素散布画像等に対して、正解データがメタデータとして付与された画像である。学習部120は、取得した学習用画像に基づいて機械学習を行うことによって学習済モデルを生成する。機械学習に用いられるデータの詳細、及び学習処理の具体的な流れについては後述する。
 学習部120は、下記のハードウェアにより構成される。ハードウェアは、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子で構成することができる。1又は複数の回路装置は例えばIC(Integrated Circuit)、FPGA(field-programmable gate array)等である。1又は複数の回路素子は例えば抵抗、キャパシター等である。
 また学習部120は、下記のプロセッサにより実現されてもよい。学習装置100は、情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。情報は、例えばプログラムと各種のデータ等である。プロセッサは、ハードウェアを含む。プロセッサは、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)等、各種のプロセッサを用いることが可能である。メモリは、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)などの半導体メモリであってもよいし、レジスタであってもよいし、HDD(Hard Disk Drive)等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、学習部120の各部の機能が処理として実現されることになる。学習部120の各部とは、例えば図7、図14を用いて後述する各部である。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。
 図3は、画像処理システム200の構成例である。画像処理システム200は、画像取得部210と、処理部220と、記憶部230を含む。
 画像取得部210は、内視鏡システム300の撮像装置によって撮像された生体内画像を、処理対象画像として取得する。例えば画像取得部210は、内視鏡システム300からネットワークを介して生体内画像を受信する通信インターフェースとして実現される。ここでのネットワークは、イントラネット等のプライベートネットワークであってもよいし、インターネット等の公衆通信網であってもよい。またネットワークは、有線、無線を問わない。
 処理部220は、学習済モデルに従って動作することによって、処理対象画像における注目領域の検出処理を行う。また処理部220は、学習済モデルの検出結果に基づいて、出力する情報を決定する。処理部220は、デジタル信号を処理する回路及びアナログ信号を処理する回路の少なくとも一方を含むハードウェアにより構成される。例えば、ハードウェアは、回路基板に実装された1又は複数の回路装置や、1又は複数の回路素子で構成することができる。
 また処理部220は、下記のプロセッサにより実現されてもよい。画像処理システム200は、プログラムと各種のデータ等の情報を記憶するメモリと、メモリに記憶された情報に基づいて動作するプロセッサと、を含む。ここでのメモリは、記憶部230であってもよいし、異なるメモリであってもよい。プロセッサは、GPU等、各種のプロセッサを用いることが可能である。メモリは、半導体メモリ、レジスタ、磁気記憶装置、光学式記憶装置等、種々の態様により実現可能である。メモリはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、処理部220の各部の機能が処理として実現される。処理部220の各部とは、例えば図8、図11を用いて後述する各部である。
 記憶部230は、処理部220等のワーク領域となるもので、その機能は半導体メモリ、レジスタ、磁気記憶装置などにより実現できる。記憶部230は、画像取得部210が取得した処理対象画像を記憶する。また記憶部230は、学習装置100によって生成された学習済モデルの情報を記憶する。
 図4は、内視鏡システム300の構成例である。内視鏡システム300は、挿入部310と、外部I/F部320と、システム制御装置330と、表示部340と、光源装置350を含む。
 挿入部310は、その先端側が体内へ挿入される部分である。挿入部310は、対物光学系311、撮像素子312、アクチュエータ313、照明レンズ314、ライトガイド315、AF(Auto Focus)開始/終了ボタン316を含む。
 ライトガイド315は、光源352からの照明光を、挿入部310の先端まで導光する。照明レンズ314は、ライトガイド315によって導光された照明光を被写体に照射する。対物光学系311は、被写体から反射した反射光を、被写体像として結像する。対物光学系311は、フォーカスレンズを含み、フォーカスレンズの位置に応じて被写体像が結像する位置を変更可能である。アクチュエータ313は、AF制御部336からの指示に基づいて、フォーカスレンズを駆動する。なお、AFは必須ではなく、内視鏡システム300はAF制御部336を含まない構成であってもよい。
 撮像素子312は、対物光学系311を経由した被写体からの光を受光する。撮像素子312はモノクロセンサであってもよいし、カラーフィルタを備えた素子であってもよい。カラーフィルタは、広く知られたベイヤフィルタであってもよいし、補色フィルタであってもよいし、他のフィルタであってもよい。補色フィルタとは、シアン、マゼンタ及びイエローの各色フィルタを含むフィルタである。
 AF開始/終了ボタン316は、ユーザがAFの開始/終了を操作するための操作インターフェースである。外部I/F部320は、内視鏡システム300に対するユーザからの入力を行うためのインターフェースである。外部I/F部320は、例えばAF制御モードの設定ボタン、AF領域の設定ボタン、画像処理パラメータの調整ボタンなどを含む。
 システム制御装置330は、画像処理やシステム全体の制御を行う。システム制御装置330は、A/D変換部331、前処理部332、検出処理部333、後処理部334、システム制御部335、AF制御部336、記憶部337を含む。
 A/D変換部331は、撮像素子312から順次出力されるアナログ信号をデジタルの画像に変換し、前処理部332に順次出力する。前処理部332は、A/D変換部331から順次出力される生体内画像に対して、各種補正処理を行い、検出処理部333、AF制御部336に順次出力する。補正処理とは、例えばホワイトバランス処理、ノイズ低減処理等を含む。
 検出処理部333は、例えば前処理部332から取得した補正処理後の画像を、内視鏡システム300の外部に設けられる画像処理システム200に送信する処理を行う。内視鏡システム300は不図示の通信部を含み、検出処理部333は、通信部の通信制御を行う。ここでの通信部は、所与のネットワークを介して、生体内画像を画像処理システム200に送信するための通信インターフェースである。また検出処理部333は、通信部の通信制御を行うことによって、画像処理システム200から検出結果を受信する処理を行う。
 或いは、システム制御装置330は、画像処理システム200を含んでもよい。この場合、A/D変換部331が、画像取得部210に対応する。記憶部337が、記憶部230に対応する。前処理部332、検出処理部333、後処理部334等が、処理部220に対応する。この場合、検出処理部333は、記憶部337に記憶される学習済モデルの情報に従って動作することによって、処理対象画像である生体内画像を対象として、注目領域の検出処理を行う。学習済モデルがニューラルネットワークである場合、検出処理部333は、入力である処理対象画像に対して、学習によって決定された重みを用いて順方向の演算処理を行う。そして、出力層の出力に基づいて、検出結果を出力する。
 後処理部334は、検出処理部333における検出結果に基づく後処理を行い、後処理後の画像を表示部340に出力する。ここでの後処理は、画像における認識対象の強調、検出結果を表す情報の付加等、種々の処理が考えられる。例えば後処理部334は、前処理部332から出力された画像に対して、検出処理部333において検出された検出枠を重畳することによって、表示画像を生成する後処理を行う。
 システム制御部335は、撮像素子312、AF開始/終了ボタン316、外部I/F部320、AF制御部336と互いに接続され、各部を制御する。具体的には、システム制御部335は、各種制御信号の入出力を行う。AF制御部336は、前処理部332から順次出力される画像を用いてAF制御を行う。
 表示部340は、後処理部334から出力される画像を順次表示する。表示部340は、例えば液晶ディスプレイやEL(Electro-Luminescence)ディスプレイ等である。光源装置350は、照明光を発光する光源352を含む。光源352は、キセノン光源であってもよいし、LEDであってもよいし、レーザー光源であってもよい。また光源352は他の光源であってもよく、発光方式は限定されない。
 なお、光源装置350は、通常光と特殊光を照射可能である。例えば光源装置350は、白色光源と回転フィルタを含み、回転フィルタの回転に基づいて、通常光と特殊光を切り替え可能である。或いは光源装置350は、赤色LED、緑色LED、青色LED、緑色狭帯域光LED、青色狭帯域光LED等の複数の光源を含むことによって、波長帯域の異なる複数の光を照射可能な構成であってもよい。光源装置350は、赤色LED、緑色LED、青色LEDを点灯させることによって通常光を照射し、緑色狭帯域光LED、青色狭帯域光LEDを点灯させることによって特殊光を照射する。ただし、通常光及び特殊光を照射する光源装置の構成は種々知られており、本実施形態においてはそれらを広く適用可能である。
2.第1の実施形態
 以下では、第1観察方法が通常光観察であり、第2観察方法が特殊光観察である例について説明する。ただし、第2観察方法は色素散布観察であってもよい。即ち、以下の説明において、特殊光観察又は特殊光画像との表記を、適宜、色素散布観察及び色素散布画像と読み替えることが可能である。
 まず機械学習の概要について説明する。以下では、ニューラルネットワークを用いた機械学習について説明する。即ち、以下で説明する注目領域検出器及び観察方法分類器は、例えばニューラルネットワークを用いた学習済モデルである。ただし、本実施形態の手法はこれに限定されない。本実施形態においては、例えばSVM(support vector machine)等の他のモデルを用いた機械学習が行われてもよいし、ニューラルネットワークやSVM等の種々の手法を発展させた手法を用いた機械学習が行われてもよい。
 図5(A)は、ニューラルネットワークを説明する模式図である。ニューラルネットワークは、データが入力される入力層と、入力層からの出力に基づいて演算を行う中間層と、中間層からの出力に基づいてデータを出力する出力層を有する。図5(A)においては、中間層が2層であるネットワークを例示するが、中間層は1層であってもよいし、3層以上であってもよい。また各層に含まれるノード(ニューロン)の数は図5(A)の例に限定されず、種々の変形実施が可能である。なお精度を考慮すれば、本実施形態の学習は多層のニューラルネットワークを用いたディープラーニングを用いることが望ましい。ここでの多層とは、狭義には4層以上である。
 図5(A)に示すように、所与の層に含まれるノードは、隣接する層のノードと結合される。各結合には重み付け係数が設定されている。各ノードは、前段のノードの出力と重み付け係数を乗算し、乗算結果の合計値を求める。さらに各ノードは、合計値に対してバイアスを加算し、加算結果に活性化関数を適用することによって当該ノードの出力を求める。この処理を、入力層から出力層へ向けて順次実行することによって、ニューラルネットワークの出力が求められる。なお活性化関数としては、シグモイド関数やReLU関数等の種々の関数が知られており、本実施形態ではそれらを広く適用可能である。
 ニューラルネットワークにおける学習は、適切な重み付け係数を決定する処理である。ここでの重み付け係数は、バイアスを含む。具体的には、学習装置100は、訓練データのうちの入力データをニューラルネットワークに入力し、そのときの重み付け係数を用いた順方向の演算を行うことによって出力を求める。学習装置100の学習部120は、当該出力と、訓練データのうちの正解データとに基づいて、誤差関数を演算する。そして誤差関数を小さくするように、重み付け係数を更新する。重み付け係数の更新では、例えば出力層から入力層に向かって重み付け係数を更新していく誤差逆伝播法を利用可能である。
 またニューラルネットワークは例えばCNN(Convolutional Neural Network)であってもよい。図5(B)は、CNNを説明する模式図である。CNNは、畳み込み演算を行う畳み込み層とプーリング層を含む。畳み込み層は、フィルタ処理を行う層である。プーリング層は、縦方向、横方向のサイズを縮小するプーリング演算を行う層である。図5(B)に示す例は、畳み込み層及びプーリング層による演算を複数回行った後、全結合層による演算を行うことによって出力を求めるネットワークである。全結合層とは、所与の層のノードに対して前の層の全てのノードが結合される場合の演算処理を行う層であり、図5(A)を用いて上述した各層の演算に対応する。なお、図5(B)では記載を省略しているが、CNNでは活性化関数による演算処理も行われる。CNNは種々の構成が知られており、本実施形態においてはそれらを広く適用可能である。例えば本実施形態のCNNは、公知のRPN等(Region Proposal Network)を利用できる。
 CNNを用いる場合も、処理の手順は図5(A)と同様である。即ち、学習装置100は、訓練データのうちの入力データをCNNに入力し、そのときのフィルタ特性を用いたフィルタ処理やプーリング演算を行うことによって出力を求める。当該出力と、正解データとに基づいて誤差関数が算出され、当該誤差関数を小さくするように、フィルタ特性を含む重み付け係数の更新が行われる。CNNの重み付け係数を更新する際にも、例えば誤差逆伝播法を利用可能である。
 次に、本実施形態における機械学習について説明する。画像処理システム200が実行する注目領域の検出処理とは、具体的には注目領域の有無、位置、大きさ、形状のうち少なくとも1つを検出する処理である。
 例えば検出処理は、注目領域を囲む矩形の枠領域を特定する情報と、当該枠領域の確からしさを表す検出スコアを求める処理である。以下、枠領域を検出枠と表記する。検出枠を特定する情報とは、例えば検出枠の左上端点の横軸における座標値、当該端点の縦軸における座標値、検出枠の横軸方向の長さ、検出枠の縦軸方向の長さ、の4つの数値である。注目領域の形状が変化することによって、検出枠の縦横比が変化するため、当該検出枠は注目領域の有無、位置、大きさだけでなく、形状を表す情報に該当する。ただし本実施形態の検出処理では、広く知られているセグメンテーションが用いられてもよい。この場合、画像中の各画素について、当該画素が注目領域であるか否かを表す情報、例えばポリープであるか否かを表す情報が出力される。この場合、注目領域の形状をより詳細に特定することが可能である。
 図7は、第1の実施形態における学習装置100の構成例である。学習装置100の学習部120は、検出学習部121と、観察方法分類学習部122を含む。検出学習部121は、画像取得部110から画像群A1を取得し、当該画像群A1に基づく機械学習を行うことによって、注目領域検出器を生成する。
 検出学習部121において実行される学習処理は、通常光画像と特殊光画像の両方に適用可能な学習済モデルを生成するための学習処理である。即ち、画像群A1は、通常光画像に対して、注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する情報である検出データが付与された学習用画像と、特殊光画像に対して検出データが付与された学習用画像とを含む。
 例えば、検出データは、検出対象であるポリープ領域と背景領域が異なる色で塗り分けられたマスクデータである。或いは検出データは、ポリープを囲む検出枠を特定するための情報であってもよい。例えば画像群A1に含まれる学習用画像は、通常光画像又は特殊光中のポリープ領域を矩形枠で囲み、当該矩形枠に「ポリープ」というラベルが付加され、それ以外の領域に「正常」というラベルが付加されたデータであってもよい。なお検出枠は矩形枠に限定されず、ポリープ領域付近を囲むものであれば、楕円形状の枠等でもよい。
 図6(A)は、注目領域検出器の入力及び出力を説明する図である。注目領域検出器は、処理対象画像を入力として受け付け、当該処理対象画像に対する処理を行うことによって、検出結果を表す情報を出力する。検出学習部121は、画像が入力される入力層と、中間層と、検出結果を出力する出力層を含むモデルの機械学習を行う。例えば注目領域検出器は、RPN(Region Proposal Network)、Faster R-CNN、YOLO(You only Look Once)等の物体検出用CNNである。
 具体的には、検出学習部121は、画像群A1に含まれる学習用画像をニューラルネットワークの入力として、現在の重み付け係数に基づく順方向の演算を行う。検出学習部121は、出力層の出力と、正解データである検出データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。以上が1枚の学習用画像に基づく処理であり、検出学習部121は、上記処理を繰り返すことによって注目領域検出器の重み付け係数を学習する。なお、重み付け係数の更新は1枚単位で行うものに限定されず、バッチ学習等が用いられてもよい。
 画像群A2は、通常光画像に対して、観察方法を特定する情報である観察方法データが正解データとして付与された学習用画像と、特殊光画像に対して観察方法データが付与された学習用画像とを含む画像群である。観察方法データは、例えば通常光画像又は特殊光画像のいずれかを表すラベルである。
 図6(B)は、観察方法分類器の入力と出力を説明する図である。観察方法分類器は、処理対象画像を入力として受け付け、当該処理対象画像に対する処理を行うことによって、観察方法分類結果を表す情報を出力する。観察方法分類結果を表す情報は、例えば第1分類スコア及び第2分類スコアである。
 観察方法分類学習部122は、画像が入力される入力層と、観察方法分類結果を出力する出力層を含むモデルの機械学習を行う。観察方法分類器は、例えば、VGG16やResNet等の画像分類用CNNである。観察方法分類学習部122は、画像群A2に含まれる学習用画像をニューラルネットワークの入力として、現在の重み付け係数に基づく順方向の演算を行う。検出学習部121は、出力層の出力と、正解データである観察方法データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。観察方法分類学習部122は、上記処理を繰り返すことによって観察方法分類器の重み付け係数を学習する。
 なお、観察方法分類器における出力層の出力は、例えば入力された画像が通常光観察において撮像された通常光画像である確からしさを表すデータと、入力された画像が特殊光観察において撮像された特殊光画像である確からしさを表すデータを含む。例えば観察方法分類器の出力層が公知のソフトマックス層である場合、出力層は合計が1となる2つの確率データを出力する。以下、入力された画像が通常光画像である確からしさを表すデータを通常光スコアと表記し、入力された画像が特殊光画像である確からしさを表すデータを特殊光スコアと表記する。図6(B)において、例えば第1分類スコアが通常光スコアに対応し、第2分類スコアが特殊光スコアに対応する。
 観察方法分類学習部122は、正解データであるラベルが通常光画像である場合、通常光画像である確率データが1であり、特殊光画像である確率データが0であるデータを正解データとして誤差関数を求める。また観察方法分類学習部122は、正解データであるラベルが特殊光画像である場合、通常光画像である確率データが0であり、特殊光画像である確率データが1であるデータを正解データとして誤差関数を求める。
 図8は、第1の実施形態における画像処理システム200の構成例である。画像処理システム200の処理部220は、観察方法分類部221と、閾値設定部222と、検出処理部223と、出力処理部224を含む。観察方法分類部221は、観察方法分類器に基づく観察方法分類処理を行う。閾値設定部222は、観察方法分類処理の結果に基づいて、検出結果の出力処理に用いられる閾値を設定する。検出処理部223は、注目領域検出器を用いた検出処理を行う。出力処理部224は、閾値設定部222において設定された閾値と、検出処理部223における検出結果とに基づいて出力処理を行う。
 図9は、第1の実施形態における画像処理システム200の処理を説明するフローチャートである。なお処理の流れは図9に限定されず、種々の変形実施が可能である。例えば、ステップS103の検出処理は、ステップS104~S106の閾値設定処理よりも後に行われてもよいし、検出処理と閾値設定処理が並列に行われてもよい。以下、各ステップについて説明する。
 まずステップS101において、画像取得部210は、内視鏡撮像装置によって撮像された生体内画像を、処理対象画像として取得する。
 ステップS102において、観察方法分類部221は、処理対象画像が通常光画像であるか特殊光画像であるかを判定する観察方法分類処理を行う。例えば観察方法分類部221は、画像取得部210が取得した処理対象画像を観察方法分類器に入力することによって、処理対象画像が通常光画像である確率を表す通常光スコアと、処理対象画像が特殊光画像である確率を表す特殊光スコアとを取得する。
 ステップS103において、検出処理部223は、注目領域検出器を用いて注目領域の検出処理を行う。具体的には、検出処理部223は、処理対象画像を注目領域検出器に入力することによって、処理対象画像中の所定数の検出枠に関する情報と、当該検出枠に対応付けられた検出スコアを取得する。本実施形態における検出結果とは例えば検出枠を表し、検出スコアは当該検出結果の確からしさを表す。
 ステップS104~ステップS106において、閾値設定部222は、観察方法分類結果に基づいて閾値を設定する。具体的には、まずステップS104において、閾値設定部222は観察方法分類結果が通常光観察を表すか否かを判定する。例えば閾値設定部222は、観察方法分類部221から通常光スコア及び特殊光スコアを取得し、その大小関係を判定する。閾値設定部222は、通常光スコアが特殊光スコア以上の場合に、観察方法が通常光観察であると判定し、通常光スコアが特殊光スコアよりも小さい場合に、観察方法が特殊光観察であると判定する。
 処理対象画像が通常光画像であるという観察方法分類結果が取得された場合、ステップS105において、閾値設定部222は通常光観察用の閾値を設定する。処理対象画像が特殊光画像であるという観察方法分類結果が取得された場合、ステップS106において、閾値設定部222は特殊光観察用の閾値を設定する。具体的には、画像処理システムの記憶部230は、通常光画像を評価用画像として用いることによって取得された閾値Th1と、特殊光観察を評価用画像として用いることによって取得された閾値Th2を記憶している。例えば過検出率が0.05(箇所/枚)近傍となるような過検出抑制モードを実現する場合、Th1は、通常光画像を評価用画像として入力した際の過検出率が0.05となるように設定された閾値である。Th2は、特殊光画像を評価用画像として入力した際の過検出率が0.05となるように設定された閾値である。
 閾値設定部222は、ステップS105においてTh1を閾値に設定する処理を行い、ステップS106においてTh2を閾値に設定する処理を行う。
 ステップS107において、出力処理部224は、ステップS103において取得された検出結果と、ステップS105又はS106において設定された閾値とに基づいて、検出結果の出力処理を実行する。具体的には、出力処理部224は、検出枠に対応付けられた検出スコアと、設定された閾値を比較する処理を行う。そして出力処理部224は、検出処理部223において検出された検出枠のうち、検出スコアが閾値より大きい検出枠を出力し、検出スコアが閾値以下である検出枠を出力しない。
 ステップS107における出力処理は、例えば画像処理システム200が内視鏡システム300に含まれる場合、表示画像を生成する処理、及び、当該表示画像を表示部340に表示する処理である。また画像処理システム200と内視鏡システム300が別体として設けられる場合、上記出力処理は、例えば表示画像の内視鏡システム300への送信処理である。或いは上記出力処理は、検出枠を表す情報を内視鏡システム300へ送信する処理であってもよい。この場合、表示画像の生成処理及び表示制御は内視鏡システム300において実行される。
 以上のように、本実施形態に係る画像処理システム200は、処理対象画像を取得する画像取得部210と、処理対象画像において注目領域を検出した結果である検出結果を出力する処理を行う処理部220を含む。図9のステップS102に示したように、処理部220は、処理対象画像が第1観察方法において撮像された確からしさを表す第1分類スコアと、処理対象画像が第2観察方法において撮像された確からしさを表す第2分類スコアと、を求める。また処理部220は、ステップS103に示したように、処理対象画像において注目領域を検出し、検出された注目領域の確からしさを表す検出スコアを求める。また処理部220は、ステップS104~S106に示したように、第1分類スコアと第2分類スコアとに基づいて、閾値を設定する。そして処理部220は、ステップS107に示したように、設定された閾値と検出スコアを比較し、閾値よりも検出スコアが大きい場合に、注目領域の検出結果を出力する。
 例えば、第1分類スコアは通常光スコアであり、第2分類スコアは特殊光スコアである。ただし、第2観察方法は色素散布観察であってもよく、その場合の第2分類スコアとは、処理対象画像が色素散布画像である確からしさを表す情報である。
 本実施形態の手法によれば、処理対象画像が撮像された観察方法の分類結果に基づいて、適切な閾値を設定できる。これにより、処理対象画像の観察方法に応じた感度や過検出のばらつきを抑制し、一貫した検出処理を行うことが可能になる。
 なお、第1分類スコア及び第2分類スコアを求める処理は、観察方法分類器に基づいて行われる。検出結果及び検出スコアを求める処理は、注目領域検出器に基づいて行われる。観察方法分類器、注目領域検出器のそれぞれに基づく処理は、学習済モデルからの指示に従って処理部220が動作することによって実現される。
 学習済モデルに従った処理部220における演算、即ち、入力データに基づいて出力データを出力するための演算は、ソフトウェアによって実行されてもよいし、ハードウェアによって実行されてもよい。換言すれば、図5(A)の各ノードにおいて実行される積和演算や、CNNの畳み込み層において実行されるフィルタ処理等は、ソフトウェア的に実行されてもよい。或いは上記演算は、FPGA等の回路装置によって実行されてもよい。また、上記演算は、ソフトウェアとハードウェアの組み合わせによって実行されてもよい。このように、学習済モデルからの指令に従った処理部220の動作は、種々の態様によって実現可能である。例えば学習済モデルは、推論アルゴリズムと、当該推論アルゴリズムにおいて用いられるパラメータとを含む。推論アルゴリズムとは、入力データに基づいて、フィルタ演算等を行うアルゴリズムである。パラメータとは、学習処理によって取得されるパラメータであって、例えば重み付け係数である。この場合、推論アルゴリズムとパラメータの両方が記憶部230に記憶され、処理部220は、当該推論アルゴリズムとパラメータを読み出すことによってソフトウェア的に推論処理を行ってもよい。或いは、推論アルゴリズムはFPGA等によって実現され、記憶部230はパラメータを記憶してもよい。或いは、パラメータを含む推論アルゴリズムがFPGA等によって実現されてもよい。この場合、学習済モデルの情報を記憶する記憶部230は、例えばFPGAの内蔵メモリである。
 また本実施形態における処理対象画像は、内視鏡撮像装置によって撮像された生体内画像である。ここで、内視鏡撮像装置とは、内視鏡システム300に設けられ、生体に対応する被写体像の結像結果を出力可能な撮像装置であって、狭義には撮像素子312に対応する。
 そして第1観察方法は、通常光を照明光とする観察方法であり、第2観察方法は、特殊光を照明光とする観察方法である。このようにすれば、照明光が通常光と特殊光の間で切り替えられることによって観察方法が変化する場合であっても、当該変化に起因する感度や過検出のばらつきを抑制できる。結果として、一貫した検出処理を実現することが可能になる。
 また第1観察方法は、通常光を照明光とする観察方法であり、第2観察方法は、被写体に対して色素散布が行われた観察方法であってもよい。このようにすれば、被写体に色材を散布することによって観察方法が変化する場合であっても、当該変化に起因する感度や過検出のばらつきを抑制することが可能になる。
 特殊光観察及び色素散布観察は、通常光観察に比べて特定の被写体の視認性を向上させることが可能になるため、通常光観察と併用する利点が大きい。本実施形態の手法によれば、特殊光観察や色素散布観察によってユーザに視認性の高い画像を提示することと、検出処理における感度等のばらつきを抑制することの両立が可能になる。
 また処理部220は、学習済モデルに従って動作することによって、処理対象画像が第1観察方法において撮像された確からしさを表す第1分類スコアと、処理対象画像が第2観察方法において撮像された確からしさを表す第2分類スコアと、を求める。当該学習済モデルは、第1観察方法又は第2観察方法で撮像された学習用画像と、学習用画像が第1観察方法と第2観察方法のいずれで撮像された画像であるかを表す観察方法データと、に基づく機械学習によって取得されたモデルである。
 このようにすれば、観察方法データが対応付けられた学習用画像を用いて生成された学習済モデルに基づいて、観察方法分類処理を行うことが可能になる。機械学習を利用することによって、観察方法分類処理を精度よく行うことが可能になる。
 また本実施形態の画像処理システム200は、第1観察方法に対応する第1閾値と、第2観察方法に対応する第2閾値とを記憶する記憶部230をさらに含んでもよい。処理部220は、第1分類スコアが第2分類スコアよりも大きい場合に、第1閾値を閾値として設定する。処理部220は、第2分類スコアが第1分類スコアよりも大きい場合に、第2閾値を閾値として設定する。なお、第1分類スコアと第2分類スコアが等しい場合、処理部220は第1閾値を閾値として設定してもよいし、第2閾値を閾値として設定してもよい。
 ここでの第1閾値は第1観察方法において撮像された画像を評価用画像とすることによって取得される閾値であり、例えば上記Th1である。第2閾値は第2観察方法において撮像された画像を評価用画像とすることによって取得される閾値であり、例えば上記Th2である。このように、分類スコアの大小関係に基づいて閾値を選択することによって、処理対象画像の観察方法に適した閾値を設定可能である。
 ただし、本実施形態における閾値設定はこれに限定されない。例えば処理部220は、第1分類スコア及び第2分類スコアに基づく重みを用いて、第1閾値及び第2閾値を重み付け加算することによって、閾値を設定してもよい。
 例えば、閾値設定部222は、第1閾値をTh1とし、第2閾値をTh2とし、第1分類スコアをSC1とし、第2分類スコアをSC2とした場合に、下式(1)に基づいて閾値Thを設定する。
  Th=SC1×Th1+SC2×Th2 ・・・(1)
 例えば、第1分類スコアと第2分類スコアの両方が0.5近傍である場合、処理対象画像は通常光画像であるか特殊光画像であるかの判定が難しい画像である。このような例において、通常光画像に対応するTh1そのものを閾値として設定した場合、処理対象画像は、特殊光画像と同様の画像特徴をある程度含むにもかかわらず、その点が考慮されない。結果として感度や過検出率にばらつきが発生するおそれがある。特殊光画像に対応するTh2そのものを閾値として設定する場合も同様である。
 その点、上式(1)のように第1閾値と第2閾値の両方を考慮した閾値を設定することによって、処理対象画像に適した閾値を柔軟に設定することが可能になる。なお、上式(1)は重み付け加算の一例であり、異なる演算によって閾値が求められてもよい。例えば上式(1)においては確率データである分類スコアそのものを重み付け加算における重みとして用いたが、処理はこれに限定されない。例えば第1分類スコア及び第2分類スコアと、重み付け加算における重みとを対応付けたテーブルデータを用意し、当該テーブルデータを参照することによって重みが決定されてもよい。
 また図9を用いた上記説明においては、過検出抑制モードにおける閾値を設定する例を説明した。ただし画像処理システム200は複数の検出モードを切り替え可能であってもよい。この場合、記憶部230は、検出モード及び観察方法に応じた閾値を記憶する。
 例えば、検出モードとして感度優先モードと過検出抑制モードの2つを切り替え可能であり、観察方法として通常光観察と特殊光観察の2つを切り替え可能である場合を考える。この場合、記憶部230は、感度優先モード且つ通常光観察に適した閾値Th11と、過検出抑制モード且つ通常光観察に適したTh12と、感度優先モード且つ特殊光観察に適した閾値Th21と、過検出抑制モード且つ特殊光観察に適したTh22と、を記憶してもよい。
 そして閾値設定部222は、現在の検出モードと、観察方法分類部221から出力される分類スコアに基づいて、閾値を設定する。例えば検出モードが感度優先モードである場合、閾値設定部222は、Th11、Th21、第1分類スコア、第2分類スコアに基づいて閾値を設定する。具体的には閾値設定部222は、上記のようにTh11とTh21のいずれか一方を選択してもよいし、重み付け加算を行ってもよい。また検出モードが過検出抑制モードである場合、閾値設定部222は、Th12、Th22、第1分類スコア、第2分類スコアに基づいて閾値を設定する。このように、本実施形態の手法は検出モードごとに一貫した検出処理を実行できればよく、検出モードの数は1つであってもよいし2以上であってもよい。なお検出モードは、ユーザ入力によって決定されてもよいし、システム側で自動的に決定されてもよい。いずれの場合であっても、閾値設定部222は、検出モードを特定する情報を取得可能である。
 また本実施形態の観察方法分類器は、コンボリューショナルニューラルネットワーク(Convolutional Neural Network)からなってもよい。このようにすれば、画像に対する観察方法分類処理を効率的に、且つ高い精度で実行することが可能になる。また、本実施形態の注目領域検出器がCNNであってもよい。このようにすれば、画像を入力とする検出処理を効率的に、且つ高い精度で実行することが可能になる。
 また本実施形態の手法は、内視鏡システム300に適用可能である。内視鏡システム300は、生体内画像を撮像する撮像部と、生体内画像を処理対象画像として取得する画像取得部と、処理対象画像に対する処理を行う処理部と、を含む。上述したように、この場合の撮像部は、例えば撮像素子312である。画像取得部は、例えばA/D変換部331である。処理部は、例えば前処理部332、検出処理部333、後処理部334等である。なお、画像取得部が、A/D変換部331と前処理部332に対応すると考えることも可能であり、具体的な構成は種々の変形実施が可能である。
 内視鏡システム300の処理部は、処理対象画像が第1観察方法において撮像された確からしさを表す第1分類スコアと、処理対象画像が第2観察方法において撮像された確からしさを表す第2分類スコアと、を求める。処理部は、処理対象画像において注目領域を検出し、検出された注目領域の確からしさを表す検出スコアを求める。そして処理部は、第1分類スコアと前2分類スコアとに基づいて、閾値を設定し、設定された閾値と検出スコアを比較し、閾値よりも検出スコアが大きい場合に、注目領域の検出結果を出力する。
 また、本実施形態の画像処理システム200が行う処理は、画像処理方法として実現されてもよい。本実施形態の画像処理方法は、処理対象画像を取得し、処理対象画像が第1観察方法において撮像された確からしさを表す第1分類スコアと、処理対象画像が第2観察方法において撮像された確からしさを表す第2分類スコアと、を求め、処理対象画像において注目領域を検出し、検出された注目領域の確からしさを表す検出スコアを求め、第1分類スコアと第2分類スコアとに基づいて、閾値を設定し、設定された閾値と検出スコアを比較し、閾値よりも検出スコアが大きい場合に、注目領域の検出結果を出力する。
3.第2の実施形態
 第1の実施形態においては、観察方法分類器が観察方法分類処理のみを実行する例について説明した。ただし、観察方法分類器は、観察方法分類処理に加えて、注目領域の検出処理を実行してもよい。なお、第2の実施形態においても、第1観察方法が通常光観察であり、第2観察方法が特殊光観察である例について説明するが、第2観察方法は色素散布観察であってもよい。
 本実施形態の学習部120は、検出学習部121と観察方法分類学習部122に区分されず、検出処理と観察方法分類処理の両方を行う観察方法分類器を生成する処理を行う。なお、以下では、第1の実施形態の観察方法分類器と区別するために、第2の実施形態の観察方法分類器を検出一体型観察方法分類器とも表記する。
 検出一体型観察方法分類器としては、例えば、注目領域検出用CNNと観察方法分類用CNNが、畳み込み、プーリング、非線形活性化処理を繰り返しながら特徴を抽出する特徴抽出層を共有し、そこから検出結果の出力と、観察方法分類結果の出力に分かれる構成が用いられる。
 図10は、検出一体型観察方法分類器のニューラルネットワークの構成を示す図である。図10に示すように、検出一体型観察方法分類器であるCNNは、特徴量抽出層と、検出層と、観察方法分類層と、を含む。図10における矩形領域は、それぞれが畳み込み層、プーリング層、全結合層等の何らかの演算を行う層を表す。ただし、CNNの構成は図10に限定されず、種々の変形実施が可能である。
 特徴量抽出層は、処理対象画像を入力として受け付け、畳み込み演算等を含む演算を行うことによって特徴量を出力する。検出層は、特徴量抽出層から出力された特徴量を入力とし、検出結果を表す情報を出力する。検出層の出力は、例えば検出枠と、当該検出枠に対応付けられる検出スコアである。観察方法分類層は、特徴量抽出層から出力された特徴量を入力とし、観察方法分類結果を表す情報を出力する。観察方法分類層の出力は、例えば第1分類スコア及び第2分類スコアである。学習装置100は、特徴量抽出層、検出層、観察方法分類層の各層における重み付け係数を決定する学習処理を実行する。
 本実施形態の学習部120は、通常光画像に対して検出データ及び観察方法データが正解データとして付与された学習用画像と、特殊光画像に対して検出データ及び観察方法データが付与された学習用画像とを含む画像群に基づいて学習処理を行うことによって、検出一体型観察方法分類器を生成する。
 具体的には、学習部120は、図10に示すニューラルネットワークにおいて、画像群に含まれる通常光画像又は特殊光画像を入力として、現在の重み付け係数に基づく順方向の演算を行う。観察方法分類学習部122は、順方向の演算によって求められた結果と、正解データとの誤差を誤差関数として演算し、当該誤差関数を小さくするように重み付け係数の更新処理を行う。例えば学習部120は、検出層の出力と検出データの間の誤差と、観察方法分類層の出力と観察方法データの間の誤差と、の重み付け和を誤差関数として求める。これにより、図10に示すニューラルネットワークのうち、特徴量抽出層における重み付け係数、検出層における重み付け係数、観察方法分類層における重み付け係数、の全てが学習対象となる。
 図11は、第2の実施形態における画像処理システム200の構成例である。画像処理システム200の処理部220は、検出分類部225と、閾値設定部222と、出力処理部224を含む。検出分類部225は、学習装置100によって生成された検出一体型観察方法分類器に基づいて、検出結果と観察方法分類結果を出力する。閾値設定部222及び出力処理部224については、第1の実施形態と同様である。
 図12は、第2の実施形態における画像処理システム200の処理を説明するフローチャートである。まずステップS201において、画像取得部210は、内視鏡撮像装置によって撮像された生体内画像を、処理対象画像として取得する。
 ステップS202において、検出分類部225は、画像取得部210が取得した処理対象画像を検出一体型観察方法分類器の入力として順方向の演算を行う。ステップS202の処理において、検出分類部225は、検出層からの検出結果を表す情報と、観察方法分類層からの観察方法分類結果を表す情報を取得する。具体的には、検出分類部225は、検出枠、検出スコア、第1分類スコア、第2分類スコアを取得する。
 ステップS203~S206の処理は、図9のステップS104~S107と同様である。即ち、ステップS203~S205において、閾値設定部222は、第1分類スコア及び第2分類スコアに基づいて閾値を設定する。出力処理部224は、ステップS206において、検出スコアと設定された閾値とに基づいて、検出結果を出力する。ただし検出枠及び検出スコアが、検出一体型観察方法分類器によって出力された情報である点が第1の実施形態とは異なる。
 以上のように、本実施形態における処理部220は、学習済モデルに従って動作することによって、第1分類スコアと、第2分類スコアと、検出スコアと、を求める。そして学習済モデルは、第1観察方法又は第2観察方法で撮像された学習用画像と、正解データとに基づく機械学習によって取得されたモデルであり、正解データは、学習用画像における注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データと、学習用画像が第1観察方法と第2観察方法のいずれで撮像された画像であるかを表す観察方法データと、を含む。
 このようにすれば、観察方法分類器が、注目領域の検出器を兼ねることが可能になる。例えば図10に示す構成を用いることによって、検出処理における特徴量抽出と観察方法分類処理における特徴量抽出を共通化することが可能になる。そのため、特徴量抽出層をそれぞれ設ける場合に比べて、学習済モデルのサイズを小さくすることが可能になる。例えば、画像処理システム200の記憶部230が学習済モデルの重み付け係数を記憶する場合に、当該記憶部230の容量を小さくすることが可能である。或いは、学習済モデルに従った推論処理アルゴリズムをFPGA等を用いて構成する場合において、当該FPGAのサイズ低減が可能になる。
4.第3の実施形態
 以上では、第1観察方法が通常光観察であり、第2観察方法が特殊光観察又は色素散布観察である例について説明した。しかし観察方法は2つに限定されない。例えば、観察方法として、通常光観察と、特殊光観察と、色素散布観察の3つが用いられてもよい。
 さらに、観察方法は通常光観察、特殊光観察、色素散布観察に限定されない。例えば本実施形態の観察方法は、挿入部から水を放出する送水操作が行われている状態で撮像を行う観察方法である送水観察、挿入部から気体を放出する送気操作が行われている状態で撮像を行う観察方法である送気観察、泡が付着した状態の被写体を撮像する観察方法である泡観察、残渣が付着した状態の被写体を撮像する観察方法である残渣観察、等を含んでもよい。観察方法の組み合わせは柔軟に変更可能であり、通常光観察、特殊光観察、色素散布観察、送水観察、送気観察、泡観察、残渣観察のうちの2以上を任意に組み合わせ可能である。また上記以外の観察方法が用いられてもよい。
 N(Nは3以上の整数)通りの観察方法が想定される場合、観察方法分類器は、第1~第N分類スコアを出力する。第i分類スコアは、観察方法分類器に入力された画像が第i観察方法において撮像された確からしさを表すデータである。ここでiは1以上、且つ、N以下の各整数である。例えば第1~第N分類スコアは、合計が1となる確率データである。
 記憶部230は、第1~第N観察方法のそれぞれに適した閾値Th1~ThNを記憶している。閾値設定部222は、観察方法分類器の出力である第1~第N分類スコアと、閾値Th1~ThNとに基づいて、閾値を設定する。閾値設定部222は、第1~第N分類スコアのうち値が最大になる分類スコアに基づいて、Th1~ThNのうちのいずれか1つを閾値として選択してもよいし、第1~第N分類スコアとTh1~ThNとの重み付け加算を行うことによって閾値を演算してもよい。
 また上述したように、複数の検出モードが切り替え可能であってもよい。図13は、記憶部230に記憶される各観察方法に対応する閾値の例である。図13に示すように、記憶部230は、感度優先モードを実現する閾値として、通常光観察、特殊光観察、色素散布観察、送水観察、送気観察、泡観察、残渣観察の各観察方法に適した7つの閾値Th11~Th71を記憶する。同様に記憶部230は、過検出抑制モードを実現する閾値として、通常光観察、特殊光観察、色素散布観察、送水観察、送気観察、泡観察、残渣観察の各観察方法に適した7つの閾値Th12~Th72を記憶する。即ち記憶部230は、検出モード数がM(Mは1以上の整数)であり、観察方法数がNである場合に、N×M個の閾値Th11~ThNMを記憶する。
 閾値設定部222は、検出モードを特定することによってのN×M通りの閾値のうちのN個の閾値を選択する。例えばj番目(jは1以上M以下の整数)の検出モードを実現する場合、閾値設定部222は、Th1j~ThNjを選択する。そして第1~第N分類スコアと閾値Th1j~ThNjとに基づいて閾値を設定する。
 以上のように、観察方法の数は3以上の拡張可能である。同様に、検出モードの数も1又は2に限定されず3以上に拡張されてもよい。このようにすれば、多様な観察方法を対象とする場合であっても、観察方法によらず一貫した検出処理を実現することが可能になる。
5.第4の実施形態
 例えば医師による診断工程は、通常光観察を用いて病変を探す工程と、特殊光観察を用いて、見つかった病変の悪性度の鑑別を行う工程とが考えられる。特殊光画像は、通常光画像に比べて病変の視認性が高いため、悪性度の鑑別を精度よく行うことが可能になる。しかし、特殊光画像は、通常光画像に比べて取得される枚数が少ない。そのため、特殊光画像を用いた機械学習において訓練データが不足することによって、検出精度が低下するおそれがある。
 訓練データの不足に対して、プレトレーニングとファインチューニングを行う手法が知られている。しかし従来手法においては、特殊光画像と通常光画像の間の観察方法の違いが考慮されていない。ディープラーニングでは、学習に用いた画像群と異なる条件で撮影されたテスト画像に対する認識性能が低下する。ここでのテスト画像とは、学習結果を用いた推論処理の対象となる画像を表す。即ち、従来手法は、特殊光画像を対象とした検出処理の精度を向上させる手法を開示していない。
 よって本実施形態においては、通常光画像を含む画像群を用いてプレトレーニングを行い、当該プレトレーニング後に、特殊光画像を含む画像群を用いてファインチューニングを行う。このようにすれば、特殊光画像の枚数が不足する場合であっても、検出精度を高くすることが可能になる。
 また、以下では第1観察方法が通常光観察であり、第2観察方法が特殊光観察である例について説明するが、第2観察方法は色素散布観察であってもよい。また第2観察方法は、訓練データの不足によって検出精度が低下するおそれがある他の観察方法に拡張可能である。例えば第2観察方法は、上述した送気観察、送水観察、泡観察、残渣観察等であってもよい。
 図14は、本実施形態の学習装置100の構成例である。学習部120は、プレトレーニング部123と、ファインチューニング部124を含む。
 プレトレーニング部123は、画像取得部110から画像群B1を取得し、当該画像群B1に基づく機械学習を行うことによって、検出一体型観察方法分類器のプレトレーニングを行う。画像群B1は、通常光画像に対して検出データが付与された学習用画像を含む。上述したように、通常光観察は注目領域を探す工程において広く利用される。そのため、検出データが付与された通常光画像は豊富に取得可能である。なおプレトレーニング部123が画像群B1を用いて行う処理は、検出タスク向けのプレトレーニングである。検出タスク向けのプレトレーニングとは、検出データを正解データとして用いることによって、図10における特徴量抽出層及び検出層の重み付け係数を更新する学習処理である。即ち、検出一体型観察方法分類器のプレトレーニングにおいては、観察方法分類層の重み付け係数は学習対象ではない。
 ファインチューニング部124は、豊富に取得することが難しい特殊光画像を用いた学習処理を行う。画像群B2は、通常光画像に対して検出データ及び観察方法データが付与された学習用画像と、特殊光画像に対して検出データ及び観察方法データが付与された学習用画像を含む画像群である。ファインチューニング部124は、プレトレーニングによって取得された重み付け係数を初期値として、画像群B2を用いた学習処理を実行することによって、検出一体型観察方法分類器を生成する。ファインチューニングにおいては、検出タスク及び観察方法分類タスクの両方を対象とした学習が行われるため、特徴量抽出層、検出層、観察方法分類層の全ての重み付け係数が学習対象となる。
 検出一体型観察方法分類器の生成後の処理は、第2の実施形態と同様である。また、第4の実施形態の手法と、第3の実施形態の手法が組み合わせられてもよい。即ち、通常光観察を含む3つ以上の観察方法を用いる場合において、通常光画像を用いたプレトレーニングと、撮像枚数が不足する観察方法における撮像画像を用いたファインチューニングとを組み合わせることが可能である。
 また以上では、注目領域検出器を兼ねる検出一体型観察方法分類器を、プレトレーニングとファインチューニングによって生成する例を説明した。ただし第1の実施形態と同様に、観察方法分類器と注目領域検出器は別体であってもよい。この場合、通常光画像を用いたプレトレーニングと、通常光画像及び特殊光画像を用いたファインチューニングとを行うことによって、注目領域検出器が生成される。また通常光画像を用いて検出タスク向けにプレトレーニングを行い、プレトレーニング後の特徴量抽出層を流用して観察方法分類タスク向けのファインチューニングを実行することによって、観察方法分類器が生成されてもよい。
 以上のように、学習済モデルは、第1観察方法において撮像された画像を含む第1画像群を用いてプレトレーニングされ、プレトレーニング後に、第1観察方法において撮像された画像及び第2観察方法において撮像された画像を含む第2画像群を用いてファインチューニングされることによって学習されたモデルであってもよい。
 ここでの学習済モデルは具体的には検出一体型観察方法分類器である。第1画像群は画像群B1に対応し、通常光画像に対して検出データが付与された学習用画像を複数含む画像群である。第2画像群は画像群B2に対応し、通常光画像に対して検出データ及び観察方法データが付与された学習用画像と、特殊光画像に対して検出データ及び観察方法データが付与された学習用画像を含む画像群である。観察方法が3つ以上である場合、第2画像群は、複数の観察方法の各観察方法で撮像された学習用画像を含む。
 本実施形態の手法によれば、学習用画像の枚数不足を補うために、機械学習のプレトレーニングが行われる。ニューラルネットワークを用いる場合、プレトレーニングとはファインチューニングを行う際の重み付け係数の初期値を設定する処理である。これにより、プレトレーニングを行わない場合に比べて、検出処理の精度向上が可能になる。
 なお、上記のように本実施形態について詳細に説明したが、本実施形態の新規事項および効果から実体的に逸脱しない多くの変形が可能であることは当業者には容易に理解できるであろう。従って、このような変形例はすべて本開示の範囲に含まれるものとする。例えば、明細書又は図面において、少なくとも一度、より広義または同義な異なる用語と共に記載された用語は、明細書又は図面のいかなる箇所においても、その異なる用語に置き換えることができる。また本実施形態及び変形例の全ての組み合わせも、本開示の範囲に含まれる。また学習装置、画像処理システム、内視鏡システム等の構成及び動作等も、本実施形態で説明したものに限定されず、種々の変形実施が可能である。
100…学習装置、110…画像取得部、120…学習部、121…検出学習部、122…観察方法分類学習部、123…プレトレーニング部、124…ファインチューニング部、200…画像処理システム、210…画像取得部、220…処理部、221…観察方法分類部、222…閾値設定部、223…検出処理部、224…出力処理部、225…検出分類部、230…記憶部、300…内視鏡システム、310…挿入部、311…対物光学系、312…撮像素子、313…アクチュエータ、314…照明レンズ、315…ライトガイド、316…AF開始/終了ボタン、320…外部I/F部、330…システム制御装置、331…A/D変換部、332…前処理部、333…検出処理部、334…後処理部、335…システム制御部、336…制御部、337…記憶部、340…表示部、350…光源装置、352…光源

Claims (11)

  1.  処理対象画像を取得する画像取得部と、
     前記処理対象画像に対する処理を行う処理部と、
     を含み、
     前記処理部は、
     前記処理対象画像が第1観察方法において撮像された確からしさを表す第1分類スコアと、前記処理対象画像が第2観察方法において撮像された確からしさを表す第2分類スコアと、を求め、
     前記処理対象画像において注目領域を検出し、検出された前記注目領域の確からしさを表す検出スコアを求め、
     前記第1分類スコアと前記第2分類スコアとに基づいて、閾値を設定し、
     設定された前記閾値と前記検出スコアを比較し、
     前記閾値よりも前記検出スコアが大きい場合に、前記注目領域の検出結果を出力する、
     ことを特徴とする画像処理システム。
  2.  請求項1において、
     前記処理対象画像は、内視鏡撮像装置によって撮像された生体内画像であり、
     前記第1観察方法は、通常光を照明光とする観察方法であり、
     前記第2観察方法は、特殊光を前記照明光とする観察方法である、
     ことを特徴とする画像処理システム。
  3.  請求項1において、
     前記処理対象画像は、内視鏡撮像装置によって撮像された生体内画像であり、
     前記第1観察方法は、通常光を照明光とする観察方法であり、
     前記第2観察方法は、被写体に対して色素散布が行われた観察方法である、
     ことを特徴とする画像処理システム。
  4.  請求項1において、
     前記処理部は、
     学習済モデルに基づいて、前記処理対象画像が前記第1観察方法において撮像された確からしさを表す前記第1分類スコアと、前記処理対象画像が前記第2観察方法において撮像された確からしさを表す前記第2分類スコアと、を求め、
     前記学習済モデルは、
     前記第1観察方法又は前記第2観察方法で撮像された学習用画像と、前記学習用画像が前記第1観察方法と前記第2観察方法のいずれで撮像された画像であるかを表す観察方法データと、に基づく機械学習によって取得されたモデルである、
     ことを特徴とする画像処理システム。
  5.  請求項1において、
     前記処理部は、
     学習済モデルに基づいて、前記第1分類スコアと、前記第2分類スコアと、前記検出スコアと、を求め、
     前記学習済モデルは、
     前記第1観察方法又は前記第2観察方法で撮像された学習用画像と、正解データとに基づく機械学習によって取得されたモデルであり、
     前記正解データは、
     前記学習用画像における前記注目領域の有無、位置、大きさ、形状のうち少なくとも1つに関連する検出データと、前記学習用画像が前記第1観察方法と前記第2観察方法のいずれで撮像された画像であるかを表す観察方法データと、を含む、
     ことを特徴とする画像処理システム。
  6.  請求項5において、
     前記学習済モデルは、
     前記第1観察方法において撮像された画像を含む第1画像群を用いてプレトレーニングされ、前記プレトレーニング後に、前記第1観察方法において撮像された画像及び前記第2観察方法において撮像された画像を含む第2画像群を用いてファインチューニングされることによって学習されたモデルである、
     ことを特徴とする画像処理システム。
  7.  請求項1において、
     前記第1観察方法に対応する第1閾値と、前記第2観察方法に対応する第2閾値とを記憶する記憶部をさらに含み、
     前記処理部は、
     前記第1分類スコアが前記第2分類スコアよりも大きい場合に、前記第1閾値を前記閾値として設定し、
     前記第2分類スコアが前記第1分類スコアよりも大きい場合に、前記第2閾値を前記閾値として設定する、
     ことを特徴とする画像処理システム。
  8.  請求項1において、
     前記第1観察方法に対応する第1閾値と、前記第2観察方法に対応する第2閾値とを記憶する記憶部をさらに含み、
     前記処理部は、
     前記第1分類スコア及び前記第2分類スコアに基づく重みを用いて、前記第1閾値及び前記第2閾値を重み付け加算することによって、前記閾値を設定する、
     ことを特徴とする画像処理システム。
  9.  請求項4又は5において、
     学習済モデルは、コンボリューショナルニューラルネットワーク(Convolutional Neural Network)からなることを特徴とする画像処理システム。
  10.  生体内画像を撮像する撮像部と、
     前記生体内画像を処理対象画像として取得する画像取得部と、
     前記処理対象画像に対する処理を行う処理部と、
     を含み、
     前記処理部は、
     前記処理対象画像が第1観察方法において撮像された確からしさを表す第1分類スコアと、前記処理対象画像が第2観察方法において撮像された確からしさを表す第2分類スコアと、を求め、
     前記処理対象画像において注目領域を検出し、検出された前記注目領域の確からしさを表す検出スコアを求め、
     前記第1分類スコアと前記第2分類スコアとに基づいて、閾値を設定し、
     設定された前記閾値と前記検出スコアを比較し、
     前記閾値よりも前記検出スコアが大きい場合に、前記注目領域の検出結果を出力する、
     ことを特徴とする内視鏡システム。
  11.  処理対象画像を取得し、
     前記処理対象画像が第1観察方法において撮像された確からしさを表す第1分類スコアと、前記処理対象画像が第2観察方法において撮像された確からしさを表す第2分類スコアと、を求め、
     前記処理対象画像において注目領域を検出し、検出された前記注目領域の確からしさを表す検出スコアを求め、
     前記第1分類スコアと前記第2分類スコアとに基づいて、閾値を設定し、
     設定された前記閾値と前記検出スコアを比較し、
     前記閾値よりも前記検出スコアが大きい場合に、前記注目領域の検出結果を出力する、
     ことを特徴とする画像処理方法。
PCT/JP2020/000376 2020-01-09 2020-01-09 画像処理システム、内視鏡システム及び画像処理方法 WO2021140601A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/000376 WO2021140601A1 (ja) 2020-01-09 2020-01-09 画像処理システム、内視鏡システム及び画像処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/000376 WO2021140601A1 (ja) 2020-01-09 2020-01-09 画像処理システム、内視鏡システム及び画像処理方法

Publications (1)

Publication Number Publication Date
WO2021140601A1 true WO2021140601A1 (ja) 2021-07-15

Family

ID=76788169

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/000376 WO2021140601A1 (ja) 2020-01-09 2020-01-09 画像処理システム、内視鏡システム及び画像処理方法

Country Status (1)

Country Link
WO (1) WO2021140601A1 (ja)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002083301A (ja) * 2000-09-06 2002-03-22 Mitsubishi Electric Corp 交通監視装置
JP2007140823A (ja) * 2005-11-17 2007-06-07 Omron Corp 顔照合装置、顔照合方法及びプログラム
JP2009518982A (ja) * 2005-12-08 2009-05-07 クゥアルコム・インコーポレイテッド 適応性自動ホワイト・バランス
JP2011161046A (ja) * 2010-02-10 2011-08-25 Olympus Corp 蛍光内視鏡装置
WO2012147820A1 (ja) * 2011-04-28 2012-11-01 オリンパス株式会社 蛍光観察装置とその画像表示方法
JP2013056001A (ja) * 2011-09-07 2013-03-28 Olympus Corp 蛍光観察装置
JP2016015116A (ja) * 2014-06-12 2016-01-28 パナソニックIpマネジメント株式会社 画像認識方法、カメラシステム
WO2016110984A1 (ja) * 2015-01-08 2016-07-14 オリンパス株式会社 画像処理装置、画像処理装置の作動方法、画像処理装置の作動プログラムおよび内視鏡装置
WO2020003991A1 (ja) * 2018-06-28 2020-01-02 富士フイルム株式会社 医療画像学習装置、方法及びプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002083301A (ja) * 2000-09-06 2002-03-22 Mitsubishi Electric Corp 交通監視装置
JP2007140823A (ja) * 2005-11-17 2007-06-07 Omron Corp 顔照合装置、顔照合方法及びプログラム
JP2009518982A (ja) * 2005-12-08 2009-05-07 クゥアルコム・インコーポレイテッド 適応性自動ホワイト・バランス
JP2011161046A (ja) * 2010-02-10 2011-08-25 Olympus Corp 蛍光内視鏡装置
WO2012147820A1 (ja) * 2011-04-28 2012-11-01 オリンパス株式会社 蛍光観察装置とその画像表示方法
JP2013056001A (ja) * 2011-09-07 2013-03-28 Olympus Corp 蛍光観察装置
JP2016015116A (ja) * 2014-06-12 2016-01-28 パナソニックIpマネジメント株式会社 画像認識方法、カメラシステム
WO2016110984A1 (ja) * 2015-01-08 2016-07-14 オリンパス株式会社 画像処理装置、画像処理装置の作動方法、画像処理装置の作動プログラムおよび内視鏡装置
WO2020003991A1 (ja) * 2018-06-28 2020-01-02 富士フイルム株式会社 医療画像学習装置、方法及びプログラム

Similar Documents

Publication Publication Date Title
JP7104810B2 (ja) 画像処理システム、学習済みモデル及び画像処理方法
WO2021140602A1 (ja) 画像処理システム、学習装置及び学習方法
WO2021140600A1 (ja) 画像処理システム、内視鏡システム及び画像処理方法
JP7231762B2 (ja) 画像処理方法、学習装置、画像処理装置及びプログラム
Iqbal et al. Recent trends and advances in fundus image analysis: A review
JP2021532881A (ja) マルチスペクトル情報を用いた拡張画像化のための方法およびシステム
JP2021532891A (ja) マルチスペクトル情報を用いた観血的治療における拡張画像化のための方法およびシステム
JP7005767B2 (ja) 内視鏡画像認識装置、内視鏡画像学習装置、内視鏡画像学習方法及びプログラム
JP7278202B2 (ja) 画像学習装置、画像学習方法、ニューラルネットワーク、及び画像分類装置
WO2021181520A1 (ja) 画像処理システム、画像処理装置、内視鏡システム、インターフェース及び画像処理方法
JP7304951B2 (ja) コンピュータプログラム、内視鏡用プロセッサの作動方法及び内視鏡用プロセッサ
JP6952214B2 (ja) 内視鏡用プロセッサ、情報処理装置、内視鏡システム、プログラム及び情報処理方法
WO2020008834A1 (ja) 画像処理装置、方法及び内視鏡システム
US20230005247A1 (en) Processing system, image processing method, learning method, and processing device
WO2021229684A1 (ja) 画像処理システム、内視鏡システム、画像処理方法及び学習方法
JP2022055953A (ja) 欠陥分類装置、欠陥分類方法及びプログラム
Zhang et al. Detection and segmentation of multi-class artifacts in endoscopy
WO2021140601A1 (ja) 画像処理システム、内視鏡システム及び画像処理方法
US20230100147A1 (en) Diagnosis support system, diagnosis support method, and storage medium
JP7162744B2 (ja) 内視鏡用プロセッサ、内視鏡システム、情報処理装置、プログラム及び情報処理方法
Dayana et al. A comprehensive review of diabetic retinopathy detection and grading based on deep learning and metaheuristic optimization techniques
WO2022097294A1 (ja) 情報処理システム、内視鏡システム及び情報処理方法
WO2021044590A1 (ja) 内視鏡システム、処理システム、内視鏡システムの作動方法及び画像処理プログラム
WO2024009631A1 (ja) 画像処理装置及び画像処理装置の作動方法
US20230137862A1 (en) System, Method, and Computer Program for a Microscope of a Surgical Microscope System

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20912680

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20912680

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP