WO2023119664A1 - 機械学習プログラム、装置、及び方法 - Google Patents

機械学習プログラム、装置、及び方法 Download PDF

Info

Publication number
WO2023119664A1
WO2023119664A1 PCT/JP2021/048388 JP2021048388W WO2023119664A1 WO 2023119664 A1 WO2023119664 A1 WO 2023119664A1 JP 2021048388 W JP2021048388 W JP 2021048388W WO 2023119664 A1 WO2023119664 A1 WO 2023119664A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
machine learning
region
learning model
threshold
Prior art date
Application number
PCT/JP2021/048388
Other languages
English (en)
French (fr)
Inventor
佳寛 大川
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2021/048388 priority Critical patent/WO2023119664A1/ja
Priority to JP2023569026A priority patent/JPWO2023119664A1/ja
Publication of WO2023119664A1 publication Critical patent/WO2023119664A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the disclosed technology relates to a machine learning program, a machine learning device, and a machine learning method.
  • semantic segmentation is used to divide an image into regions by object type by classifying the object type for each small area such as a pixel unit of the image.
  • semantic segmentation task similarly to the above, during the operation of a system using a machine learning model, the accuracy of the machine learning model may decrease due to changes in operational data.
  • a technology has been proposed in which operation data after change during system operation is assumed and prepared in advance, and training data including this operation data after change is used for training of machine learning models used in the system. ing.
  • class classification is performed for each small region such as a pixel unit. Therefore, if a correct label is assigned to operation data during system operation, the operation cost will be enormous. Moreover, if it is unknown how the operational data will change during system operation, it is difficult to prepare the operational data after the change in advance and train the machine learning model.
  • the disclosed technology aims to maintain the accuracy of machine learning models in semantic segmentation tasks.
  • the technology disclosed herein assumes that the machine learning model has classified the first image based on values below the threshold.
  • the machine learning model classifies the second image based on the value equal to or greater than the threshold, and the A classification result of a second region of the second image is labeled with respect to the first region. Accordingly, the disclosed technology generates training data and trains the machine learning model based on the training data.
  • it has the effect of maintaining the accuracy of the machine learning model in semantic segmentation tasks.
  • FIG. 4 is a diagram for explaining semantic segmentation
  • FIG. 10 is a diagram for explaining a decrease in accuracy of a machine learning model in a semantic segmentation task
  • It is a functional block diagram of a machine learning device.
  • FIG. 4 is a diagram for explaining generation of synthetic pseudo-labels
  • FIG. 10 is a diagram for explaining labeling of an image classified as “bad”
  • It is a graph showing the transition of the accuracy of the machine learning model in operation.
  • 1 is a block diagram showing a schematic configuration of a computer functioning as a machine learning device
  • FIG. 6 is a flowchart illustrating an example of machine learning processing
  • FIG. 11 shows a schematic diagram of an example of an image and an example of a classification result when there is a situation change
  • FIG. 11 shows a schematic diagram of an example of an image and an example of a classification result when there is a situation change
  • FIG. 10 is a diagram illustrating generation of training data in an example application
  • FIG. 4 is a schematic diagram of an example image, a classification result, and an example of accuracy in an application example
  • FIG. 4 is a schematic diagram of an example image, a classification result, and an example of accuracy in an application example;
  • image features that are useful for classification are trained from images, which are training data.
  • the features of images input to the system during operation may change from the features of the images used when training the machine learning model.
  • the causes of this include, for example, the surface of the camera that captures the image is dirty, the position is shifted, and the sensitivity is degraded.
  • the accuracy of the machine learning model decreases due to changes in the features of the images acquired during operation. For example, while the machine learning model has an accuracy rate of 99% at the beginning of operation, the accuracy decreases to an accuracy rate of 60% after a predetermined period of time from the start of operation.
  • FIG. 1 shows a schematic diagram in which the boundary plane for each label and the feature amount extracted from each image are projected onto the feature amount space.
  • the feature values are clearly separated for each label on the boundary plane in the feature value space.
  • the dashed-dotted line in FIG. 1 When there is a change in the characteristics of the acquired image, as shown in the right diagram of FIG. , are connected (the dashed-dotted line in FIG. 1). For this reason, the classification result by the machine learning model tends to be erroneous, resulting in a decrease in accuracy.
  • the feature quantity distribution in the feature quantity space is characterized in that the feature quantity distribution of the same label has one or more points with high density, and the density tends to decrease toward the outside of the distribution. Therefore, the following reference method is conceivable for automatically labeling images, which are operational data, by using this feature.
  • the reference method calculates the density for each cluster of the feature amount of each label in the feature amount space before the accuracy is lowered, and records the number of clusters. Also, according to the reference method, the center of an area with a certain density or more in each cluster or the point with the highest density is recorded as the cluster center.
  • the density of the feature amount of the image which is the operation data, is calculated for each point in the feature amount space.
  • the reference method extracts, as clusters, feature amounts included in regions where the density is equal to or greater than a threshold in the feature amount space. Then, in the reference method, by changing the threshold, the number of extracted clusters searches for the minimum threshold that makes the number of clusters recorded before the precision drop. The reference method matches the cluster center of each cluster clustered at the minimum threshold with the cluster center recorded before the precision loss. Then, according to the reference method, the label corresponding to the cluster before the precision reduction is applied to the image corresponding to the feature quantity included in the matched cluster. This allows the labeling of the images of the operational data. The reference method uses labeled operational data to train a machine learning model, thereby suppressing the deterioration of the accuracy of the machine learning model during operation.
  • Semantic segmentation is, as shown in Fig. 2, inputting an input image into a machine learning model and classifying the type of subject for each small area such as a pixel unit of the image. This is a technique for outputting the results of segmentation into regions.
  • FIG. 3 shows an example of inputting images taken at night during operation in a system using a machine learning model trained using images taken outdoors in the daytime as training data. For example, the brightness change between the daytime image and the nighttime image, or the reflection of the light from the outdoor light, which is not present in the daytime image, is present in the nighttime image (broken line in FIG. 3). Machine learning models become less accurate.
  • Machine learning device 10 functionally includes determination unit 11 , generation unit 12 , and training unit 16 .
  • the generator 12 further includes a label generator 13 , an extended image generator 14 and a training data generator 15 .
  • a machine learning model 20 is stored in a predetermined storage area of the machine learning device 10 .
  • the machine learning model 20 is a machine learning model that is used to perform the task of semantic segmentation in the system in operation.
  • the machine learning model 20 is composed of, for example, a DNN (Deep Neural Network) or the like.
  • the determination unit 11 acquires a data set of images, which are operational data input to the machine learning device 10 .
  • the determination unit 11 obtains classification results obtained by classifying each pixel using the machine learning model 20 for each of the obtained images. Then, the determination unit 11 determines whether the classification result of each image is good or bad. Specifically, the determination unit 11 calculates a classification score indicating the degree of certainty of the classification result together with the classification result.
  • the classification score may be a score based on the output value of the layer one layer before the final layer, that is, the value before applying the softmax function.
  • the classification score vector v (x_i,k,l) obtained from machine learning model 20 is (1) Suppose it is represented by Formula.
  • the classification score S (x_i, k, l) may be the following equation (2).
  • v (x_i,k,l) [s (x_i,k,l,1) ,...,s (x_i,k,l,N) ] ...
  • the determination unit 11 calculates the average classification score for all pixels of the image. If the average value is equal to or greater than the threshold value, the determination unit 11 determines the classification result of the image as "good", and if the average value is less than the threshold value, determines the classification result of the image as "bad". As a result, it is possible to determine whether the accuracy of the machine learning model 20 has deteriorated during operation without teaching data.
  • An image classified as "bad” is an example of the "first image” of the disclosed technique
  • an image classified as "good” is an example of the "second image” of the disclosed technique. be.
  • the generating unit 12 generates training data for re-learning the machine learning model 20.
  • Each of the label generation unit 13, the extended image generation unit 14, and the training data generation unit 15 will be described in detail below.
  • the label generating unit 13 generates a synthetic pseudo label using the classification result of the images shot in the same shooting location and shooting direction among the images classified as "good". do. Specifically, as shown in FIG. 6, the label generation unit 13 generates a classification score vector v (x_i , k, l) are used to generate a synthetic pseudo-label c (k, l) for the pixel (k, l ) as shown in the following equation (3).
  • the label generation unit 13 creates a label corresponding to the class that maximizes the sum of the probabilities for each element of the classification score vector, that is, for each class. Generate as a composite pseudo-label c (k, l) of (k, l).
  • the extended image generation unit 14 generates an extended image by extending the image of the operational data, as shown in C of FIG.
  • a conventionally known method may be adopted as the method of generating the extended image.
  • the extended image generation unit 14 may generate an extended image by alpha blending an image classified as "good” and an image classified as "poor". It should be noted that, when the extended image generation unit 14 generates an extended image by synthesizing two or more images, the extended image generation unit 14 uses images shot at the same shooting location and shooting direction.
  • the training data generation unit 15 generates training data by labeling each pixel with the classification result of the pixel for the image classified as "good”. Further, the training data generation unit 15 generates training data by labeling each of the images classified as “bad” and the extended images with synthetic pseudo labels. Specifically, as shown in FIG. 7 , the training data generation unit 15 selects pixels (k, l) of an image classified as “bad” at the same shooting location and shooting direction as the image. , a synthetic pseudo-label c (k, l) generated from images classified as “good”.
  • the training data generation unit 15 assigns the pixel (k, l) of the extended image to the extended image, which is captured in the same shooting location and shooting direction as the original image of the extended image.
  • a synthetic pseudo-label c (k, l) generated from images with a "good” result is given.
  • the training unit 16 trains the machine learning model 20 using the training data generated by the generation unit 12, as shown in E of FIG. That is, the training unit 16 trains the machine learning model 20 using the training data in which the classification result of the machine learning model 20 in operation at that time is labeled as the correct label for the operational data acquired during operation. Relearn. The retrained machine learning model 20 is output and applied to the system in operation.
  • Fig. 8 schematically shows the relationship between the elapsed time during operation and the accuracy of the machine learning model.
  • the solid line represents the transition of accuracy when the classification result obtained during operation is correct
  • the dashed line represents the transition of accuracy when the classification result obtained during operation is not correct.
  • the machine learning device 10 may be realized, for example, by the computer 40 shown in FIG.
  • the computer 40 includes a CPU (Central Processing Unit) 41 , a memory 42 as a temporary storage area, and a non-volatile storage section 43 .
  • the computer 40 also includes an input/output device 44 such as an input unit and a display unit, and an R/W (Read/Write) unit 45 that controls reading and writing of data to/from a storage medium 49 .
  • the computer 40 also has a communication I/F (Interface) 46 connected to a network such as the Internet.
  • the CPU 41 , memory 42 , storage unit 43 , input/output device 44 , R/W unit 45 and communication I/F 46 are connected to each other via bus 47 .
  • the storage unit 43 may be implemented by a HDD (Hard Disk Drive), SSD (Solid State Drive), flash memory, or the like.
  • a storage unit 43 as a storage medium stores a machine learning program 50 for causing the computer 40 to function as the machine learning device 10 .
  • Machine learning program 50 has determination process 51 , generation process 52 , and training process 56 .
  • the storage unit 43 also has an information storage area 60 in which information forming the machine learning model 20 is stored.
  • the CPU 41 reads out the machine learning program 50 from the storage unit 43, develops it in the memory 42, and sequentially executes the processes of the machine learning program 50.
  • the CPU 41 operates as the determination unit 11 shown in FIG. 4 by executing the determination process 51 . Further, the CPU 41 operates as the generation unit 12 shown in FIG. 4 by executing the generation process 52 . Further, the CPU 41 operates as the training section 16 shown in FIG. 4 by executing the training process 56 .
  • the CPU 41 also reads information from the information storage area 60 and develops the machine learning model 20 in the memory 42 . Thereby, the computer 40 executing the machine learning program 50 functions as the machine learning device 10 . Note that the CPU 41 that executes the program is hardware.
  • the functions realized by the machine learning program 50 can also be realized by, for example, a semiconductor integrated circuit, more specifically, an ASIC (Application Specific Integrated Circuit), a GPU (Graphics Processing Unit), or the like.
  • a semiconductor integrated circuit more specifically, an ASIC (Application Specific Integrated Circuit), a GPU (Graphics Processing Unit), or the like.
  • a machine learning model 20 used in a system in operation is stored in the machine learning device 10 , and a data set of images, which is operational data, is input to the machine learning device 10 . Then, when re-learning of the machine learning model 20 is instructed, the machine learning process shown in FIG. 10 is executed in the machine learning device 10 .
  • the machine learning process is an example of the machine learning method of technology disclosed herein.
  • step S ⁇ b>11 the determination unit 11 acquires an image data set, which is operational data input to the machine learning device 10 . Then, the determination unit 11 obtains classification results of classifying each pixel using the machine learning model 20 for each of the obtained images.
  • step S12 the determination unit 11 calculates the average value of the classification scores indicating the certainty of the classification result of each pixel for all pixels of the image, and the classification result of the image whose average value is equal to or greater than the threshold value is classified as " "Good", and the classification result of an image whose average value is less than the threshold value is determined as "Bad".
  • step S13 the label generation unit 13 generates a composite pseudo label using the classification results of the images shot in the same shooting location and shooting direction among the images classified as "good”.
  • step S14 the extended image generation unit 14 generates an extended image by extending the image of the operational data.
  • step S16 the training data generation unit 15 generates training data by labeling each pixel with the classification result of the pixel for the image classified as "good”. Also, the training data generation unit 15 generates training data by labeling each of the images classified as “bad” and the extended images with synthetic pseudo labels.
  • step S17 the training unit 16 uses the training data generated by the generation unit 12 to train the machine learning model 20. Then the machine learning process ends.
  • the machine learning device determines whether the classification result is good or bad based on the classification score of the classification result when semantic segmentation is performed on the image, which is the operational data, using the machine learning model. do.
  • the machine learning device provides training data labeled with the classification result of each pixel of the image whose classification result is "good” corresponding to each pixel of the image whose classification result is determined to be "bad”. Generate and train a machine learning model based on the generated training data. This allows the accuracy of the machine learning model to be maintained while controlling operational costs in the task of semantic segmentation.
  • a machine learning model trained by the machine learning device is applied to a system for detecting an increase in river water.
  • the task of this application example is to perform semantic segmentation on an image of a river, and determine whether or not the water level is rising based on the area classified as the river (water surface).
  • out of the 15 photographing locations 8 non-flooded locations and 7 flooded locations were photographed at intervals of 10 to 20 minutes for 4 days as operational data. I will explain the result of using and verifying.
  • CPNet reference document 1 was used as an initial machine learning model as a verification condition.
  • grayscaling, flipping, and random erasing were applied to the method of generating the extended image.
  • the machine learning model is run using images for the previous 4 hours (approximately 150 to 250 images) and a portion of the training data (300 images) used when training the initial machine learning model. It was trained by fine-tuning and re-learned.
  • fine tuning the initial value of the learning rate was set to 0.00001, and the number of epochs was set to 500.
  • the time required for the above fine tuning is less than 10 minutes for one GPU.
  • FIG. 11 and 12 are schematic diagrams of an example of an image and an example of a classification result when images shot at the same shooting location and in the same shooting direction have different shooting times, that is, when there is a situation change between the two images. show.
  • the upper part of FIG. 11 is an example of an image taken in a time zone around 18:00 when it is still bright.
  • the lower part of FIG. 11 is an example of an image taken in a time period when the sun has set and it has become dark.
  • FIG. 11 and 12 are schematic diagrams of an example of an image and an example of a classification result when images shot at the same shooting location and in the same shooting direction have different shooting times, that is, when there is a situation change between the two images. show.
  • the upper part of FIG. 11 is an example of an image taken in a time zone around 18:00 when it is still bright.
  • the lower part of FIG. 11 is an example of an image taken in a time period when the sun has set and it has become dark.
  • the classification score decreases as the situation changes, and a decrease in accuracy of the machine learning model can be detected without using correct labels.
  • a synthetic pseudo-label is generated from the classification result determined to be "good”, and the generated synthetic pseudo-label is applied to the image and the extended image whose classification result is determined to be "bad".
  • Labeled and generated training data. 14 and 15 schematically show examples of images, classification results, and accuracy in this case.
  • FIG. 14 is an example of an image taken around 18:00 when it is still bright
  • FIG. 15 is an example of an image taken at night.
  • Accuracy represents the average accuracy rate of classification results for the class "water surface”.
  • Fig. 14 for images in bright time zones, both the classification results of the machine learning model before relearning and the classification results of the machine learning model after relearning using the application example maintain high accuracy. are doing.
  • the accuracy of the classification result of the machine learning model before re-learning is remarkably lowered.
  • the classification result by the machine learning model after re-learning by the application example maintains high accuracy.
  • the application example can maintain the accuracy of the machine learning model without incurring operational costs such as manual assignment of correct labels, even when there is a change in the situation during operation.
  • class classification is not limited to pixel units.
  • the classification may be performed in units of small areas such as 2 pixels ⁇ 2 pixels, 3 pixels ⁇ 3 pixels, or the like.
  • the machine learning device may determine pass/fail for each class classification unit. In this case, one image has an area classified as "good” and an area classified as "bad". Also, in this case, the machine learning device does not generate synthetic pseudo labels for each image, but for each region with a "good” classification result. Then, in each image, the machine learning device assigns a synthetic pseudo-label generated from the region classified as "good” corresponding to the position of the region classified as "poor” in each image. may In addition, the machine learning device may assign the classification result of the region as a label to the region with the classification result of "good” in each image.
  • the present invention is not limited to this.
  • the program according to the technology disclosed herein can also be provided in a form stored in a storage medium such as a CD-ROM, DVD-ROM, USB memory, or the like.
  • machine learning device 11 determination unit 12 generation unit 13 label generation unit 14 extended image generation unit 15 training data generation unit 16 training unit 20 machine learning model 40 computer 41 CPU 42 memory 43 storage unit 44 input/output device 45 R/W unit 46 communication I/F 47 bus 49 storage medium 50 machine learning program 51 determination process 52 generation process 56 training process 60 information storage area

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

機械学習装置は、運用データである画像のデータセットに含まれる画像の各々について、機械学習モデル20を用いて各画素をクラス分類した分類結果を取得し、分類結果の確信度を示す分類スコアの平均値が閾値以上の画像の分類結果を「良」、閾値未満の画像の分類結果を「不良」と判定し(A)、分類結果が「良」の画像の内、同一の撮影場所及び撮影方向で撮影された画像の分類結果を用いて、合成疑似ラベルを生成し(B)、運用データの画像を拡張した拡張画像を生成し(C)、分類結果が「良」の画像については、各画素に、その画素の分類結果をラベル付けし、分類結果が「不良」の画像、及び拡張画像の各々に合成疑似ラベルをラベル付けすることにより、訓練データを生成し(D)、生成した訓練データを用いて、機械学習モデル20を訓練する(E)。

Description

機械学習プログラム、装置、及び方法
 開示の技術は、機械学習プログラム、機械学習装置、及び機械学習方法に関する。
 近年、企業等で利用されているシステムで実行される、データの判定、分類等の処理への機械学習モデルの導入が進んでいる。機械学習モデルは、システム開発時の訓練時に利用した訓練データに基づいてデータの判定、分類等を行う。そのため、システム運用中に利用する運用データの傾向が、訓練データの傾向から変化すると、機械学習モデルの判定精度、分類精度等が低下する。システム運用中の機械学習モデルの精度を維持するためには、定期的に手動で、すなわち、機械学習モデルの出力結果の正誤を人間が確認することで正解率等の精度を示す値を算出する。そして、その値が低下した場合には、システムは、手動で正誤確認され、正解のラベルが付与された訓練データを用いて機械学習モデルを訓練する。
 また、機械学習モデルによりデータの判定、分類等を行う技術として、画像の画素単位等の小領域毎に被写体の種別をクラス分類することで、画像内を被写体の種別毎に領域分けするセマンティックセグメンテーションという技術が存在する。セマンティックセグメンテーションのタスクにおいても、上記と同様に、機械学習モデルを用いたシステムの運用中に、運用データの変化により、機械学習モデルの精度が低下する場合がある。これに対して、システム運用中の変化後の運用データを想定して予め用意し、システムで利用する機械学習モデルの訓練に、この変化後の運用データも含めた訓練データを用いる技術が提案されている。
Yang Zou, Zhiding Yu, B.V.K. Vijaya Kumar, and Jinsong Wang, "Unsupervised Domain Adaptation for Semantic Segmentation via Class-Balanced Self-Training", Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 289-305. Yunsheng Li, Lu Yuan, and Nuno Vasconcelos, "Bidirectional Learning for Domain Adaptation of Semantic Segmentation", Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 6929-6938.
 上述したように、セマンティックセグメンテーションのタスクにおいては、画素単位等の小領域毎にクラス分類を行う。そのため、システム運用中に、運用データに対して正解ラベルを付与する場合には、運用コストが膨大となる。また、システム運用中に運用データがどのような変化をするかが不明な場合には、事前に変化後の運用データを用意して機械学習モデルを訓練することは困難である。
 一つの側面として、開示の技術は、セマンティックセグメンテーションのタスクにおいて、機械学習モデルの精度を維持することを目的とする。
 一つの態様として、開示の技術は、機械学習モデルが第1の画像を閾値未満の値に基づいて分類したとする。この場合、開示の技術は、前記機械学習モデルが前記閾値以上の値に基づいて第2の画像を分類した分類結果に基づいて、前記第1の画像の第1の領域の位置に対応する前記第2の画像の第2の領域の分類結果を、前記第1の領域に対してラベル付けする。これにより、開示の技術は、訓練データを生成し、前記訓練データに基づいて前記機械学習モデルを訓練する。
 一つの側面として、セマンティックセグメンテーションのタスクにおいて、機械学習モデルの精度を維持することができる、という効果を有する。
機械学習モデルの精度低下を説明するための図である。 セマンティックセグメンテーションを説明するための図である。 セマンティックセグメンテーションのタスクにおける機械学習モデルの精度低下を説明するための図である。 機械学習装置の機能ブロック図である。 機械学習装置の各処理を説明するための図である。 合成疑似ラベルの生成を説明するための図である。 分類結果が「不良」の画像へのラベル付けを説明するための図である。 運用中の機械学習モデルの精度の推移を表すグラフである。 機械学習装置として機能するコンピュータの概略構成を示すブロック図である。 機械学習処理の一例を示すフローチャートである。 状況変化があった場合の画像例及び分類結果例の概略図を示す。 状況変化があった場合の画像例及び分類結果例の概略図を示す。 適用例における訓練データの生成を示す図である。 適用例における画像例、分類結果、及び精度の一例の概略図である。 適用例における画像例、分類結果、及び精度の一例の概略図である。
 以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。
 まず、実施形態の詳細を説明する前に、システム運用中における機械学習モデルの精度低下について説明する。
 例えば、画像に写る被写体を推定する画像分類のシステムで利用される機械学習モデルの訓練では、分類を行う際に有用な画像上の特徴が、訓練データである画像から訓練される。しかし、運用時にシステムに入力される画像の特徴が、機械学習モデルの訓練時に使用された画像の特徴から変化してしまう場合がある。この原因としては、例えば、画像を撮影するカメラの表面が汚れた、位置がずれた、感度が劣化した等が挙げられる。このような運用時に取得される画像の特徴の変化により、機械学習モデルの精度低下が生じる。例えば、運用当初の機械学習モデルは正解率99%の精度であったのに対し、運用開始から所定期間経過後には、正解率60%の精度しか出せなくなるような精度低下が生じる。
 このような精度低下が生じる原因について説明する。図1に、ラベル毎の境界平面と、各画像から抽出される特徴量とを特徴量空間に射影した概略図を示す。図1左図に示すように、機械学習モデルの訓練直後では、特徴量空間において、境界平面を境に特徴量がラベル毎に明確に分かれている。そして、取得される画像の特徴に変化が生じた場合、図1右図に示すように、画像から抽出される特徴量が異なるラベルの領域へ移動したり(図1中の破線部)、複数のラベルの領域が連結したりする(図1中の一点鎖線部)。このため、機械学習モデルによる分類結果が誤り易くなり、精度低下が生じる。
 ここで、特徴量空間における特徴量の分布は、同じラベルの特徴量の分布には密度が高い点が1又は複数あり、分布の外側に向かって密度が薄くなる場合が多いという特徴を持つ。そこで、その特徴を利用して、運用データである画像に対して自動ラベル付けを行う以下のような参考手法が考えられる。参考手法は、精度低下前の特徴量空間における、各ラベルの特徴量のクラスタ毎に密度を計算し、クラスタ数を記録する。また、参考手法は、各クラスタの中で密度が一定以上の領域の中心、又は最も密度の高い点をクラスタ中心として記録する。そして、参考手法は、運用後において、運用データである画像の特徴量の密度を、特徴量空間の各点について計算する。参考手法は、特徴量空間において、密度が閾値以上となる領域に含まれる特徴量をクラスタとして抽出する。そして、参考手法は、閾値を変更することで、抽出されるクラスタ数が、精度低下前に記録したクラスタ数となる最小の閾値を探索する。参考手法は、最小の閾値の際にクラスタリングされた各クラスタのクラスタ中心と、精度低下前に記録したクラスタ中心とのマッチングを行う。そして、参考手法は、精度低下前のクラスタに対応するラベルを、マッチングしたクラスタに含まれる特徴量に対応する画像に付与する。これにより、運用データの画像へのラベル付けが行われる。参考手法は、ラベル付けが行われた運用データを用いて、機械学習モデルを訓練することで、運用中の機械学習モデルの精度低下を抑制する。
 また、ここで、セマンティックセグメンテーションのタスクについて考える。セマンティックセグメンテーションとは、図2に示すように、入力画像を機械学習モデルへ入力し、画像の画素単位等の小領域毎に被写体の種別をクラス分類することで、画像内を被写体の種別毎に領域分けした分類結果を出力する技術である。図3に示すように、セマンティックセグメンテーションのタスクにおいても、上記の画像分類問題と同様に、運用時の時間経過、天候等の状況変化により、機械学習モデルの精度低下が生じる。図3は、昼間の屋外で撮影した画像を訓練データとして用いて訓練された機械学習モデルを用いたシステムにおいて、運用時に、夜間に撮影された画像が入力される例を示している。例えば、昼間の画像と夜間の画像との間の明度変化や、昼間の画像にはない、外灯の光の反射等が夜間の画像に存在すること(図3の破線部)等が原因で、機械学習モデルの精度が低下する。
 このようなセマンティックセグメンテーションのタスクにおける運用時の精度低下に対して、上記の参考手法を適用することが考えられる。しかし、セマンティックセグメンテーションにおいては、画像中の各画素等の小領域単位でクラス分類を行うため、運用中に扱うインスタンスの数が膨大となり、参考手法のようなクラスタリングが困難である。例えば、各バッチで320画素×240画素の画像100枚を処理する場合、クラスタリングの対象となるインスタンス数は、画像分類問題であれば100個である。これに対して、セマンティックセグメンテーション問題では、320×240×100=7,680,000個となる。
 そこで、本実施形態では、参考手法のようなクラスタリングを用いることなく、運用時の運用データの変化に追従し、適切なラベル付けを行う。以下、本実施形態に係る機械学習装置について詳述する。なお、以下の実施形態では、画像の各画素のクラス分類を行うセマンティックセグメンテーション問題を例に説明する。
 図4に示すように、機械学習装置10には、運用データとして、画像のデータセットが入力される。機械学習装置10は、機能的には、判定部11と、生成部12と、訓練部16とを含む。生成部12はさらに、ラベル生成部13と、拡張画像生成部14と、訓練データ生成部15とを含む。また、機械学習装置10の所定の記憶領域には、機械学習モデル20が記憶される。
 機械学習モデル20は、運用中のシステムで、セマンティックセグメンテーションのタスクを実行するために用いられている機械学習モデルである。機械学習モデル20は、例えば、DNN(Deep Neural Network)等で構成される。
 判定部11は、図5のAに示すように、機械学習装置10に入力された運用データである画像のデータセットを取得する。判定部11は、取得した画像の各々について、機械学習モデル20を用いて各画素をクラス分類した分類結果を取得する。そして、判定部11は、各画像についての分類結果の良否を判定する。具体的には、判定部11は、分類結果と共に、分類結果の確信度を示す分類スコアを算出する。分類スコアは、例えば、機械学習モデル20がDNNの場合、最終層の一つ前の層の出力値、すなわち、softmax関数を適用する前の値に基づくスコアとしてよい。
 より具体的には、N個のクラス分類を行うセマンティックセグメンテーション問題の場合、画像x_iの画素(k,l)について、機械学習モデル20から得られる分類スコアベクトルv(x_i,k,l)が下記(1)式で表されるとする。この場合、分類スコアS(x_i,k,l)を下記(2)式としてよい。
(x_i,k,l)=[s(x_i,k,l,1),・・・,s(x_i,k,l,N)
                          ・・・(1)
(x_i,k,l)
=arg max(s(x_i,k,l,1),・・・,s(x_i,k,l,N)
                          ・・・(2)
 ただし、s(x_i,k,l,n)(n=1,・・・,N)は、画像x_iの画素(k,l)がクラスnである確率である。
 判定部11は、画像の全画素についての分類スコアの平均値を算出する。判定部11は、平均値が閾値以上であれば、その画像の分類結果を「良」、平均値が閾値未満であれば、その画像の分類結果を「不良」と判定する。これにより、教師データなしで、運用時の機械学習モデル20の精度低下を判定することができる。なお、分類結果が「不良」の画像は、開示の技術の「第1の画像」の一例であり、分類結果が「良」の画像は、開示の技術の「第2の画像」の一例である。
 生成部12は、機械学習モデル20を再学習するための訓練データを生成する。以下、ラベル生成部13、拡張画像生成部14、及び訓練データ生成部15の各々について詳述する。
 ラベル生成部13は、図5のBに示すように、分類結果が「良」の画像の内、同一の撮影場所及び撮影方向で撮影された画像の分類結果を用いて、合成疑似ラベルを生成する。具体的には、図6に示すように、ラベル生成部13は、分類結果が「良」の画像の集合Xに含まれる各画像x_iの画素(k,l)の分類スコアベクトルv(x_i,k,l)を用いて、下記(3)式に示すように、画素(k,l)についての合成疑似ラベルc(k,l)を生成する。
Figure JPOXMLDOC01-appb-M000001
 すなわち、ラベル生成部13は、画像x_i∈Xの各画素(k,l)について、分類スコアベクトルの要素毎、すなわちクラス毎の確率の和が最大となるクラスに対応するラベルを、その画素(k,l)の合成疑似ラベルc(k,l)として生成する。
 拡張画像生成部14は、図5のCに示すように、運用データの画像を拡張した拡張画像を生成する。拡張画像の生成方法は従来既知の方法を採用してよい。例えば、拡張画像生成部14は、分類結果が「良」の画像と、分類結果が「不良」の画像とのαブレンドにより拡張画像を生成してよい。なお、拡張画像生成部14は、2以上の画像を合成して拡張画像を生成する場合、同一の撮影場所及び撮影方向で撮影された画像を用いる。
 訓練データ生成部15は、図5のDに示すように、分類結果が「良」の画像については、各画素に、その画素の分類結果をラベル付けすることにより、訓練データを生成する。また、訓練データ生成部15は、分類結果が「不良」の画像、及び拡張画像の各々に合成疑似ラベルをラベル付けすることにより、訓練データを生成する。具体的には、図7に示すように、訓練データ生成部15は、分類結果が「不良」の画像の画素(k,l)に、その画像と同一の撮影場所及び撮影方向で撮影された、分類結果が「良」の画像から生成された合成疑似ラベルc(k,l)を付与する。また、訓練データ生成部15は、拡張画像についても同様に、拡張画像の画素(k,l)に、その拡張画像の元となった画像と同一の撮影場所及び撮影方向で撮影された、分類結果が「良」の画像から生成された合成疑似ラベルc(k,l)を付与する。
 訓練部16は、図5のEに示すように、生成部12により生成された訓練データを用いて、機械学習モデル20を訓練する。すなわち、訓練部16は、運用時に取得される運用データに対して、その時点で運用中の機械学習モデル20による分類結果が正解ラベルとしてラベル付けされた訓練データを用いて、機械学習モデル20を再学習する。再学習された機械学習モデル20は出力され、運用中のシステムへ適用される。
 図8に、運用中の経過時間と機械学習モデルの精度との関係を概略的に示す。図8の例では、実線は、運用中に得られる分類結果が適正な場合の精度の推移であり、破線は、運用中に得られる分類結果が適正ではない場合の精度の推移である。このように、運用データに対する分類結果が真の分類結果と大きく異なる場合、その分類結果を正解ラベルとしてラベル付けした訓練データを用いてモデルを再訓練しても精度が維持されない、又は再訓練することで逆に精度が低下する場合がある。本実施形態では、運用データに対する分類結果の良否を判定した上で、分類結果が「不良」の画像については、分類結果が「良」の画像の分類結果に基づくラベルが付与される。そのため、図8の実線で示す例と同様に、運用中の機械学習モデルの精度低下を抑制することができる。
 機械学習装置10は、例えば図9に示すコンピュータ40で実現されてよい。コンピュータ40は、CPU(Central Processing Unit)41と、一時記憶領域としてのメモリ42と、不揮発性の記憶部43とを備える。また、コンピュータ40は、入力部、表示部等の入出力装置44と、記憶媒体49に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)部45とを備える。また、コンピュータ40は、インターネット等のネットワークに接続される通信I/F(Interface)46を備える。CPU41、メモリ42、記憶部43、入出力装置44、R/W部45、及び通信I/F46は、バス47を介して互いに接続される。
 記憶部43は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等によって実現されてよい。記憶媒体としての記憶部43には、コンピュータ40を、機械学習装置10として機能させるための機械学習プログラム50が記憶される。機械学習プログラム50は、判定プロセス51と、生成プロセス52と、訓練プロセス56とを有する。また、記憶部43は、機械学習モデル20を構成する情報が記憶される情報記憶領域60を有する。
 CPU41は、機械学習プログラム50を記憶部43から読み出してメモリ42に展開し、機械学習プログラム50が有するプロセスを順次実行する。CPU41は、判定プロセス51を実行することで、図4に示す判定部11として動作する。また、CPU41は、生成プロセス52を実行することで、図4に示す生成部12として動作する。また、CPU41は、訓練プロセス56を実行することで、図4に示す訓練部16として動作する。また、CPU41は、情報記憶領域60から情報を読み出して、機械学習モデル20をメモリ42に展開する。これにより、機械学習プログラム50を実行したコンピュータ40が、機械学習装置10として機能することになる。なお、プログラムを実行するCPU41はハードウェアである。
 なお、機械学習プログラム50により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)、GPU(Graphics Processing Unit)等で実現することも可能である。
 次に、本実施形態に係る機械学習装置10の作用について説明する。機械学習装置10に運用中のシステムで利用されている機械学習モデル20が記憶され、機械学習装置10に運用データである画像のデータセットが入力される。そして、機械学習モデル20の再学習が指示されると、機械学習装置10において、図10に示す機械学習処理が実行される。なお、機械学習処理は、開示の技術の機械学習方法の一例である。
 ステップS11で、判定部11が、機械学習装置10に入力された運用データである画像のデータセットを取得する。そして、判定部11が、取得した画像の各々について、機械学習モデル20を用いて各画素をクラス分類した分類結果を取得する。次に、ステップS12で、判定部11が、各画素の分類結果の確信度を示す分類スコアの、画像の全画素についての平均値を算出し、平均値が閾値以上の画像の分類結果を「良」、平均値が閾値未満の画像の分類結果を「不良」と判定する。
 次に、ステップS13で、ラベル生成部13が、分類結果が「良」の画像の内、同一の撮影場所及び撮影方向で撮影された画像の分類結果を用いて、合成疑似ラベルを生成する。次に、ステップS14で、拡張画像生成部14が、運用データの画像を拡張した拡張画像を生成する。次に、ステップS16で、訓練データ生成部15が、分類結果が「良」の画像について、各画素に、その画素の分類結果をラベル付けすることにより、訓練データを生成する。また、訓練データ生成部15が、分類結果が「不良」の画像、及び拡張画像の各々に合成疑似ラベルをラベル付けすることにより、訓練データを生成する。
 次に、ステップS17で、訓練部16が、生成部12により生成された訓練データを用いて、機械学習モデル20を訓練する。そして、機械学習処理は終了する。
 以上説明したように、本実施形態に係る機械学習装置は、機械学習モデルにより運用データである画像に対してセマンティックセグメンテーションを行った際の分類結果の分類スコアに基づいて、分類結果の良否を判定する。また、機械学習装置は、分類結果が「不良」と判定された画像の各画素に、その画素に対応する、分類結果が「良」の画像の各画素の分類結果をラベル付けした訓練データを生成し、生成した訓練データに基づいて機械学習モデルを訓練する。これにより、セマンティックセグメンテーションのタスクにおいて、運用コストを抑制しつつ、機械学習モデルの精度を維持することができる。
 ここで、本実施形態に係る機械学習装置により訓練される機械学習モデルを、河川の増水検知を行うシステムに適用した適用例について説明する。この適用例のタスクは、河川を撮影した画像に対してセマンティックセグメンテーションを行い、河川(水面)に分類された領域に基づいて、増水の有無を判別するものである。この適用例において、15箇所の撮影箇所のうち、8箇所の非増水箇所及び7箇所の増水箇所の各々で、10~20分間隔で撮影された4日間分の画像のデータセットを運用データとして使用して検証した結果について説明する。また、検証条件として、初期の機械学習モデルは、CPNet(参考文献1)を用いた。
 参考文献1:C. Yu, J. Wang, C. Gao, G. Yu, C. Shen, N. Sang, "Context Prior for Scene Segmentation," IEEE Conference on Computer Vision and Pattern Recognition, pp. 12416-12425, 2020.
 また、拡張画像の生成方法は、グレースケール化、フリッピング、及びランダムイレージングを適用した。また、2時間毎に、その前4時間分の画像(約150枚~250枚)及び初期の機械学習モデルの訓練時に使用した訓練データの一部(300枚)を用いて、機械学習モデルをファインチューニングにより訓練して再学習を行った。また、ファインチューニングにおいて、学習率の初期値を0.00001、エポック数を500とした。なお、参考として、上記のファインチューニングに要する時間は、GPU1枚で10分弱である。一方、初期の機械学習モデルの訓練時は、学習率の初期値を0.001、エポック数を20000とした場合、約5時間を要する。
 18:00-22:00に撮影された画像について、分類結果が「良」と判定された画像の分類スコアの平均は0.946、分類結果が「不良」と判定された画像の分類スコアの平均は0.871であった。図11及び図12に、同一の撮影場所及び撮影方向で撮影された画像で撮影時間が異なる場合、すなわち、2つの画像間に状況変化があった場合の画像例及び分類結果例の概略図を示す。図11の上段は、18:00付近のまだ明るい時間帯に撮影された画像の例であり、その分類結果の分類スコアは0.959であり、「良」と判定された。一方、図11の下段は、日が暮れて暗くなった時間帯に撮影された画像の例であり、その分類結果の分類スコアは0.885であり、「不良」と判定された。図12も同様の状況変化があった画像例であり、図12の上段の画像例は、その分類結果の分類スコアは0.973であり、「良」と判定された。一方、図12の下段の画像例は、その分類結果の分類スコアは0.885であり、「不良」と判定された。このように、状況変化に伴って分類スコアが減少しており、正解ラベルを用いることなく、機械学習モデルの精度低下を検知することができている。
 適用例において、図13に示すように、「良」と判定された分類結果から合成疑似ラベルを生成し、分類結果が「不良」と判定された画像及び拡張画像に、生成した合成疑似ラベルをラベル付けして訓練データを生成した。図14及び図15に、この場合の画像例、分類結果、及び精度の一例を概略的に示す。図14は、18:00付近のまだ明るい時間帯に撮影された画像例であり、図15は、夜間の画像例である。精度は、クラス「水面」の分類結果の平均正解率を表している。図14に示すように、明るい時間帯の画像に対しては、再学習前の機械学習モデルでの分類結果、及び適用例による再学習後の機械学習モデルによる分類結果のいずれも高い精度を維持している。また、図15に示すように、状況変化が生じた夜間の画像例では、再学習前の機械学習モデルでの分類結果は著しく精度が低下する。これに対して、適用例による再学習後の機械学習モデルによる分類結果では、高い精度を維持している。すなわち、適用例は、運用中の状況変化がある場合でも、人手による正解ラベルの付与等の運用コストをかけることなく、機械学習モデルの精度を維持することができている。
 なお、上記実施形態では、セマンティックセグメンテーションとして、画像の画素毎にクラス分類する場合について説明したが、クラス分類は画素単位に限定されない。例えば、2画素×2画素、3画素×3画素等の小領域単位でクラス分類を行うようにしてもよい。
 また、上記実施形態では、合成疑似ラベルを生成する処理、及びラベル付けの処理において、同一の撮影場所及び撮影方向で撮影された画像を対象として処理する場合について説明したが、これに限定されない。撮影場所及び撮影方向が異なる画像同士であっても、同一の地点に対応する画像上の位置の対応が画像同士でとれればよい。
 また、上記実施形態では、画像単位で分類結果の良否を判定する場合について説明したが、これに限定されない。機械学習装置は、クラス分類の単位毎に良否を判定してもよい。この場合、1つの画像内に、分類結果が「良」の領域と「不良」の領域とが存在することになる。また、この場合、機械学習装置は、合成疑似ラベルも画像単位で生成するのではなく、分類結果が「良」の領域毎に生成する。そして、機械学習装置は、各画像において、分類結果が「不良」の領域に対して、その領域の位置に対応する、分類結果が「良」の領域から生成した合成疑似ラベルを付与するようにしてもよい。また、機械学習装置は、各画像において、分類結果が「良」の領域については、その領域の分類結果をラベルとして付与すればよい。
 また、上記実施形態では、機械学習プログラムが記憶部に予め記憶(インストール)されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、CD-ROM、DVD-ROM、USBメモリ等の記憶媒体に記憶された形態で提供することも可能である。
10   機械学習装置
11   判定部
12   生成部
13   ラベル生成部
14   拡張画像生成部
15   訓練データ生成部
16   訓練部
20   機械学習モデル
40   コンピュータ
41   CPU
42   メモリ
43   記憶部
44   入出力装置
45   R/W部
46   通信I/F
47   バス
49   記憶媒体
50   機械学習プログラム
51   判定プロセス
52   生成プロセス
56   訓練プロセス
60   情報記憶領域

Claims (20)

  1.  機械学習モデルが第1の画像を閾値未満の値に基づいて分類した場合、前記機械学習モデルが前記閾値以上の値に基づいて第2の画像を分類した分類結果に基づいて、前記第1の画像の第1の領域の位置に対応する前記第2の画像の第2の領域の分類結果を、前記第1の領域に対してラベル付けした訓練データを生成し、
     前記訓練データに基づいて前記機械学習モデルを訓練する、
     処理をコンピュータに実行させることを特徴とする機械学習プログラム。
  2.  前記機械学習モデルが前記第1の画像を閾値未満の値で分類した場合とは、前記第1の画像のうち前記第1の領域を含む複数の領域のそれぞれが分類される際に出力される値の平均が前記閾値未満である場合である、
     請求項1に記載の機械学習プログラム。
  3.  前記機械学習モデルが前記第1の画像を閾値未満の値で分類した場合とは、前記第1の画像のうち前記第1の領域が分類される際に出力される値が前記閾値未満である場合であって、
     前記機械学習モデルが前記閾値以上の値に基づいて前記第2の画像を分類した分類結果とは、前記第2の画像を前記機械学習モデルへ入力して得られる前記第2の画像の前記第2の領域を前記閾値以上の値に基づいて分類した前記第2の領域の分類結果である、
     請求項1に記載の機械学習プログラム。
  4.  前記出力される値は、前記機械学習モデルによる分類結果の確信度を示す値である、
     請求項2又は請求項3に記載の機械学習プログラム。
  5.  前記訓練データを生成する処理は、前記第1の画像の第3の領域が前記閾値以上の値で分類された場合、前記第1の画像の前記第3の領域に対して前記第3の領域の分類結果をラベル付けした前記訓練データを生成する処理を含む、
     請求項1~請求項4のいずれか1項に記載の機械学習プログラム。
  6.  前記訓練データを生成する処理は、前記第1の画像及び前記第2の画像の少なくとも一方を用いて生成された第3の画像の第4の領域の位置に対応する前記第2の画像の第2の領域の分類結果を、前記第4の領域に対してラベル付けした訓練データを生成する処理を含む、
     請求項1~請求項5のいずれか1項に記載の機械学習プログラム。
  7.  前記第2の領域の分類結果は、前記第2の領域が複数のクラスの各々に分類される確率であり、
     前記ラベル付けの処理は、複数の前記第2の画像の前記第2の領域の分類結果に基づいて、前記第2の領域が分類される確率が最も高いクラスに対応するラベルを前記第1の領域に付与することを含む、
     請求項1~請求項6のいずれか1項に記載の機械学習プログラム。
  8.  機械学習モデルが第1の画像を閾値未満の値に基づいて分類した場合、前記機械学習モデルが前記閾値以上の値に基づいて第2の画像を分類した分類結果に基づいて、前記第1の画像の第1の領域の位置に対応する前記第2の画像の第2の領域の分類結果を、前記第1の領域に対してラベル付けした訓練データを生成し、
     前記訓練データに基づいて前記機械学習モデルを訓練する、
     処理を実行する制御部を含むことを特徴とする機械学習装置。
  9.  前記機械学習モデルが前記第1の画像を閾値未満の値で分類した場合とは、前記第1の画像のうち前記第1の領域を含む複数の領域のそれぞれが分類される際に出力される値の平均が前記閾値未満である場合である、
     請求項8に記載の機械学習装置。
  10.  前記機械学習モデルが前記第1の画像を閾値未満の値で分類した場合とは、前記第1の画像のうち前記第1の領域が分類される際に出力される値が前記閾値未満である場合であって、
     前記機械学習モデルが前記閾値以上の値に基づいて前記第2の画像を分類した分類結果とは、前記第2の画像を前記機械学習モデルへ入力して得られる前記第2の画像の前記第2の領域を前記閾値以上の値に基づいて分類した前記第2の領域の分類結果である、
     請求項8に記載の機械学習装置。
  11.  前記出力される値は、前記機械学習モデルによる分類結果の確信度を示す値である、
     請求項9又は請求項10に記載の機械学習装置。
  12.  前記訓練データを生成する処理は、前記第1の画像の第3の領域が前記閾値以上の値で分類された場合、前記第1の画像の前記第3の領域に対して前記第3の領域の分類結果をラベル付けした前記訓練データを生成する処理を含む、
     請求項8~請求項11のいずれか1項に記載の機械学習装置。
  13.  前記訓練データを生成する処理は、前記第1の画像及び前記第2の画像の少なくとも一方を用いて生成された第3の画像の第4の領域の位置に対応する前記第2の画像の第2の領域の分類結果を、前記第4の領域に対してラベル付けした訓練データを生成する処理を含む、
     請求項8~請求項12のいずれか1項に記載の機械学習装置。
  14.  前記第2の領域の分類結果は、前記第2の領域が複数のクラスの各々に分類される確率であり、
     前記ラベル付けの処理は、複数の前記第2の画像の前記第2の領域の分類結果に基づいて、前記第2の領域が分類される確率が最も高いクラスに対応するラベルを前記第1の領域に付与することを含む、
     請求項8~請求項13のいずれか1項に記載の機械学習装置。
  15.  機械学習モデルが第1の画像を閾値未満の値に基づいて分類した場合、前記機械学習モデルが前記閾値以上の値に基づいて第2の画像を分類した分類結果に基づいて、前記第1の画像の第1の領域の位置に対応する前記第2の画像の第2の領域の分類結果を、前記第1の領域に対してラベル付けした訓練データを生成し、
     前記訓練データに基づいて前記機械学習モデルを訓練する、
     処理をコンピュータに実行させることを特徴とする機械学習方法。
  16.  前記機械学習モデルが前記第1の画像を閾値未満の値で分類した場合とは、前記第1の画像のうち前記第1の領域を含む複数の領域のそれぞれが分類される際に出力される値の平均が前記閾値未満である場合である、
     請求項15に記載の機械学習方法。
  17.  前記機械学習モデルが前記第1の画像を閾値未満の値で分類した場合とは、前記第1の画像のうち前記第1の領域が分類される際に出力される値が前記閾値未満である場合であって、
     前記機械学習モデルが前記閾値以上の値に基づいて前記第2の画像を分類した分類結果とは、前記第2の画像を前記機械学習モデルへ入力して得られる前記第2の画像の前記第2の領域を前記閾値以上の値に基づいて分類した前記第2の領域の分類結果である、
     請求項15に記載の機械学習方法。
  18.  前記出力される値は、前記機械学習モデルによる分類結果の確信度を示す値である、
     請求項16又は請求項17に記載の機械学習方法。
  19.  前記訓練データを生成する処理は、前記第1の画像の第3の領域が前記閾値以上の値で分類された場合、前記第1の画像の前記第3の領域に対して前記第3の領域の分類結果をラベル付けした前記訓練データを生成する処理を含む、
     請求項15~請求項18のいずれか1項に記載の機械学習方法。
  20.  機械学習モデルが第1の画像を閾値未満の値に基づいて分類した場合、前記機械学習モデルが前記閾値以上の値に基づいて第2の画像を分類した分類結果に基づいて、前記第1の画像の第1の領域の位置に対応する前記第2の画像の第2の領域の分類結果を、前記第1の領域に対してラベル付けした訓練データを生成し、
     前記訓練データに基づいて前記機械学習モデルを訓練する、
     処理をコンピュータに実行させることを特徴とする機械学習プログラムを記憶した非一時的記憶媒体。
PCT/JP2021/048388 2021-12-24 2021-12-24 機械学習プログラム、装置、及び方法 WO2023119664A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/048388 WO2023119664A1 (ja) 2021-12-24 2021-12-24 機械学習プログラム、装置、及び方法
JP2023569026A JPWO2023119664A1 (ja) 2021-12-24 2021-12-24

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/048388 WO2023119664A1 (ja) 2021-12-24 2021-12-24 機械学習プログラム、装置、及び方法

Publications (1)

Publication Number Publication Date
WO2023119664A1 true WO2023119664A1 (ja) 2023-06-29

Family

ID=86901722

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/048388 WO2023119664A1 (ja) 2021-12-24 2021-12-24 機械学習プログラム、装置、及び方法

Country Status (2)

Country Link
JP (1) JPWO2023119664A1 (ja)
WO (1) WO2023119664A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019152948A (ja) * 2018-03-01 2019-09-12 日本電気株式会社 画像判定システム、モデル更新方法およびモデル更新プログラム
JP2020144755A (ja) * 2019-03-08 2020-09-10 日立オートモティブシステムズ株式会社 演算装置
WO2020194622A1 (ja) * 2019-03-27 2020-10-01 日本電気株式会社 情報処理装置、情報処理方法、及び非一時的なコンピュータ可読媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019152948A (ja) * 2018-03-01 2019-09-12 日本電気株式会社 画像判定システム、モデル更新方法およびモデル更新プログラム
JP2020144755A (ja) * 2019-03-08 2020-09-10 日立オートモティブシステムズ株式会社 演算装置
WO2020194622A1 (ja) * 2019-03-27 2020-10-01 日本電気株式会社 情報処理装置、情報処理方法、及び非一時的なコンピュータ可読媒体

Also Published As

Publication number Publication date
JPWO2023119664A1 (ja) 2023-06-29

Similar Documents

Publication Publication Date Title
KR102551544B1 (ko) 객체 정보 획득 방법 및 이를 수행하는 장치
JP4744918B2 (ja) 顔検出方法および装置並びにプログラム
US20180150725A1 (en) Image recognition apparatus, image recognition method, and program
KR102263397B1 (ko) 뉴럴 네트워크 학습에 이용될 오토 라벨링된 이미지 중에서 라벨 검수를 위한 샘플 이미지를 획득하는 방법 및 이를 이용한 샘플 이미지 획득 장치
JP6912835B2 (ja) 自律走行自動車のレベル4を満たすために要求されるhdマップアップデートに利用される、少なくとも一つのアダプティブロス重み付け値マップを利用したアテンションドリブン・イメージセグメンテーション学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置
JP6856853B2 (ja) 極限状況においてフォールトトレランス及びフラクチュエーションロバスト性を向上させるために、ジッタリングが起きたイメージを安定化させるプロセスで生成されたワーピングされたイメージに発生した歪曲を、ganを利用して減らすための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置
CN110555390A (zh) 基于半监督训练方式的行人重识别方法、装置及介质
CN113468967A (zh) 基于注意力机制的车道线检测方法、装置、设备及介质
CN111275175A (zh) 神经网络训练方法、装置、图像分类方法、设备和介质
KR102252155B1 (ko) 자율주행 자동차의 레벨 4를 충족시키기 위해 필요한 hd 지도와의 콜라보레이션을 지원하는 임베딩 로스 및 소프트맥스 로스를 이용하여 적어도 하나의 차선을 가지는 이미지를 세그멘테이션하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
CN111462163B (zh) 一种弱监督语义分割方法及其应用
CN114842343A (zh) 一种基于ViT的航空图像识别方法
CN112966647A (zh) 一种基于逐层聚类及增强判别的行人重识别方法
US20240119584A1 (en) Detection method, electronic device and non-transitory computer-readable storage medium
KR20220066633A (ko) 탐지대상 이미지에서의 이상 부분 탐지 방법 및 시스템, 이의 복원 모델 학습 방법
JP2007108990A (ja) 顔検出方法および装置並びにプログラム
CN117011563A (zh) 基于半监督联邦学习的道路损害巡检跨域检测方法及***
CN116030396A (zh) 一种用于视频结构化提取的精确分割方法
WO2022219402A1 (en) Semantically accurate super-resolution generative adversarial networks
CN115100497A (zh) 基于机器人的通道异常物体巡检方法、装置、设备及介质
WO2023119664A1 (ja) 機械学習プログラム、装置、及び方法
US20220198258A1 (en) Saliency Prioritization for Image Processing
JP7055259B2 (ja) ラベリング装置及び学習装置
CN111160274B (zh) 一种基于二值化Faster RCNN网络的行人检测方法
JP2011170890A (ja) 顔検出方法および装置並びにプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21969094

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023569026

Country of ref document: JP

Kind code of ref document: A