CN114531911A - 机器学习模型、生成装置、计算机程序 - Google Patents
机器学习模型、生成装置、计算机程序 Download PDFInfo
- Publication number
- CN114531911A CN114531911A CN202080066699.5A CN202080066699A CN114531911A CN 114531911 A CN114531911 A CN 114531911A CN 202080066699 A CN202080066699 A CN 202080066699A CN 114531911 A CN114531911 A CN 114531911A
- Authority
- CN
- China
- Prior art keywords
- image data
- input
- output
- data
- extraction unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 58
- 238000004590 computer program Methods 0.000 title claims description 14
- 238000006073 displacement reaction Methods 0.000 claims abstract description 146
- 238000000605 extraction Methods 0.000 claims abstract description 118
- 239000000284 extract Substances 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims description 65
- 238000011176 pooling Methods 0.000 claims description 62
- 230000008569 process Effects 0.000 claims description 51
- 230000006870 function Effects 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000009499 grossing Methods 0.000 claims description 18
- 238000011084 recovery Methods 0.000 claims 2
- 238000012545 processing Methods 0.000 description 67
- 238000010586 diagram Methods 0.000 description 18
- 239000013598 vector Substances 0.000 description 11
- 230000004913 activation Effects 0.000 description 10
- 230000007547 defect Effects 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 8
- 239000002131 composite material Substances 0.000 description 7
- 238000013507 mapping Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000002950 deficient Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- XXJWXESWEXIICW-UHFFFAOYSA-N diethylene glycol monoethyl ether Chemical compound CCOCCOCCO XXJWXESWEXIICW-UHFFFAOYSA-N 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
- G06T7/001—Industrial image inspection using an image reference approach
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/77—Retouching; Inpainting; Scratch removal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/28—Indexing scheme for image data processing or generation, in general involving image processing hardware
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20172—Image enhancement details
- G06T2207/20192—Edge enhancement; Edge preservation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
- G06T2207/30144—Printing quality
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
生成表示具有细致形状的输出对象的输出图像数据。机器学习模型具备输入层和输出层。输入层包括第一提取部、第二提取部、一个以上的位移信息取得部和加法运算部。第一提取部提取输入对象中的包含于第一输入范围中的部分的形状特征。第二提取部与第一提取部并行设置,并提取输入对象中的包含于比第一输入范围大的第二输入范围中的部分的形状特征。一个以上的位移信息取得部取得与由第一提取部提取的形状特征在输入图像内的位置的位移相关的位移信息。加法运算部将包括从第一提取部输出的数据、从第二提取部输出的数据和从一个以上的位移信息取得部输出的数据在内的多个数据相加。
Description
技术领域
本说明书涉及生成图像数据的机器学习模型。
背景技术
近年来,神经网络、支持向量机等机器学习模型的利用、开发不断发展。例如在非专利文献1所公开的技术中,工业产品的异常检测使用了被称为变分自动编码器(Variational Autoencoder,VAE)的数据生成模型。
现有技术文献
非专利文献
非专利文献1:立花亮介、松原崇、上原邦昭著、“基于深度生成模型的使用了非正则化异常分数的工业产品异常检测”2018年度人工智能学会全国大会(第三十二次)
如VAE那样通过压缩信息来提取特征的模型能够提取抽象化的特征。但是,由于信息的压缩而失去了细致的特征。在使用这样的模型生成包含对象的图像的图像数据的情况下,所生成的图像数据难以表示对象的细致形状。这样的课题不限于通过压缩信息来提取特征的模型,是在利用其他方法提取特征的模型也共有的课题。
发明内容
本说明书公开了如下的技术:能够生成表示具有细致形状的对象的图像数据。
本说明书中所公开的技术能够作为以下的应用例来实现。
[应用例1]一种机器学习模型,用于生成与包含输入对象的输入图像的输入图像数据对应的输出图像数据,是已学习完毕的机器学习模型,其中,所述机器学习模型是如下的模型:通过执行使用针对输入图像数据的多个运算参数的运算,从而进行所述输入图像数据的输入图像中所包含的输入对象的形状特征的提取、和包含基于所提取的形状特征的输出对象的输出图像的输出图像数据的生成,所述机器学习模型具备:输入层,该输入层执行使用所述输入图像数据的运算;以及输出层,该输出层设置于所述输入层的下游侧,且生成所述输出图像数据,所述输入层包括:第一提取部,该第一提取部提取所述输入对象中的包含于比所述输入图像小的第一输入范围中的部分的形状特征;第二提取部,该第二提取部与所述第一提取部并行设置,并提取所述输入对象中的包含于比所述输入图像小且比所述第一输入范围大的第二输入范围中的部分的形状特征;一个以上的位移信息取得部,该一个以上的位移信息取得部使用从所述第一提取部输出的数据执行运算,由此取得与由所述第一提取部提取出的所述形状特征在所述输入图像内的位置的位移相关的位移信息;以及加法运算部,该加法运算部将包括从所述第一提取部输出的数据、从所述第二提取部输出的数据和从所述一个以上的位移信息取得部输出的数据在内的多个数据相加。
根据该结构,第一提取部输出与包含于比较小的第一输入范围中的部分的形状特征、即比较细致的形状特征对应的数据,第二提取部输出与包含于比较大的第二输入范围中的部分的形状特征、即比较粗糙的形状特征对应的数据。并且,在输入层中,由于这些数据被相加,因此能够生成如下的输出图像数据:该输出图像数据表示除了具有比较粗糙的形状以外还具有比较细致的形状的输出对象。而且,加上从位移信息取得部输出的数据、即与由第一提取部提取出的形状特征在输入图像内的位置的位移相关的位移信息所对应的数据,因此能够针对比较细致的形状特征在输入图像内的位置的位移提高鲁棒性。
[应用例2]根据应用例1所述的机器学习模型,其中,所述输出层包括:第一复原部,该第一复原部使用处理对象的数据中的与比所述输出图像小的第一输出范围对应的部分来复原形状特征;以及第二复原部,该第二复原部与所述第一复原部并行设置,并使用所述处理对象的数据中的与比所述输出图像小且比所述第一输出范围大的第二输出范围对应的部分来复原形状特征。
根据该结构,第一复原部使用处理对象的数据中的与较小的第一输出范围对应的部分来复原形状特征、即复原比较细致的形状特征,第二复原部使用处理对象的数据中的与比较大的第二输出范围对应的部分来复原形状特征、即复原比较粗糙的形状特征。因此,能够生成如下的输出图像数据:该输出图像数据表示除了具有比较粗糙的形状以外还具有比较细致的形状的输出对象。
[应用例3]根据应用例1或2所述的机器学习模型,其中,所述输入层包括作为卷积层的所述第一提取部、作为卷积层的所述第二提取部和作为池化层的所述位移信息取得部,所述输出层不包括池化层而包括作为转置卷积层的所述第一复原部和作为转置卷积层的所述第二复原部。
由于输入层包括作为池化层的位移信息取得部,因此形状特征在输入图像内的位置的位移对输出层的运算的影响被缓和。因此,不包括池化层而包括作为转置卷积层的第一复原部和作为转置卷积层的第二复原部的输出层能够生成如下的输出图像数据,即该输出图像数据表示除了具有比较粗糙的形状以外还具有比较细致的形状的输出对象。
[应用例4]根据应用例1至3中任一项所述的机器学习模型,其中,所述一个以上的位移信息取得部包括:第一位移信息取得部,该第一位移信息取得部取得与比所述输入图像小的第一位移范围内的位置的位移相关的第一位移信息;以及第二位移信息取得部,该第二位移信息取得部与所述第一位移信息取得部并行设置,并取得与比所述输入图像小且比所述第一位移范围大的第二位移范围内的位置的位移相关的第二位移信息,所述加法运算部将包括从所述第一提取部输出的所述数据、从所述第二提取部输出的所述数据、从所述第一位移信息取得部输出的数据和从所述第二位移信息取得部输出的数据在内的所述多个数据相加。
根据该结构,第一位移信息取得部取得与比较小的第一位移范围内的位置的位移、即比较小的位置位移相关的第一位移信息,第二位移信息取得部取得与比较大的第二位移范围内的位置的位移、即比较大的位置位移相关的第二位移信息。并且,在输入层中,由于这些数据被相加,因此能够针对比较小的位置位移和比较大的位置位移提高鲁棒性。
[应用例5]根据应用例1至4中任一项所述的机器学习模型,其中,所述输入层包括第三提取部,该第三提取部与所述第一提取部和所述第二提取部并行设置,并提取所述输入对象中的包含在比所述输入图像小且比所述第二输入范围大的第三输入范围中的部分的形状特征,所述加法运算部将包括从所述第一提取部输出的所述数据、从所述第二提取部输出的所述数据、从所述第三提取部输出的数据和从所述一个以上的位移信息取得部输出的所述数据在内的所述多个数据相加。
根据该结构,提取与三种细致度对应的三种形状特征,并将与三种特征对应的三种数据相加,因此能够生成如下的输出图像数据:该输出图像数据表示具有与三种细致度对应的三种形状特征的输出对象。
[应用例6]根据应用例1至5中任一项所述的机器学习模型,其中,所述多个运算参数通过训练而被调整为,包含基准对象的基准图像的基准图像数据与通过将所述基准图像数据输入至所述机器学习模型而生成的输出图像数据之间的差变小。
根据该结构,通过将包含输入对象的输入图像的输入图像数据输入至机器学习模型,能够生成包含如下对象的输出图像的输出图像数据:该对象是基于由输入层提取的形状特征的输出对象,且与基准对象的差异较小。
[应用例7]一种生成装置,生成图像数据,所述生成装置具备:取得部,该取得部取得包含输入对象的输入图像的输入图像数据;输出图像数据生成部,该输出图像数据生成部通过将所述输入图像数据输入到已学习完毕的机器学习模型而生成与所述输入图像数据对应的输出图像数据;以及差分图像数据生成部,该差分图像数据生成部生成表示所述输入图像与所述输出图像数据的输出图像之间的差异的差分图像的差分图像数据,所述机器学习模型是如下的模型:通过执行使用针对输入图像数据的多个运算参数的运算,从而进行所述输入图像数据的输入图像中所包含的输入对象的形状特征的提取、和包含基于所提取的形状特征的输出对象的输出图像的输出图像数据的生成,所述机器学习模型具备:输入层,该输入层执行使用所述输入图像数据的运算;以及输出层,该输出层设置于所述输入层的下游侧,且生成所述输出图像数据,所述输入层包括:第一提取部,该第一提取部提取所述输入对象中的包含于比所述输入图像小的第一输入范围中的部分的形状特征;第二提取部,该第二提取部与所述第一提取部并行设置,并提取所述输入对象中的包含于比所述输入图像小且比所述第一输入范围大的第二输入范围中的部分的形状特征;一个以上的位移信息取得部,该一个以上的位移信息取得部使用从所述第一提取部输出的数据执行运算,由此取得与由所述第一提取部提取出的所述形状特征在所述输入图像内的位置的位移相关的位移信息;以及加法运算部,该加法运算部将包括从所述第一提取部输出的数据、从所述第二提取部输出的数据和从所述一个以上的位移信息取得部输出的数据在内的多个数据相加,所述多个运算参数通过训练而被调整为,包含基准对象的基准图像的基准图像数据与通过将所述基准图像数据输入至所述机器学习模型而生成的输出图像数据之间的差变小。
根据该结构,通过将包含输入对象的输入图像的输入图像数据输入至机器学习模型,能够生成包含基于由输入层提取的形状特征的、与基准对象的差异较小的输出对象的输出图像的输出图像数据。因此,能够生成表示输入对象与基准对象之间的差异的差分图像数据。
[应用例8]根据应用例7所述的生成装置,其中,所述差分图像数据生成部通过对所述输入图像数据进行平滑化处理而取得被平滑化的输入图像数据,通过对所述输出图像数据进行平滑化处理而取得被平滑化的输出图像数据,并使用所述被平滑化的输入图像数据和所述被平滑化的输出图像数据来生成所述差分图像数据。
根据该结构,能够抑制差分图像数据中包含的噪声。
[应用例9]根据应用例8所述的生成装置,其中,所述差分图像数据生成部进行边缘提取处理,并通过对所述差分图像数据进行从所述差分图像中提取与所述边缘部分不同的非边缘部分的处理,从而修正所述差分图像数据,该边缘提取处理提取所述被平滑化的输出图像数据的图像内的边缘部分。
由于输入图像与输出图像之间的对象错位,差分图像可能包含边缘。根据上述结构,已修正的差分图像数据能够适当地表示与因输入图像与输出图像之间的错位引起的边缘不同的差异。
[应用例10]一种计算机程序,用于生成图像数据的计算机,该计算机程序使计算机实现如下功能:取得功能,该取得功能取得包含输入对象的输入图像的输入图像数据;输出图像数据生成功能,该输出图像数据生成功能通过将所述输入图像数据输入到已学习完毕的机器学习模型而生成与所述输入图像数据对应的输出图像数据;以及差分图像数据生成功能,该差分图像数据生成功能生成表示所述输入图像与所述输出图像数据的输出图像之间的差异的差分图像的差分图像数据,所述机器学习模型是如下的模型:通过执行使用针对输入图像数据的多个运算参数的运算,从而进行所述输入图像数据的输入图像中所包含的输入对象的形状特征的提取、和包含基于所提取的形状特征的输出对象的输出图像的输出图像数据的生成,所述机器学习模型具备:输入层,该输入层执行使用所述输入图像数据的运算;以及输出层,该输出层设置于所述输入层的下游侧,且生成所述输出图像数据,所述输入层包括:第一提取部,该第一提取部提取所述输入对象中的包含于比所述输入图像小的第一输入范围中的部分的形状特征;第二提取部,该第二提取部与所述第一提取部并行设置,并提取所述输入对象中的包含于比所述输入图像小且比所述第一输入范围大的第二输入范围中的部分的形状特征;一个以上的位移信息取得部,该一个以上的位移信息取得部使用从所述第一提取部输出的数据执行运算,由此取得与由所述第一提取部提取出的所述形状特征在所述输入图像内的位置的位移相关的位移信息;以及加法运算部,该加法运算部将包括从所述第一提取部输出的数据、从所述第二提取部输出的数据和从所述一个以上的位移信息取得部输出的数据在内的多个数据相加,所述多个运算参数通过训练而被调整为,包含基准对象的基准图像的基准图像数据与通过将所述基准图像数据输入至所述机器学习模型而生成的输出图像数据之间的差变小。
[应用例11]根据应用例10所述的计算机程序,其中,所述差分图像数据生成功能通过对所述输入图像数据进行平滑化处理而取得被平滑化的输入图像数据,所述差分图像数据生成功能通过对所述输出图像数据进行平滑化处理而取得被平滑化的输出图像数据,所述差分图像数据生成功能使用所述被平滑化的输入图像数据和所述被平滑化的输出图像数据来生成所述差分图像数据。
[应用例12]根据应用例11所述的计算机程序,其中,所述差分图像数据生成功能进行边缘提取处理,并通过对所述差分图像数据进行从所述差分图像中提取与所述边缘部分不同的非边缘部分的处理,从而修正所述差分图像数据,该边缘提取处理提取所述被平滑化的输出图像数据的图像内的边缘部分。
[应用例13]一种生成装置,生成图像数据,具备:取得部,该取得部取得包含输入对象的输入图像的输入图像数据;以及输出图像数据生成部,该输出图像数据生成部通过将所述输入图像数据输入到已学习完毕的机器学习模型而生成与所述输入图像数据对应的输出图像数据,所述机器学习模型是如下的模型:通过执行使用针对输入图像数据的多个运算参数的运算,从而进行所述输入图像数据的输入图像中所包含的输入对象的形状特征的提取、和包含基于所提取的形状特征的输出对象的输出图像的输出图像数据的生成,所述机器学习模型具备:输入层,该输入层执行使用所述输入图像数据的运算;以及输出层,该输出层设置于所述输入层的下游侧,且生成所述输出图像数据,所述输入层包括:第一提取部,该第一提取部提取所述输入对象中的包含于比所述输入图像小的第一输入范围中的部分的形状特征;第二提取部,该第二提取部与所述第一提取部并行设置,并提取所述输入对象中的包含于比所述输入图像小且比所述第一输入范围大的第二输入范围中的部分的形状特征;一个以上的位移信息取得部,该一个以上的位移信息取得部使用从所述第一提取部输出的数据执行运算,由此取得与由所述第一提取部提取出的所述形状特征在所述输入图像内的位置的位移相关的位移信息;以及加法运算部,该加法运算部将包括从所述第一提取部输出的数据、从所述第二提取部输出的数据和从所述一个以上的位移信息取得部输出的数据在内的多个数据相加,所述多个运算参数通过训练而被调整为,包含基准对象的基准图像的基准图像数据与通过将所述基准图像数据输入至所述机器学习模型而生成的输出图像数据之间的差变小。
此外,本说明书中公开的技术能够以各种形态实现,例如,能够以机器学习模型的训练方法及执行训练的训练装置、使用已学习完毕的机器学习模型的图像数据的生成方法及生成装置、使用图像数据的判断方法及判断装置、用于实现这些方法或装置的功能的计算机程序、记录有该计算机程序的记录介质(例如非暂时性记录介质)等形态实现。
附图说明
图1是表示实施例的图像处理***的说明图。
图2是学习模型234的例子的说明图。
图3是表示输入层L10的结构的框图。
图4是表示中间层L20的结构的框图。
图5是表示输出层L30的结构的框图。
图6是表示训练处理的例子的流程图。
图7(A)是基准标签片800的说明图。图7(B)是基准图像数据的例子的说明图。图7(C)是输出图像数据的例子的说明图。
图8是表示差分数据生成处理的例子的流程图。
图9是图像处理的说明图。
具体实施方式
A.第一实施例:
A1.装置结构:
图1是表示实施例的图像处理***的说明图。图像处理***1000是用于处理产品700的外观的图像数据的***。产品700可以是任意的产品,是预先决定的。在本实施例中,产品700是印刷有文字和图形等各种对象的标签片。以下,将产品700也称为标签片700。
图像处理***1000具备数据处理装置200和与数据处理装置200连接的数字照相机100。数据处理装置200例如是个人计算机。数据处理装置200具有处理器210、存储装置215、显示图像的显示部240、接受用户的操作的操作部250以及通信接口270。这些要素经由总线相互连接。存储装置215包括易失性存储装置220和非易失性存储装置230。
处理器210是进行数据处理的装置,例如是CPU。易失性存储装置220例如是DRAM,非易失性存储装置230例如是闪存。
非易失性存储装置230存储有第一程序232、第二程序233和预测模型234。在本实施例中,预测模型234是人工神经网络的模型,是通过后述的训练处理而被训练的机器学习模型(以下也称为“机器学习模型234”或简称为“学习模型234”)。在本实施例中,学习模型234是程序模块。关于学习模型234的详情,将在后面说明。
处理器210将在第一程序232、第二程序233以及学习模型234的执行中利用的各种中间数据暂时存储于存储装置215(例如易失性存储装置220、非易失性存储装置230中的任一个)。
显示部240是液晶显示器、有机EL显示器等显示图像的装置。操作部250是重叠配置在显示部240上的触摸面板、按钮、控制杆等接收用户的操作的装置。用户可以通过操作操作部250来将各种指示输入到数据处理装置200。通信接口270是用于与其他装置通信的接口(例如USB接口、有线LAN接口、IEEE802.11的无线接口)。数字照相机100与通信接口270连接。
A2.学习模型的结构:
图2是学习模型234的例子的说明图。在本实施例中,学习模型234的功能通过处理器210执行作为程序模块的学习模型234来实现。输入图像数据910被输入到学习模型234。输入图像数据910是对标签片700(图1)进行光学读取而得到的图像数据,由输入图像数据910表示的输入图像910i表示标签片700。在本实施例中,在标签片700印刷有图形701和字符串702。
学习模型234提取输入图像数据910的输入图像910i的特征,基于提取出的特征对输入图像910i进行重构,由此生成表示输出图像940i的输出图像数据940。输出图像940i表示由输入图像910i的标签片700重构的标签片950。输出图像940i的标签片950具有与图形701对应的图形951和与字符串702对应的字符串952。
输入图像910i和输出图像940i是具有与第一方向D1平行的两边和与垂直于第一方向D1的第二方向D2平行的两边的矩形图像。这些图像910i、940i通过沿第一方向D1和第二方向D2排列成矩阵状的多个像素各自的颜色值来表示。宽度W表示第一方向D1的像素数,高度H表示第二方向D2的像素数。在本实施例中,输入图像数据910和输出图像数据940是表示多个像素各自的颜色值的位图数据。另外,在本实施例中,各像素的颜色值用0至255这256个灰度的R(红)G(绿)B(蓝)的灰度值表示。
此外,实际的标签片700可能具有对象(在本实施例中为图形701、字符串702)的一部分的缺失等缺陷。在本实施例中,学习模型234被训练为,即使在输入图像910i的标签片700具有缺陷的情况下,也生成表示没有缺陷的标签片的输出图像数据940(详情在后面叙述)。
学习模型234具有:输入层L10,输入图像数据910被输入到该输入层;中间层L20,该中间层处理来自输入层L10的数据;以及输出层L30,该输出层处理来自中间层L20的数据。
图3是表示输入层L10的结构的框图。输入层L10使用输入图像数据910来生成表示输入图像数据910的特征(即输入图像910i的特征)的特征数据920。这样的输入层L10也称为编码器。在本实施例中,输入层L10具备三个卷积层311-313、两个池化层321和322以及加法运算部331。
对三个卷积层311-313分别输入输入图像数据910。卷积层311-313分别执行卷积处理(convolution)和偏置的加法运算处理。
由第一卷积层311进行的卷积处理是如下处理:对所输入的数据应用“p1×q1×r”尺寸的s个第一种输入滤波器FL11,算出表示所输入的数据与第一种输入滤波器FL11之间的相关的相关值。值p1表示第一种输入滤波器FL11的第一方向D1的尺寸(像素数),值q1表示第一种输入滤波器FL11的第二方向D2的尺寸(像素数),值r表示颜色成分的数量(在本实施例中为3(RGB))。一个第一种输入滤波器FL11包含“p1×q1×r”个权重。在应用第一种输入滤波器FL11的处理中,从输入图像数据910取得与第一种输入滤波器FL11的位置对应的部分的“p1×q1”个像素的RGB的灰度值、即“p1×q1×r”个灰度值的列表。算出所取得的列表与第一种输入滤波器FL11的“p1×q1×r”个权重的列表的内积。偏置的加法运算处理是在内积上加上对一个第一种输入滤波器FL11各准备一个的偏置的处理。“内积+偏置”表示相关值。一边使第一种输入滤波器FL11滑动、一边在第一种输入滤波器FL11的多个位置中的每一个位置进行相关值的算出。一个第一种输入滤波器FL11生成位图数据911,该位图数据911表示第一种输入滤波器FL11的多个位置中的每一个位置处的相关值。将由该位图数据911表示的图像911i也称为特征映射或卷积映射。卷积映射911i的像素的位置表示第一种输入滤波器FL11的位置。在本实施例中,进行卷积处理,以使得卷积映射911i的尺寸(即第一方向D1的像素数和第二方向D2的像素数)与输入图像910i的尺寸(即W×H)相同。因此,步长(使滤波器滑动的量)为1。另外,在输入图像910i的周围,通过零填充来补充像素。
滤波器的总数s也称为通道数。在使用s个第一种输入滤波器FL11的情况下,生成s个位图数据911。在本实施例中,通道数s为8。
卷积层311-313分别使用输入滤波器FL11-FL13来生成位图数据911-913。在三种输入滤波器FL11-FL13之间尺寸不同。第二种输入滤波器FL12比第一种输入滤波器FL11大,第三种输入滤波器FL13比第二种输入滤波器FL12大。两个滤波器之间的尺寸比较如下进行。在以第二滤波器包含第一滤波器的整体的方式将第一滤波器重叠在第二滤波器上的状态下第二滤波器包含不与第一滤波器重叠的部分的情况下,判断为第二滤波器比第一滤波器大。不限于滤波器,对于图像与窗口等二维区域的尺寸比较也是同样的。
在本实施例中,第一种输入滤波器FL11的尺寸为p1×q1,第二种输入滤波器FL12的尺寸为p2×q2,第三种输入滤波器FL13的尺寸为p3×q3。并且,p1<p2<p3,q1<q2<q3。例如,p1=1,p2=2,p3=3,q1=1,q2=2,q3=3。卷积层311-313之间的差异仅为滤波器的尺寸不同这点。例如,通道数s对于三个卷积层311-313都是相同的。第二卷积层312生成s个位图数据912(即s张卷积映射912i),第三卷积层313生成s个位图数据913(即s张卷积映射913i)。此外,输入滤波器FL11-FL13中的任一个都比输入图像数据910的输入图像910i小。输入滤波器FL11-FL13的尺寸可以是输入图像910i的尺寸越大而被设置为越大的值。
由卷积层311-313生成的卷积映射911i-913i的各像素的值受到输入图像910i的对象中的包含于输入滤波器FL11-FL13中的部分的形状很大的影响。这样,卷积映射911i-913i可以表示包含于输入滤波器FL11-FL13中的部分的形状特征。第一卷积映射911i可以表示包含于小尺寸的第一种输入滤波器FL11中的小尺寸部分的形状特征。第二卷积映射912i可以表示包含于中等尺寸的第二种输入滤波器FL12中的中等尺寸部分的形状特征。第三卷积映射913i可以表示包含于大尺寸的第三种输入滤波器FL13中的大尺寸部分的形状特征。例如,第一卷积层311能够提取点等细致形状特征,第二卷积层312能够提取直线的特征,第三卷积层313能够提取曲线的特征。这样,卷积层311-313可以提取输入图像910i的对象中的包含于输入滤波器FL11-FL13中的部分的形状特征。第一卷积映射911i可以提取高分辨率的信息。第二卷积映射912i可以提取中间分辨率的信息。第三卷积映射913i可以提取低分辨率的信息。此外,所谓能够提取细致形状特征,也可以换句话说为能够提取高分辨率的信息。另外,所谓能够提取粗糙形状特征,也可以换句话说为能够提取低分辨率的信息。
对两个池化层321、322分别输入来自第一卷积层311的s个位图数据911。池化层321、322执行使用窗口所包含的多个像素的多个值来决定代表值的处理。在本实施例中,池化层321、322分别进行所谓的最大池化。
第一池化层321将“pa×qa”的第一窗口WN21应用于所输入的位图数据911。值pa表示第一窗口WN21的第一方向D1上的尺寸(像素数),值qa表示第一窗口WN21的第二方向D2上的尺寸(像素数)。使用第一窗口WN21的最大值的选择是一边使第一窗口WN21滑动、一边在第一窗口WN21的多个位置中的每一个位置进行的。第一池化层321生成位图数据914,该位图数据914表示第一窗口WN21的多个位置中的每一个位置处的最大值。将由该位图数据914表示的图像914i也称为特征映射或池化映射。池化映射914i的像素的位置表示第一窗口WN21的位置。在本实施例中,进行最大池化,使得要输出的池化映射914i的尺寸(即第一方向D1的像素数和第二方向D2的像素数)与所输入的卷积映射911i的尺寸(即作为输入图像910i的尺寸的W×H)相同。因此,步长(使窗口滑动的量)为1。另外,在要输入的卷积映射911i的周围,通过零填充来补充像素。
对第一池化层321输入s个位图数据911。第一池化层321从s个位图数据911生成s个位图数据914。
第二池化层322使用第二窗口WN22生成位图数据915。第二窗口WN22比第一窗口WN21大。具体而言,第一窗口WN21的尺寸为pa×qa,第二窗口WN22的尺寸为pb×qb。并且,pa<pb,qa<qb。例如,pa=3、pb=5,qa=3、qb=5。池化层321、322之间的差异仅为窗口的尺寸不同这点。第二池化层322从s个位图数据911(即s张卷积映射911i)生成s个位图数据915(即s张池化映射915i)。
如上所述,输入到池化层321、322的卷积映射911i表示输入图像910i的对象的形状特征。池化层321、322决定窗口WN21、WN22内的代表性的值(在本实施例中为最大值)。因此,在卷积映射911i内的特征部分的位置位移处于窗口WN21、WN22的范围内的情况下、即输入图像910i内的对象的特征部分的位置位移处于窗口WN21、WN22的范围内的情况下,从窗口WN21、WN22能够决定大致相同的代表值。这样,池化层321和322能够在允许特征部分在WN21、WN22范围内的位置的位移的同时提取由第一卷积层311提取出的形状特征。输入图像910i上的特征部分的位置的位移对池化映射914i、915i带来的影响在位置的位移处于窗口WN21、WN22的范围内的情况下被缓和。在位置的位移超过窗口WN21、WN22的范围的情况下,池化映射914i、915i根据位置的位移而变化。这样,池化映射914i、915i表示与由第一卷积层311提取的形状特征在输入图像910i内的位置的位移相关的信息。
加法运算部331使用来自卷积层311-313和池化层321、322的5个位图数据911-915来生成特征数据920。特征数据920表示与所输入的映射9911i-915i相同的尺寸的映射(也称为特征映射920i)。在本实施例中,加法运算部331将5张映射911i-915i的相同位置的5个像素的5个值的合计值输入到激活函数,采用激活函数的计算值作为特征映射920i的相同位置的像素的值。在本实施例中,作为激活函数,使用所谓的ReLU(Rectified LinearUnit:修正线性单元)。此外,加法运算部331按照每个通道执行从5个位图数据911-915生成1个特征数据920的处理。在本实施例中,由于通道数s为8,因此加法运算部331生成8个特征数据920。s个特征数据920被供给到中间层L20(图2)。
此外,第一卷积层311利用包含s个第一种输入滤波器FL11的“p1×q1×r×s”个权重和与s个第一种输入滤波器FL11对应的s个偏置的运算参数集601。同样地,第二卷积层312利用包含s个第二种输入滤波器FL12的“p1×q1×r×s”个权重和s个偏置的运算参数集602。第三卷积层313利用包含s个第三种输出滤波器FL33的“p1×q1×r×s”个权重和s个偏置的运算参数集603。
图4是表示中间层L20的结构的框图。中间层L20使用s个特征数据920来生成输出用的s个中间数据930。在本实施例中,中间层L20具备第一转换部410、第一全连接层415、第二全连接层420以及第二转换部430。
一张特征映射920i表示“W×H”个像素各自的值(以下,将与特征映射的像素建立了对应的值也称为特征值)。s个特征数据920表示“W×H×s”个特征值。后述的第一全连接层415将“W×H×s”个特征值作为一维向量进行处理。第一转换部410根据“W×H×s”个特征值与一维向量的要素的预先决定的对应关系而将“W×H×s”个特征值的参照顺序转换为一维向量的要素的参照顺序。此外,可以是,省略第一转换部410,第一全连接层415根据上述对应关系参照“W×H×s”个特征值。
第一全连接层415是与在一般的神经网络中使用的全连接层同样的层。在本实施例中,第一全连接层415使用“W×H×s”个特征值算出N个特征值。N可以为1以上的整数,可以为2以上的整数。N可以与“W×H×s”相同,可以是比“W×H×s”小的整数。另外,N可以是比“W×H×s”大的整数。N个特征值也分别被称为潜变量(以下,也称为潜变量920z)。第一全连接层415算出由所输入的“W×H×s”个特征值构成的向量与由“W×H×s”个权重构成的权重向量的内积。将计算出的内积作为1个特征值输出。省略偏置的加法运算和利用激活函数的运算。对于N个中间值的每一个分别准备权重向量。第一全连接层415利用包含N个权重向量(即“W×H×s×N”个权重)的运算参数集608。
第二全连接层420是与在一般的神经网络中使用的全连接层同样的层。在本实施例中,第二全连接层420使用来自第一全连接层415的N个特征值来算出“W×H×s”个中间值。第二全连接层420算出对由所输入的N个特征值构成的向量与由N个权重构成的权重向量的内积加上偏置后的值(内积+偏置),并将计算出的值输入到激活函数。激活函数的计算值被用作1个中间值。在本实施例中,作为激活函数,使用所谓的ReLU。对“W×H×s”个中间值的每一个分别准备权重向量和偏置。第二全连接层420利用包含“W×H×s”个权重向量(即“N×W×H×s”个权重)和“W×H×s”个偏置的运算参数集604。
后述的输出层L30(图2)将“W×H×s”个中间值作为s张映射进行处理。与“W×H”的尺寸的图像同样地,一张映射由“W×H”个像素的值表示。第二转换部430根据“W×H×s”个中间值与s张映射图的多个像素的预先决定的对应关系而将“W×H×s”个中间值的参照顺序转换为s张映射的多个像素的参照顺序。以下,也将s张映射分别称为中间映射930i。另外,将表示中间映射930i的数据也称为中间数据930。中间层L20生成s个中间数据930。s个中间数据930供给到输出层L30(图2)。中间映射930i的中间值使用潜变量920z的N个特征值进行算出。因此,中间值表示输入图像910i的对象的特征。此外,可以是,省略第二转换部430,输出层L30根据上述对应关系参照“W×H×s”个中间值。
图5是表示输出层L30的结构的框图。输出层L30使用s个中间数据930来生成表示对象的图像的输出图像数据940。这样的输出层L30也被称为解码器。在本实施例中,输出层L30具备3个转置卷积层511、512、513和加法运算部520。
对3个转置卷积层511-513分别输入s个中间数据930。转置卷积层511-513分别执行转置卷积(transposed convolution)和偏置的加法运算处理。转置卷积是复原通过卷积处理提取出的特征的处理,例如包括对输入的映射进行放大的处理和使用放大后的映射的卷积处理。这样的转置卷积作为解码器的一部分而被利用。在本实施例中,省略了映射的放大处理。然后,转置卷积层511-513通过卷积处理从s张中间映射930i生成一张图像。
第一转置卷积层511的卷积处理是如下处理:对所输入的s个中间数据930应用“p1×q1×s”尺寸的第一种输出滤波器FL31,从而计算出表示所输入的数据与第一种输出滤波器FL31的相关的相关值。值p1、q1是第一种输出滤波器FL31的尺寸,与第一卷积层311(图3)的第一种输入滤波器FL11的尺寸相同。如后所述,第一转置卷积层511利用r个第一种输出滤波器FL31。1个第一种输出滤波器FL31包含“p1×q1×s”个权重。在应用第一种输出滤波器FL31的处理中,从s个中间数据930分别取得与第一种输出滤波器FL31的位置对应的部分的“p1×q1”个像素的中间值、即“p1×q1×s”个中间值的列表。算出所取得的列表与第一种输出滤波器FL31的“p1×q1×s”个权重的列表的内积。偏置的加法运算处理是在内积加上对1个第一种输出滤波器FL31各准备了1个的偏置的处理。“内积+偏置”表示相关值。一边使第一种输出滤波器FL31滑动、一边在第一种输出滤波器FL31的多个位置中的每一个位置进行相关值的算出。1个第一种输出滤波器FL31生成位图数据931,该位图数据931表示第一种输出滤波器FL31的多个位置中的每一个位置处的相关值。如后所述,作为相关值,计算出对由与第一种输出滤波器FL31对应的多个像素的中间值表示的特征进行复原的值。以下,将由位图数据931表示的图像931i也称为部分复原图像。部分复原图像931i的像素的位置表示第一种输出滤波器FL31的位置。在本实施例中,进行卷积处理,以使得部分复原图像931i的尺寸(即第一方向D1的像素数和第二方向D2的像素数)与中间映射930i的尺寸(即W×H)相同。因此,步长(使滤波器滑动的量)为1。另外,在中间映射930i的周围,通过零填充来补充像素。
在本实施例中,与输入图像910i的像素同样地,部分复原图像931i的1个像素与r个颜色成分的灰度值建立对应。在本实施例中,值r为3,1个像素与RGB的3个灰度值建立对应。第一转置卷积层511通过使用r个第一种输出滤波器FL31而针对每个像素算出r个值。由第一转置卷积层511生成的位图数据931是r色的位图数据。
转置卷积层511-513分别使用输出滤波器FL31-FL33生成位图数据931-933。在三种输出滤波器FL31-FL33之间尺寸不同。第二种输出滤波器FL32的尺寸与第二种输入滤波器FL12的尺寸(p2×q2)相同,第三种输出滤波器FL33的尺寸与第三种输入滤波器FL13的尺寸(p3×q3)相同。转置卷积层511-513之间的差异仅是滤波器的尺寸不同这点。第二转置卷积层512生成1个r色的位图数据932(即一张r色的部分复原图像932i),第三转置卷积层513生成1个r色的位图数据933(即一张r色的部分复原图像933i)。此外,任一个输出滤波器FL31-FL33均比输出图像数据940的输出图像940i小。
由转置卷积层511-513生成的部分复原图像931i-933i的各像素的值受到中间映射930i中的包含在输出滤波器FL31-FL33中的部分的中间值很大的影响。如利用图4所说明的那样,中间映射930i的中间值表示输入图像910i的对象的特征(包括形状特征)。因此,部分复原图像931i-931i能够表示由与输出滤波器FL31-FL33对应的部分表示的形状特征。第一部分复原图像931i能够表示由与小尺寸的第一种输出滤波器FL31对应的部分表示的小尺寸的形状特征。第二部分复原图像932i能够表示由与中尺寸的第二种输出滤波器FL32对应的部分表示的中尺寸的形状特征。第三部分复原图像933i能够表示由与大尺寸的第三种输出滤波器FL33对应的部分表示的大尺寸的形状特征。例如,第一转置卷积层511能够复原点等细致形状特征,第二转置卷积层512能够复原直线的特征,第三转置卷积层513能够复原曲线的特征。这样,转置卷积层511-513能够使用中间数据930中的与输出滤波器FL31-FL33对应的部分来复原形状特征。第一部分复原图像931i能够复原高分辨率的信息。第二部分复原图像932i能够复原中间分辨率的信息。第三部分复原图像933i能够复原低分辨率的信息。此外,所谓能够复原细致形状特征,也可以换句话说为能够复原高分辨率的信息。另外,所谓能够复原粗糙形状特征,也可以换句话说为能够复原低分辨率的信息。
加法运算部520使用来自转置卷积层511-513的3个位图数据931-933来生成输出图像数据940。输出图像数据940表示与输入的部分复原图像931i-932i相同尺寸的输出图像940i。在本实施例中,加法运算部520将3张部分复原图像931i-933i的相同位置的3个像素的3个值的合计值输入到激活函数,采用激活函数的计算值作为输出图像940i的相同位置的像素的值。在本实施例中,作为激活函数,使用所谓的Sigmoid函数。此外,加法运算部520按每r个颜色成分进行像素值的计算。在本实施例中,使用3张部分复原图像931i-933i的相同位置的3个像素的3个红色R的灰度值,计算出输出图像940i的相同位置的像素的红色R的灰度值。绿色G的灰度值和蓝色B的灰度值也同样地进行算出。所生成的输出图像940i能够表示复原后的各种尺寸的形状特征、即标签片。
此外,第一转置卷积层511利用包含r个第一种输出滤波器FL31的“p1×q1×s×r”个权重和与r个第一种输出滤波器FL31对应的r个偏置的运算参数集605。同样地,第二转置卷积层512利用包含r个第二种输出滤波器FL32的“p1×q1×s×r”个权重和r个偏置的运算参数集606。第三转置卷积层513利用包含r个第三种输出滤波器FL33的“p1×q1×s×r”个权重和r个偏置的运算参数集607。
A3.训练处理:
图6是表示用于生成学习模型234的训练处理的例子的流程图。在本实施例中,学习模型234被训练为,在输入了标签片700的图像数据的情况下生成无缺陷的标签片的图像数据。通过训练,对包括上述的运算参数集601-608(图3-图5)的多个运算参数进行调整。训练由数据处理装置200(图1)执行。在本实施例中,处理器210根据第一程序232执行训练的处理。
在S110中,处理器210对学习模型234的多个运算参数(包括运算参数集601-608)进行初始化。例如,各运算参数被设定为随机值。
在S115中,处理器210取得基准图像数据。基准图像数据是无缺陷的标签片(也称为基准标签片)的图像数据。图7(A)是基准标签片800的说明图。在基准标签片800印刷有图形801和字符串802。图7B是基准图像数据的例子的说明图。基准图像数据810是拍摄基准标签片800而得到的图像数据。在本实施例中,操作者在数字照相机100(图1)的拍摄区域内配置基准标签片800。然后,处理器210向数字照相机100供给拍摄指示。数字照相机100根据指示而拍摄基准标签片800,生成基准图像数据。处理器210从数字照相机100取得基准图像数据,并将基准图像数据存储于非易失性存储装置230。此外,处理器210也可以执行将从数字照相机100取得的图像数据中的表示基准标签片800的部分切出的裁剪处理而取得基准图像数据810。
在S120中,处理器210使用基准图像数据810生成多个学***滑化处理。在任何情况下,多个学习输入图像数据都表示无缺陷的基准标签片800。
在S130中,处理器210从多个学习输入图像数据中选择V个(V是1以上的整数)学习输入图像数据,将V个学习输入图像数据输入到学习模型234,生成V个输出图像数据。此外,作为V个学习输入图像数据,可以选择多个学习输入图像数据中的未使用的学习输入图像数据。另外,也可以从多个学习输入图像数据中随机选择V个学习输入图像数据。
在S135中,处理器210针对输入到学习模型234的V个学习输入图像数据的每一个计算出表示学习输入图像数据和与学习输入图像数据对应的输出图像数据之间的差分的误差值。误差值基于预先决定的损失函数来计算。例如,在误差值的计算中使用均方误差(MSE(Mean Squared Error))。学习输入图像数据与输出图像数据的差分越小,误差值越小。
在S140中,处理器210使用V个误差值来调整学习模型234的多个运算参数(包括运算参数集601-608)。具体而言,处理器210以误差值变小即学习输入图像数据与输出图像数据的差分变小的方式根据预先决定的算法来调整多个运算参数。作为算法,使用例如利用了误差反向传播法和梯度下降法的算法。
在S150中,处理器210判断训练是否完成。训练完成的条件例如可以是在S135中计算出的所有误差值比预先决定的误差阈值小的条件。取而代之,训练完成的条件可以是输入了来自操作者的完成指示的条件。操作者确认由输出图像数据表示的图像是否能够充分地再现由对应的学习输入图像数据表示的图像。操作者根据确认结果而经由操作部250输入训练的完成指示或继续指示。另外,训练完成的条件可以是S130-S140的处理被执行的次数为预先决定的次数阈值以上的条件。
在判断为训练未完成的情况下(S150:否),处理器210转移到S130。在判断为训练完成的情况下(S150:是),在S160中,将具有已调整的运算参数的学习模型234(即已学习完毕的学习模型234)存储于非易失性存储装置230。然后,图6的处理结束。已学习完毕的学习模型234在后述的差分数据生成处理中被利用。
已学习完毕的学习模型234构成为使计算机发挥使用已调整的参数来执行处理的功能。如利用图2-图5所说明的那样,学习模型234提取所输入的图像的对象(在此为标签片的图形和字符串)的特征(包括形状特征),并基于提取出的特征来复原对象的图像。图7(C)是由已学习完毕的学习模型234生成的输出图像数据的例子的说明图。该输出图像数据840表示通过将图7(B)的图像数据810输入到已学习完毕的学习模型234而生成的图像数据的例子。输出图像数据840的输出图像840i表示与图7(B)的图像810i的基准标签片800几乎相同的标签片800(包括图形801和字符串802)。如上所述,学习模型234使用无缺陷的对象的学习输入图像数据而被训练。在该情况下,不论输入图像的对象是否具有缺陷,已学习完毕的学习模型234都会生成表示无缺陷的对象的输出图像数据。
A4.差分数据生成处理:
图8是表示差分数据生成处理的例子的流程图。差分数据能够用于判断标签片的样本是否具有缺陷。差分数据的生成由数据处理装置200(图1)执行。在本实施例中,处理器210根据第二程序233来执行差分数据的生成处理。
在S210中,处理器210取得作为标签片的样本的图像数据的对象输入图像数据,并将所取得的对象输入图像数据存储于存储装置215(例如非易失性存储装置230)。与图6的S115的处理同样地,使用数字照相机100进行对象输入图像数据710的取得。
图9是图像处理的说明图。在图中,示出了在差分数据生成处理中被处理的多个图像710i、740i、710bi、740bi、760di、740bi、770i、770bi、780i的例子。这些图像从图中的上朝下按处理的顺序配置。
在图9的左上示出了对象输入图像数据710的对象输入图像710i。对象输入图像710i表示具有缺陷的标签片700x(也称为输入标签片700x)。具体而言,标签片700x具有图形701的一部分的缺失701x和字符串702的一部分的缺失702x。另外,对象输入图像710i包含噪声710n。噪声710n可能由于数字照相机100中的数据处理等各种原因而产生。
在S220(图8)中,处理器210通过将对象输入图像数据输入到已学习完毕的学习模型234而生成对象输出图像数据。在图9的右上方示出了对象输出图像数据740的对象输出图像740i。对象输出图像740i表示无缺陷的标签片750(也称为输出标签片750)。对象输出图像740i内的输出标签片750的位置和朝向与对象输入图像710i内的输入标签片700x的位置和朝向大致相同。输出标签片750的图形751和字符串752与基准标签片800(图7(A))的图形801和字符串802大致相同。对象输出图像740i包含噪声740n。噪声740n可能由于学习模型234的运算等各种原因而产生。
在S230(图8)中,处理器210对对象输入图像数据和对象输出图像数据进行平滑化处理,生成平滑输入图像数据和平滑输出图像数据(平滑化处理也称为模糊处理)。在本实施例中,平滑化处理是使用平均值滤波器的处理。在图9的上数第二层示出了平滑输入图像数据710b的平滑输入图像710bi和平滑输出图像数据740b的平滑输出图像740bi。如图所示,噪声710n、740n已被去除。此外,平滑化滤波器可以是中央值滤波器、高斯滤波器等其他各种滤波器。另外,平滑化处理不限于使用平滑化滤波器的处理,也可以是使图像上的像素的颜色值(也称为像素值)相对于图像上的位置的变化的变化平缓的各种处理。
在S240(图8)中,处理器210对平滑输出图像数据进行边缘提取处理,生成边缘图像数据。在本实施例中,处理器210根据像素值(RGB值)计算出亮度值,对亮度值应用公知的sobel滤波器,计算出各像素的边缘量。然后,处理器210提取具有比预先决定的阈值大的边缘量的像素作为边缘像素。在图9的上数第三层的右侧示出了边缘图像数据740e的边缘图像740。边缘图像740表示输出标签片750的边缘部分750e(例如轮廓)、图形751的边缘部分751e(例如轮廓或图形的图案等)和字符串752的边缘部分752e(例如轮廓)。在本实施例中,边缘图像数据740e是二值位图数据。零像素值表示边缘像素,1像素值表示非边缘像素。此外,边缘提取滤波器可以是Prewitt滤波器、Roberts滤波器等其他各种滤波器。另外,边缘提取处理并不限于使用边缘提取滤波器的处理,也可以是提取图像上的像素值的变化相对于图像上的位置的变化是急剧的部分的像素的各种处理。
在S250(图8)中,处理器210生成表示平滑输入图像数据与平滑输出图像数据之间的差分的差分图像数据。在本实施例中,差分图像数据表示差分图像,该差分图像示出平滑输入图像710bi与平滑输出图像740bi之间的差分。处理器210采用平滑输入图像710b和平滑输出图像740bi的相同位置的2个像素的2个颜色值的差分作为差分图像的相同位置的像素的颜色值。具体而言,差分图像的像素值被设定为根据平滑输入图像数据的RGB的像素值算出的亮度值与根据平滑输出图像数据的RGB的像素值算出的亮度值的差分的绝对值。差分图像的零像素值表示2个图像数据之间的差为零。并且,差分图像的像素值越大,2个图像数据之间的差越大。在图9的上数第三层的左侧示出了差分图像数据760d的差分图像760di。如上所述,平滑输入图像710bi具有图形701的缺失701x和字符串702的缺失702x。另一方面,平滑输出图像740bi不具有这样的缺失。因此,差分图像760di示出了与图形701的缺失701x对应的缺失部分701z和与字符串702的缺失702x对应的缺失部分702z。另外,在平滑输入图像710bi与平滑输出图像740bi之间,图像内的标签片700、750的位置可能会产生差异。因此,差分图像760di能够表示标签片的边缘部分700d、图形的边缘部分701d和字符串的边缘部分702d。此外,差分图像的像素值也可以由其他颜色成分表示。例如,差分图像的像素值可以表示红色R的差分的绝对值、绿色G的差分的绝对值、蓝色B的差分的绝对值这3色的灰度值。
在S260(图8)中,处理器210使用边缘图像数据740e来修正差分图像数据760d。具体而言,执行从差分图像760di提取与边缘部分不同的非边缘部分的处理。在本实施例中,处理器210参照边缘图像数据740e,将差分图像数据760d中的边缘部分的像素值设定为零,由此生成已修正的差分图像数据。在图9的上数第四层的左侧示出了已修正的差分图像数据770的已修正的差分图像770i。已修正的差分图像770i示出了缺失部分701z、702z。差分图像760di中包含的边缘部分700d、701d、702d已被删除。此外,在本实施例中,边缘图像数据740e的零像素值表示边缘像素,1像素值表示非边缘像素。因此,处理器210通过对差分图像数据760d的像素的像素值乘以边缘图像数据740e的相同位置的像素的像素值,能够生成已修正的差分图像数据770。
在S270(图8)中,处理器210对已修正的差分图像数据770进行二值化而生成二值差分图像数据。在本实施例中,处理器210通过对已修正的差分图像数据770的像素值与预先决定的二值化阈值进行比较而进行二值化。在图9的最下层的左侧示出了二值差分图像数据770b的二值差分图像770bi。二值差分图像770bi示出了与已修正的差分图像数据770的缺失部分701z、702z对应的差异部分701zb、702zb。此外,二值化的方法可以是判别大的值和小的值的各种方法。例如,可以采用所谓的大津二值化。
在S280(图8)中,处理器210将对象输出图像数据740和二值差分图像数据770b合成而生成合成图像数据。在本实施例中,处理器210通过将对象输出图像中的差异部分的颜色变更为预先决定的特定颜色(例如白色、红色等),来生成合成图像数据。在图9的最下层的右侧示出了合成图像数据780的合成图像780i。输出标签片750中的差异部分701zb、702zb用特定颜色示出。
在S290(图8)中,处理器210将表示对象输入图像与对象输出图像之间的差异部分的图像数据存储于存储装置215(例如非易失性存储装置230)。在本实施例中,差分图像数据(S250)、已修正的差分图像数据(S260)、二值差分图像数据(S270)以及合成图像数据(S280)表示差异部分。这些4个图像数据都是使用差分图像数据(S250)而得到的图像数据。在S290中存储于存储装置的图像数据可以是从上述的4个图像数据中任意选择的一个以上图像数据。在本实施例中,处理器210将二值差分图像数据和合成图像数据存储于非易失性存储装置230。
通过以上过程,图8的处理结束。在S290中存储于存储装置的图像数据能够在各种处理中利用。例如,处理器210可以在显示部240显示合成图像780i(图9)。合成图像780i的观察者能够容易地确定差异部分701zb、702zb(特别是位置和形状)。另外,处理器210也可以通过解析二值差分图像数据770b来判断输入标签片700x是否具有缺陷。例如,在1个连续的差异部分的大小(例如像素数)为预先决定的阈值以上的情况下,可以判断为输入标签片具有缺陷。
如上所述,图2的学习模型234是生成与包含标签片700的输入图像910i的输入图像数据910对应的输出图像数据940的机器学习模型。并且,在图8的处理中,使用已学习完毕的学习模型234。如利用图2-图5所说明的那样,学习模型234是执行使用针对输入图像数据910的多个运算参数(包括运算参数集601-608)的运算的模型。如利用图3所说明的那样,通过基于学习模型234的运算,提取输入图像数据910的输入图像910i中包含的输入对象(在本实施例中为标签片700的图形701和字符串702等)的形状特征。并且,如利用图4、图5所说明的那样,通过基于学习模型234的运算,生成包含基于所提取的形状特征的输出对象(在本实施例中为标签片950)的输出图像940i的输出图像数据940。
如图2所示,学习模型234具备:输入层L10,该输入层执行使用输入图像数据910的运算;以及输出层L30,该输出层设置于输入层L10的下游侧,生成输出图像数据940。
如图3所示,输入层L10具备卷积层311-313、池化层321、322以及加法运算部331。第一卷积层311是提取作为输入图像910i的对象的输入对象(图形701、字符串702等)中的包含在比输入图像910i小的第一种输入滤波器FL11的范围中的部分的形状特征的第一提取部的例子。第二卷积层312与第一卷积层311并行设置。第二卷积层312是提取输入对象中的包含在比输入图像910i小且比第一种输入滤波器FL11的范围大的第二种输入滤波器FL12的范围中的部分的形状特征的第二提取部的例子。
池化层321、322通过使用从第一卷积层311输出的数据执行运算而生成池化映射914i、915i的位图数据914、915。如利用图3所说明的那样,池化映射914i、915i能够受到由第一卷积层311提取的形状特征在输入图像910i内的位置位移的影响。在位置的位移处于窗口WN21、WN22的范围内的情况下影响被缓和。在位置的位移超过窗口WN21、WN22的范围的情况下,池化映射914i、915i能够根据位置的位移而变化。这样,池化映射914i、915i是与位置的位移相关的位移信息的例子。并且,池化层321、322是取得位移信息的位移信息取得部的例子。
加法运算部331将包括从第一卷积层311输出的数据、从第二卷积层312输出的数据和从池化层321、322输出的数据在内的多个数据相加。
根据以上的结构,第一卷积层311输出与比较细致的形状特征对应的数据,第二卷积层312输出与比较粗糙的形状特征对应的数据。例如,第一卷积层311能够提取细致形状特征,第二卷积层312能够提取线的特征。并且,输入层L10的加法运算部331将这些数据相加。
因此,学习模型234能够生成表示除了具有比较粗糙的形状之外还具有比较细致的形状的输出对象的输出图像数据940。假设在输入层中并不是并行设置使用尺寸互不相同的滤波器的多个卷积层,而是假定为多个处理层(例如多个卷积层)串联连接。在该情况下,虽然能够提取比较粗糙的形状特征,但比较细致的形状特征的提取是困难的。根据上述结构,能够抑制这样的不良情况。
另外,加法运算部331的加法运算对象包括从池化层321、322输出的数据。池化层321、322使用来自第一卷积层311的与比较细致的形状特征对应的数据来生成位图数据914、915。关于从池化层321、322输出的数据914、915,窗口WN21、WN22范围内的位置位移的影响被缓和。因此,能够针对比较细致的形状特征在输入图像内的位置位移提高鲁棒性。
另外,如利用图5所说明的那样,输出层L30具备转置卷积层511-513和加法运算部520。第一转置卷积层511是使用处理对象的中间数据930中的、与比输出图像940i小的第一种输出滤波器FL31的范围对应的部分来复原形状特征的第一复原部的例子。第二转置卷积层512与第一转置卷积层511并行设置。第二转置卷积层512是使用处理对象的中间数据930中的、与比输出图像940i小且比第一种输出滤波器FL31的范围大的第二种输出滤波器FL32的范围对应的部分来复原形状特征的第二复原部的例子。
第一转置卷积层511复原比较细致的形状特征,第二转置卷积层512复原比较粗糙的形状特征。因此,学习模型234能够生成表示除了具有比较粗糙的形状之外还具有比较细致的形状的输出对象的输出图像数据940。
另外,如上所述,输入层L10包括作为第一提取部的例子的第一卷积层311、作为第二提取部的例子的第二卷积层312以及作为位移信息取得部的例子的池化层321、322。另外,输出层L30不包括池化层而包括作为第一复原部的例子的第一转置卷积层511和作为第二复原部的例子的第二转置卷积层512。由于输入层L10包括池化层321、322,因此形状特征在输入图像910i内的位置的位移对输出层L30的运算的影响被缓和。因此,不包括池化层而包括第一转置卷积层511和第二转置卷积层512的输出层L30能够生成如下的输出图像数据940,即该输出图像数据940表示除了具有比较粗糙的形状以外还具有比较细致的形状的输出对象。
另外,如利用图3所说明的那样,输入层L10具备第一池化层321和第二池化层322。第一池化层321是取得与比输入图像910i小的第一窗口WN21的范围内的位置位移相关的位图数据914的第一位移信息取得部的例子。第二池化层322与第一池化层321并行设置。第二池化层322是取得与比输入图像910i小且比第一窗口WN21的范围大的第二窗口WN22的范围内的位置位移相关的位图数据915的第二位移信息取得部的例子。
并且,加法运算部331将包括从第一卷积层311、第二卷积层312、第一池化层321和第二池化层322分别输出的数据在内的多个数据相加。在该结构中,第一池化层321取得与比较小的位置位移相关的第一位图数据914,第二池化层322取得与比较大的位置位移相关的第二位图数据915。并且,输入层L10的加法运算部331将这些数据相加,因此能够针对比较小的位置位移和比较大的位置位移提高鲁棒性。
另外,输入层L10(图3)具备与第一卷积层311和第二卷积层312并行设置的第三卷积层313。第三卷积层313是提取输入对象中的包含于比输入图像910i小且比第二种输入滤波器FL12的范围大的第三种输入滤波器FL13的范围中的部分的形状特征的第三提取部的例子。并且,加法运算部331将包括从第一卷积层311、第二卷积层312、第三卷积层313、第一池化层321和第二池化层322分别输出的数据在内的多个数据相加。这样,提取与三种细致度对应的三种形状特征,并将与三种特征对应的三种数据相加,因此能够生成表示具有与三种细致度对应的三种形状特征的输出对象的输出图像数据940。
另外,如在图6的S140中说明的那样,学习模型234的多个运算参数(包括运算参数集601-608)通过训练而被调整为,学习输入图像数据与通过将学习输入图像数据输入至学习模型234而生成的输出图像数据之间的差变小。如在S120中说明的那样,学习输入图像数据使用包含基准标签片800的基准图像810i的基准图像数据810来生成。多个学习输入图像数据分别是包含基准标签片800的基准图像的图像数据。因此,如利用图8、图9所说明的那样,通过将包含输入标签片700x的对象输入图像710i的对象输入图像数据710输入至学习模型234,能够生成包含与基准标签片800的差异较小的输出标签片750的对象输出图像740i的对象输出图像数据740。这样的对象输出图像数据740能够利用于对象输入图像710i的对象(这里为输入标签片700x)的缺陷的检测。
另外,在利用图8、图9说明过的处理中,处理器210使用已学习完毕的学习模型234进行以下的处理。在S210中,处理器210取得包含输入对象的对象输入图像710i的对象输入图像数据710。在S220中,处理器210通过将对象输入图像数据710输入至已学习完毕的学习模型234而生成与对象输入图像数据710对应的对象输出图像数据740。在S230、S250中,处理器210生成表示对象输入图像710i与对象输出图像740i之间的差异的差分图像760di的差分图像数据760d。学习模型234能够生成包含基于由输入层L10提取的形状特征的、与基准标签片800的差异较小的输出标签片750的对象输出图像740i的对象输出图像数据740。因此,处理器210能够生成表示输入标签片700x与基准标签片800之间的差异的差分图像数据760d。
另外,如在S230、S250(图8)中说明的那样,处理器210通过进行对象输入图像数据710和对象输出图像数据740的平滑化处理而取得平滑输入图像数据710b和平滑输出图像数据740b,并使用平滑输入图像数据710b和平滑输出图像数据740b生成差分图像数据760d。因此,能够降低差分图像数据760d中包含的噪声。
另外,如在S240、S260(图8)中说明的那样,处理器210进行边缘提取处理,并通过对差分图像数据760d进行从差分图像760di提取与边缘部分不同的非边缘部分的处理,从而修正差分图像数据(S260),该边缘提取处理提取平滑输出图像数据740b的平滑输出图像740bi内的边缘部分(S240)。由于对象输入图像710i与对象输出图像740i之间的对象错位,差分图像760di可能包含边缘。根据上述结构,已修正的差分图像数据770能够适当地表示与因对象输入图像710i与对象输出图像740i之间的错位引起的边缘不同的差异。
B.变形例:
(1)学习模型的输入层不限于具备卷积层311-313(图3),也可以具备提取输入图像所包含的输入对象的形状特征的各种运算部(也称为提取部)。提取部可以构成为,使用输入图像中的包含在比输入图像小的输入范围中的部分的一个以上像素的各自的像素值,来提取输入对象中的包含在输入范围中的部分的形状特征。优选输入层具备使用尺寸互不相同的输入范围的多个提取部。由此,输入层能够提取尺寸互不相同的形状特征。换言之,输入层能够提取互不相同的分辨率的信息。提取部的总数可以是2以上的任意的数。
此外,输入图像的尺寸(像素数)越大,学习模型的计算量越多,另外,提取部的总数越多,学习模型的计算量越多。因此,在输入图像的尺寸大的情况下,优选提取部的总数少。
(2)学***均池化处理。另外,可以对池化层321、322输入来自第二卷积层312的位图数据912。该位图数据912与来自第三卷积层313的位图数据913相比表示细致形状特征。因此,能够针对比较细致的形状特征在输入图像内的位置的位移提高鲁棒性。
由池化层321、322生成的数据是与由提取部(例如卷积层311-313)提取的形状特征在输入图像内的位置的位移相关的位移信息的例子。位移信息可以是根据位置的位移而变化的各种信息。位移信息可以被决定为:在输入图像上的对象的位置的位移处于预先决定的位移范围内的情况下位置的位移对位移信息的影响变小,在位置的位移超过位移范围的情况下位置的位移对位移信息的影响变大。即,可以按如下方式算出位移信息:在2张输入图像之间对象的位置差处于位移范围内的情况下从2张输入图像得到的2个位移信息的差异变小,在位置差超过位移范围的情况下从2张输入图像得到的2个位移信息的差异变大。输入层不限于具备池化层,也可以具备取得位移信息的各种运算部(称为位移信息取得部)。
优选输入层具备使用尺寸互不相同的位移范围的多个位移信息取得部。由此,能够针对尺寸互不相同的位移提高鲁棒性。此外,位移信息取得部的总数可以是1以上的任意数。在输入图像的尺寸大的情况下,优选位移信息取得部的总数少。不论在哪种情况下,都优选输入层的加法运算部将来自多个提取部和一个以上的位移信息取得部各个部的数据相加。由此,输入层能够提取各种尺寸的部分的形状特征,并且,能够提高针对输入图像内的对象的错位的鲁棒性。另外,一个以上的位移信息取得部也可以使用来自相同的提取部的相同的数据来取得位移信息。
另外,在输入层的多个提取部包括使用第一输入范围的第一提取部和使用比第一输入范围大的第二输入范围的第二提取部的情况下,一个以上的位移信息取得部优选使用来自第一提取部的数据。由此,能够针对比较细致的形状特征的位置的位移提高鲁棒性。在此,输入层可以不具备使用来自第二提取部的数据的位移信息取得部。由此,能够简化输入层的结构。
(3)学习模型的输出层不限于具备转置卷积层511-513(图5),也可以具备复原形状特征的各种运算部(也称为复原部)。复原部可以将表示对象的特征(包括形状特征)的处理对象数据作为图像数据进行处理。并且,复原部可以构成为,使用由处理对象数据表示的图像中的包含在比输出图像小的输出范围内的部分的一个以上的像素各自的像素值来复原形状特征。输出层优选具备使用尺寸互不相同的输出范围的多个复原部。由此,输出层能够复原尺寸互不相同的形状特征。换言之,输出层能够复原互不相同的分辨率的信息。这里,优选地,多个复原部并行地设置,处理相同的处理对象数据,并且,输出层具备将从多个复原部中的每一个输出的数据相加的加法运算部。并且,从加法运算部输出的数据可以用作输出图像数据。由此,能够适当地复原尺寸互不相同的形状特征。在此,输出层可以不具备池化层(进而不具备位移信息取得部)。
另外,复原部的总数可以为1以上的任意的数,优选为2以上。在输入图像的尺寸大的情况下,优选复原部的总数少。输出层的复原部的输出范围的尺寸可以与输入层的提取部的输入范围的尺寸不同。输出层的复原部的总数可以与输入层的提取部的总数不同。但是,优选的是,输入层具备使用尺寸互不相同的输入范围的U个(U为2以上的整数)提取部,输出层具备使用尺寸互不相同的输出范围的U个复原部,并且U个输入范围的尺寸与U个输出范围的尺寸分别相同。由此,能够适当地进行相互不同的多个尺寸的多种形状特征的提取和复原。
(4)在图2-图5的学习模型234中,全连接层415、420(图4)从输入层L10(图3)的加法运算部331向输出层L30(图5)的复原部(具体而言为转置卷积层511-513)传递信息。全连接层415、420能够在抑制信息损失的情况下传递信息。因此,表示由输入层L10提取的各种尺寸的形状特征的信息被传递至输出层L30。其结果,输出层L30能够复原各种尺寸的形状特征。
将输入层的加法运算部和输出层的复原部连接的中间层的结构不限于全连接层415、420,可以是各种结构。在此,优选中间层在抑制信息损失的情况下传递信息。例如,中间层可以具备串联连接的多个全连接层。另外,可以省略中间层。在该情况下,来自输入层的加法运算部的数据被输入到输出层的复原部。
(5)学习模型的结构可以为其他各种结构代替上述的结构。通道数s可以是1以上的任意的数。通道数s越多,越能够进行各种形状特征的提取和复原。通道数s越少,学习模型的训练越容易。颜色成分的数r可以是1以上的任意的数。颜色成分可以是灰度、RGB、YCbCr、CMYK等任意的颜色成分。在r=1的情况下,学习模型可以处理灰度的位图数据。
另外,学习模型可以为进行输入图像的对象的形状特征的提取和复原的各种模型来代替图2-图5的模型。例如,学习模型可以是被称为Variational Autoencoder(VAE)(变分自动编码器)的模型。VAE是将输入图像数据压缩为多维正态分布的参数(均值和方差)的模型。在采用VAE的情况下,能够进行更细致的形状特征的提取和复原。在采用VAE的情况下,中间层的结构可以与公知的VAE的中间层同样地是处理正态分布的参数的各种结构。例如,从图4的第一全连接层415输出的N个(N为偶数)特征值可以表示正态分布的参数。
不论在哪种情况下,学习模型都以适于学习模型的方法进行训练。学习模型的多个运算参数优选被调整为:包含基准对象(例如基准标签片800)的基准图像的基准图像数据与通过将基准图像数据输入到学习模型而生成的输出图像数据之间的差变小。另外,优选使用包含基准对象的多张基准图像的多个基准图像数据来调整多个运算参数。在此,优选,在多张基准图像之间基准对象的位置和朝向中的至少一个互不相同。由此,已学习完毕的模型能够适当地处理各种输入图像数据。
(6)差分数据生成处理可以为其他各种处理来代替图8的处理。例如,可以省略平滑化处理(S230)。在该情况下,在S250中,生成表示对象输入图像数据710与对象输出图像数据740之间的差分的差分图像数据。另外,可以省略边缘提取处理(S240)和差分图像数据的修正处理(S260)。在该情况下,在S270中,未修正的差分图像数据(例如差分图像数据760d)被二值化。差分图像可以是表示多个像素各自的像素值的差的图像。像素值差可以用各种颜色成分来表示(例如RGB、亮度值、YCbCr等)。
(7)在图8的实施例中,数据处理装置200作为生成差分图像数据的生成装置进行动作。取而代之,数据处理装置200也可以作为不生成差分图像数据而通过将输入图像数据输入到学习模型来生成输出图像数据的生成装置进行动作。处理器210可以将生成的输出图像数据存储在存储装置215(例如非易失性存储装置230)中。能够在各种处理中利用输出图像数据(例如输出图像的显示、差分图像数据的生成等)。
(8)图像处理***1000的结构可以是其他各种结构来代替图1的结构。例如,与执行图6的训练的数据处理装置不同的数据处理装置可以执行图8的处理。另外,可以使用扫描仪代替数字照相机100。另外,产品700不限于标签片,可以是用于收容商品的箱或信封等纸制品、衬衫或毛巾等布制品、机械的部件等任意的产品。
(9)图1的数据处理装置200可以是与个人计算机不同种类的装置(例如数字照相机、扫描仪、智能手机)。另外,也可以是,能够经由网络相互通信的多个装置(例如计算机)各分担一部分数据处理装置的数据处理的功能,从而作为整体提供数据处理的功能(具备这些装置的***对应于数据处理装置)。
在上述各实施例中,可以将由硬件实现的结构的一部分置换为软件,相反地,也可以将由软件实现的结构的一部分或者全部置换为硬件。例如,学习模型234可以代替程序模块而通过ASIC(Application Specific Integrated Circuit:专用集成电路)等硬件电路来实现。
另外,在本发明的功能的一部分或者全部通过计算机程序实现的情况下,该程序能够以存储于计算机可读取的记录介质(例如非暂时性记录介质)的形式提供。程序可以在存储于与提供时相同或不同的记录介质(计算机可读取的记录介质)的状态下使用。“计算机可读取的记录介质”不限于存储卡、CD-ROM这样的便携式记录介质,可以还包括各种ROM等计算机内的内部存储装置、硬盘驱动器等与计算机连接的外部存储装置。
以上,基于实施例、变形例对本发明进行了说明,但上述的发明的实施方式是为了容易理解本发明,并非限定本发明。本发明可以在不脱离其宗旨的情况下进行变更、改良,并且其等价物包括在本发明中。
符号的说明
100…数字照相机、200…数据处理装置、210…处理器、215…存储装置、220…易失性存储装置、230…非易失性存储装置、232…第一程序、233…第二程序、234…预测模型(机器学习模型)、L10…输入层、L20…中间层、L30…输出层、240…显示部、250…操作部、270…通信接口、311-313…卷积层、321…第一池化层、322…第二池化层、331…加法运算部、410…第一转换部、420…全连接层、430…第二转换部、511-513…转置卷积层、520…加法运算部、601-608…运算参数集、700、700x、750、800、950…标签片、701…图形、702…字符串、701z、702z…缺失部分、701zb、702zb…差异部分、FL11-FL13…输入滤波器、WN21…第一窗口、WN22…第二窗口、FL31-FL33…输出滤波器
Claims (13)
1.一种机器学习模型,用于生成与包含输入对象的输入图像的输入图像数据对应的输出图像数据,是已学习完毕的机器学习模型,其特征在于,
所述机器学习模型是如下的模型:通过执行使用针对输入图像数据的多个运算参数的运算,从而进行所述输入图像数据的输入图像中所包含的输入对象的形状特征的提取、和包含基于所提取的形状特征的输出对象的输出图像的输出图像数据的生成,
所述机器学习模型具备:输入层,该输入层执行使用所述输入图像数据的运算;以及输出层,该输出层设置于所述输入层的下游侧,且生成所述输出图像数据,
所述输入层包括:
第一提取部,该第一提取部提取所述输入对象中的包含于比所述输入图像小的第一输入范围中的部分的形状特征;
第二提取部,该第二提取部与所述第一提取部并行设置,并提取所述输入对象中的包含于比所述输入图像小且比所述第一输入范围大的第二输入范围中的部分的形状特征;
一个以上的位移信息取得部,该一个以上的位移信息取得部使用从所述第一提取部输出的数据执行运算,由此取得与由所述第一提取部提取出的所述形状特征在所述输入图像内的位置的位移相关的位移信息;以及
加法运算部,该加法运算部将包括从所述第一提取部输出的数据、从所述第二提取部输出的数据和从所述一个以上的位移信息取得部输出的数据在内的多个数据相加。
2.根据权利要求1所述的机器学习模型,其特征在于,
所述输出层包括:
第一复原部,该第一复原部使用处理对象的数据中的与比所述输出图像小的第一输出范围对应的部分来复原形状特征;以及
第二复原部,该第二复原部与所述第一复原部并行设置,并使用所述处理对象的数据中的与比所述输出图像小且比所述第一输出范围大的第二输出范围对应的部分来复原形状特征。
3.根据权利要求2所述的机器学习模型,其特征在于,
所述输入层包括:
所述第一提取部,该第一提取部是卷积层;
所述第二提取部,该第二提取部是卷积层;以及
所述位移信息取得部,该位移信息取得部是池化层,
所述输出层不包括池化层而包括:
所述第一复原部,该第一复原部是转置卷积层;以及
所述第二复原部,该第二复原部是转置卷积层。
4.根据权利要求1至3中任一项所述的机器学习模型,其特征在于,
所述一个以上的位移信息取得部包括:
第一位移信息取得部,该第一位移信息取得部取得与比所述输入图像小的第一位移范围内的位置的位移相关的第一位移信息;以及
第二位移信息取得部,该第二位移信息取得部与所述第一位移信息取得部并行设置,并取得与比所述输入图像小且比所述第一位移范围大的第二位移范围内的位置的位移相关的第二位移信息,
所述加法运算部将包括从所述第一提取部输出的所述数据、从所述第二提取部输出的所述数据、从所述第一位移信息取得部输出的数据和从所述第二位移信息取得部输出的数据在内的所述多个数据相加。
5.根据权利要求1至4中任一项所述的机器学习模型,其特征在于,
所述输入层包括第三提取部,该第三提取部与所述第一提取部和所述第二提取部并行设置,并提取所述输入对象中的包含在比所述输入图像小且比所述第二输入范围大的第三输入范围中的部分的形状特征,
所述加法运算部将包括从所述第一提取部输出的所述数据、从所述第二提取部输出的所述数据、从所述第三提取部输出的数据和从所述一个以上的位移信息取得部输出的所述数据在内的所述多个数据相加。
6.根据权利要求1至5中任一项所述的机器学习模型,其特征在于,
所述多个运算参数通过训练而被调整为,包含基准对象的基准图像的基准图像数据与通过将所述基准图像数据输入至所述机器学习模型而生成的输出图像数据之间的差变小。
7.一种生成装置,生成图像数据,其特征在于,具备:
取得部,该取得部取得包含输入对象的输入图像的输入图像数据;
输出图像数据生成部,该输出图像数据生成部通过将所述输入图像数据输入到已学习完毕的机器学习模型而生成与所述输入图像数据对应的输出图像数据;以及
差分图像数据生成部,该差分图像数据生成部生成表示所述输入图像与所述输出图像数据的输出图像之间的差异的差分图像的差分图像数据,
所述机器学习模型是如下的模型:通过执行使用针对输入图像数据的多个运算参数的运算,从而进行所述输入图像数据的输入图像中所包含的输入对象的形状特征的提取、和包含基于所提取的形状特征的输出对象的输出图像的输出图像数据的生成,
所述机器学习模型具备:输入层,该输入层执行使用所述输入图像数据的运算;以及输出层,该输出层设置于所述输入层的下游侧,且生成所述输出图像数据,
所述输入层包括:
第一提取部,该第一提取部提取所述输入对象中的包含于比所述输入图像小的第一输入范围中的部分的形状特征;
第二提取部,该第二提取部与所述第一提取部并行设置,并提取所述输入对象中的包含于比所述输入图像小且比所述第一输入范围大的第二输入范围中的部分的形状特征;
一个以上的位移信息取得部,该一个以上的位移信息取得部使用从所述第一提取部输出的数据执行运算,由此取得与由所述第一提取部提取出的所述形状特征在所述输入图像内的位置的位移相关的位移信息;以及
加法运算部,该加法运算部将包括从所述第一提取部输出的数据、从所述第二提取部输出的数据和从所述一个以上的位移信息取得部输出的数据在内的多个数据相加,
所述多个运算参数通过训练而被调整为,包含基准对象的基准图像的基准图像数据与通过将所述基准图像数据输入至所述机器学习模型而生成的输出图像数据之间的差变小。
8.根据权利要求7所述的生成装置,其特征在于,
所述差分图像数据生成部通过对所述输入图像数据进行平滑化处理而取得被平滑化的输入图像数据,
所述差分图像数据生成部通过对所述输出图像数据进行平滑化处理而取得被平滑化的输出图像数据,
所述差分图像数据生成部使用所述被平滑化的输入图像数据和所述被平滑化的输出图像数据来生成所述差分图像数据。
9.根据权利要求8所述的生成装置,其特征在于,
所述差分图像数据生成部进行边缘提取处理,该边缘提取处理提取所述被平滑化的输出图像数据的图像内的边缘部分,
所述差分图像数据生成部对所述差分图像数据进行从所述差分图像中提取与所述边缘部分不同的非边缘部分的处理,由此修正所述差分图像数据。
10.一种计算机程序,用于生成图像数据的计算机,该计算机程序的特征在于,
所述计算机程序使计算机实现如下功能:
取得功能,该取得功能取得包含输入对象的输入图像的输入图像数据;
输出图像数据生成功能,该输出图像数据生成功能通过将所述输入图像数据输入到已学习完毕的机器学习模型而生成与所述输入图像数据对应的输出图像数据;以及
差分图像数据生成功能,该差分图像数据生成功能生成表示所述输入图像与所述输出图像数据的输出图像之间的差异的差分图像的差分图像数据,
所述机器学习模型是如下的模型:通过执行使用针对输入图像数据的多个运算参数的运算,从而进行所述输入图像数据的输入图像中所包含的输入对象的形状特征的提取、和包含基于所提取的形状特征的输出对象的输出图像的输出图像数据的生成,
所述机器学习模型具备:输入层,该输入层执行使用所述输入图像数据的运算;以及输出层,该输出层设置于所述输入层的下游侧,且生成所述输出图像数据,
所述输入层包括:
第一提取部,该第一提取部提取所述输入对象中的包含于比所述输入图像小的第一输入范围中的部分的形状特征;
第二提取部,该第二提取部与所述第一提取部并行设置,并提取所述输入对象中的包含于比所述输入图像小且比所述第一输入范围大的第二输入范围中的部分的形状特征;
一个以上的位移信息取得部,该一个以上的位移信息取得部使用从所述第一提取部输出的数据执行运算,由此取得与由所述第一提取部提取出的所述形状特征在所述输入图像内的位置的位移相关的位移信息;以及
加法运算部,该加法运算部将包括从所述第一提取部输出的数据、从所述第二提取部输出的数据和从所述一个以上的位移信息取得部输出的数据在内的多个数据相加,
所述多个运算参数通过训练而被调整为,包含基准对象的基准图像的基准图像数据与通过将所述基准图像数据输入至所述机器学习模型而生成的输出图像数据之间的差变小。
11.根据权利要求10所述的计算机程序,其特征在于,
所述差分图像数据生成功能通过对所述输入图像数据进行平滑化处理而取得被平滑化的输入图像数据,
所述差分图像数据生成功能通过对所述输出图像数据进行平滑化处理而取得被平滑化的输出图像数据,
所述差分图像数据生成功能使用所述被平滑化的输入图像数据和所述被平滑化的输出图像数据来生成所述差分图像数据。
12.根据权利要求11所述的计算机程序,其特征在于,
所述差分图像数据生成功能进行边缘提取处理,该边缘提取处理提取所述被平滑化的输出图像数据的图像内的边缘部分,
所述差分图像数据生成功能对所述差分图像数据进行从所述差分图像中提取与所述边缘部分不同的非边缘部分的处理,由此修正所述差分图像数据。
13.一种生成装置,生成图像数据,该生成装置的特征在于,具备:
取得部,该取得部取得包含输入对象的输入图像的输入图像数据;以及
输出图像数据生成部,该输出图像数据生成部通过将所述输入图像数据输入到已学习完毕的机器学习模型而生成与所述输入图像数据对应的输出图像数据,
所述机器学习模型是如下的模型:通过执行使用针对输入图像数据的多个运算参数的运算,从而进行所述输入图像数据的输入图像中所包含的输入对象的形状特征的提取、和包含基于所提取的形状特征的输出对象的输出图像的输出图像数据的生成,
所述机器学习模型具备:输入层,该输入层执行使用所述输入图像数据的运算;以及输出层,该输出层设置于所述输入层的下游侧,且生成所述输出图像数据,
所述输入层包括:
第一提取部,该第一提取部提取所述输入对象中的包含于比所述输入图像小的第一输入范围中的部分的形状特征;
第二提取部,该第二提取部与所述第一提取部并行设置,并提取所述输入对象中的包含于比所述输入图像小且比所述第一输入范围大的第二输入范围中的部分的形状特征;
一个以上的位移信息取得部,该一个以上的位移信息取得部使用从所述第一提取部输出的数据执行运算,由此取得与由所述第一提取部提取出的所述形状特征在所述输入图像内的位置的位移相关的位移信息;以及
加法运算部,该加法运算部将包括从所述第一提取部输出的数据、从所述第二提取部输出的数据和从所述一个以上的位移信息取得部输出的数据在内的多个数据相加,
所述多个运算参数通过训练而被调整为,包含基准对象的基准图像的基准图像数据与通过将所述基准图像数据输入至所述机器学习模型而生成的输出图像数据之间的差变小。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019-177370 | 2019-09-27 | ||
JP2019177370 | 2019-09-27 | ||
PCT/JP2020/034860 WO2021060068A1 (ja) | 2019-09-27 | 2020-09-15 | 機械学習モデル、生成装置、コンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114531911A true CN114531911A (zh) | 2022-05-24 |
Family
ID=75166960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080066699.5A Pending CN114531911A (zh) | 2019-09-27 | 2020-09-15 | 机器学习模型、生成装置、计算机程序 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP4036849A4 (zh) |
JP (1) | JP7160211B2 (zh) |
CN (1) | CN114531911A (zh) |
WO (1) | WO2021060068A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023074565A1 (ja) * | 2021-11-01 | 2023-05-04 | ブラザー工業株式会社 | 機械学習モデル、コンピュータプログラム、および、方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10282663B2 (en) * | 2015-08-15 | 2019-05-07 | Salesforce.Com, Inc. | Three-dimensional (3D) convolution with 3D batch normalization |
JP2019067078A (ja) * | 2017-09-29 | 2019-04-25 | 国立大学法人 筑波大学 | 画像処理方法、及び画像処理プログラム |
WO2019159324A1 (ja) * | 2018-02-16 | 2019-08-22 | パナソニックIpマネジメント株式会社 | 処理方法およびそれを利用した処理装置 |
-
2020
- 2020-09-15 WO PCT/JP2020/034860 patent/WO2021060068A1/ja active Application Filing
- 2020-09-15 EP EP20868059.5A patent/EP4036849A4/en active Pending
- 2020-09-15 CN CN202080066699.5A patent/CN114531911A/zh active Pending
- 2020-09-15 JP JP2021548830A patent/JP7160211B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
EP4036849A4 (en) | 2023-11-15 |
JPWO2021060068A1 (ja) | 2021-12-23 |
WO2021060068A1 (ja) | 2021-04-01 |
JP7160211B2 (ja) | 2022-10-25 |
EP4036849A1 (en) | 2022-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5566811B2 (ja) | プリントアンドスキャン文書の画像評価のためのボケ除去および監視適応的スレッショルディング | |
JP4468442B2 (ja) | イメージングシステム性能測定 | |
US7680325B2 (en) | Image processing method of detecting a correspondence between colors, image processing apparatus and program for detecting a correspondence between colors | |
JP2020160616A (ja) | 生成装置、コンピュータプログラム、生成方法 | |
US8059899B2 (en) | Image processing apparatus, image processing method, and computer product | |
US8655100B2 (en) | Correcting an artifact in an image | |
US20110216968A1 (en) | Smart image resizing with color-based entropy and gradient operators | |
US20180096234A1 (en) | Image processing apparatus that executes halftone process on target image data including edge pixel | |
CN107566684A (zh) | 图像处理装置、图像处理方法及存储介质 | |
CN107018407A (zh) | 信息处理装置、评价用图、评价***、以及性能评价方法 | |
CN114531911A (zh) | 机器学习模型、生成装置、计算机程序 | |
US9734559B1 (en) | Match error compensation for super-resolution images | |
US11625886B2 (en) | Storage medium storing program, training method of machine learning model, and image generating apparatus | |
US10388021B2 (en) | Image processing apparatus, image forming apparatus and program | |
JP2019140538A (ja) | 画像処理装置、画像形成装置、画像処理方法、及びプログラム | |
US9886648B2 (en) | Image processing device generating arranged image data representing arranged image in which images are arranged according to determined relative position | |
JP4708866B2 (ja) | ルックアップテーブル作成装置および方法,ならびにルックアップテーブル作成プログラム | |
JP2003209704A (ja) | 画像処理方法、画像処理装置、画像形成装置、画像処理プログラムおよび記録媒体 | |
US8139898B2 (en) | Image process method and apparatus for image enlargement and enhancement | |
Wang et al. | A novel framework for object removal from digital photograph | |
US8102571B2 (en) | Image processing apparatus, printer including the same, and image processing method | |
JP4645918B2 (ja) | 画像信号処理装置および方法 | |
JP4362408B2 (ja) | 画像補正装置、画像補正プログラム、および画像補正方法 | |
JP5454094B2 (ja) | 画像変換方法、画像変換装置、画像変換システム及び画像変換プログラム | |
JP2023067732A (ja) | 機械学習モデル、コンピュータプログラム、および、方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |