CN117651971A - 识别模型生成方法以及识别模型生成装置 - Google Patents

识别模型生成方法以及识别模型生成装置 Download PDF

Info

Publication number
CN117651971A
CN117651971A CN202280049628.3A CN202280049628A CN117651971A CN 117651971 A CN117651971 A CN 117651971A CN 202280049628 A CN202280049628 A CN 202280049628A CN 117651971 A CN117651971 A CN 117651971A
Authority
CN
China
Prior art keywords
recognition model
image
recognition
learning
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280049628.3A
Other languages
English (en)
Inventor
中村匡芳
堤匡史
和泉智之
古川康平
村冈慧
桦泽达将
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ruishide Co ltd
Kyocera Corp
Original Assignee
Ruishide Co ltd
Kyocera Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ruishide Co ltd, Kyocera Corp filed Critical Ruishide Co ltd
Publication of CN117651971A publication Critical patent/CN117651971A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

识别模型生成装置具有第1识别模型生成单元、赋予单元和第2识别模型生成单元。第1识别模型生成单元基于多个合成图像来生成第1识别模型。第1识别模型针对图像的输入而输出物体识别结果。赋予单元通过检测对象的多个摄像图像对第1识别模型的输入,来将物体识别结果作为注释数据赋予摄像图像。第2识别模型生成单元基于检测对象的摄像图像以及注释数据来生成第2学习模型。

Description

识别模型生成方法以及识别模型生成装置
关联申请的相互参照
本申请主张享有于2021年7月15日向日本提出专利申请的特愿2021-117345号的优先权,并将该在先申请的公开整体援引于此以供参照。
技术领域
本公开涉及识别模型生成方法以及识别模型生成装置。
背景技术
以往,在从图像整体中识别特定的物体的图像识别中,已知基于机器学习的识别。例如,提出使用根据CAD数据生成的学习图像来进行图像识别的图像识别方法(参照专利文献1)。
在先技术文献
专利文献
专利文献1:JP特开2019-191973号公报
发明内容
第1观点的识别模型生成方法中,取得表示检测对象的多个合成图像,基于所述多个合成图像来进行制作第1识别模型的第1学习,该第1识别模型针对图像的输入而输出物体识别结果,取得所述检测对象的摄像图像,对所述摄像图像,赋予通过多个所述拍摄图像对所述第1识别模型的输入而输出的所述物体识别结果,来作为注释数据,基于所述摄像图像以及所述注释数据来进行制作第2识别模型的第2学习。
此外,第2观点的识别模型生成装置具备:第1识别模型生成单元,其基于表示检测对象的多个合成图像来生成针对图像的输入而输出物体识别结果的第1识别模型;赋予单元,其通过所述检测对象的多个摄像图像对所述第1识别模型的输入,来将所述物体识别结果作为注释数据,并对所述摄像图像赋予所述物体识别结果;和第2识别模型生成单元,其基于所述摄像图像以及所述注释数据来生成第2识别模型。
此外,第3观点的识别模型生成装置将检测对象的摄像图像作为示教数据来使第1识别模型学习,从而生成第2识别模型,所述第1识别模型是将基于检测对象的三维形状数据而生成的合成图像作为示教数据来使物体识别中所用的原始识别模型学习而生成的识别模型。
附图说明
图1是表示一实施方式所涉及的识别模型生成装置的概略结构的功能框图。
图2是表示图1的控制部的虚拟的概略结构的功能框图。
图3是用于说明图1的控制部所执行的识别模型生成处理的第1流程图。
图4是用于说明图1的控制部所执行的识别模型生成处理的第2流程图。
具体实施方式
为了提高机器学习的识别精度,需要使用大量的示教数据来进行学习。大量的示教数据例如需要将相同的识别对象的物体从多样的方向观察的图像、在多样的照明状态下观察的图像等。已知为了针对这样的相同的识别对象的物体准备大量的示教数据,根据该物体的CAD数据生成学习图像。在仅使用根据CAD数据生成的学习图像来进行学习的识别模型中,难以正确地识别现实的摄像图像。
以下,参照附图来说明运用了本公开的识别模型生成装置的实施方式。另外,识别模型生成方法通过识别模型生成装置的说明来进行说明。
识别模型生成装置通过使用基于检测对象的三维形状数据的合成图像使原始识别模型学习,来制作第1识别模型。识别模型生成装置通过使用第1识别模型对该检测对象的摄像图像的至少一部分进行注释,来赋予注释信息。识别模型生成装置通过使第1识别模型学习,来经由第2识别模型制作部署用模型。识别模型生成装置在部署用模型的制作中使用被赋予注释数据的该检测对象的摄像图像。
如图1所示那样,一实施方式所涉及的识别模型生成装置10可以包含通信部11、存储部12以及控制部13而构成。识别模型生成装置10例如是1个或能相互通信的多个服务器装置、PC(Personal Computer,个人计算机)等通用的电子设备或专用的电子设备。
通信部11可以与外部设备通信。外部设备例如是摄像装置、存储介质以及终端装置。摄像装置例如设于智能手机、平板电脑等便携终端、或机器人等装置。存储介质例如是能在连接器拆装的任意的存储介质。终端装置例如是智能手机、平板电脑、PC等通用的电子设备或专用的电子设备。通信部11可以以有线或无线与外部设备通信。
通信部11可以通过与外部设备的通信来取得信息以及指示。通信部11可以通过与外部设备的通信来取得信息以及指示。
通信部11可以取得检测对象的三维形状数据。三维形状数据例如是CAD数据。可以将检测对象的名称作为标签数据与三维形状数据建立关联。
通信部11可以取得检测对象的组织构造信息。作为组织构造数据,可以将所摄像的检测对象中一般使用的材料的组织构造作为模板而数据化,也可以将实物的照片的表面数据化。
通信部11可以取得基于检测对象的三维形状数据而生成的合成图像。将注释数据与取得的合成图像建立关联。注释数据例如包含与检测对象的掩蔽图像、检测对象的边界框以及标签的至少1者对应的数据。掩蔽图像例如是在图像范围整体中将检测对象的轮廓内涂满的图像。边界框例如是围绕检测对象的矩形的框。标签例如是检测对象的名称。另外,合成图像例如可以基于二维的多个形状数据来生成。
通信部11可以取得检测对象的摄像图像。如后述那样,通信部11可以取得对向摄像图像赋予的注释数据进行了修正的注释数据。
如后述那样,通信部11可以将用于对检测对象进行摄像的摄像指南赋予便携终端或机器人。如后述那样,通信部11可以将对所取得的摄像图像使用第1识别模型求得的注释信息赋予终端装置。
存储部12例如包含RAM(Random Access Memory,随机存取存储器)以及ROM(ReadOnly Memory,只读存储器)等任意的存储器件。存储部12可以存储使控制部13发挥功能的多样的程序、以及控制部13所使用的多样的信息。
控制部13包含1个以上的处理器以及存储器。处理器可以包含使特定的程序读入来执行特定的功能的通用的处理器、以及对特定的处理特别强化的专用的处理器。专用的处理器可以包含面向特定用途IC(ASIC;Application Specific Integrated Circuit,特定用途集成电路)。处理器可以包含可编程逻辑器件(PLD;Programmable Logic Device)。PLD可以包含FPGA(Field-Programmable Gate Array)。控制部13可以是1个或多个处理器协作的SoC(System-on-a-Chip,***级芯片)、以及SiP(SystemIn a Package,***级封装件)的任一者。
如图2所示那样,控制部13可以作为以下说明的合成单元14、第1识别模型生成单元15、摄像指南生成单元16、赋予单元17以及第2识别模型生成单元18发挥功能。
合成单元14在经由通信部11取得检测对象的三维形状数据的情况下,可以基于该三维形状数据来生成检测对象的合成图像。合成单元14可以基于三维形状数据,例如在矩形等的图像显示区域生成包含单一或多个检测对象的像的二维的合成图像。合成单元14可以生成多个合成图像。合成单元14可以生成多样地配置图像显示区域中的检测对象的像的合成图像。合成单元14可以生成分别包含不同的检测对象的像的合成图像。合成单元14可以生成包含不同的检测对象的合成图像。合成单元14生成合成图像,以使其具有后述的第1识别模型的推论时输入的输入信息的形式即可。例如,若输入到第1识别模型的拍摄图像为二维,则合成图像也是二维。
合成单元14可以生成包含图像显示区域中的检测对象的多样的姿态的像的合成图像。合成单元14可以基于检测对象的三维形状数据来决定像的姿态。例如在检测对象是球状的情况下,合成单元14生成将从任意的一方向观察的像作为检测对象的姿态的合成图像。例如在检测对象是立方体状的情况下,合成单元14可以生成从如下方向观察的角像作为合成图像,其中该方向是:从任意的面起以任意的边为轴倾斜45°倾斜的方向起、以与该边垂直的边为轴10°、10°地旋转而得到的方向。合成单元14可以进一步生成从如下方向观察的角像作为合成图像,其中该方向是:从任意的面起以任意的边为轴倾斜50°倾斜的方向起、以与该边垂直的边为轴10°、10°地旋转而得到的方向。
合成单元14在对相同的检测对象生成多个合成图像的情况下,可以决定将一部分用作学习用数据,将另一部分用作评价用数据。例如,在前述那样生成立方体状的检测对象的合成图像的情况下,可以将从任意的面起以任意的边为轴倾斜45°倾斜的方向观察的合成图像决定为学习用数据。此外,也可以将从任意的面起以任意的边为轴倾斜50°倾斜的方向观察的合成图像决定为评价用数据。进而,可以将学习用数据决定为训练数据或验证数据。
合成单元14可以使用与检测对象对应的组织构造来生成合成图像。与检测对象对应的组织构造可以按金属等每个材料的种类预先登记,通过指定存储于存储部12的模板或该材料的图像来选择。材料的图像可以是与基于整体图像而确定的材料对应的组织构造的像,其中该整体图像通过摄像机等摄像单元的检测对象的摄像来生成。材料的图像可以预先存储于存储部12。组织构造的选择可以通过经由通信部11检测向鼠标等指向设备、键盘等输入设备的手动输入来进行。
合成单元14在从后述的赋予单元17取得合成图像的制作指令的情况下,基于三维形状数据来生成合成图像,以使得再现该拍摄图像的特征。换言之,合成单元14可以生成合成图像,以使得成为与该摄像图像相同的特征。所谓相同的特征,例如是与摄像图像中的检测对象相同姿态换言之相同外观、以及相同颜色换言之相同色相、彩度、明度。合成单元14可以将新生成的合成图像作为后述的用于部署用模型制作的数据存放到存储部12。
合成单元14可以基于三维形状数据来对合成图像进行注释。所谓注释,是指对合成图像赋予注释数据。即,合成单元14可以通过进行注释来对合成图像赋予注释数据。合成单元14通过注释而赋予的注释数据例如可以包含检测对象的掩蔽图像以及检测对象的边界框。合成单元14可以基于三维形状数据来生成多边形,通过算出从合成图像的拍摄方向观察的检测对象所占据的区域来生成掩蔽图像、以及围绕该多边形的边界框。合成单元14可以将被赋予注释数据的合成图像作为用于部署用模型制作的数据存放到存储部12。
第1识别模型生成单元15进行将合成图像作为示教数据来使原始识别模型学习的第1学习。原始识别模型是物体识别中所用的识别模型。原始识别模型例如是为了进行实例分割等物件检测而对每个物件的区域以矩形的框状的边界框的至少一方检测掩蔽图像以及区域的模型。原始识别模型例如可以是利用了ImageNet或MS COCO等大量的数据集、或工业产品等特定的产品群的数据集的学习完毕的模型。第1学习例如是原始识别模型的迁移学习以及Fine Tuning。第1识别模型生成单元15通过第1学习来生成第1识别模型。第1识别模型针对所输入的任意的图像来输出物体识别结果。物体识别结果可以是与检测对象的掩蔽图像、检测对象的边界框、标签、遮蔽评分以及边界框评分的至少1者对应的数据。
第1识别模型生成单元15可以每当利用了训练数据的学习中的1时期,则算出相对于验证数据的精度。第1识别模型生成单元15可以在一定次数没有相对于验证数据的精度上升的情况下,使学习率衰减。进而,第1识别模型生成单元15也可以在一定次数没有相对于验证数据的精度上升的情况下,结束学习。
第1识别模型生成单元15可以将相对于验证数据的精度最佳的时期的模型作为第1识别模型存放到存储部12。第1识别模型生成单元15可以使可信度阈值变化的同时搜索相对于验证数据的精度成为最佳的可信度阈值。第1识别模型生成单元15可以将搜索到的可信度阈值决定为第1识别模型的可信度阈值。第1识别模型生成单元15可以使用评价数据来评价第1识别模型。
摄像指南生成单元16可以基于所取得的三维形状数据来提供摄像指南。摄像指南可以表示与所取得的三维形状数据对应的检测对象的摄像方法。摄像指南例如可以包含检测对象的拍摄方向、换言之是通过摄像而生成的摄像图像中的检测对象的外观的指定。摄像指南例如可以包含摄像图像整体中的检测对象的像的大小、换言之是焦点距离以及检测对象与摄像机的距离等的指定。摄像指南生成单元16可以基于三维形状数据来决定检测对象的拍摄方向以及像的大小。
可以将摄像指南送往智能手机以及平板电脑那样带摄像装置的便携终端、或安装了摄像装置的机器人的控制装置。摄像装置可以通过基于摄像指南的控制来进行摄像,取得检测对象的摄像图像。
在将摄像指南送往便携终端的结构中,可以是通过文章以及附图所示的摄像方法。检测对象可以通过参照了摄像指南的用户的手动操作来摄像。在将摄像指南送往机器人的控制装置的结构中,可以是机器人使摄像装置的位置调整以使得成为所指定的拍摄方向以及大小的控制指令。检测对象可以在机器人基于摄像指南而调整的位置中摄像。
控制部13可以经由通信部11取得所摄像的摄像图像。控制部13在取得摄像图像时,能选择地提示与取得完毕的三维形状数据对应的检测对象的名称即可。控制部13可以将检测对象的名称提示给例如与识别模型生成装置10连接的显示器、或终端装置。控制部13可以通过来自与识别模型生成装置10连接的输入设备或终端装置的操作输入来取得与摄像图像对应的名称。控制部13可以将检测对象的名称作为标签与所取得的摄像图像建立关联。
赋予单元17通过对所取得的摄像图像的至少一部分使用第1识别模型进行注释,来对该摄像图像赋予注释数据。注释数据可以包含与检测对象的掩蔽图像以及该检测对象的边界框的至少1者对应的数据。赋予单元17可以将被赋予注释数据的摄像图像作为用于部署用模型制作的数据存放到存储部12。
赋予单元17可以通过对进行注释的摄像图像进行噪声除去来生成除去图像。赋予单元17在注释中,可以通过使第1识别模型识别除去图像来进行注释,对与除去图像对应的摄像图像赋予注释数据。因此,不是将所生成的除去图像在后述的第2识别模型生成单元18中使用,而是使用被赋予注释数据的摄像图像来进行第2学习。
赋予单元17可以对与识别模型生成装置10连接的显示器或经由通信部11而连接的终端装置提示被赋予注释数据的摄像图像。注释数据能通过对与识别模型生成装置10连接的输入设备或终端装置的操作输入来进行修正即可。赋予单元17可以经由通信部11取得修正过的注释数据。赋予单元17可以使用修正过的注释数据来更新存储于存储部12的注释数据,作为用于部署用模型制作的数据。
在摄像图像的注释中的可信度、即为了进行注释而使第1识别模型识别摄像图像时的可信度为阈值以下的情况下,赋予单元17可以对合成单元14赋予以该摄像图像的特征来制作合成图像的指令。
第2识别模型生成单元18进行使用摄像图像来使第1识别模型学习的第2学习。第2识别模型生成单元18通过第2学习来生成第2识别模型。第2识别模型针对所输入的任意的图像而输出物体识别结果。物体识别结果可以是与检测对象的掩蔽图像、检测对象的边界框、标签、遮蔽评分以及边界框评分的至少1者对应的数据。
第2识别模型生成单元18可以通过将被赋予注释数据的摄像图像用作示教数据进行第2学习,来生成第2识别模型。第2识别模型生成单元18可以使用作为用于部署用模型制作的数据而存储于存储部12的被赋予注释数据的合成图像来进行第2学习。
在第2识别模型生成单元18使用被赋予注释数据的摄像图像进行第2学习的结构中,可以将作为用于部署用模型制作的数据而存储于存储部12的被赋予注释数据的摄像图像的至少一部分决定为学习用数据。进而,第2识别模型生成单元18可以将学习用数据决定为训练数据或验证数据。第2识别模型生成单元18可以将被赋予注释数据的摄像图像的另一部决定为评价用数据。
第2识别模型生成单元18可以每当利用了训练数据的学习中的1时期,则算出相对于验证数据的精度。第2识别模型生成单元18可以在一定次数没有相对于验证数据的精度上升的情况下,使学习率衰减。进而,第2识别模型生成单元18可以在一定次数没有相对于验证数据的精度上升的情况下,结束学习。
第2识别模型生成单元18可以将相对于验证数据的精度最佳的时期的模型作为第2识别模型存放到存储部12。第2识别模型生成单元18可以使可信度阈值变化的同时搜索相对于验证数据的精度成为最佳的可信度阈值。第2识别模型生成单元18可以将搜索到的可信度阈值决定为第2识别模型的可信度阈值。第2识别模型生成单元18可以使用评价用数据来评价第2识别模型。
第2识别模型生成单元18可以通过对第1识别模型进行再学习作为第2学习,来生成第2识别模型,其中该再学习通过进行利用了未被赋予注释数据的摄像图像的领域自适应来进行。
在第2识别模型生成单元18使用未被赋予注释数据的摄像图像进行第2学习的结构中,可以将作为用于部署用模型制作的数据而存储于存储部12的被赋予注释数据的摄像图像的至少一部分决定为评价用数据。第2识别模型生成单元18可以使用评价用数据来评价第2识别模型。
第2识别模型生成单元18可以将评价后的第2识别模型作为部署用模型存储到存储部12。
接下来,使用图3、4的流程图来说明本实施方式中控制部13所执行的识别模型生成处理。例如在检测到对与识别模型生成装置10连接的输入设备等的生成处理开始的操作输入的情况下开始识别模型生成处理。
在步骤Si00中,控制部13判别是否取得检测对象的三维形状数据。在未取得的情况下,处理器回到步骤S100。在取得的情况下,处理器前进到步骤S101。
在步骤S101中,控制部13基于步骤S100中确认取得的三维形状数据来生成合成图像。在生成后,处理器前进到步骤S102。
在步骤S102中,控制部13基于步骤S100中确认取得的三维形状数据来生成注释数据。控制部13将所生成的注释数据赋予在步骤S101中生成的合成图像。在赋予后,处理器前进到步骤S103。
在步骤S103中,控制部13通过使用步骤S102中赋予了注释数据的合成图像使原始识别模型学习,来执行第1学习。控制部13将通过第1学习的执行而生成的第1识别模型存放到存储部12。在第1学习的执行后,处理器前进到步骤S104。
在步骤S104中,控制部13可以基于在步骤S100中确认取得的三维形状数据来生成摄像指南。控制部13可以生成与提供目的地相应的摄像指南。在生成后,处理器前进到步骤S105。
在步骤S105,控制部13将步骤S104中生成的摄像指南提供到外部设备。在提供后,处理器前进到步骤S106。
在步骤S106中,控制部13判别是否从外部设备取得摄像图像。在未取得摄像图像的情况下,处理器回到步骤S106。在取得摄像图像的情况下,处理器前进到步骤S107。
在步骤S107中,控制部13能选择地提示与存储于存储部12的三维形状数据对应的检测对象的名称。在提示后,处理器前进到步骤S108。
在步骤S108中,控制部13判别是否取得检测对象的名称。在取得检测对象的名称的情况下,处理器前进到步骤S109。在未取得检测对象的名称的情况下,处理器前进到步骤S110。
在步骤S109中,控制部13将步骤S108中确认取得的名称与在步骤S106中确认取得的摄像图像建立关联。控制部13将使检测对象的名称建立关联的摄像图像存放到存储部12。在建立关联后,处理器前进到步骤S110。
在步骤S110中,控制部13从步骤S106中确认取得的摄像图像除去噪声来生成除去图像。在噪声除去后,处理器前进到步骤S111。
在步骤S111中,控制部13使用在步骤S103中生成的第1识别模型来对在步骤S110中生成的除去图像进行注释。控制部13将通过注释而生成的注释数据赋予与除去图像对应的摄像图像。在赋予后,处理器前进到步骤S112。
在步骤S112中,控制部13提示被赋予注释数据的摄像图像。在提示后,处理器前进到步骤S113。
在步骤S113中,控制部13判别是否取得对被赋予注释数据的摄像图像的提示进行了修正的注释数据。在取得修正过的注释数据的情况下,理器前进到步骤S114。在未取得修正过的注释数据的情况下,处理器前进到步骤S115。
在步骤S114中,控制部13使用在步骤S113中确认取得的修正过的注释数据来更新存储于存储部12的注释数据。在更新后,处理器前进到步骤S115。
在步骤S115中,控制部13通过执行第2学习来生成第2识别模型。在控制部13使用第2学习中赋予了注释数据的摄像图像的结构中,生成与注释中的可信度为阈值以下的摄像图像相同的特征的合成图像。控制部13进一步使用被赋予注释数据的摄像图像以及新生成的合成图像来使第1识别模型学习。或者,在控制部13使用第2学习中未赋予注释数据的摄像图像的结构中,进行利用了该摄像图像的领域自适应。在第2学习的执行后,处理器前进到步骤S116。
在步骤S116中,控制部13使用被赋予注释数据的摄像图像来评价在步骤S116中生成的第2识别模型。在评价后,处理器前进到步骤S117。
在步骤S117中,控制部13将在步骤S116中评价过的第2识别模型作为部署用模型存放到存储部12。在存放后,识别模型生成处理结束。
以上那样的结构的本实施方式的识别模型生成装置10基于表示检测对象的多个合成图像来生成针对图像的输入而输出物体识别结果的第1识别模型,通过检测对象的多个摄像图像对第1识别模型的输入,将物体识别结果作为注释数据,赋予摄像图像,基于摄像图像以及所述注释数据来制作第2学习模型。根据这样的结构,识别模型生成装置10通过第1识别模型进行摄像图像的注释,因此,能减轻利用了合成图像以及摄像图像的用于检测对象的识别模型的学习的摄像图像的注释作业。
此外,识别模型生成装置10由于如上述那样制作第2学习模型,因此,能在实际摄像的图像中使检测对象的识别精度提升。此外,识别模型生成装置10由于能使用基于三维形状数据而生成的大量的合成图像进行学习,因此,即使摄像图像少数,也能生成识别精度高的模型。
在制造线中制造检测对象的实物的情况下,该实物通过三维形状数据来制造。因此,由于在准备检测对象的摄像图像以前生成检测对象的三维形状数据,因此,合成图像能比摄像图像更先入手。在以上那样的结构的本实施方式的识别模型生成方法中,制造检测对象的实物,直到能取得摄像图像为止,都能通过使用合成图像使原始识别模型学***行地推进制造线的构建和识别模型的生成,因此,能导入早期导入了识别模型生成的制造线。
此外,在本实施方式的识别模型生成装置10中,在第2学习中,使用被赋予注释数据的摄像图像来生成第2识别模型。根据这样的结构,识别模型生成装置10能缩短第2学习所花费的时间。
此外,在本实施方式的识别模型生成装置10中,在第2学习中,通过对第1识别模型进行利用了未被赋予注释数据的检测对象的摄像图像的领域自适应,来进行再学习,将被赋予注释数据的摄像图像用在第2识别模型的评价中。根据这样的结构,识别模型生成装置10由于不是用合成图像而是用摄像图像来评价学习的识别模型,因此,能提升评价结果的可靠性。
此外,本实施方式的识别模型生成装置10在摄像图像的注释中的可信度、即为了进行注释而使第1识别模型识别摄像图像时的可信度为阈值以下的情况下,生成检测对象的合成图像,以使得成为与摄像图像相同的特征,将该合成图像用在所述第2学习中。根据这样的结构,识别模型生成装置10由于能大量使用能看成与识别精度降低的外观同样的合成图像来进行生成,因此,能提升最终学习的第2识别模型的识别精度。此外,根据上述的结构,识别模型生成装置10能在合成图像的领域担保稳健性的同时,通过使用摄像图像来提升实际摄像的图像中的检测对象的识别精度。
此外,在本实施方式的识别模型生成装置10中,基于三维形状数据来提供摄像指南。根据这样的结构,识别模型生成装置10能基于摄像指南来摄像摄像图像。因此,识别模型生成装置10能不依赖于用户的经验以及知识,基于三维形状数据取得对学习的必要性高的姿态的检测对象摄像的摄像图像。其结果,识别模型生成装置10最终能生成识别精度高的第2识别模型。
此外,本实施方式的识别模型生成装置10在注释中,通过使第1识别模型识别进行了摄像图像的噪声除去而得到的除去图像来赋予注释数据,在第2学习中,使用摄像图像来使第1识别模型学习。根据这样的结构,识别模型生成装置10通过在注释中使摄像图像接近于噪声少的合成图像,能赋予精度高的注释数据。进而,识别模型生成装置10由于在第2学习中原样不变地使用未进行噪声的除去的摄像图像来进行学习,因此,能提升实际摄像的图像中的检测对象的识别精度。
此外,本实施方式的识别模型生成装置10使用组织构造来生成合成图像。通过这样的结构,识别模型生成装置10能使第1识别模型以及第2识别模型的识别精度进一步提升。
以上,说明了识别模型生成装置10的实施方式,但作为本公开的实施方式,除了用于实施装置的方法或程序以外,还能取作为记录程序的存储介质作为一例是光盘、光磁盘、CD-ROM、CD-R、CD-RW、磁带、硬盘或存储卡等)的实施方式。
此外,作为程序的安装形态,并不限定于由编译器编译的目标代码、由解释器执行的程序代码等应用程序,也可以是编入操作***的程序模块等形态。进而,程序也可以并非构成为仅在控制基板上的CPU实施全部处理。程序也可以构成为根据需要由基板中附加的扩展板或安装于扩展组件的其他处理组件实施其一部分或全部。
对于本公开所涉及的实施方式说明的图是示意性的。附图上的尺寸比率等不一定与现实一致。
对于本公开所涉及的实施方式,基于诸附图以及实施例进行了说明,但希望留意的是,只要是本领域技术人员,则能基于本公开来进行各种变形或改变。因此,希望留意的是,这些变形或改变也含在本公开的范围内。例如,各结构部等中所含的功能等能在逻辑上不矛盾地再配置,能将多个结构部等组合成1个结构部,或者进行分割。
关于本公开记载的结构要件的全部、及/或所公开的全部方法、或处理的全部步骤,能将它们的特征相互排他的组合除外,以任意的组合进行组合。此外,本公开记载的特征各自只要没有明示的否定,则能置换成为了相同的目的、同等的目的或类似的目的而发挥作用的代替的特征。因此,只要没有明示的否定,所公开的特征各自则只是总括的一系列相同或等同的特征的一例。
进而,本公开所涉及的实施方式也并不限制于上述的实施方式的任一具体的结构。本公开所涉及的实施方式能扩展成本公开记载的全部新的特征、或它们的组合、或所记载的全部新的方法、或处理的步骤、或它们的组合。
本公开中“第1”以及“第2”等记载是用于区别该结构的标识符。本公开中的以“第1”以及“第2”等记载区别的结构能交换该结构中的编号。例如,第1识别模型能与第2识别模型交换作为标识符的“第1”和“第2”。标识符的交换同时进行。在标识符的交换后也区别该结构。标识符可以删除。删除了标识符的结构以附图标记来区别。不能仅基于本公开中的“第1”以及“第2”等标识符的记载来用于该结构的顺序的解释、存在小编号的标识符的根据。
在本公开中,说明为合成单元14、第1识别模型生成单元15、摄像指南生成单元16、赋予单元17以及第2识别模型生成单元18通过控制部13而发挥功能,但并不限于此。合成单元14、第1识别模型生成单元15、摄像指南生成单元16、赋予单元17以及第2识别模型生成单元18也可以分别由1个或多个装置构成。在该情况下,本实施方式中公开的识别模型生成方法例如能在包含合成装置、第1识别模型生成装置、摄像指南生成装置、赋予注释数据的赋予装置以及第2识别模型生成装置的识别模型生成***中实施。
-符号说明-
10识别模型生成装置
11通信部
12存储部
13控制部
14合成单元
15第1识别模型生成单元
16摄像指南生成单元
17赋予单元
18第2识别模型生成单元。

Claims (15)

1.一种识别模型生成方法,
取得表示检测对象的多个合成图像,
基于所述多个合成图像来进行制作第1识别模型的第1学习,该第1识别模型针对图像的输入而输出物体识别结果,
取得所述检测对象的摄像图像,
对所述摄像图像,赋予通过多个所述摄像图像对所述第1识别模型的输入而输出的所述物体识别结果,来作为注释数据,
基于所述摄像图像以及所述注释数据来进行制作第2识别模型的第2学习。
2.根据权利要求1所述的识别模型生成方法,其中,
在所述第2学习中,对所述第1识别模型进行再学习。
3.根据权利要求1或2所述的识别模型生成方法,其中,
所述第2学习通过比所述第1学习时使用的多个合成图像的数量少的数量的多个拍摄图像来进行。
4.根据权利要求1~3中任一项所述的识别模型生成方法,其中,
所述合成图像基于所述检测对象的三维形状数据而生成。
5.根据权利要求1~4中任一项所述的识别模型生成方法,其中,
在所述第2学习中,使用被赋予所述注释数据的摄像图像来生成第2识别模型。
6.根据权利要求1~4中任一项所述的识别模型生成方法,其中,
在所述第2学习中,通过进行利用了未被赋予所述注释数据的所述检测对象的摄像图像的领域自适应来使所述第1识别模型再学习,
将被赋予所述注释数据的摄像图像用在所述第2识别模型的评价中。
7.根据权利要求1~6中任一项所述的识别模型生成方法,其中,
在所述摄像图像的注释中的可信度为阈值以下的情况下,生成所述检测对象的合成图像,以使得成为与所述摄像图像相同的特征,
将该合成图像用在所述第2学习中。
8.根据权利要求1~7中任一项所述的识别模型生成方法,其中,
基于用于摄像所述摄像图像的摄像指南来摄像所述摄像图像,其中,所述摄像指南基于所述三维形状数据而提供。
9.根据权利要求8所述的识别模型生成方法,
通过基于所述摄像指南控制安装了取得所述检测对象的摄像图像的摄像装置的机器人,来摄像所述摄像图像。
10.根据权利要求8所述的识别模型生成方法,其中,
所述摄像指南包含基于所述三维形状数据而决定的、所述检测对象的拍摄方向。
11.根据权利要求1~9中任一项所述的识别模型生成方法,其中,
在所述注释中,通过使所述第1识别模型识别进行了所述摄像图像的噪声除去而得到的除去图像,来赋予所述注释数据,
在所述第2学习中,使用所述摄像图像来使所述第1识别模型学习。
12.根据权利要求1~10中任一项所述的识别模型生成方法,其中,
使用与基于通过摄像单元对所述检测对象摄像而得到的图像而确定的所述检测对象的材料对应的组织构造、或从与任意的材料对应的模板选择的组织构造,来生成所述合成图像。
13.根据权利要求1~11中任一项所述的识别模型生成方法,其中,
所述注释数据是所取得的摄像图像中的所述检测对象的掩蔽图像以及围绕所述检测对象的边界框的至少一方。
14.一种识别模型生成装置,具备:
第1识别模型生成单元,其基于表示检测对象的多个合成图像来生成针对图像的输入而输出物体识别结果的第1识别模型;
赋予单元,其通过所述检测对象的多个摄像图像对所述第1识别模型的输入,来将所述物体识别结果作为注释数据,并对所述摄像图像赋予所述物体识别结果;和
第2识别模型生成单元,其基于所述摄像图像以及所述注释数据来生成第2识别模型。
15.一种识别模型生成装置,
将检测对象的摄像图像作为示教数据来使第1识别模型学习,从而生成第2识别模型,
所述第1识别模型是将基于检测对象的三维形状数据而生成的合成图像作为示教数据来使物体识别中所用的原始识别模型学习而生成的识别模型。
CN202280049628.3A 2021-07-15 2022-07-14 识别模型生成方法以及识别模型生成装置 Pending CN117651971A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2021117345 2021-07-15
JP2021-117345 2021-07-15
PCT/JP2022/027775 WO2023286847A1 (ja) 2021-07-15 2022-07-14 認識モデル生成方法及び認識モデル生成装置

Publications (1)

Publication Number Publication Date
CN117651971A true CN117651971A (zh) 2024-03-05

Family

ID=84920258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280049628.3A Pending CN117651971A (zh) 2021-07-15 2022-07-14 识别模型生成方法以及识别模型生成装置

Country Status (4)

Country Link
EP (1) EP4372679A1 (zh)
JP (1) JPWO2023286847A1 (zh)
CN (1) CN117651971A (zh)
WO (1) WO2023286847A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019021456A1 (ja) * 2017-07-28 2019-01-31 株式会社ソニー・インタラクティブエンタテインメント 学習装置、認識装置、学習方法、認識方法及びプログラム
JP6822929B2 (ja) * 2017-09-19 2021-01-27 株式会社東芝 情報処理装置、画像認識方法および画像認識プログラム
JP2019057250A (ja) * 2017-09-22 2019-04-11 Ntn株式会社 ワーク情報処理装置およびワークの認識方法
JP7017462B2 (ja) * 2018-04-26 2022-02-08 株式会社神戸製鋼所 学習画像生成装置及び学習画像生成方法、並びに画像認識装置及び画像認識方法

Also Published As

Publication number Publication date
JPWO2023286847A1 (zh) 2023-01-19
WO2023286847A1 (ja) 2023-01-19
EP4372679A1 (en) 2024-05-22

Similar Documents

Publication Publication Date Title
US11164001B2 (en) Method, apparatus, and system for automatically annotating a target object in images
US20180211404A1 (en) 3d marker model construction and real-time tracking using monocular camera
JP5631086B2 (ja) 情報処理装置及びその制御方法、プログラム
EP1612731B1 (en) Computer modeling of physical scenes
EP3502958B1 (en) Object recognition processing apparatus, object recognition processing method, and program
CN107680125A (zh) 在视觉***中自动选择三维对准算法的***和方法
CN107077739A (zh) 使用单目相机的三维标记模型构建和实时跟踪
CN105426901A (zh) 用于对摄像头视野中的已知物体进行分类的方法
JP6803794B2 (ja) 画像処理装置及び製造システム
JP2005310101A (ja) 視線誘導度算出システム、視線誘導度算出プログラムおよび記憶媒体、並びに視線誘導度算出方法
JPWO2011010693A1 (ja) マーカ生成装置、マーカ生成検出システム、マーカ生成検出装置、マーカ、マーカ生成方法及びそのプログラム
JP2012113438A (ja) 姿勢推定装置および姿勢推定プログラム
CN113436350A (zh) 一种三维模型生成方法及***
JP6425405B2 (ja) 情報処理装置、方法、プログラム
US9305235B1 (en) System and method for identifying and locating instances of a shape under large variations in linear degrees of freedom and/or stroke widths
CN117651971A (zh) 识别模型生成方法以及识别模型生成装置
KR101792701B1 (ko) 도면 검사 장치 및 방법
JPH0644282B2 (ja) 物体検索方式
JP6719168B1 (ja) 教師データとしてのデプス画像にラベルを付与するプログラム、装置及び方法
Dubenova et al. D-inloc++: Indoor localization in dynamic environments
CN114323013A (zh) 用于确定设备在场景中的位置信息的方法
CN115222956A (zh) 多图层导入的测量***及其测量方法
TWI703505B (zh) 資訊處理裝置、資訊處理方法以及電腦程式產品
TWI716926B (zh) 物件姿態辨識方法及系統與電腦程式產品
US20170301134A1 (en) Method for creating three-dimensional documentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination