JP7217727B2 - Controller, gripping system, method and program - Google Patents

Controller, gripping system, method and program Download PDF

Info

Publication number
JP7217727B2
JP7217727B2 JP2020124576A JP2020124576A JP7217727B2 JP 7217727 B2 JP7217727 B2 JP 7217727B2 JP 2020124576 A JP2020124576 A JP 2020124576A JP 2020124576 A JP2020124576 A JP 2020124576A JP 7217727 B2 JP7217727 B2 JP 7217727B2
Authority
JP
Japan
Prior art keywords
gripping
image
candidate
positions
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020124576A
Other languages
Japanese (ja)
Other versions
JP2022021147A (en
Inventor
モハッメド サヒリ
学嗣 浅谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Exa Wizards Inc
Original Assignee
Exa Wizards Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Exa Wizards Inc filed Critical Exa Wizards Inc
Priority to JP2020124576A priority Critical patent/JP7217727B2/en
Priority to PCT/JP2021/018020 priority patent/WO2022018936A1/en
Publication of JP2022021147A publication Critical patent/JP2022021147A/en
Application granted granted Critical
Publication of JP7217727B2 publication Critical patent/JP7217727B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/08Controls for manipulators by means of sensing devices, e.g. viewing or touching devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)
  • Image Analysis (AREA)

Description

本発明は、物体において把持装置に把持させる部分を決定する技術に関する。 The present invention relates to a technique for determining a portion of an object to be gripped by a gripping device.

物体において把持装置に把持させる部分を決定する技術が知られている。例えば、特許文献1に記載された技術は、物体を撮像した画像から物体の輪郭線を検出し、輪郭線を所定量外側にオフセットさせたオフセット線に基づいて、把持装置に把持させる把持位置を決定する。 Techniques for determining a portion of an object to be gripped by a gripping device are known. For example, the technique described in Patent Literature 1 detects the outline of an object from an image of the object, and determines a gripping position to be gripped by the gripping device based on the offset line obtained by offsetting the outline to the outside by a predetermined amount. decide.

特開2020-82217号公報(2020年6月4日公開)Japanese Patent Application Laid-Open No. 2020-82217 (published on June 4, 2020)

特許文献1に記載された技術は、物体において把持装置に把持させる把持位置をさらに精度よく決定するよう改善する余地がある。 The technique described in Patent Literature 1 has room for improvement so as to more accurately determine the gripping position of the object to be gripped by the gripping device.

本発明の一態様は、物体において把持装置に把持させる把持位置を精度よく決定する技術を実現することを目的とする。 An object of one aspect of the present invention is to implement a technique for accurately determining a gripping position of an object to be gripped by a gripping device.

上記の課題を解決するために、本発明の一態様に係る制御装置は、物体を被写体として含む画像を取得する取得部と、前記画像を入力とする推測モデルを用いて、前記物体の複数の把持候補位置を推測する推測部と、前記複数の把持候補位置を参照して、把持装置に前記物体を把持させる把持位置を決定する決定部と、を備えている。 In order to solve the above problems, a control device according to an aspect of the present invention uses an acquisition unit that acquires an image including an object as a subject, and an inference model that receives the image as an input to obtain a plurality of images of the object. An estimating unit for estimating a gripping candidate position, and a determining unit for determining a gripping position at which the gripping device is to grip the object by referring to the plurality of gripping candidate positions.

本発明の一態様に係る制御装置は、コンピュータによって実現してもよく、この場合には、コンピュータを前記制御装置が備える各部(ソフトウェア要素)として動作させることにより前記制御装置をコンピュータにて実現させるプログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。 The control device according to one aspect of the present invention may be realized by a computer. In this case, the control device is realized by the computer by operating the computer as each part (software element) included in the control device. A program and a computer-readable recording medium recording it are also included in the scope of the present invention.

本発明の一態様によれば、物体において把持装置に把持させる把持位置を精度よく決定する技術を実現することができる。 ADVANTAGE OF THE INVENTION According to one aspect of the present invention, it is possible to realize a technique for accurately determining a gripping position of an object to be gripped by a gripping device.

本発明の一実施形態に係る把持システムの概略を示すブロック図である。1 is a schematic block diagram of a grasping system according to an embodiment of the present invention; FIG. 本発明の一実施形態に係る把持システムを構成する各装置の機能的な構成を示すブロック図である。2 is a block diagram showing the functional configuration of each device that constitutes the grasping system according to one embodiment of the present invention; FIG. 本発明の一実施形態に係る把持システムが実行する処理の流れを示すフローチャートである。4 is a flow chart showing the flow of processing executed by the grasping system according to one embodiment of the present invention; 把持対象物を選択する処理の具体例を説明する図である。FIG. 10 is a diagram illustrating a specific example of processing for selecting a gripping target; 推測モデルに入力される画像の具体例を説明する図である。FIG. 4 is a diagram illustrating a specific example of an image input to an inference model; 推測モデルの構成例を模式的に示す図である。It is a figure which shows the structural example of an inference model typically. バウンディングボックスを説明する模式図である。FIG. 4 is a schematic diagram for explaining a bounding box; 本発明の一実施形態に係る把持システムが推測モデルを生成する処理の流れを示すフローチャートである。4 is a flow chart showing the flow of processing for generating an inference model by the gripping system according to one embodiment of the present invention. 教師データとして用いられる画像の一例を示す模式図である。FIG. 4 is a schematic diagram showing an example of an image used as teacher data; 把持位置を決定する処理の詳細な流れを示すフローチャートである。4 is a flowchart showing a detailed flow of processing for determining a gripping position; 把持位置を決定する処理の変形例を示すフローチャートである。9 is a flow chart showing a modified example of processing for determining a gripping position; バウンディングボックスと物体領域との関係性を説明する模式図である。FIG. 4 is a schematic diagram for explaining the relationship between bounding boxes and object regions; 把持位置を決定する処理の他の変形例を示すフローチャートである。FIG. 11 is a flowchart showing another modification of the grip position determination process; FIG. 把持候補位置を修正する処理の具体例を説明する図である。FIG. 10 is a diagram illustrating a specific example of processing for correcting gripping candidate positions; 本発明の一実施形態に係る把持システムを構成する各装置の物理的構成を例示したブロック図である。1 is a block diagram illustrating the physical configuration of each device that constitutes a grasping system according to an embodiment of the present invention; FIG.

〔実施形態〕
以下、本発明の一実施形態に係る把持システム1について説明する。
[Embodiment]
A grasping system 1 according to an embodiment of the present invention will be described below.

<把持システム1の概要>
図1は、本発明の一実施形態に係る把持システム1の概略を示すブロック図である。図1に示すように、把持システム1は、制御装置10と、学習装置20と、ロボットアーム30と、撮像装置40とを含む。把持システム1は、載置台wの上に載置された物体(obj1、またはobj2)を把持するようロボットアーム30を制御するシステムである。
<Overview of gripping system 1>
FIG. 1 is a block diagram showing an outline of a grasping system 1 according to one embodiment of the invention. As shown in FIG. 1, the grasping system 1 includes a control device 10, a learning device 20, a robot arm 30, and an imaging device 40. The gripping system 1 is a system that controls the robot arm 30 to grip an object (obj1 or obj2) placed on the mounting table w.

制御装置10は、学習装置20、ロボットアーム30、および撮像装置40と、それぞれ通信可能に接続される。ロボットアーム30は、本発明における把持装置の一例である。例えば、制御装置10と各装置とは、ネットワークを介して接続される。この場合、ネットワークは、有線LAN(Local Area Network)、無線LAN、インターネット、公衆回線網、モバイルデータ通信網、またはこれらの組み合わせである。 The control device 10 is communicably connected to the learning device 20, the robot arm 30, and the imaging device 40, respectively. Robot arm 30 is an example of a gripping device in the present invention. For example, the control device 10 and each device are connected via a network. In this case, the network is a wired LAN (Local Area Network), a wireless LAN, the Internet, a public line network, a mobile data communication network, or a combination thereof.

なお、図1に示す例では、制御装置10および学習装置20は、ネットワークを介して通信可能に接続された物理的に異なる装置であるが、これは本実施形態を限定するものではない。例えば、制御装置10および学習装置20は、物理的に1つのコンピュータによって一体に形成されていてもよい。また、図1に示す例では、制御装置10およびロボットアーム30は、ネットワークを介して通信可能に接続された物理的に異なる装置であるが、これは本実施形態を限定するものではない。例えば、制御装置10は、ロボットアーム30に内蔵されていてもよい。また、図1に示す例では、ロボットアーム30および撮像装置40は、物理的に連結された異なる装置であるが、これは本実施形態を限定するものではない。例えば、撮像装置40は、ロボットアーム30に内蔵されていてもよい。 In the example shown in FIG. 1, the control device 10 and the learning device 20 are physically different devices that are communicably connected via a network, but this does not limit the present embodiment. For example, the control device 10 and the learning device 20 may be physically integrated into one computer. Also, in the example shown in FIG. 1, the control device 10 and the robot arm 30 are physically different devices that are communicably connected via a network, but this does not limit the present embodiment. For example, the control device 10 may be built into the robot arm 30 . Also, in the example shown in FIG. 1, the robot arm 30 and the imaging device 40 are different physically coupled devices, but this is not a limitation of the present embodiment. For example, the imaging device 40 may be built into the robot arm 30 .

また、図1に示す例では、把持システム1が、ロボットアーム30および撮像装置40を1つずつ含んでいるが、これは本実施形態を限定するものではない。把持システム1は、複数のロボットアーム30および複数の撮像装置40を含んでいてもよい。また、図1に示す例では、1つのロボットアーム30に対して1つの撮像装置40が設けられているが、これは本実施形態を限定するものではない。把持システム1において、1つのロボットアーム30に対応して複数の撮像装置40が設けられていてもよいし、複数のロボットアーム30に対応して1つの撮像装置40が設けられていてもよい。 Also, in the example shown in FIG. 1, the grasping system 1 includes one robot arm 30 and one imaging device 40, but this does not limit the present embodiment. The gripping system 1 may include multiple robotic arms 30 and multiple imaging devices 40 . In the example shown in FIG. 1, one imaging device 40 is provided for one robot arm 30, but this does not limit the present embodiment. In the grasping system 1 , a plurality of imaging devices 40 may be provided corresponding to one robot arm 30 , or one imaging device 40 may be provided corresponding to a plurality of robot arms 30 .

把持システム1において、制御装置10は、物体を被写体として含む画像を取得し、取得した画像を入力とする推測モデルを用いて、当該物体の複数の把持候補位置を推測する。また、制御装置10は、推測した複数の把持候補位置を参照して、ロボットアーム30に物体を把持させる把持位置を決定する。 In the gripping system 1, the control device 10 acquires an image including an object as a subject, and estimates a plurality of gripping candidate positions of the object using an estimation model using the acquired image as an input. In addition, the control device 10 refers to the plurality of estimated gripping candidate positions to determine the gripping position at which the robot arm 30 is to grip the object.

(物体を被写体として含む画像)
物体を被写体として含む画像とは、物体が撮像されることにより生成された画像である。本実施形態において、当該画像は、少なくとも1つの物体を被写体として含む。例えば、撮像装置40が物体obj1を撮像した画像、物体obj2を撮像した画像、および物体obj1、obj2の両方を撮像した画像は、それぞれ、物体を被写体として含む画像の一例である。
(Image containing an object as a subject)
An image including an object as a subject is an image generated by capturing an image of the object. In this embodiment, the image includes at least one object as a subject. For example, an image captured by the imaging device 40 of the object obj1, an image of the object obj2, and an image of both the objects obj1 and obj2 are examples of images including objects as subjects.

(把持候補位置、および把持位置)
把持候補位置とは、ロボットアーム30に物体を把持させる把持位置の候補である。把持位置とは、現実空間に存在する物体において、当該物体をロボットアーム30に把持させる把持部分の現実空間における位置である。本実施形態では、把持位置および把持候補位置は、画像上の領域によって特定される。換言すると、当該画像上の領域は、把持部分の現実空間における位置を画像上において示す領域である。画像上の領域の詳細については後述する。
(Gripping candidate position and gripping position)
A gripping candidate position is a gripping position candidate at which the robot arm 30 is caused to grip an object. The gripping position is the position in the physical space of the gripped portion of the object that exists in the physical space that the robot arm 30 grips. In this embodiment, the grip position and grip candidate positions are identified by areas on the image. In other words, the area on the image indicates the position of the gripped portion in the physical space on the image. Details of the area on the image will be described later.

<把持システム1の効果>
把持システム1によれば、推測モデルを用いて推測した複数の把持候補位置を参照して把持位置を決定するので、物体において把持装置に把持させる把持位置を精度よく決定することができる。
<Effect of gripping system 1>
According to the gripping system 1, since the gripping position is determined by referring to a plurality of gripping candidate positions estimated using the estimation model, it is possible to accurately determine the gripping position of the object to be gripped by the gripping device.

<把持システム1の機能的な構成>
続いて、把持システム1を構成する各装置の機能的な構成について説明する。図2は、各装置の機能的な構成を示すブロック図である。
<Functional Configuration of Grasping System 1>
Next, the functional configuration of each device that configures the grasping system 1 will be described. FIG. 2 is a block diagram showing the functional configuration of each device.

(制御装置10の機能的な構成)
図2に示すように、制御装置10は、制御部11と、記憶部12とを含む。制御部11は、取得部111と、推測部112と、決定部113とを含む。
(Functional configuration of control device 10)
As shown in FIG. 2 , the control device 10 includes a control section 11 and a storage section 12 . Control unit 11 includes acquisition unit 111 , estimation unit 112 , and determination unit 113 .

取得部111は、物体を被写体として含む画像を取得する。 Acquisition unit 111 acquires an image including an object as a subject.

推測部112は、推測モデル221を用いて、物体の複数の把持候補位置を推測する。本実施形態では、推測モデル221は、学習装置20によってあらかじめ生成され、学習装置20に記憶されている。推測部112は、学習装置20に画像を送信することにより、当該画像を入力として推測モデル221から出力される情報を、学習装置20から受信する。推測モデル221の詳細については後述する。 The estimation unit 112 estimates a plurality of gripping candidate positions of the object using the estimation model 221 . In this embodiment, the inference model 221 is generated in advance by the learning device 20 and stored in the learning device 20 . By transmitting an image to the learning device 20 , the estimating unit 112 receives information output from the inference model 221 with the image as input, from the learning device 20 . Details of the estimation model 221 will be described later.

決定部113は、複数の把持候補位置を参照して、ロボットアーム30に把持させる把持位置を決定する。 The determining unit 113 determines a gripping position to be gripped by the robot arm 30 by referring to the plurality of gripping candidate positions.

記憶部12は、制御部11が参照する各種データを記憶する。 The storage unit 12 stores various data referred to by the control unit 11 .

(学習装置20の機能的な構成)
図2に示すように、学習装置20は、制御部21と、記憶部22とを含む。制御部21は、学習部211を含む。
(Functional configuration of learning device 20)
As shown in FIG. 2 , learning device 20 includes control unit 21 and storage unit 22 . Control unit 21 includes learning unit 211 .

学習部211は、物体を被写体として含む画像を入力とする推測モデル221であって、物体の複数の把持候補位置を推測するために用いる推測モデル221を、機械学習により生成する。推測モデル221の詳細については後述する。学習部211は、制御装置10から画像を受信すると、当該画像を推測モデル221に入力し、推測モデル221から出力される情報を、制御装置10に対して送信する。 The learning unit 211 generates, by machine learning, an estimation model 221 that receives an image including an object as a subject and is used for estimating a plurality of gripping candidate positions of the object. Details of the estimation model 221 will be described later. Upon receiving an image from the control device 10 , the learning unit 211 inputs the image to the estimation model 221 and transmits information output from the estimation model 221 to the control device 10 .

記憶部22は、制御部21が参照する各種データを記憶する。また、記憶部22は、学習部211が生成した推測モデル221を記憶する。 The storage unit 22 stores various data referred to by the control unit 21 . In addition, the storage unit 22 stores the estimation model 221 generated by the learning unit 211 .

(ロボットアーム30の構成)
ロボットアーム30は、制御装置10の制御に基づいて、物体を把持する把持動作を実行する。具体的には、図1および図2に示すように、ロボットアーム30は、複数の回転軸を有する多関節ロボットであり、台座部31と、ベース部32と、アーム部33と、ハンド部34とを含む。
(Configuration of robot arm 30)
The robot arm 30 performs a gripping operation for gripping an object under the control of the control device 10 . Specifically, as shown in FIGS. 1 and 2, the robot arm 30 is an articulated robot having a plurality of rotation axes, and includes a pedestal 31, a base 32, an arm 33, and a hand 34. including.

台座部31は、ロボットアーム30の設置面に設置される。設置面とは、例えば、床であるが、これに限られない。台座部31は、制御装置10の制御に基づいて設置面を移動可能であり得る。例えば、台座部31は、設置面に接する車輪を有していてもよい。 The pedestal part 31 is installed on the installation surface of the robot arm 30 . The installation surface is, for example, the floor, but is not limited to this. The pedestal portion 31 may be movable on the installation surface based on the control of the control device 10 . For example, the pedestal portion 31 may have wheels that come into contact with the installation surface.

ベース部32は、台座部31に対し、旋回可能に連結される。 The base portion 32 is rotatably connected to the pedestal portion 31 .

アーム部33は、複数のアームを含む。各アームの基端部は、ベース部32または他のアームの先端部に対して、定められた軸まわりに回転可能に連結される。また、アーム部33の先端にはハンド部34が、定められた軸まわりに回転可能に接続される。また、アーム部33の先端付近には、撮像装置40が連結される。 Arm portion 33 includes a plurality of arms. The proximal end of each arm is rotatably coupled to the base portion 32 or the distal end of the other arm about a defined axis. A hand portion 34 is connected to the tip of the arm portion 33 so as to be rotatable around a predetermined axis. An imaging device 40 is connected near the tip of the arm portion 33 .

ハンド部34は、一対の指部34a、34bを含む。ハンド部34は、制御部11の制御に基づいて、指部34a、34bを互いに離れるように開く動作と、互いに接近するよう閉じる動作とを行う。上述したロボットアーム30の把持動作は、ハンド部34の開閉により実現される。 The hand portion 34 includes a pair of finger portions 34a, 34b. Under the control of the control unit 11, the hand unit 34 performs an operation of opening the fingers 34a and 34b away from each other and an operation of closing the fingers 34a and 34b toward each other. The gripping operation of the robot arm 30 described above is realized by opening and closing the hand portion 34 .

ロボットアーム30は、制御部11の制御に基づいて、台座部31の移動、ベース部32の旋回、および各アームの回転の一部または全部を実行することにより、ハンド部34を所望の位置に移動する。 Under the control of the control unit 11 , the robot arm 30 moves the pedestal 31 , turns the base unit 32 , and partially or entirely rotates each arm, thereby moving the hand unit 34 to a desired position. Moving.

(撮像装置40の構成)
撮像装置40は、制御装置10の制御に基づいて、載置台wの上に載置された物体obj1およびobj2の一部または全部を撮像した画像を生成する。例えば、撮像装置40の撮像方向および画角は、載置台wの上を撮像範囲とするよう、制御装置10の制御に基づいて変更される。
(Configuration of imaging device 40)
Under the control of the control device 10, the imaging device 40 generates an image of part or all of the objects obj1 and obj2 placed on the mounting table w. For example, the imaging direction and angle of view of the imaging device 40 are changed based on the control of the control device 10 so that the top of the mounting table w is the imaging range.

<把持システム1の処理>
以上のように構成された把持システム1が実行する処理の流れについて、図3を参照して説明する。図3は、把持システム1が実行する処理の流れを示すフローチャートである。
<Processing of gripping system 1>
A flow of processing executed by the grasping system 1 configured as described above will be described with reference to FIG. FIG. 3 is a flow chart showing the flow of processing executed by the gripping system 1. As shown in FIG.

(ステップS101)
ステップS101において、制御装置10の取得部111は、物体を被写体として含む画像を取得する。例えば、取得部111は、撮像装置40から、載置台w上を撮像した画像を取得する。図4に示す画像G101は、当該ステップにおいて取得された画像の一例である。画像G101は、載置台w上に載置された物体obj1およびobj2を被写体として含んでいる。
(Step S101)
In step S101, the acquisition unit 111 of the control device 10 acquires an image including an object as a subject. For example, the acquisition unit 111 acquires an image of the mounting table w from the imaging device 40 . An image G101 shown in FIG. 4 is an example of the image acquired in this step. The image G101 includes objects obj1 and obj2 placed on the table w as subjects.

(ステップS102)
ステップS102において、制御部11は、取得部111によって取得された画像から、1または複数の物体を検出する。画像に被写体として含まれる物体を検出する手法には、公知の手法を適用可能である。図4に示す画像G102は、制御部11によって検出された物体を模式的に示している。この例では、制御部11は、画像G102において、物体obj1を含む領域R1、および物体obj2を含む領域R2を検出している。
(Step S102)
In step S<b>102 , the control unit 11 detects one or more objects from the image acquired by the acquisition unit 111 . A known method can be applied to a method of detecting an object included in an image as a subject. An image G102 shown in FIG. 4 schematically shows an object detected by the control unit 11. As shown in FIG. In this example, the control unit 11 detects a region R1 containing the object obj1 and a region R2 containing the object obj2 in the image G102.

(ステップS103)
ステップS103において、制御部11は、画像から検出した1または複数の物体のうち、把持対象の物体を選択する。把持対象の物体を選択する条件は、予め定められている。例えば、制御部11は、画像において占める面積に関する条件(例えば、最も大きい)を満たす物体を、把持対象として選択してもよい。また、例えば、制御部11は、画像における位置に関する条件(例えば、中央に最も近い、右下に最も近い、等)を満たす物体を、把持対象として選択してもよい。図4に示す画像G103は、把持対象として選択された物体を模式的に示している。この例では、画像における位置が右下に最も近いとの条件が適用されている。つまり、領域R1および領域R2のうち、領域R1が画像の右下に最も近い。そこで、制御部11は、領域R1に含まれる物体obj1を把持対象として選択している。ただし、把持対象の物体を選択する条件は、これらに限られない。
(Step S103)
In step S103, the control unit 11 selects an object to be gripped from one or more objects detected from the image. A condition for selecting an object to be gripped is determined in advance. For example, the control unit 11 may select an object that satisfies a condition regarding the area occupied in the image (for example, the largest) as a gripping target. Also, for example, the control unit 11 may select an object that satisfies a positional condition in the image (for example, closest to the center, closest to the lower right, etc.) as a gripping target. An image G103 shown in FIG. 4 schematically shows an object selected as a gripping target. In this example, the condition is applied that the position in the image is closest to the bottom right. That is, of the regions R1 and R2, the region R1 is closest to the bottom right of the image. Therefore, the control unit 11 selects the object obj1 included in the region R1 as a grip target. However, the conditions for selecting an object to be gripped are not limited to these.

(ステップS104)
ステップS104において、制御部11は、把持対象として選択した物体に応じて、当該物体の把持開始位置までの経路を生成する。具体的には、制御部11は、当該物体の現実空間における位置に応じて、把持開始位置を決定する。把持開始位置は、把持動作開始時の現実空間におけるロボットアーム30の位置である。また、制御部11は、ロボットアーム30の現実空間における現在位置から把持開始位置までの経路を生成する。把持開始位置までの経路を生成する手法には、公知の技術を適用可能である。
(Step S104)
In step S<b>104 , the control unit 11 generates a route to the gripping start position of the object selected as the gripping target. Specifically, the control unit 11 determines the gripping start position according to the position of the object in the physical space. The grip start position is the position of the robot arm 30 in the physical space when the grip operation is started. The control unit 11 also generates a path from the current position of the robot arm 30 in the physical space to the grip start position. A known technique can be applied to the method of generating the path to the grip start position.

(ステップS105)
ステップS105において、制御部11は、ロボットアーム30を、決定した経路にしたがって移動させるよう制御する。
(Step S105)
In step S105, the controller 11 controls the robot arm 30 to move along the determined route.

(ステップS106)
ステップS106において、取得部111は、推測モデル221に入力する画像を、撮像装置40から取得する。推測モデル221に入力する画像は、把持対象として選択した物体を含む画像である。具体的には、取得部111は、撮像範囲に選択した物体を含むように、撮像装置40の撮像方向および画角の一方または両方を制御する。例えば、撮影方向および画角は、撮像範囲に、選択した物体が含まれるとともに選択しなかった物体が含まれないよう制御されることが好ましい。ただし、これは、本実施形態を限定するものではない。例えば、選択した物体と選択しなかった物体とが近接している場合等では、撮像範囲に、選択した物体とともに選択しなかった物体が含まれていてもよい。また、制御部11は、当該撮像範囲を撮像するよう撮像装置40を制御する。また、取得部111は、撮像装置40から、当該撮像範囲を撮像した画像を取得する。
(Step S106)
In step S<b>106 , the acquisition unit 111 acquires an image to be input to the estimation model 221 from the imaging device 40 . The image input to the inference model 221 is an image including the object selected as the grip target. Specifically, the acquisition unit 111 controls one or both of the imaging direction and the angle of view of the imaging device 40 so that the selected object is included in the imaging range. For example, the imaging direction and angle of view are preferably controlled so that the imaging range includes the selected object and excludes the unselected object. However, this does not limit the present embodiment. For example, when the selected object and the unselected object are close to each other, the imaging range may include the unselected object together with the selected object. Also, the control unit 11 controls the imaging device 40 to capture an image of the imaging range. Further, the acquisition unit 111 acquires an image obtained by capturing the imaging range from the imaging device 40 .

図5は、当該ステップにおいて取得される、推測モデル221に入力する画像の一例を示す図である。図5に示す画像G104は、ステップS103で選択した物体obj1を被写体として含み、選択しなかった物体obj2を被写体として含まない。 FIG. 5 is a diagram showing an example of an image to be input to the inference model 221 acquired in this step. An image G104 shown in FIG. 5 includes the object obj1 selected in step S103 as a subject and does not include the unselected object obj2 as a subject.

(ステップS107)
ステップS107において、推測部112は、推測モデル221を用いて、画像に被写体として含まれる物体の複数の把持候補位置を推測する。具体的には、推測部112は、ステップS106で取得した画像を、学習装置20に送信する。学習装置20は、受信した画像を推測モデル221に入力し、推測モデル221から出力される情報を、制御装置10に送信する。制御装置10は、受信した情報が示す複数の把持候補位置を、推測した把持候補位置として取得する。
(Step S107)
In step S<b>107 , the estimation unit 112 uses the estimation model 221 to estimate a plurality of gripping candidate positions of an object included as a subject in the image. Specifically, the estimation unit 112 transmits the image acquired in step S106 to the learning device 20 . The learning device 20 inputs the received image to the inference model 221 and transmits information output from the inference model 221 to the control device 10 . The control device 10 acquires a plurality of gripping candidate positions indicated by the received information as estimated gripping candidate positions.

(推測モデル221)
ここで、推測モデル221の詳細について説明する。推測モデル221は、物体を被写体として含む画像を入力として、当該物体における複数の把持候補位置の各々を少なくとも示す情報を出力するよう、機械学習により生成された学習済みのモデルである。推測モデル221から出力される情報は、複数の把持候補位置の各々を特定する画像上の領域を示す情報を含む。
(Speculation model 221)
Details of the inference model 221 will now be described. The estimation model 221 is a trained model generated by machine learning so as to receive an image including an object as a subject and output information indicating at least each of a plurality of candidate gripping positions of the object. The information output from the inference model 221 includes information indicating regions on the image that specify each of the plurality of candidate gripping positions.

本実施形態では、推測モデル221は、CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)である。図6は、推測モデル221の構成例を模式的に示す図である。 In this embodiment, the inference model 221 is a CNN (Convolutional Neural Network). FIG. 6 is a diagram schematically showing a configuration example of the inference model 221. As shown in FIG.

図6に示すように、推測モデル221は、入力層L0と、畳み込み層L1~L5と、全結合層L6~L8とを含む。全結合層L8は出力層であり、3つのサブレイヤL8-1~L8-3を含む。 As shown in FIG. 6, the inference model 221 includes an input layer L0, convolutional layers L1-L5, and fully connected layers L6-L8. The fully connected layer L8 is the output layer and includes three sublayers L8-1 to L8-3.

物体obj1を被写体として含む画像Gは、入力層L0に入力される。画像Gに被写体として含まれる物体obj1は、把持対象として選択された物体obj1である。画像Gは、把持対象として選択されなかった物体obj2を含まない。 An image G including an object obj1 as a subject is input to the input layer L0. An object obj1 included as a subject in the image G is the object obj1 selected as a gripping target. Image G does not include object obj2 that has not been selected as a gripping target.

図6に示すように、サブレイヤL8-1から出力される出力情報g1は、把持候補位置CP1を示す情報と、把持成功確率p1を示す情報とを含む。サブレイヤL8-2から出力される出力情報g2は、把持候補位置CP2を示す情報と、把持成功確率p2を示す情報とを含む。サブレイヤL8-3から出力される出力情報g3は、把持候補位置CP3を示す情報と、把持成功確率p3を示す情報とを含む。把持候補位置CP1~CP3は、それぞれ、異なる位置を示す。ただし、これらを特に区別する必要がない場合には、単に出力情報g、把持候補位置CP、および把持成功確率pとも記載する。出力層L8におけるサブレイヤL8-1~L8-3の個数は、推測モデル221を用いて推測される把持候補位置CPの個数に対応している。図6に示す例では、当該個数が3であるが、これは、本実施形態を限定するものではない。サブレイヤの個数、すなわち、推測される把持候補位置CPの個数は、2であってもよいし、4以上であってもよい。 As shown in FIG. 6, the output information g1 output from the sublayer L8-1 includes information indicating the gripping candidate position CP1 and information indicating the gripping success probability p1. The output information g2 output from the sublayer L8-2 includes information indicating the gripping candidate position CP2 and information indicating the gripping success probability p2. The output information g3 output from the sublayer L8-3 includes information indicating the gripping candidate position CP3 and information indicating the gripping success probability p3. The candidate gripping positions CP1 to CP3 indicate different positions. However, when there is no particular need to distinguish them, the output information g, the gripping candidate position CP, and the gripping success probability p are also simply described. The number of sublayers L8-1 to L8-3 in the output layer L8 corresponds to the number of gripping candidate positions CP estimated using the estimation model 221. FIG. In the example shown in FIG. 6, the number is three, but this does not limit the present embodiment. The number of sublayers, that is, the number of estimated gripping candidate positions CP may be two, or may be four or more.

(把持候補位置、バウンディングボックス)
把持候補位置CPは、画像G上の領域によって特定される。本実施形態では、把持候補位置CPを特定する領域の形状は、矩形である。当該矩形領域を、以降、バウンディングボックスとも記載する。
(Grip candidate position, bounding box)
The candidate grip position CP is identified by an area on the image G. FIG. In this embodiment, the shape of the area for specifying the gripping candidate position CP is rectangular. The rectangular area is hereinafter also referred to as a bounding box.

ここで、推測モデル221から出力される出力情報gは、次式(1)によって表される。 Here, the output information g output from the estimation model 221 is represented by the following equation (1).

g={x,y,θ,h,w,p}・・・(1)
式(1)に含まれる6つのパラメータのうち5つx,y,θ,h,およびwは、バウンディングボックスを表している。当該6つのパラメータのうち他の1つpは、当該バウンディングボックスが示す把持候補位置CPにおける把持成功確率を示す。把持成功確率pとは、当該把持候補位置CPにおいてロボットアーム30に把持動作を実行させた場合に物体obj1の把持に成功する確率である。
g={x, y, θ, h, w, p} (1)
Five of the six parameters included in equation (1), x, y, θ, h, and w, represent bounding boxes. The other one p of the six parameters indicates the gripping success probability at the gripping candidate position CP indicated by the bounding box. The gripping success probability p is the probability of successfully gripping the object obj1 when the robot arm 30 is caused to perform a gripping operation at the gripping candidate position CP.

図7は、バウンディングボックスを説明する模式図である。図7に示すバウンディングボックスBBは、中心Cの座標(x,y)、傾きθ、短辺の長さh、および長辺の長さwによって特定される。ここでは、傾きθは、x軸に対する長辺の傾きを示している。ただし、傾きθは、画像Gに規定されるその他の軸を基準として表されたものであってもよい。 FIG. 7 is a schematic diagram explaining a bounding box. The bounding box BB shown in FIG. 7 is specified by the coordinates (x, y) of the center C, the inclination θ, the length h of the short side, and the length w of the long side. Here, the slope θ indicates the slope of the long side with respect to the x-axis. However, the tilt θ may be expressed with reference to another axis defined in the image G.

バウンディングボックスBBの2つの短辺は、把持動作の開始前に指部34aおよび34bを配置する位置を示す。具体的には、2つの短辺のうち辺b1は、指部34aを配置する範囲を示す。辺b2は、指部34bを配置する範囲を示す。 The two short sides of bounding box BB indicate where to place fingers 34a and 34b prior to initiation of a grasping motion. Specifically, the side b1 of the two short sides indicates the range in which the finger portion 34a is arranged. A side b2 indicates a range in which the finger portion 34b is arranged.

バウンディングボックスBBの長辺の長さwは、上述した配置位置に配置された指部34aおよび34b間の距離を表している。つまり、バウンディングボックスBBは、長辺が長いほど、把持動作の開始前にハンド部34を大きく開く必要があることを表す。 The length w of the long side of the bounding box BB represents the distance between the fingers 34a and 34b arranged at the arrangement positions described above. That is, the longer the long side of the bounding box BB is, the more the hand part 34 needs to be opened before starting the gripping operation.

(ステップS108)
ステップS108において、決定部113は、複数の把持候補位置CPを参照して、ロボットアーム30に物体を把持させる把持位置を決定する。決定した把持位置は、上述したバウンディングボックスBBで表される。当該ステップの詳細については後述する。
(Step S108)
In step S108, the determining unit 113 refers to the plurality of candidate gripping positions CP to determine gripping positions at which the robot arm 30 is caused to grip the object. The determined grip position is represented by the bounding box BB described above. The details of this step will be described later.

(ステップS109)
ステップS109において、制御部11は、決定した把持位置において物体を把持するようロボットアーム30を制御する。具体的には、制御部11は、決定した把持位置にハンド部34を配置し、ロボットアーム30に把持動作を実行させる。
(Step S109)
In step S109, the control unit 11 controls the robot arm 30 to grip the object at the determined gripping position. Specifically, the control unit 11 arranges the hand unit 34 at the determined gripping position, and causes the robot arm 30 to perform the gripping operation.

例えば、図7に示すバウンディングボックスBBが、決定した把持位置を表しているとする。この場合、制御部11は、バウンディングボックスBBの2つの短辺に対応する現実空間の配置位置を算出する。また、制御部11は、バウンディングボックスBBの長辺の長さwに対応する現実空間の距離を算出する。次に、制御部11は、指部34aおよび34bを、算出した距離だけ開くとともに算出した配置位置に配置するよう制御する。その後、制御部11は、ロボットアーム30を制御して把持動作を実行させる。具体的には、制御部11は、指部34aおよび34bを閉じるようハンド部34を制御することにより、ロボットアーム30に物体を把持させる。 For example, assume that the bounding box BB shown in FIG. 7 represents the determined gripping position. In this case, the control unit 11 calculates the arrangement positions in the physical space corresponding to the two short sides of the bounding box BB. The control unit 11 also calculates the distance in the physical space corresponding to the length w of the long side of the bounding box BB. Next, the control unit 11 controls to open the finger portions 34a and 34b by the calculated distance and arrange them at the calculated arrangement position. After that, the control unit 11 controls the robot arm 30 to perform the gripping operation. Specifically, the control unit 11 causes the robot arm 30 to grip the object by controlling the hand unit 34 to close the fingers 34a and 34b.

<推測モデル221の生成処理>
次に、ステップS107で用いる推測モデル221を生成する生成処理について説明する。図8は、推測モデル221を生成する処理の詳細な流れを示すフローチャートである。
<Generation processing of inference model 221>
Next, generation processing for generating the inference model 221 used in step S107 will be described. FIG. 8 is a flowchart showing a detailed flow of processing for generating the inference model 221. As shown in FIG.

(ステップS201)
ステップS201において、学習装置20の学習部211は、教師データとして用いる1または複数の画像を取得する。各画像は、物体を被写体として含む。また、各画像には、複数の把持候補位置CPおよびその把持成功確率pをそれぞれ示す情報が関連付けられている。
(Step S201)
In step S201, the learning unit 211 of the learning device 20 acquires one or more images to be used as teacher data. Each image contains an object as a subject. In addition, each image is associated with information indicating a plurality of candidate gripping positions CP and their gripping success probabilities p.

また、学習部211は、取得した各画像に事前処理を施してから、教師データとして用いる。また、学習部211は、取得した各画像にデータオーギュメンテーション処理を施すことにより、教師データとして用いる画像の数を増加させる。 Also, the learning unit 211 performs preprocessing on each acquired image before using it as teacher data. In addition, the learning unit 211 increases the number of images used as teacher data by performing data augmentation processing on each acquired image.

(事前処理)
例えば、取得された各画像がRGB形式であるとする。この場合、学習部211は、(i)各画像に対して、グレースケール形式に変換する事前処理を行ってもよい。また、学習部211は、(ii)各画像に対して、エッジを検出する事前処理を行ってもよい。また、学習部211は、各画像に対して、(i)、(ii)を組み合わせた事前処理を行ってもよい。なお、学習部211は、事前処理を行うことなく、(iii)元のRGB形式の各画像を教師データとして用いてもよい。
(pretreatment)
For example, assume that each captured image is in RGB format. In this case, the learning unit 211 may (i) perform preprocessing for converting each image into a grayscale format. Also, the learning unit 211 may (ii) perform pre-processing for edge detection on each image. Further, the learning unit 211 may perform preprocessing combining (i) and (ii) on each image. Note that the learning unit 211 may (iii) use each image in the original RGB format as teacher data without performing preprocessing.

一例として、学習部211は、RGB形式からGGG形式に変換した各画像を教師データとして用いてもよい。ここで、GGG形式とは、3つのチャンネル(G、G、およびG)の各々にグレースケール画像を格納した形式である。各チャンネルが表すグレースケール画像は、同一のRGB形式の画像から生成された、互いに異なるグレースケール画像である。例えば、あるチャンネルが示すグレースケール画像は、他のチャンネルが示すグレースケール画像の明度を変更したものであってもよい。また、各チャンネルが示すグレースケール画像は、元のRGB形式の画像に対して、互いに異なるグレースケール変換処理を施すことにより生成されたものであってもよい。 As an example, the learning unit 211 may use each image converted from RGB format to GGG format as teacher data. Here, the GGG format is a format in which a grayscale image is stored in each of three channels (G, G, and G). The grayscale images represented by the channels are different grayscale images generated from the same RGB format image. For example, a grayscale image indicated by one channel may be obtained by changing the brightness of a grayscale image indicated by another channel. Also, the grayscale image indicated by each channel may be generated by performing different grayscale conversion processes on the original RGB format image.

また、他の例として、学習部211は、RGB形式からCCG形式に変換した各画像を教師データとして用いてもよい。ここで、CCG形式とは、3つのチャンネルのうち2つのチャンネルの各々にエッジ画像を格納し、他の1つのチャンネル(G)にグレースケール画像を格納した形式である。例えば、2つのチャンネル(C、およびC)の各々が示すエッジ画像は、元のRGB形式の画像に対して、互いに異なるエッジ検出処理を施すことにより生成されたものであってもよい。 As another example, the learning unit 211 may use each image converted from RGB format to CCG format as teacher data. Here, the CCG format is a format in which an edge image is stored in each of two channels out of three channels, and a grayscale image is stored in the other one channel (G). For example, the edge images indicated by each of the two channels (C and C) may be generated by performing different edge detection processes on the original RGB format image.

(データオーギュメンテーション)
図9は、教師データとして用いられる画像の一例を示す模式図である。図9において、画像G2~G8は、画像G1に対してデータオーギュメンテーション処理を施して生成した画像である。
(data augmentation)
FIG. 9 is a schematic diagram showing an example of an image used as teacher data. In FIG. 9, images G2 to G8 are images generated by performing data augmentation processing on image G1.

ここで、画像G1は、学習部211が取得した画像(例えば、RGB形式)、または、上述した事前処理を施した画像(例えば、GGG形式、またはGGG形式)である。画像G1は、物体obj2を被写体として含む。また、画像G1には、5つの把持候補位置CPを示すバウンディングボックスBB11~BB15が関連付けられている。また、図示はしていないが、各バウンディングボックスBB1~BB15には、それぞれ、把持成功確率pが関連付けられている。 Here, the image G1 is an image acquired by the learning unit 211 (for example, RGB format) or an image subjected to the preprocessing described above (for example, GGG format or GGG format). An image G1 includes an object obj2 as a subject. The image G1 is also associated with bounding boxes BB11 to BB15 indicating five candidate gripping positions CP. Although not shown, each bounding box BB1 to BB15 is associated with a gripping success probability p.

具体的には、画像G2は、画像G1を水平反転させることにより生成された画像である。画像G2に対して関連付けられるバウンディングボックスBB21~BB25は、画像G1上に示されたバウンディングボックスBB11~BB15を同様に水平反転させることにより生成される。 Specifically, the image G2 is an image generated by horizontally reversing the image G1. Bounding boxes BB21-BB25 associated with image G2 are generated by similarly horizontally reversing bounding boxes BB11-BB15 shown on image G1.

また、画像G3は、画像G1を垂直反転させることにより生成された画像である。画像G3に対して関連付けられるバウンディングボックスBB31~BB35は、画像G1上に示されたバウンディングボックスBB11~BB15を同様に垂直反転させることにより生成される。 An image G3 is an image generated by vertically inverting the image G1. The bounding boxes BB31-BB35 associated with image G3 are generated by similarly vertically flipping the bounding boxes BB11-BB15 shown on image G1.

また、画像G4は、画像G1を回転させることにより生成された画像である。画像G4に対して関連付けられるバウンディングボックスBB41~BB45は、画像G1上に示されたバウンディングボックスBB11~BB15を同様に回転させることにより生成される。 An image G4 is an image generated by rotating the image G1. The bounding boxes BB41-BB45 associated with image G4 are generated by similarly rotating the bounding boxes BB11-BB15 shown on image G1.

また、画像G5は、画像G1を移動させることにより生成された画像である。画像G5に対して関連付けられるバウンディングボックスBB51~BB55は、画像G1上に示されたバウンディングボックスBB11~BB15を同様に移動させることにより生成される。 An image G5 is an image generated by moving the image G1. Bounding boxes BB51-BB55 associated with image G5 are generated by similarly moving bounding boxes BB11-BB15 shown on image G1.

また、画像G6は、画像G1を拡大することにより生成された画像である。画像G6に対して関連付けられるバウンディングボックスBB61~BB65は、画像G1上に示されたバウンディングボックスBB11~BB15を同様に拡大することにより生成される。 An image G6 is an image generated by enlarging the image G1. The bounding boxes BB61-BB65 associated with image G6 are generated by similarly enlarging the bounding boxes BB11-BB15 shown on image G1.

また、画像G7は、画像G1を縮小することにより生成された画像である。画像G7に対して関連付けられるバウンディングボックスBB71~BB75は、画像G1上に示されたバウンディングボックスBB11~BB15を同様に縮小することにより生成される。 An image G7 is an image generated by reducing the image G1. The bounding boxes BB71-BB75 associated with image G7 are generated by similarly reducing the bounding boxes BB11-BB15 shown on image G1.

また、画像G8は、画像G1から切り出すことにより生成された画像である。画像G8に対して関連付けられるバウンディングボックスBB81~BB85は、画像G1上に示されたバウンディングボックスBB11~BB15から同様に切り出すことにより生成される。 An image G8 is an image generated by cutting out from the image G1. Bounding boxes BB81 to BB85 associated with image G8 are generated by similarly cutting out bounding boxes BB11 to BB15 shown on image G1.

学習部211は、このように、取得した画像G1に対して事前処理およびデータオーギュメンテーション処理を施した画像G1~G8を、教師データとして用いる。 The learning unit 211 uses the images G1 to G8 obtained by subjecting the acquired image G1 to preprocessing and data augmentation processing in this way as teacher data.

(ステップS202)
図6のステップS202において、学習部211は、各画像について、関連付けられた複数の把持候補位置CPのうち所定数を正解として選択する。所定数は、推測モデル221から出力する把持候補位置CPの個数であり、ここでは、3である。また、所定数の把持候補位置CPを選択する手法は、ここでは、ランダムであるとするが、その他の手法により所定数の把持候補位置CPを選択してもよい。図9の例では、学習部211は、各画像Gi(i=1、2、・・・、8)について、バウンディングボックスBBi1~BBi5のうちランダムに3つを正解として選択する。
(Step S202)
In step S202 of FIG. 6, the learning unit 211 selects a predetermined number of gripping candidate positions CP associated with each image as correct answers. The predetermined number is the number of gripping candidate positions CP output from the estimation model 221, and is 3 here. Also, although the method of selecting the predetermined number of candidate gripping positions CP is assumed to be random here, the predetermined number of candidate gripping positions CP may be selected by other methods. In the example of FIG. 9, the learning unit 211 randomly selects three of the bounding boxes BBi1 to BBi5 as correct answers for each image Gi (i=1, 2, . . . , 8).

(ステップS203)
ステップS203において、学習部211は、ステップS202で選択した複数の把持候補位置CPを正解として、推測モデル221を学習させる。具体的には、学習部211は、画像G1~G8をそれぞれ入力として、正解として選択した3つのバウンディングボックスBBおよびその把持成功確率pを出力するよう、推測モデル221を学習させる。
(Step S203)
In step S<b>203 , the learning unit 211 learns the inference model 221 with the plurality of candidate gripping positions CP selected in step S<b>202 as correct answers. Specifically, the learning unit 211 receives the images G1 to G8 as input, and trains the inference model 221 so as to output three bounding boxes BB selected as correct answers and their grasping success probabilities p.

(ステップS204)
ステップS204において、学習部211は、学習を終了するか否かを判断する。ステップS204でNoと判断された場合、学習部211は、ステップS202からの処理を繰り返す。例えば、ステップS204では、繰り返し回数が閾値を超えたか否かに基づいて、学習を終了するか否かを判断してもよい。また、ステップS204では、入力装置を介して入力されるユーザの指示に基づいて、学習を終了するか否かを判断してもよい。
(Step S204)
In step S204, the learning unit 211 determines whether or not to end learning. If it is determined No in step S204, the learning unit 211 repeats the process from step S202. For example, in step S204, it may be determined whether or not to end learning based on whether or not the number of repetitions exceeds a threshold. Further, in step S204, it may be determined whether or not to end the learning based on the user's instruction input via the input device.

ここで、繰り返し処理においてステップS202でランダムに選択される所定数の把持候補位置CPは、前回のステップS202で選択された所定数の把持候補位置CPとは異なる可能性が高い。したがって、学習装置20は、同一の画像について正解となる把持候補位置CPの組み合わせを変えながら学習を繰り返すことができ、推測モデル221の推測精度を向上させることができる。 Here, the predetermined number of candidate gripping positions CP randomly selected in step S202 in the repeated process is highly likely to be different from the predetermined number of candidate gripping positions CP selected in the previous step S202. Therefore, the learning device 20 can repeat learning while changing the combination of the gripping candidate positions CP that are correct for the same image, and can improve the estimation accuracy of the estimation model 221 .

<把持位置の決定処理>
次に、ステップS108における把持位置の決定処理の詳細について説明する。図10は、把持位置の決定処理の詳細な流れを示すフローチャートである。
<Processing for Determining Gripping Position>
Next, the details of the process of determining the gripping position in step S108 will be described. FIG. 10 is a flowchart showing a detailed flow of gripping position determination processing.

(ステップS301)
ステップS301において、推測部112は、複数の把持候補位置CPの各々に関する把持成功確率pを取得する。具体的には、推測部112は、ステップS107において推測モデル221から出力された出力情報gを参照し、当該出力情報gに含まれる把持成功確率pを取得すればよい。
(Step S301)
In step S301, the estimation unit 112 acquires a gripping success probability p for each of the gripping candidate positions CP. Specifically, the estimation unit 112 may refer to the output information g output from the estimation model 221 in step S107 and acquire the gripping success probability p included in the output information g.

(ステップS302)
ステップS302において、決定部113は、把持成功確率pを参照して把持位置を決定する。例えば、決定部113は、把持成功確率pが最大の把持候補位置CPを、把持位置として決定する。
(Step S302)
In step S302, the determining unit 113 refers to the gripping success probability p to determine the gripping position. For example, the determination unit 113 determines the gripping candidate position CP with the highest gripping success probability p as the gripping position.

以上のように、本実施形態に係る把持システム1は、推測モデル221を用いて複数の把持候補位置CPおよび各位置の把持成功確率pを推測し、そのうち、把持成功確率pが最大の把持候補位置CPを把持位置として決定する。これにより、把持システム1は、物体においてロボットアーム30に把持させる把持位置として、把持に成功する可能性がより高い把持位置を決定することができる。 As described above, the gripping system 1 according to the present embodiment uses the estimation model 221 to estimate a plurality of gripping candidate positions CP and the gripping success probability p of each position. Position CP is determined as the gripping position. As a result, the gripping system 1 can determine a gripping position with a higher possibility of successful gripping as the gripping position to be gripped by the robot arm 30 on the object.

〔変形例2〕
上述した実施形態に係る把持システム1は、決定部113による把持位置の決定処理を、以下の通り変形することが可能である。
[Modification 2]
In the gripping system 1 according to the above-described embodiment, the gripping position determination processing by the determination unit 113 can be modified as follows.

決定部113は、複数の把持候補位置CPの各々について、当該把持候補位置CPを特定する画像上の領域(バウンディングボックスBB)と、画像上で物体を示す物体領域との関係性に応じた評価値を算出する。また、決定部113は、算出した評価値を参照して把持位置を決定する。ここで、バウンディングボックスBBと物体領域との関係性とは、(i)バウンディングボックスBBの面積と、当該バウンディングボックスBBにおいて物体領域が占める部分領域の面積との関係、(ii)バウンディングボックスBBが沿う第1方向と、上述した部分領域が沿う第2方向との関係、および(iii)バウンディングボックスBBの中心と、上述した部分領域の中心との関係、のうち一部または全部を含む。これらの関係性の詳細については後述する。 For each of a plurality of candidate gripping positions CP, the determining unit 113 performs evaluation according to the relationship between the area (bounding box BB) on the image that identifies the candidate gripping position CP and the object area that indicates the object on the image. Calculate the value. Further, the determination unit 113 determines the grip position with reference to the calculated evaluation value. Here, the relationship between the bounding box BB and the object area includes (i) the relationship between the area of the bounding box BB and the area of the partial area occupied by the object area in the bounding box BB, and (ii) the bounding box BB is and (iii) the relationship between the center of the bounding box BB and the center of the partial area. Details of these relationships will be described later.

本変形例に係る把持システム1では、図2のステップS108における把持位置の決定処理が、以下のように変形される。図11は、本変形例における把持位置の決定処理の詳細な流れを示すフローチャートである。制御装置10の決定部113は、ステップS107で得られた複数の把持候補位置CPの各々について、ステップS401~S405の処理を実行する。 In the gripping system 1 according to this modified example, the gripping position determination process in step S108 of FIG. 2 is modified as follows. FIG. 11 is a flowchart showing the detailed flow of the gripping position determination process in this modified example. The determination unit 113 of the control device 10 executes the processes of steps S401 to S405 for each of the plurality of candidate gripping positions CP obtained in step S107.

(ステップS401)
ステップS401において、決定部113は、当該把持候補位置CPを特定するバウンディングボックスBBと上述した部分領域との関係を表す情報を求める。具体的には、決定部113は、当該関係を表す情報として、面積比α2を算出する。
(Step S401)
In step S401, the determination unit 113 obtains information representing the relationship between the bounding box BB that specifies the gripping candidate position CP and the above partial area. Specifically, the determination unit 113 calculates the area ratio α2 as information representing the relationship.

図12は、バウンディングボックスBBと物体領域AAとの関係性を説明するための模式図である。図12において、面積比α2は、バウンディングボックスBBの面積に対する部分領域Aの面積の割合である。部分領域Aは、物体領域AA(太線で囲まれた領域)のうち、バウンディングボックスBBに含まれる部分である。決定部113は、バウンディングボックスBBにおける部分領域Aを検出し、面積比α2を算出する。面積比α2は、次式(2)によって算出される。 FIG. 12 is a schematic diagram for explaining the relationship between the bounding box BB and the object area AA. In FIG. 12, the area ratio α2 is the ratio of the area of the partial region A to the area of the bounding box BB. A partial area A is a portion of the object area AA (the area surrounded by a thick line) that is included in the bounding box BB. Determination unit 113 detects partial region A in bounding box BB and calculates area ratio α2. The area ratio α2 is calculated by the following equation (2).

α2=[部分領域Aの面積]/[w*h]・・・(2)
式(2)において、「/」は除算を表し、「*」は乗算を表す。w、hは、バウンディングボックスBBの長辺および短辺の長さである。式(2)により算出される面積比α2がとりうる範囲は、0以上1以下である。
α2=[area of partial region A]/[w*h] (2)
In equation (2), "/" represents division and "*" represents multiplication. w and h are the lengths of the long and short sides of the bounding box BB. The possible range of the area ratio α2 calculated by Equation (2) is 0 or more and 1 or less.

ここで、上述した面積比α2は、当該バウンディングボックスBBが特定する把持候補位置CPを評価する指標となる。具体的には、面積比α2は、把持動作速度に影響を与える。 Here, the area ratio α2 described above serves as an index for evaluating the gripping candidate position CP specified by the bounding box BB. Specifically, the area ratio α2 affects the gripping motion speed.

例えば、面積比α2が小さいほど、把持動作速度が遅くなると考えられる。ここで、把持動作速度とは、指部34a、34bが閉じる動作を開始してから物体表面に接触するまでの時間の長さである。面積比α2が小さいほど、バウンディングボックスBBの少なくとも一方の短辺から部分領域Aの境界線までの距離が長くなり、指部34a、34bの少なくとも一方が物体表面に接触するまでの時間が長くなる。 For example, it is considered that the smaller the area ratio α2, the slower the gripping speed. Here, the gripping motion speed is the length of time from when the fingers 34a and 34b start to close to when they come into contact with the surface of the object. The smaller the area ratio α2, the longer the distance from at least one short side of the bounding box BB to the boundary line of the partial area A, and the longer the time until at least one of the fingers 34a and 34b contacts the object surface. .

したがって、面積比α2が大きいほど、把持動作速度が向上するため、把持候補位置CPの評価が高くなる。 Therefore, the larger the area ratio α2, the higher the gripping motion speed, and the higher the evaluation of the gripping candidate position CP.

(ステップS402)
ステップS402において、決定部113は、当該把持候補位置CPを特定するバウンディングボックスBBについて、バウンディングボックスBBが沿う第1方向と部分領域Aが沿う第2方向との関係を表す情報を求める。具体的には、決定部113は、当該関係を表す情報として、把持角度α3を算出する。図12に示す例では、把持角度α3は、第1方向d1と第2方向d2とがなす角度である。把持角度α3は、次式(3)により算出される。
(Step S402)
In step S402, the determining unit 113 obtains information representing the relationship between the first direction along which the bounding box BB and the second direction along which the partial region A is along, for the bounding box BB that specifies the gripping candidate position CP. Specifically, the determination unit 113 calculates the gripping angle α3 as information representing the relationship. In the example shown in FIG. 12, the gripping angle α3 is the angle formed by the first direction d1 and the second direction d2. The gripping angle α3 is calculated by the following equation (3).

Figure 0007217727000001
ここで、「・」は内積を表す。また、「|d1|」は、第1方向d1(ベクトルd1)の大きさを表し、「|d2|」は、第2方向d2(ベクトルd2)の大きさを表す。
Figure 0007217727000001
Here, "·" represents an inner product. "|d1|" represents the magnitude of the first direction d1 (vector d1), and "|d2|" represents the magnitude of the second direction d2 (vector d2).

把持角度α3を算出するため、決定部113は、第1方向d1として、バウンディングボックスBBの長辺が沿う方向を検出する。第1方向d1は、ロボットアーム30が把持動作を行う方向(ここでは、ハンド部34の指部34a、34bの開閉方向)に相当する。また、決定部113は、第2方向d2として、部分領域Aが沿う方向を検出する。第2方向d2は、把持候補位置CPにおける物体の軸方向に相当する。第2方向d2を検出する手法としては、画像を用いて物体の軸方向を検出する公知の技術を採用可能である。なお、第1方向d1および第2方向d2は、上述したα3が0以上π/2以下となるように検出されるものとする。 In order to calculate the gripping angle α3, the determination unit 113 detects the direction along the long side of the bounding box BB as the first direction d1. The first direction d1 corresponds to the direction in which the robot arm 30 performs a gripping operation (here, the opening and closing direction of the finger portions 34a and 34b of the hand portion 34). Further, the determination unit 113 detects the direction along which the partial area A extends as the second direction d2. The second direction d2 corresponds to the axial direction of the object at the gripping candidate position CP. As a method of detecting the second direction d2, a known technique of detecting the axial direction of an object using an image can be adopted. It should be noted that the first direction d1 and the second direction d2 are detected so that the aforementioned α3 is 0 or more and π/2 or less.

ここで、上述した把持角度α3は、当該バウンディングボックスBBが特定する把持候補位置CPを評価する指標となる。例えば、当該把持角度α3がπ/2に近いほど、ハンド部34の開閉方向と物体objの軸方向とが直交に近くなり、把持が容易になると考えられる。また、把持角度α3が0に近いほど、ハンド部34の開閉方向と物体objの軸方向とが並行に近くなり、把持が難しくなると考えられる。したがって、把持角度α3が大きいほど、把持候補位置CPの評価が高くなる。 Here, the gripping angle α3 described above serves as an index for evaluating the gripping candidate position CP specified by the bounding box BB. For example, the closer the gripping angle α3 is to π/2, the closer the opening/closing direction of the hand unit 34 is to the axial direction of the object obj, making gripping easier. Also, the closer the gripping angle α3 is to 0, the closer the opening/closing direction of the hand unit 34 is to the axial direction of the object obj, making gripping more difficult. Therefore, the larger the gripping angle α3, the higher the evaluation of the gripping candidate position CP.

(ステップS403)
ステップS403において、決定部113は、当該把持候補位置CPを特定するバウンディングボックスBBについて、当該バウンディングボックスBBの中心と部分領域Aの中心との関係を表す情報を求める。具体的には、決定部113は、これらの中心間の関係を表す情報として、中心距離α4を求める。図12に示す例では、中心距離α4は、バウンディングボックスBBの中心C1と部分領域Aの中心C2との距離である。中心距離α4は、次式(4)によって算出される。
(Step S403)
In step S403, the determination unit 113 obtains information representing the relationship between the center of the bounding box BB and the center of the partial area A for the bounding box BB that specifies the gripping candidate position CP. Specifically, determination unit 113 obtains center distance α4 as information representing the relationship between these centers. In the example shown in FIG. 12, the center distance α4 is the distance between the center C1 of the bounding box BB and the center C2 of the partial area A. In the example shown in FIG. The center distance α4 is calculated by the following equation (4).

Figure 0007217727000002
ここで、図12に示すように、x1,y1は中心C1の座標であり、x2,y2は中心C2の座標である。式(4)によって算出される中心距離α4がとりうる範囲は、0以上である。
Figure 0007217727000002
Here, as shown in FIG. 12, x1, y1 are the coordinates of the center C1, and x2, y2 are the coordinates of the center C2. The possible range of the center distance α4 calculated by Equation (4) is 0 or more.

決定部113は、中心C1の座標(x1,y1)として、当該バウンディングボックスBBを示す6つのパラメータに含まれるパラメータx,yの値を取得する。また、決定部113は、中心C2の座標(x2,y2)として、物体objの重心に相当する画像G上の座標を検出する。重心に相当する座標を検出する手法としては、画像を用いて物体の重心を検出する公知の技術を採用可能である。 The determination unit 113 acquires the values of the parameters x and y included in the six parameters indicating the bounding box BB as the coordinates (x1, y1) of the center C1. The determining unit 113 also detects the coordinates on the image G corresponding to the center of gravity of the object obj as the coordinates (x2, y2) of the center C2. As a method of detecting the coordinates corresponding to the center of gravity, a known technique of detecting the center of gravity of an object using an image can be adopted.

ここで、中心距離α4は、当該バウンディングボックスBBが特定する把持候補位置CPを評価する指標となる。例えば、中心距離α4が0に近いほど、指部34a、34bを開いた状態のハンド部34の中心付近に物体が存在する可能性が高い。このため、把持が容易になると考えられる。したがって、中心距離α4が小さいほど、把持候補位置CPの評価が高くなる。 Here, the center distance α4 is an index for evaluating the gripping candidate position CP specified by the bounding box BB. For example, the closer the center distance α4 is to 0, the more likely there is an object near the center of the hand 34 with the fingers 34a and 34b opened. For this reason, it is considered that gripping becomes easier. Therefore, the smaller the center distance α4, the higher the evaluation of the candidate gripping position CP.

(ステップS404)
ステップS404において、決定部113は、当該把持候補位置CPを特定するバウンディングボックスBBについて把持成功確率α1を取得する。決定部113は、ステップS107において推測モデル221から出力される出力情報gを参照して、把持成功確率pを取得すればよい。
(Step S404)
In step S404, the determination unit 113 acquires the gripping success probability α1 for the bounding box BB that specifies the gripping candidate position CP. The determination unit 113 may acquire the gripping success probability p by referring to the output information g output from the inference model 221 in step S107.

(ステップS405)
ステップS405において、決定部113は、当該把持候補位置CPを評価する評価値αを算出する。評価値αは、次式(5)によって算出される。
(Step S405)
In step S405, the determining unit 113 calculates an evaluation value α for evaluating the gripping candidate position CP. The evaluation value α is calculated by the following equation (5).

α=w1*α1+w2*α2+w3*α3+w4*α4・・・(5)
ここで、w1、w2、w3、w4は、重み付け係数である。また、「*」は乗算を表す。ここでは、本実施形態では、評価値は大きいほど評価が高い、すなわち、大きいほど把持が容易であるとする。この場合、把持成功確率α1は大きいほど評価が高いため、係数w1は正である。また、面積比α2は大きいほど評価が高いため、係数w2は正である。また、把持角度α3は大きい(π/2に近い)ほど評価が高いため、係数w3は正である。また、中心距離α4は小さい(0に近い)ほど評価が高いため、係数w4は負である。なお、評価値を算出する計算式は、上述した式(5)に限定されない。
α=w1*α1+w2*α2+w3*α3+w4*α4 (5)
Here, w1, w2, w3, and w4 are weighting factors. Also, "*" represents multiplication. Here, in this embodiment, it is assumed that the larger the evaluation value, the higher the evaluation, that is, the larger the evaluation value, the easier the grip. In this case, the larger the gripping success probability α1 is, the higher the evaluation is, so the coefficient w1 is positive. Also, since the larger the area ratio α2, the higher the evaluation, the coefficient w2 is positive. Also, the larger the gripping angle α3 (closer to π/2), the higher the evaluation, so the coefficient w3 is positive. Also, the smaller the center distance α4 (closer to 0), the higher the evaluation, so the coefficient w4 is negative. Note that the calculation formula for calculating the evaluation value is not limited to the formula (5) described above.

各把持候補位置CPについてステップS401~S405の処理が完了すると、次のステップS406の処理が実行される。 When the processing of steps S401 to S405 is completed for each gripping candidate position CP, the processing of the next step S406 is executed.

(ステップS406)
ステップS406において、決定部113は、評価値αを参照して把持位置を決定する。例えば、決定部113は、評価値αが最大の把持候補位置CPを、把持位置として決定する。
(Step S406)
In step S406, the determination unit 113 refers to the evaluation value α to determine the gripping position. For example, the determination unit 113 determines the gripping candidate position CP with the largest evaluation value α as the gripping position.

以上のように、本変形例に係る把持システム1は、推測モデル221を用いて複数の把持候補位置CPを推測してそれぞれの評価値を算出し、そのうち、評価値が最大の把持候補位置CPを把持位置として決定する。これにより、把持システム1は、物体においてロボットアーム30に把持させる把持位置として、評価がより高い把持位置を決定することができる。 As described above, the gripping system 1 according to the present modification estimates a plurality of candidate gripping positions CP using the estimation model 221 and calculates evaluation values for each of the candidate gripping positions CP. is determined as the grasping position. As a result, the gripping system 1 can determine a gripping position with a higher evaluation as the gripping position of the object to be gripped by the robot arm 30 .

〔変形例3〕
上述した実施形態に係る把持システム1は、決定部113による把持位置の決定処理を、以下の通り変形することが可能である。
[Modification 3]
In the gripping system 1 according to the above-described embodiment, the gripping position determination processing by the determination unit 113 can be modified as follows.

決定部113は、複数の把持候補位置CPの各々を、当該把持候補位置CPを特定する画像上の領域(バウンディングボックスBB)と、画像上で物体を示す物体領域AAとの関係性に応じて修正する。また、決定部113は、修正後の複数の把持候補位置CPを参照して、把持位置を決定する。ここで、バウンディングボックスBBと物体領域AAとの関係性については、変形例2において図12を参照して説明した通りである。 Determining unit 113 determines each of a plurality of candidate gripping positions CP according to the relationship between an area (bounding box BB) on the image specifying the candidate gripping position CP and an object area AA indicating an object on the image. fix it. Further, the determination unit 113 determines the gripping position by referring to the plurality of modified gripping candidate positions CP. Here, the relationship between the bounding box BB and the object area AA is as described in Modification 2 with reference to FIG.

本変形例に係る把持システム1では、図2のステップS108における把持位置の決定処理が、以下のように変形される。 In the gripping system 1 according to this modified example, the gripping position determination process in step S108 of FIG. 2 is modified as follows.

図13は、本変形例における把持位置の決定処理の詳細な流れを示すフローチャートである。また、図14は、当該決定処理の各ステップにおける処理の具体例を説明する図である。なお、以下の説明では、「把持候補位置CPを修正する」ことを、単に「バウンディングボックスBBを修正する」、とも記載する。 FIG. 13 is a flow chart showing a detailed flow of gripping position determination processing in this modified example. Also, FIG. 14 is a diagram illustrating a specific example of processing in each step of the determination processing. In the following description, "correcting the candidate grip position CP" is also simply referred to as "correcting the bounding box BB."

(ステップS501)
図13に示すステップS501において、制御装置10の決定部113は、ステップS107で得られた複数の把持候補位置CPのうち、面積比α2が所定範囲外の把持候補位置CPを除外する。これにより、決定部113は、推測モデル221から得られた複数の把持候補位置CPのうちノイズの可能性が高いものを除去する。
(Step S501)
In step S501 shown in FIG. 13, the determination unit 113 of the control device 10 excludes candidate gripping positions CP whose area ratio α2 is outside the predetermined range from the plurality of candidate gripping positions CP obtained in step S107. As a result, the determination unit 113 removes those with a high possibility of being noise among the plurality of candidate gripping positions CP obtained from the inference model 221 .

ここで、面積比α2は、把持候補位置CPが、推測モデル221が出力したノイズであるか否かを判断する指標ともなる。例えば、面積比α2が1に近い場合、指部34a、34bの配置位置が物体の表面に近いため、ハンド部34と物体とが干渉する可能性があり、物体を把持できない可能性が高い。また、例えば、面積比α2が0に近い場合、ハンド部34により把持される部分が小さすぎるため、物体を把持できない可能性が高い。換言すると、面積比α2が1または0に近い把持候補位置CPは、推測モデル221から出力されたノイズであるとみなすことができる。 Here, the area ratio α2 also serves as an index for determining whether or not the candidate grip position CP is noise output by the estimation model 221 . For example, when the area ratio α2 is close to 1, the finger portions 34a and 34b are positioned close to the surface of the object, so there is a high possibility that the hand portion 34 and the object will interfere with each other, making it impossible to grip the object. Further, for example, when the area ratio α2 is close to 0, there is a high possibility that the object cannot be gripped because the portion gripped by the hand portion 34 is too small. In other words, the gripping candidate positions CP with the area ratio α2 close to 1 or 0 can be regarded as noise output from the estimation model 221 .

具体的には、決定部113は、各把持候補位置CPを特定するバウンディングボックスBBについて、変形例2のステップS401と同様に動作して面積比α2を算出する。また、決定部113は、面積比α2が次式(6)を満たさないバウンディングボックスBBを除外する。 Specifically, the determination unit 113 operates in the same manner as in step S401 of Modification 2 to calculate the area ratio α2 for the bounding box BB specifying each gripping candidate position CP. Further, the determining unit 113 excludes bounding boxes BB whose area ratio α2 does not satisfy the following expression (6).

r1≦α2≦r2(ただし、0<r1<r2<1)・・・(6)
式(6)において、r1およびr2は、所定範囲の下限および上限を示す定数である。下限r1の一例として、0.2が考えられる。また、上限r2の一例として、0.8が考えられる。ただし、r1およびr2は、上述した値に限られない。
r1≤α2≤r2 (where 0<r1<r2<1) (6)
In formula (6), r1 and r2 are constants indicating the lower and upper limits of the predetermined range. An example of the lower limit r1 is 0.2. Moreover, 0.8 can be considered as an example of the upper limit r2. However, r1 and r2 are not limited to the values described above.

当該ステップの処理の一例を、図14を参照して説明する。図14に示す画像G11には、ステップS107において推測された複数の把持候補位置CPを特定するバウンディングボックスBB1~BB8が図示されている。なお、図14に示す例では、推測モデル221は、8つの把持候補位置CPを示す情報を出力するよう学習されている。 An example of the processing of this step will be described with reference to FIG. An image G11 shown in FIG. 14 shows bounding boxes BB1 to BB8 that specify a plurality of candidate gripping positions CP estimated in step S107. In the example shown in FIG. 14, the inference model 221 is trained to output information indicating eight candidate gripping positions CP.

ここで、バウンディングボックスBB1には、物体obj1を示す物体領域AAが含まれていないため、面積比α2として0が算出される。また、バウンディングボックスBB2は、物体obj1を示す物体領域AAに包含されているため、面積比α2として1が算出される。したがって、当該ステップにおいて、決定部113は、バウンディングボックスBB1およびBB2を除外する。図14に示す画像G12は、ステップS501で除外されずに残った6つのバウンディングボックスBB3~BB8を示している。 Here, since the bounding box BB1 does not include the object area AA indicating the object obj1, 0 is calculated as the area ratio α2. Also, since the bounding box BB2 is included in the object area AA indicating the object obj1, 1 is calculated as the area ratio α2. Therefore, in this step, the determining unit 113 excludes the bounding boxes BB1 and BB2. An image G12 shown in FIG. 14 shows the six bounding boxes BB3 to BB8 that have not been excluded in step S501.

前述したように、面積比α2が1または0に近い場合、そのような把持候補位置CPは、推測モデル221から出力されたノイズの可能性がある。したがって、当該ステップの処理により、ノイズの可能性が高い把持候補位置CPが除外される。 As described above, when the area ratio α2 is close to 1 or 0, such candidate gripping positions CP may be noise output from the estimation model 221 . Therefore, by the processing of this step, the gripping candidate positions CP that are highly likely to be noise are excluded.

(ステップS502)
図13に示すステップS502において、決定部113は、ステップS501で残った1または複数の把持候補位置CPのうち、所定値以上となるよう把持候補位置CPの把持角度α3を修正する。具体的には、決定部113は、各把持候補位置CPを特定するバウンディングボックスBB3~BB8について、変形例2のステップS402と同様に動作して把持角度α3を算出する。また、決定部113は、把持角度α3が次式(7)を満たさないバウンディングボックスBBについて、その第1方向d1を修正することにより把持角度α3を修正する。
(Step S502)
In step S502 shown in FIG. 13, the determining unit 113 corrects the gripping angle α3 of the one or more gripping candidate positions CP remaining in step S501 so that the gripping angle α3 is greater than or equal to a predetermined value. Specifically, the determining unit 113 operates in the same manner as in step S402 of the second modification to calculate the gripping angle α3 for the bounding boxes BB3 to BB8 that specify each gripping candidate position CP. Further, the determining unit 113 corrects the gripping angle α3 by correcting the first direction d1 for the bounding box BB whose gripping angle α3 does not satisfy the following expression (7).

α3≦θ1(ただし、0<θ1<π/2)・・・(7)
θ1は、把持角度α3を修正するか否かを判定するための閾値であり、例えば、π/4である。ただし、θ1の値は、これに限られない。
α3≦θ1 (where 0<θ1<π/2) (7)
θ1 is a threshold for determining whether or not to correct the gripping angle α3, and is π/4, for example. However, the value of θ1 is not limited to this.

当該ステップの処理の一例を、図14を参照して説明する。図14に示す画像G12において、バウンディングボックスBB7は、把持角度α3がθ1(π/4)より小さいとする。そこで、決定部113は、バウンディングボックスBB7が沿う第1方向d1を、把持角度α3がθ1以上となるよう修正する。図14に示す画像G13は、当該ステップの処理後のバウンディングボックスBB3~BB8を示している。画像G13では、バウンディングボックスBB7の把持角度α3が、θ1(π/4)以上であるπ/2に修正されている。 An example of the processing of this step will be described with reference to FIG. In the image G12 shown in FIG. 14, the bounding box BB7 has a gripping angle α3 smaller than θ1(π/4). Therefore, the determining unit 113 corrects the first direction d1 along which the bounding box BB7 is aligned so that the gripping angle α3 is greater than or equal to θ1. An image G13 shown in FIG. 14 shows the bounding boxes BB3 to BB8 after the processing of this step. In the image G13, the gripping angle α3 of the bounding box BB7 is corrected to π/2, which is greater than or equal to θ1(π/4).

前述したように、把持角度α3がπ/2に近いほど把持が容易になり、0に近いほど把持が難しくなると考えられる。したがって、当該ステップの処理により、把持角度α3が適切でない把持候補位置CPについて、当該把持角度α3が改善される。 As described above, it is considered that the closer the gripping angle α3 is to π/2, the easier it is to grip, and the closer it is to 0, the harder it is to grip. Therefore, the processing of this step improves the gripping angle α3 for the gripping candidate position CP for which the gripping angle α3 is not appropriate.

(ステップS503)
図13に示すステップS503において、決定部113は、ステップS502の処理後の各把持候補位置CPについて、所定値以上となるよう面積比α2を修正する。具体的には、決定部113は、各把持候補位置CPを特定するバウンディングボックスBB3~BB8について、変形例2のステップS401と同様に動作して面積比α2を算出する。また、決定部113は、面積比α2が次式(8)を満たさないバウンディングボックスBBを縮小することにより、面積比α2を修正する。
(Step S503)
In step S503 shown in FIG. 13, the determining unit 113 corrects the area ratio α2 so that it becomes equal to or greater than a predetermined value for each candidate gripping position CP after processing in step S502. Specifically, the determination unit 113 operates in the same manner as in step S401 of the second modification for the bounding boxes BB3 to BB8 that specify each gripping candidate position CP to calculate the area ratio α2. Further, the determination unit 113 corrects the area ratio α2 by reducing the bounding box BB whose area ratio α2 does not satisfy the following expression (8).

α2≧r3(ただし、r1<r3<r2)・・・(8)
r3は、面積比α2を修正するか否かを判定するための閾値であり、例えば、0.5である。ただし、r3の値は、これに限られない。
α2≧r3 (however, r1<r3<r2) (8)
r3 is a threshold for determining whether or not to correct the area ratio α2, and is 0.5, for example. However, the value of r3 is not limited to this.

当該ステップの処理の一例を、図14を参照して説明する。図14に示す画像G13において、6つのバウンディングボックスBB3~BB8の各面積比α2は、全て所定値r3未満であるとする。この場合、決定部113は、バウンディングボックスBB3~BB8をそれぞれ縮小して、面積比α2がr3以上となるようにする。ここでは、決定部113は、バウンディングボックスBB3~BB8各々について、短辺および長辺を縮小している。なお、決定部113は、短辺および長辺を縮小する際に、アスペクト比を維持してもよいし、維持しなくてもよい。また、決定部113は、バウンディングボックスBB3~BB8各々または何れかについて、短辺および長辺の一方を縮小し、他方を拡縮しなくてもよい。また、バウンディングボックスBB3~BB8の各々を縮小する基準点は、中心C1であってもよいし、それ以外の点であってもよい。図14に示す画像G14は、当該ステップの処理後のバウンディングボックスBB3~BB8を示している。画像G14では、バウンディングボックスBB3~BB8の長辺および短辺の長さが、画像G12における長さより縮小され、それぞれ面積比α2が所定値r3以上となっている。 An example of the processing of this step will be described with reference to FIG. Assume that in the image G13 shown in FIG. 14, the area ratios α2 of the six bounding boxes BB3 to BB8 are all less than the predetermined value r3. In this case, the determining unit 113 reduces the bounding boxes BB3 to BB8 so that the area ratio α2 is equal to or greater than r3. Here, determination unit 113 reduces the short sides and long sides of each of bounding boxes BB3 to BB8. Note that the determining unit 113 may or may not maintain the aspect ratio when reducing the short sides and the long sides. Further, the determining unit 113 may reduce one of the short sides and the long sides of each or any one of the bounding boxes BB3 to BB8 without enlarging or reducing the other. Also, the reference point for reducing each of the bounding boxes BB3 to BB8 may be the center C1 or any other point. An image G14 shown in FIG. 14 shows the bounding boxes BB3 to BB8 after the processing of this step. In image G14, the lengths of the long and short sides of bounding boxes BB3 to BB8 are reduced from those in image G12, and the area ratio α2 of each bounding box is equal to or greater than a predetermined value r3.

前述したように、面積比α2が小さいと、把持動作速度が遅くなる。したがって、当該ステップの処理により、修正された把持候補位置CPにおいて、把持動作速度が改善される。 As described above, when the area ratio α2 is small, the gripping speed becomes slow. Therefore, the gripping motion speed is improved at the modified gripping candidate position CP by the processing of this step.

(ステップS504)
ステップS504において、決定部113は、ステップS503の処理後の各把持候補位置CPについて、把持角度α3を修正する。具体的には、決定部113は、バウンディングボックスBB3~BB8がそれぞれ沿う第1方向d1を修正し、把持角度α3を全て最適値(例えば、π/2)にする。これにより、全ての把持候補位置CPについて、把持角度α3が最適化される。
(Step S504)
In step S504, the determination unit 113 corrects the gripping angle α3 for each gripping candidate position CP after the processing in step S503. Specifically, the determining unit 113 corrects the first direction d1 along which the bounding boxes BB3 to BB8 are aligned, and sets all the gripping angles α3 to an optimum value (eg, π/2). Thereby, the gripping angle α3 is optimized for all the gripping candidate positions CP.

なお、決定部113は、ステップS502の処理を省略してもよい。この場合、決定部113は、ステップS504の処理を、ステップS503の処理の前に実行してもよい。 Note that the determination unit 113 may omit the process of step S502. In this case, the determining unit 113 may execute the process of step S504 before the process of step S503.

(ステップS505)
ステップS505において、決定部113は、修正後の複数の把持候補位置CPのうち、それぞれの把持成功確率pを参照して何れかを把持位置として決定する。なお、決定部113は、ステップS107において推測モデル221から出力される出力情報gを参照して、把持成功確率pを取得すればよい。具体的には、決定部113は、ステップS501~S504の処理が施されたバウンディングボックスBB3~BB8のうち、把持成功確率pが最大のものを選択する。
(Step S505)
In step S505, the determination unit 113 refers to the gripping success probability p of each of the plurality of gripping candidate positions CP after correction, and determines one as the gripping position. Note that the determining unit 113 may acquire the gripping success probability p by referring to the output information g output from the inference model 221 in step S107. Specifically, the determination unit 113 selects the bounding box BB3 to BB8 that have been subjected to the processes of steps S501 to S504 and that has the highest gripping success probability p.

以上のように、本変形例に係る把持システム1は、推測モデル221を用いて複数の把持候補位置CPを推測してそれぞれを修正し、修正した複数の把持候補位置CPのうち把持成功確率pが最大の把持候補位置CPを把持位置として決定する。これにより、把持システム1は、物体においてロボットアーム30に把持させる把持位置として、把持成功確率pがより高く、かつ、より容易に把持可能な把持位置を決定することができる。 As described above, the gripping system 1 according to the present modification estimates a plurality of candidate gripping positions CP using the estimation model 221 and corrects each of them. is determined as the gripping position. As a result, the gripping system 1 can determine a gripping position that has a higher gripping success probability p and can be gripped more easily, as a gripping position for the robot arm 30 to grip the object.

〔その他の変形例〕
なお、上述した実施形態および各変形例において、ステップS108における把持位置の決定処理では、把持成功確率pまたは評価値αが最大の把持候補位置CPを、把持位置として決定する例について説明した。ただし、決定部113は、把持成功確率pまたは評価値αが必ずしも最大の把持候補位置CPを把持位置として決定しなくてもよい。例えば、決定部113は、把持成功確率pまたは評価値αが閾値以上の把持候補位置CPのうち何れかを把持位置として選択してもよい。
[Other Modifications]
In the embodiment and each modified example described above, in the gripping position determination processing in step S108, the gripping candidate position CP with the maximum gripping success probability p or the evaluation value α is determined as the gripping position. However, the determination unit 113 does not necessarily have to determine the gripping candidate position CP with the maximum gripping success probability p or the evaluation value α as the gripping position. For example, the determination unit 113 may select, as the gripping position, either the gripping success probability p or the gripping candidate positions CP whose evaluation value α is equal to or greater than a threshold.

また、上述した実施形態および各変形例において、推測モデル221が、CNNによって生成された学習済みモデルである例について説明した。ただし、推測モデル221は、その他の深層学習アルゴリズムによって生成されてもよい。例えば、推測モデル221を生成するアルゴリズムは、例えば、RNN:Recurrent Neural Network、GAN:Generative Adversarial Network等であってもよいが、これらに限られない。 Also, in the above-described embodiment and each modified example, an example in which the inference model 221 is a trained model generated by CNN has been described. However, the inference model 221 may be generated by other deep learning algorithms. For example, the algorithm that generates the inference model 221 may be, for example, RNN: Recurrent Neural Network, GAN: Generative Adversarial Network, etc., but is not limited to these.

〔把持システム1の物理的構成〕
図15は、把持システム1を構成する各装置の物理的構成を例示したブロック図である。
[Physical Configuration of Grasping System 1]
FIG. 15 is a block diagram illustrating the physical configuration of each device that constitutes the grasping system 1. As shown in FIG.

(制御装置10の物理的構成)
制御装置10は、図15に示すように、バス110と、プロセッサ101と、主メモリ102と、補助メモリ103と、通信インタフェース104と、入出力インタフェース105とを備えたコンピュータによって構成可能である。プロセッサ101、主メモリ102、補助メモリ103、通信インタフェース104、および入出力インタフェース105は、バス110を介して互いに接続されている。入出力インタフェース105には、入力装置106および出力装置107が接続されている。
(Physical Configuration of Control Device 10)
The control device 10 can be configured by a computer having a bus 110, a processor 101, a main memory 102, an auxiliary memory 103, a communication interface 104, and an input/output interface 105, as shown in FIG. Processor 101 , main memory 102 , auxiliary memory 103 , communication interface 104 and input/output interface 105 are interconnected via bus 110 . An input device 106 and an output device 107 are connected to the input/output interface 105 .

プロセッサ101としては、例えば、CPU(Central Processing Unit)、マイクロプロセッサ、デジタルシグナルプロセッサ、マイクロコントローラ、またはこれらの組み合わせ等が用いられる。 As the processor 101, for example, a CPU (Central Processing Unit), a microprocessor, a digital signal processor, a microcontroller, or a combination thereof is used.

主メモリ102としては、例えば、半導体RAM(random access memory)等が用いられる。 As the main memory 102, for example, a semiconductor RAM (random access memory) or the like is used.

補助メモリ103としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、またはこれらの組み合わせ等が用いられる。補助メモリ103には、上述した制御装置10の動作をプロセッサ101に実行させるためのプログラムが格納されている。プロセッサ101は、補助メモリ103に格納されたプログラムを主メモリ102上に展開し、展開したプログラムに含まれる各命令を実行する。 As the auxiliary memory 103, for example, a flash memory, a HDD (Hard Disk Drive), an SSD (Solid State Drive), or a combination thereof is used. The auxiliary memory 103 stores a program for causing the processor 101 to execute the operations of the control device 10 described above. The processor 101 expands the program stored in the auxiliary memory 103 onto the main memory 102 and executes each instruction included in the expanded program.

通信インタフェース104は、ネットワークに接続するインタフェースである。通信インタフェース104は、当該ネットワークを介して学習装置20、ロボットアーム30、および撮像装置40のそれぞれとの通信を行う。 A communication interface 104 is an interface for connecting to a network. The communication interface 104 communicates with each of the learning device 20, the robot arm 30, and the imaging device 40 via the network.

入出力インタフェース105としては、例えば、USB(Universal Serial Bus)インタフェース、赤外線やBluetooth(登録商標)等の近距離通信インタフェース、またはこれらの組み合わせが用いられる。 As the input/output interface 105, for example, a USB (Universal Serial Bus) interface, a short-range communication interface such as infrared rays or Bluetooth (registered trademark), or a combination thereof is used.

入力装置106としては、例えば、キーボード、マウス、タッチパッド、マイク、又はこれらの組み合わせ等が用いられる。出力装置107としては、例えば、ディスプレイ、プリンタ、スピーカ、又はこれらの組み合わせが用いられる。 As the input device 106, for example, a keyboard, mouse, touch pad, microphone, or a combination thereof is used. A display, a printer, a speaker, or a combination thereof is used as the output device 107, for example.

この例で、プロセッサ101および通信インタフェース104は、制御部11を実現するハードウェア要素の一例である。また、主メモリ102および補助メモリ103は、記憶部12を実現するハードウェア要素の一例である。 In this example, processor 101 and communication interface 104 are examples of hardware elements that implement control unit 11 . Also, the main memory 102 and the auxiliary memory 103 are examples of hardware elements that implement the storage unit 12 .

(学習装置20の物理的構成)
学習装置20は、図15に示すように、バス210と、プロセッサ201と、主メモリ202と、補助メモリ203と、通信インタフェース204とを備えたコンピュータによって構成可能である。プロセッサ201、主メモリ202、補助メモリ203、および通信インタフェース204は、バス210を介して互いに接続されている。
(Physical configuration of learning device 20)
The learning device 20 can be configured by a computer having a bus 210, a processor 201, a main memory 202, an auxiliary memory 203, and a communication interface 204, as shown in FIG. Processor 201 , main memory 202 , auxiliary memory 203 and communication interface 204 are interconnected via bus 210 .

プロセッサ201としては、例えば、CPU(Central Processing Unit)、マイクロプロセッサ、デジタルシグナルプロセッサ、マイクロコントローラ、GPU(Graphics Processing Unit)またはこれらの組み合わせ等が用いられる。 As the processor 201, for example, a CPU (Central Processing Unit), a microprocessor, a digital signal processor, a microcontroller, a GPU (Graphics Processing Unit), or a combination thereof is used.

主メモリ202としては、例えば、半導体RAM(random access memory)等が用いられる。 As the main memory 202, for example, a semiconductor RAM (random access memory) or the like is used.

補助メモリ203としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、またはこれらの組み合わせ等が用いられる。補助メモリ203には、上述した学習装置20の動作をプロセッサ201に実行させるためのプログラムが格納されている。プロセッサ201は、補助メモリ203に格納されたプログラムを主メモリ202上に展開し、展開したプログラムに含まれる各命令を実行する。 As the auxiliary memory 203, for example, flash memory, HDD (Hard Disk Drive), SSD (Solid State Drive), or a combination of these is used. Auxiliary memory 203 stores a program for causing processor 201 to execute the operation of learning apparatus 20 described above. The processor 201 expands the program stored in the auxiliary memory 203 onto the main memory 202 and executes each instruction included in the expanded program.

通信インタフェース204は、ネットワークに接続するインタフェースである。通信インタフェース204は、当該ネットワークを介して制御装置10との通信を行う。 A communication interface 204 is an interface for connecting to a network. The communication interface 204 communicates with the control device 10 via the network.

この例で、プロセッサ201および通信インタフェース204は、制御部21を実現するハードウェア要素の一例である。また、主メモリ202および補助メモリ203は、記憶部22を実現するハードウェア要素の一例である。 In this example, the processor 201 and the communication interface 204 are examples of hardware elements that implement the controller 21 . Also, the main memory 202 and the auxiliary memory 203 are examples of hardware elements that implement the storage unit 22 .

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。 The present invention is not limited to the above-described embodiments, but can be modified in various ways within the scope of the claims, and can be obtained by appropriately combining technical means disclosed in different embodiments. is also included in the technical scope of the present invention.

〔まとめ〕
本発明の一態様に係る制御装置は、物体を被写体として含む画像を取得する取得部と、前記画像を入力とする推測モデルを用いて、前記物体の複数の把持候補位置を推測する推測部と、前記複数の把持候補位置を参照して、把持装置に前記物体を把持させる把持位置を決定する決定部と、を備えている。
〔summary〕
A control device according to an aspect of the present invention includes an acquisition unit that acquires an image including an object as a subject, and an estimation unit that estimates a plurality of gripping candidate positions of the object using an estimation model having the image as an input. and a determination unit that refers to the plurality of gripping candidate positions and determines a gripping position at which the gripping device grips the object.

上記構成により、推測モデルを用いて推測した複数の把持候補位置を参照して把持位置を決定するので、把持位置を精度よく決定することができる。 With the above configuration, the gripping position is determined by referring to a plurality of gripping candidate positions estimated using the estimation model, so the gripping position can be determined with high accuracy.

上述した一態様に係る制御装置において、前記推測モデルから出力される情報は、前記複数の把持候補位置の各々を特定する前記画像上の領域を示す情報を含み、前記決定部は、前記複数の把持候補位置の各々について、前記画像上の領域と、前記画像上で前記物体を示す物体領域との関係性に応じた評価値を算出し、算出した評価値を参照して前記把持位置を決定する、ことが好ましい。 In the control device according to the aspect described above, the information output from the inferred model includes information indicating an area on the image that specifies each of the plurality of candidate gripping positions, and the determination unit includes: For each gripping candidate position, an evaluation value is calculated according to the relationship between an area on the image and an object area representing the object on the image, and the gripping position is determined by referring to the calculated evaluation value. preferably.

上記構成により、各把持候補位置と物体との関係性が反映された評価値を参照するので、把持位置をより精度よく決定することができる。 With the above configuration, the evaluation value reflecting the relationship between each candidate gripping position and the object is referred to, so the gripping position can be determined with higher accuracy.

上述した一態様に係る制御装置において、前記推測モデルから出力される情報は、前記複数の把持候補位置の各々を特定する前記画像上の領域を示す情報を含み、前記決定部は、前記複数の把持候補位置の各々を、前記画像上の領域と、前記画像上で前記物体を示す物体領域との関係性に応じて修正し、修正後の前記複数の把持候補位置を参照して、前記把持位置を決定する、ことが好ましい。 In the control device according to the aspect described above, the information output from the inferred model includes information indicating an area on the image that specifies each of the plurality of candidate gripping positions, and the determination unit includes: Each of the candidate gripping positions is corrected according to the relationship between the area on the image and the object area representing the object on the image, and the plurality of candidate gripping positions after modification are referenced to perform the gripping. Preferably, the position is determined.

上記構成により、物体との関係性に応じて修正した各把持候補位置を参照するので、把持位置をより精度よく決定することができる。 With the above configuration, since each gripping candidate position corrected according to the relationship with the object is referred to, the gripping position can be determined with higher accuracy.

上述した一態様に係る制御装置において、前記関係性は、前記画像上の領域の面積と当該領域において前記物体領域が占める部分領域の面積との関係、前記画像上の領域が沿う第1方向と前記部分領域が沿う第2方向との関係、および前記画像上の領域の中心と前記部分領域の中心との関係、のうち一部または全部を含む、ことが好ましい。 In the control device according to the aspect described above, the relationship includes the relationship between the area of the area on the image and the area of the partial area occupied by the object area in the area, and the first direction along which the area on the image runs. It is preferable to include part or all of a relationship with the second direction along which the partial area extends, and a relationship between the center of the area on the image and the center of the partial area.

上記構成において、画像上の領域と部分領域との関係が適切でない場合、当該把持候補位置は、把持が難しい把持位置を示している可能性がある。また、第1方向および第2方向の関係が適切でない場合、当該把持候補位置は、把持が難しい把持角度を示している可能性がある。また、画像上の領域の中心と物体領域の中心との関係が適切でない場合、当該把持候補位置は、把持が難しい把持位置を示している可能性がある。したがって、上記構成により、より確実に把持を維持できる把持位置を決定することが可能となる。 In the above configuration, if the relationship between the area on the image and the partial area is not appropriate, the candidate gripping position may indicate a gripping position that is difficult to grip. Also, if the relationship between the first direction and the second direction is not appropriate, the gripping candidate position may indicate a gripping angle that is difficult to grip. Also, if the relationship between the center of the area on the image and the center of the object area is not appropriate, the gripping candidate position may indicate a gripping position that is difficult to grip. Therefore, with the above configuration, it is possible to determine the grip position at which the grip can be maintained more reliably.

上述した一態様に係る制御装置において、前記推測モデルから出力される情報は、前記複数の把持候補位置の各々に関する把持成功確率を含み、前記決定部は、前記把持成功確率を参照して前記把持位置を決定する、ことが好ましい。 In the control device according to the aspect described above, the information output from the estimation model includes a gripping success probability for each of the plurality of gripping candidate positions, and the determining unit refers to the gripping success probability to determine the gripping success rate. Preferably, the position is determined.

上記構成により、把持成功確率を参照するので、把持位置をより精度よく決定することができる。 With the above configuration, the gripping success probability is referred to, so the gripping position can be determined with higher accuracy.

本発明の一態様に係る把持システムは、上述した制御装置と、前記画像を撮像する撮像装置と、前記把持装置と、を備え、制御装置は、前記決定部が決定した把持位置において前記物体を把持するよう前記把持装置を制御する制御部をさらに備える。 A gripping system according to an aspect of the present invention includes the control device described above, an imaging device that captures the image, and the gripping device. A controller is further provided for controlling the gripping device to grip.

上記構成により、把持装置に物体をより確実に把持させることができる。 With the above configuration, the gripping device can grip the object more reliably.

上述した本発明の一態様に係る把持システムは、前記推測モデルを、機械学習により生成する学習装置、をさらに備えている。 The gripping system according to one aspect of the present invention described above further includes a learning device that generates the inference model by machine learning.

上記構成により、把持位置をより精度よく決定するための推測モデルを生成することができる。 With the above configuration, it is possible to generate an inference model for more accurately determining the gripping position.

本発明の一態様に係る方法は、1または複数のコンピュータが実行する方法であって、物体を被写体として含む画像を取得するステップと、前記画像を入力とする推測モデルを用いて、前記物体の複数の把持候補位置を推測するステップと、前記複数の把持候補位置を参照して、把持装置に前記物体を把持させる把持位置を決定するステップと、を含む。 A method according to an aspect of the present invention is a method executed by one or more computers, comprising: acquiring an image including an object as a subject; estimating a plurality of candidate gripping positions; and referring to the plurality of candidate gripping positions to determine a gripping position at which the gripping device is to grip the object.

上記構成により、上述した制御装置と同様の効果を奏する。 With the above configuration, the same effects as those of the control device described above can be obtained.

本発明の一態様に係るプログラムは、上述した制御装置として1または複数のコンピュータを機能させるためのプログラムであって、上記各部として1または複数のコンピュータを機能させる。 A program according to an aspect of the present invention is a program for causing one or more computers to function as the control device described above, and causes one or more computers to function as the above units.

上記構成により、上述した制御装置と同様の効果を奏する。 With the above configuration, the same effects as those of the control device described above can be obtained.

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。 The present invention is not limited to the above-described embodiments, but can be modified in various ways within the scope of the claims, and can be obtained by appropriately combining technical means disclosed in different embodiments. is also included in the technical scope of the present invention.

1 把持システム
10 制御装置
20 学習装置
11、21 制御部
12、22 記憶部
111 取得部
112 推測部
113 決定部
211 学習部
221 推測モデル
30 ロボットアーム
40 撮像装置
101、201 プロセッサ
102、202 主メモリ
103、203 補助メモリ
104、204 通信インタフェース
105 入出力インタフェース
106 入力装置
107 出力装置
110、210 バス
1 gripping system 10 control device 20 learning devices 11 and 21 control units 12 and 22 storage unit 111 acquisition unit 112 estimation unit 113 determination unit 211 learning unit 221 estimation model 30 robot arm 40 imaging devices 101 and 201 processors 102 and 202 main memory 103 , 203 auxiliary memory 104, 204 communication interface 105 input/output interface 106 input device 107 output device 110, 210 bus

Claims (9)

物体を被写体として含む画像を取得する取得部と、
前記画像を入力とする推測モデルを用いて、前記物体の複数の把持候補位置を推測する推測部と、
前記複数の把持候補位置を参照して、把持装置に前記物体を把持させる把持位置を決定する決定部と
を備え
前記推測モデルから出力される情報は、前記複数の把持候補位置の各々を特定する前記画像上の領域を示す情報を含み、
前記決定部は、前記複数の把持候補位置の各々について、前記画像上の領域と、前記画像上で前記物体を示す物体領域との関係性に応じた評価値を算出し、算出した評価値を参照して前記把持位置を決定する、制御装置。
an acquisition unit that acquires an image including an object as a subject;
an estimating unit that estimates a plurality of gripping candidate positions of the object using an estimating model that receives the image;
a determining unit that refers to the plurality of candidate gripping positions and determines a gripping position that causes the gripping device to grip the object ;
the information output from the inference model includes information indicating an area on the image that identifies each of the plurality of candidate gripping positions;
The determination unit calculates an evaluation value corresponding to a relationship between an area on the image and an object area representing the object on the image for each of the plurality of candidate gripping positions, and determines the calculated evaluation value. A control device that determines the gripping position by reference .
物体を被写体として含む画像を取得する取得部と、
前記画像を入力とする推測モデルを用いて、前記物体の複数の把持候補位置を推測する推測部と、
前記複数の把持候補位置を参照して、把持装置に前記物体を把持させる把持位置を決定する決定部と、
を備え
前記推測モデルから出力される情報は、前記複数の把持候補位置の各々を特定する前記画像上の領域を示す情報を含み、
前記決定部は、前記複数の把持候補位置の各々を、前記画像上の領域と、前記画像上で前記物体を示す物体領域との関係性に応じて修正し、修正後の前記複数の把持候補位置を参照して、前記把持位置を決定する、制御装置。
an acquisition unit that acquires an image including an object as a subject;
an estimating unit that estimates a plurality of gripping candidate positions of the object using an estimating model that receives the image;
a determining unit that refers to the plurality of candidate gripping positions and determines a gripping position that causes the gripping device to grip the object;
with
the information output from the inference model includes information indicating an area on the image that identifies each of the plurality of candidate gripping positions;
The determining unit corrects each of the plurality of candidate gripping positions according to a relationship between a region on the image and an object region representing the object on the image, and corrects the plurality of candidate gripping positions after modification. A controller that determines the gripping position with reference to position .
前記関係性は、前記画像上の領域の面積と当該領域において前記物体領域が占める部分領域の面積との関係、前記画像上の領域が沿う第1方向と前記部分領域が沿う第2方向との関係、および前記画像上の領域の中心と前記部分領域の中心との関係、のうち一部または全部を含む、
請求項1または2に記載の制御装置。
The relationship is the relationship between the area of the region on the image and the area of the partial region occupied by the object region in the region, and the relationship between the first direction along which the region on the image and the second direction along which the partial region is. including some or all of the relationship and the relationship between the center of the region on the image and the center of the partial region;
3. A control device according to claim 1 or 2 .
前記推測モデルから出力される情報は、前記複数の把持候補位置の各々に関する把持成功確率を含み、
前記決定部は、前記把持成功確率を参照して前記把持位置を決定する、
請求項1からの何れか1項に記載の制御装置。
the information output from the inference model includes a gripping success probability for each of the plurality of candidate gripping positions;
The determination unit determines the gripping position by referring to the gripping success probability.
The control device according to any one of claims 1 to 3 .
請求項1からの何れか1項に記載の制御装置と、
前記画像を撮像する撮像装置と、
前記把持装置と、を備えた把持システムであって、
前記制御装置は、前記決定部が決定した把持位置において前記物体を把持するよう前記把持装置を制御する制御部をさらに備える、把持システム。
A control device according to any one of claims 1 to 4 ;
an imaging device that captures the image;
A gripping system comprising the gripping device,
The gripping system, wherein the control device further includes a control section that controls the gripping device to grip the object at the gripping position determined by the determination section.
前記推測モデルを、機械学習により生成する学習装置、をさらに備えている、請求項に記載の把持システム。 The grasping system according to claim 5 , further comprising a learning device that generates the inference model by machine learning. 1または複数のコンピュータが実行する方法であって、
物体を被写体として含む画像を取得するステップと、
前記画像を入力とする推測モデルを用いて、前記物体の複数の把持候補位置を推測するステップと、
前記複数の把持候補位置を参照して、把持装置に前記物体を把持させる把持位置を決定するステップと、を含み、
前記推測モデルから出力される情報は、前記複数の把持候補位置の各々を特定する前記画像上の領域を示す情報を含み、
前記決定するステップは、前記複数の把持候補位置の各々について、前記画像上の領域と、前記画像上で前記物体を示す物体領域との関係性に応じた評価値を算出し、算出した評価値を参照して前記把持位置を決定する、方法。
1. One or more computer-implemented methods comprising:
obtaining an image including the object as a subject;
estimating a plurality of gripping candidate positions of the object using an inference model having the image as an input;
determining a gripping position that causes a gripping device to grip the object, with reference to the plurality of gripping candidate positions ;
the information output from the inference model includes information indicating an area on the image that identifies each of the plurality of candidate gripping positions;
In the determining step, for each of the plurality of gripping candidate positions, an evaluation value is calculated according to a relationship between an area on the image and an object area representing the object on the image, and the calculated evaluation value is calculated. determining the grip position with reference to .
1または複数のコンピュータが実行する方法であって、
物体を被写体として含む画像を取得するステップと、
前記画像を入力とする推測モデルを用いて、前記物体の複数の把持候補位置を推測するステップと、
前記複数の把持候補位置を参照して、把持装置に前記物体を把持させる把持位置を決定するステップと、を含み、
前記推測モデルから出力される情報は、前記複数の把持候補位置の各々を特定する前記画像上の領域を示す情報を含み、
前記決定するステップは、前記複数の把持候補位置の各々を、前記画像上の領域と、前記画像上で前記物体を示す物体領域との関係性に応じて修正し、修正後の前記複数の把持候補位置を参照して、前記把持位置を決定する、方法。
1. One or more computer-implemented methods comprising:
obtaining an image including the object as a subject;
estimating a plurality of gripping candidate positions of the object using an inference model having the image as an input;
determining a gripping position that causes a gripping device to grip the object, with reference to the plurality of gripping candidate positions ;
the information output from the inference model includes information indicating an area on the image that identifies each of the plurality of candidate gripping positions;
The step of determining corrects each of the plurality of candidate gripping positions according to a relationship between an area on the image and an object area representing the object on the image, and corrects the plurality of gripping positions after modification. A method of determining the grip position with reference to candidate positions .
請求項1からの何れか1項に記載の制御装置として1または複数のコンピュータを機能させるためのプログラムであって、上記各部として1または複数のコンピュータを機能させるためのプログラム。 A program for causing one or more computers to function as the control device according to any one of claims 1 to 4 , the program for causing one or more computers to function as the above units.
JP2020124576A 2020-07-21 2020-07-21 Controller, gripping system, method and program Active JP7217727B2 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020124576A JP7217727B2 (en) 2020-07-21 2020-07-21 Controller, gripping system, method and program
PCT/JP2021/018020 WO2022018936A1 (en) 2020-07-21 2021-05-12 Control device, holding system, method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020124576A JP7217727B2 (en) 2020-07-21 2020-07-21 Controller, gripping system, method and program

Publications (2)

Publication Number Publication Date
JP2022021147A JP2022021147A (en) 2022-02-02
JP7217727B2 true JP7217727B2 (en) 2023-02-03

Family

ID=79728619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020124576A Active JP7217727B2 (en) 2020-07-21 2020-07-21 Controller, gripping system, method and program

Country Status (2)

Country Link
JP (1) JP7217727B2 (en)
WO (1) WO2022018936A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024038642A (en) * 2022-09-08 2024-03-21 株式会社日立製作所 picking system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009172685A (en) 2008-01-22 2009-08-06 Yaskawa Electric Corp Manipulator system and its control method
JP2019093461A (en) 2017-11-20 2019-06-20 株式会社安川電機 Holding system, learning device, holding method and model manufacturing method
JP2019188516A (en) 2018-04-24 2019-10-31 キヤノン株式会社 Information processor, information processing method, and program
JP2020082217A (en) 2018-11-16 2020-06-04 ミネベアミツミ株式会社 Control device and gripping method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009172685A (en) 2008-01-22 2009-08-06 Yaskawa Electric Corp Manipulator system and its control method
JP2019093461A (en) 2017-11-20 2019-06-20 株式会社安川電機 Holding system, learning device, holding method and model manufacturing method
JP2019188516A (en) 2018-04-24 2019-10-31 キヤノン株式会社 Information processor, information processing method, and program
JP2020082217A (en) 2018-11-16 2020-06-04 ミネベアミツミ株式会社 Control device and gripping method

Also Published As

Publication number Publication date
WO2022018936A1 (en) 2022-01-27
JP2022021147A (en) 2022-02-02

Similar Documents

Publication Publication Date Title
WO2018221614A1 (en) Learning device, learning method, learning model, estimation device, and grip system
JP2021517681A (en) How to detect the target object gripping position of the robot
EP3500406B1 (en) Continuum robot and control method of continuum robot
JP6911798B2 (en) Robot motion control device
TWI802820B (en) Robot control device, and method and program for controlling the same
JP6563596B2 (en) Image processing apparatus, image processing method, and program
JP7217727B2 (en) Controller, gripping system, method and program
CN112347900B (en) Monocular vision underwater target automatic grabbing method based on distance estimation
JP7517225B2 (en) Trajectory generation system, trajectory generation method, and program
JP2018169660A (en) Object attitude detection apparatus, control apparatus, robot and robot system
JP7051751B2 (en) Learning device, learning method, learning model, detection device and gripping system
JP5769411B2 (en) Information processing apparatus, information processing method, and program
KR102449765B1 (en) Apparatus for constructing kinematic information of robot manipulator and method therefor
JPH09277184A (en) Image processing
JP7042209B2 (en) Orbit generator, orbit generation method, and robot system
CN114080304A (en) Control device, control method, and control program
JP7349423B2 (en) Learning device, learning method, learning model, detection device and grasping system
JP7179672B2 (en) Computer system and machine learning method
JP6908907B1 (en) Information processing equipment, information processing methods, and programs
WO2021171384A1 (en) Clustering device, clustering method, and clustering program
CN114051443A (en) Information processing device, robot system, and information processing method
WO2023199623A1 (en) Information processing device and information processing method
CN117301062A (en) Mechanical arm control method, device, equipment and storage medium
CN113326666B (en) Robot intelligent grabbing method based on convolutional neural network differentiable structure searching
JP6248694B2 (en) Robot, robot system, and control device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221027

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230124

R150 Certificate of patent or registration of utility model

Ref document number: 7217727

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150