WO2023079971A1

WO2023079971A1 - 演算装置、作業計画の作成方法、演算システム

Info

Publication number: WO2023079971A1
Application number: PCT/JP2022/039107
Authority: WO
Inventors: 一成末光; 契宇都木
Original assignee: 株式会社日立製作所
Priority date: 2021-11-04
Filing date: 2022-10-20
Publication date: 2023-05-11
Also published as: JP2023068756A

Abstract

演算装置は、変動する環境に関する情報を環境パラメータとして表現可能な環境において、所定の作業に関する作業計画を作成する演算装置であって、所定の作業に関する所要時間を算出する厳密評価部と、最新の環境パラメータに基づき複数の環境パラメータを評価シナリオとして生成する評価シナリオ生成部と、学習データを用いて、厳密評価部よりも簡易に所定の作業に関する所要時間を算出するための代理モデルを作成する代理モデル生成部と、代理モデルを用いて所要時間を算出し、複数の環境パラメータのいずれにも適する作業計画である暫定作業計画を算出する計画案生成部と、厳密評価部を用いて算出された時間であり、暫定作業計画における所定の作業に要する所要時間である厳密所要時間と、代理モデルを用いて算出された時間であり暫定作業計画における所定の作業に要する所要時間である代理所要時間との差が所定の閾値以上の場合に、暫定作業計画および厳密所要時間を用いて代理モデルを更新する、代理モデル更新部とを備える。

Description

演算装置、作業計画の作成方法、演算システム

　本発明は、演算装置、作業計画の作成方法、および演算システムに関する。

　効率よく作業を進めるために、事前に作業計画を作成することが広く行われている。ただし、作業環境の条件が時間の経過とともに変化する場合には最適な作業計画を作成することが容易ではない。特許文献１には、機械学習により機械に対する制御指令を学習する機械学習装置であって、前記機械学習を行って前記制御指令を出力する機械学習器と、前記制御指令に基づいて、前記機械の作業動作のシミュレーションを実行するシミュレータと、前記シミュレータによる前記シミュレーションの実行結果に基づいて、前記制御指令を判定する第１判定器と、を備える、ことを特徴とする機械学習装置が開示されている。

日本国特開２０１７－１８５５７７号公報

　特許文献１に記載されている発明では、演算の精度に改善の余地がある。

　本発明の第１の態様による演算装置は、変動する環境に関する情報を環境パラメータとして表現可能な環境において、所定の作業に関する作業計画を作成する演算装置であって、前記所定の作業に関する所要時間を算出する厳密評価部と、最新の前記環境パラメータに基づき複数の前記環境パラメータを評価シナリオとして生成する評価シナリオ生成部と、学習データを用いて、前記厳密評価部よりも簡易に前記所定の作業に関する所要時間を算出するための代理モデルを作成する代理モデル生成部と、前記代理モデルを用いて前記所要時間を算出し、前記複数の環境パラメータのいずれにも適する前記作業計画である暫定作業計画を算出する計画案生成部と、前記厳密評価部を用いて算出された時間であり、前記暫定作業計画における前記所定の作業に要する所要時間である厳密所要時間と、前記代理モデルを用いて算出された時間であり前記暫定作業計画における前記所定の作業に要する所要時間である代理所要時間との差が所定の閾値以上の場合に、前記暫定作業計画および前記厳密所要時間を用いて前記代理モデルを更新する、代理モデル更新部とを備える。
　本発明の第２の態様による作業計画の作成方法は、変動する環境に関する情報を環境パラメータとして表現可能な環境を対象として、所定の作業に関する作業計画を演算装置が作成する、作業計画の作成方法であって、前記所定の作業に関する所要時間を算出する厳密評価処理と、最新の前記環境パラメータに基づき複数の前記環境パラメータを評価シナリオとして生成する評価シナリオ生成処理と、学習データを用いて、前記厳密評価処理よりも簡易に前記所定の作業に関する演算を行うための代理モデルを作成する代理モデル生成処理と、前記代理モデルを用いて前記所定の作業に関する演算を行い、前記複数の環境パラメータのいずれにも適する前記作業計画である暫定作業計画を算出する計画案生成処理と、前記厳密評価処理により算出された時間であり、前記暫定作業計画における前記所定の作業に要する所要時間である厳密所要時間と、前記代理モデルを用いて算出された時間であり前記暫定作業計画における前記所定の作業に要する所要時間である代理所要時間との差が所定の閾値以上の場合に、前記暫定作業計画および前記厳密所要時間を用いて前記代理モデルを更新する、代理モデル更新処理とを含む。
　本発明の第３の態様による演算システムは、変動する環境に関する情報を環境パラメータとして表現可能な環境において、所定の作業に関する作業計画を作成する演算システムであって、前記所定の作業に関する所要時間を算出する厳密評価部と、最新の前記環境パラメータに基づき複数の前記環境パラメータを評価シナリオとして生成する評価シナリオ生成部と、学習データを用いて、前記厳密評価部よりも簡易に前記所定の作業に関する演算を行うための代理モデルを作成する代理モデル生成部と、前記代理モデルを用いて前記所定の作業に関する演算を行い、前記複数の環境パラメータのいずれにも適する前記作業計画である暫定作業計画を算出する計画案生成部と、前記厳密評価部を用いて算出された時間であり、前記暫定作業計画における前記所定の作業に要する所要時間である厳密所要時間と、前記代理モデルを用いて算出された時間であり前記暫定作業計画における前記所定の作業に要する所要時間である代理所要時間との差が所定の閾値以上の場合に、前記暫定作業計画および前記厳密所要時間を用いて前記代理モデルを更新する、代理モデル更新部とを備える。

　本発明によれば、簡易な計算の精度を向上できる。

演算装置が適用可能なアプリケーションの一例を示す表第１の実施の形態における演算装置の構成図作業指示の一例を示す図環境パラメータの一例を示す図想定変動範囲の一例を示す図許容予測誤差情報の一例を示す図学習データの一例を示す図代理モデル情報の一例を示す図第１の実施の形態における演算装置による処理の概要を示すフローチャート代理モデル生成処理を示すフローチャート評価シナリオ生成処理を示すフローチャート計画案算出処理を示すフローチャート第２の実施の形態における演算装置の構成図第２の実施の形態における演算装置の処理の概要を示すフローチャート第３の実施の形態における演算装置の構成図パラメータ区分の一例を示す図学習データの一例を示す図代理モデル情報の一例を示す図第３の実施の形態における演算装置の処理の概要を示すフローチャート第３の実施の形態の変形例における演算装置の処理の概要を示すフローチャート

（対象アプリケーション）
　本発明に係る演算装置は、変動環境下における作業計画の立案を行う。演算装置は様々な環境が変化する様々なアプリケーションに適用できる。

　図１は、演算装置が適用可能なアプリケーションの一例を示す表である。図１では、アプリケーションごとに、演算装置が指示される内容、演算装置の計算結果、および変動する環境パラメータを示している。環境パラメータとは、アプリケーションに影響を及ぼし、かつ短時間で変動しうるパラメータである。ここでいう「短時間」とは、演算装置が演算に要する時間に対して短いことを意味する。環境パラメータは、時間が経過するほど変化幅が大きい傾向にある。そのため、計算に長い時間を要するほど計算開始時と計算終了時における環境パラメータの変動幅が大きくなる。図１に示す「計算結果」は、演算装置が算出した「作業計画」と言い換えることができる。

　図１の１レコード目に示す「商品ピッキング」のアプリケーションでは、倉庫内に無数に格納されている商品をＡＧＶ（Automatic Guided Vehicle）がピッキングする。演算装置には、商品名とその商品のピッキングが完了すべき時刻の組合せられたリストが入力される。なお各商品の倉庫内の位置は、ＡＧＶおよび演算装置にとって既知である。

　倉庫内は広大であり、ピッキングする商品が格納されている場所までＡＧＶが移動するために時間を要する。そのため演算装置は、それぞれのＡＧＶが、どの商品をどの順番でピッキングするかを計算して出力する。ただし次のような環境パラメータが短時間で変動しうる。図１に示すように、「商品ピッキング」のアプリケーションにおける環境パラメータはたとえば、ピッキング速度、ＡＧＶの数、およびＡＧＶの速度である。

　たとえば、ＡＧＶが商品をピックアップする速度であるピッキング速度は、様々な要因により変動する。また、ＡＧＶは故障や充電などにより稼働可能な台数は一定ではない。さらに、床面の状態などによりＡＧＶが走行可能な最高速度が変動する。これらの環境パラメータは、比較的短い期間では変化幅が小さいが、期間が長くなるほどその変化が積み重なって大きな変化幅となる可能性がある。

　図１の２レコード目に示す「宅配」のアプリケーションでは、配達員が住宅に荷物を配達する。演算装置には、住所と期限時刻のリストが入力される。なお、住所と配達すべき荷物との紐づけは別途管理される。演算装置は、作業員ごとの配達先の訪問順序を出力する。このアプリケーションではたとえば、渋滞や通行止めなどの道路状況や、天候により変化する作業員の移動速度が環境パラメータとなる。

　図１の３レコード目に示す「多品種生産」のアプリケーションでは、複数の生産装置を用いて製品を生産する。演算装置には、品名と出荷時刻のリストが入力される。演算装置は、生産装置ごとの製品の加工の順番を出力する。このアプリケーションではたとえば、生産装置の台数と種類や、生産装置の動作速度が環境パラメータとなる。本発明は図１に示した例に限定されず様々なアプリケーションに適用できるが、第１の実施の形態では「商品ピッキング」を例に説明する。

―第１の実施の形態―
　以下、図２～図１２を参照して、演算装置の第１の実施の形態を説明する。

　図２は、第１の実施の形態における演算装置１の構成図である。演算装置１は、中央演算装置であるＣＰＵ１１、読み出し専用の記憶装置であるＲＯＭ１２、不揮発性の記憶装置である記憶部１３、および高速な読み書きが可能な記憶装置であるメモリ１４を備える。ＣＰＵ１１がＲＯＭ１２に格納されるプログラムをメモリ１４に展開して実行することで後述する演算を行う。

　演算装置１は、ＣＰＵ１１、ＲＯＭ１２、およびメモリ１４の組み合わせの代わりに書き換え可能な論理回路であるＦＰＧＡ（Field　Programmable　Gate　Array）や特定用途向け集積回路であるＡＳＩＣ（Application　Specific　Integrated　Circuit）により後述する機能を実現してもよい。また演算装置１は、ＣＰＵ１１、ＲＯＭ１２、およびメモリ１４の組み合わせの代わりに、異なる構成の組み合わせ、たとえばＣＰＵ１１、ＲＯＭ１２、メモリ１４とＦＰＧＡの組み合わせにより実現されてもよい。

　演算装置１はその機能として、代理モデル生成部４１と、代理モデル更新部４２と、評価シナリオ生成部４３と、計画案生成部４４と、外乱評価部４５と、厳密評価部５１と、簡易評価部５２と、を備える。これらの機能は前述のとおり、たとえばＣＰＵ１１がＲＯＭ１２に格納されるプログラムをメモリ１４に展開して実行することで実現されるので、図２ではこれらの機能を便宜的にメモリ１４の内部に記載している。

　演算装置１の記憶部１３には、作業指示２１と、環境パラメータ２２と、想定変動範囲２３と、許容予測誤差２４と、学習データ２５と、代理モデル情報２６と、代理モデル２７とが格納される。ただし代理モデル２７は図２に便宜的に記載しており、代理モデル２７の主要な構成は代理モデル情報２６である。詳しくは後述する。

　代理モデル生成部４１は、１または複数の代理モデル２７を生成する。代理モデル更新部４２は、代理モデル生成部４１が生成した代理モデル２７を更新する。評価シナリオ生成部４３は、現在時刻における環境パラメータ２２を取得し、所定の範囲内でランダムに変動させた評価シナリオを複数生成する。計画案生成部４４は、評価シナリオ生成部４３が生成した複数の評価シナリオと、簡易評価部５２とを用いて、暫定的な作業計画である暫定計画案と、暫定計画案の近似評価値とを算出する。

　厳密評価部５１は、不図示の厳密なモデルを用いて演算コストが高い高精度な評価を行う。厳密評価部５１はたとえばシミュレータであり、ピッキング作業における個々の商品のピッキング動作や、ピッキングのための移動などをシミュレートして、必要な作業時間を算出する。簡易評価部５２は、代理モデル２７を用いて演算コストが低い簡易な評価を行う。代理モデル２７は、シミュレーション評価を近似するニューラルネットワークなど、機械学習により実現してもよいし、厳密評価部５１よりも抽象的なシミュレーションモデルでもよいし、単純な数式でもよい。

　厳密評価部５１による評価は、簡易評価部５２との比較において精度が高い。簡易評価部５２による評価は、厳密評価部５１との比較において精度が低い。演算コストとはたとえば、計算量、計算時間、および計算に要する演算資源の量などの多少を意味する。たとえば厳密評価部５１と簡易評価部５２が同一の演算用ハードウエアを用いる場合には、厳密評価部５１は簡易評価部５２よりも評価の完了に長時間を要する。また仮に厳密評価部５１と簡易評価部５２とが同一の時間で評価を完了するためには、厳密評価部５１は簡易評価部５２よりも多くの演算資源を要する。具体的には厳密評価部５１と簡易評価部５２とが同一の時間で評価を完了するためには、厳密評価部５１は簡易評価部５２よりも多くの演算コアを使用することや、厳密評価部５１は簡易評価部５２よりも単位時間当たりの演算量が多い演算コアを用いる必要がある。

　仮に演算コストの制限がなければ、簡易評価部５２を利用する利点はなく常に厳密評価部５１を用いることが望ましい。しかし実際には演算コストの制限があるため、本実施の形態では厳密評価部５１と簡易評価部５２とを効率的に組み合わせて使用する。さらに本実施の形態では、簡易評価部５２を適宜改善および選択することで厳密評価部５１の精度の低さを補う。

　図３は、作業指示２１の一例を示す図である。この例では、作業指示２１には、作業指示ＩＤと、商品と、期限時刻と、出庫数との組合せが複数組含まれる。図３の最初のレコードでは、商品「Ａ」を「６」つ、「１７：００」までに用意することが指示されている。なお作業指示ＩＤは個別の作業指示を識別する識別子であり、作業指示２１に含まれなくてもよい。また、出庫数の代わりに同様の指示が繰り返されてもよく、たとえば商品「Ａ」と期限時刻「１７：００」が６レコード連続で記録されてもよい。

　図４は、環境パラメータ２２の一例を示す図である。環境パラメータ２２は、詳細パラメータと値との組合せが複数含まれる。具体的には環境パラメータ２２には、ＡＧＶの台数やピッキング速度などのパラメータが格納される。前述のように環境パラメータ２２は短い時間で変化するので、ここに示す環境パラメータ２２はあるタイミングでの値にすぎない。演算装置１は、不図示の他の装置から環境パラメータ２２を取得してもよいし、演算装置１に接続された不図示のセンサなどから環境パラメータ２２を構成する個々の値を取得してもよい。

　図５は、想定変動範囲２３の一例を示す図である。想定変動範囲２３には、環境パラメータ２２の詳細パラメータごとに、想定される変動範囲が記載される。なお、想定変動範囲２３の変動幅は、過去の詳細パラメータの統計情報に基づいて設定してもよいし、オペレータが任意に設定してもよい。なお、想定変動範囲２３の値は統計値や任意に設定した値にすぎないので、実際には環境パラメータ２２が想定変動範囲２３に記載されている範囲を超えて変動することもあり得る。ただし本実施の形態では、環境パラメータ２２が想定変動範囲２３を超えて変動することに対して積極的な対策を行わない。図５に示す例では、ＡＧＶ台数が±２台であること、ピッキング速度が±２０個／時であること、などが示されている。

　図６は、許容予測誤差情報Ｇ４の一例を示す図である。許容予測誤差情報Ｇ４は、許容可能な厳密評価部５１と簡易評価部５２との予測誤差の範囲を定めている。許容予測誤差情報Ｇ４の値はたとえば、オペレータが任意に設定する。図６の最初のレコードでは、全作業の完了に要する所要時間が±３０分以内であれば許容されることが記載されている。なおこの「所要時間」は、「作業時間」や「処理時間」と呼ぶこともできる。図６の２つ目のレコードには、納期までの余裕時間が±１５％であれば許容されることが記載されている。

　図７は、学習データ２５の一例を示す図である。学習データ２５には、代理モデル２７の生成に用いられるデータが格納される。学習データ２５には、予めデータが格納されてもよいし、後述する代理モデル生成処理が開始される時点では空、すなわち何もデータが格納されていなくてもよい。学習データ２５には、代理モデル生成処理と後述する更新処理によりデータが追加される。

　学習データ２５には、複数のサンプルが含まれる。それぞれのサンプルには、厳密評価部５１への入力と厳密評価部５１の出力が含まれる。図７に示す例では、学習データ２５の各レコードは、サンプルを識別するサンプルＩＤ、厳密評価部５１への入出力の区別を示すデータ属性、データ名、およびデータ値が含まれる。同一のサンプルＩＤを有する学習データ２５のレコードであって、データ属性が「入力」であるレコードの情報は、同一のタイミングで厳密評価部５１に入力される。

　学習データ２５におけるデータ名とデータ値の組合せは、作業指示２１のあるレコードに対応する。サンプルＩＤの相違は、環境パラメータの値が異なることを示している。なお図７には示されていないが、それぞれのサンプルＩＤに対応する環境パラメータの具体的な値も別途記録されている。

　図８は、代理モデル情報２６の一例を示す図である。代理モデル情報２６には、学習データ２５を用いて生成された代理モデル２７の情報である内部パラメータの名称とその値が格納される。図８に示す例では、代理モデル情報２６には内部パラメータを識別する内部パラメータＩＤごとに、そのパラメータ値の情報が格納される。

　不図示の代理モデル２７に関する情報と、代理モデル情報２６とを組み合わせることで、代理モデル２７が構成される。代理モデル２７はたとえばニューラルネットワークであり、不図示の代理モデル２７の構成に関する情報と、代理モデル情報２６に格納されたパラメータとが組み合わされることで代理モデル２７を用いた演算が可能となる。またたとえば代理モデル２７は多項式であり、不図示の多項式の数式と、代理モデル情報２６に格納された多項式中の係数の値とが組み合わされることで代理モデル２７を用いた演算が可能となる。以上が記憶部１３に格納される情報の説明である。

（演算装置の処理の概要）
　図９は、演算装置１による処理の概要を示すフローチャートである。まずステップＳ３１では、代理モデル生成部４１が代理モデル２７を生成する。この処理は作業指示２１を受信する前にあらかじめ実行しておく。次にステップＳ３２において演算装置１は、外部から作業指示２１、たとえば商品名と期限時刻のリストを取得する。次にステップＳ３３において、評価シナリオ生成部４３は、その時刻ｔにおける環境パラメータ２２の値を取得し、この値を基準としてランダムに変化させた複数の仮想的な環境パラメータ（以下、「評価シナリオ」と呼ぶ）を生成する。

　続くステップＳ３４では計画案生成部４４は、代理モデル２７を用いて最適な作業計画（以下では「暫定作業計画」と呼ぶ）を算出し、さらに評価シナリオに暫定作業計画を適用した場合の平均所要時間を代理モデル２７を用いて算出する。ここでいう「最適」とは、ステップＳ３３において生成した複数の環境パラメータに対しても平均的に所要時間が短い、という意味である。なお本ステップにおいて算出する平均所要時間は、代理モデル２７を用いて算出するため「代理所要時間」とも呼ぶ。

　続くステップＳ３５では厳密評価部５１は、評価シナリオにステップＳ３４において算出した暫定作業計画を適用した場合の平均所要時間を算出する。すなわち厳密評価部５１は、評価シナリオに含まれる環境パラメータ２２の数と同じ回数の演算を行ってそれぞれの所要時間を算出し、それらの平均値を算出する。なお本ステップにおいて算出する平均所要時間は、厳密評価部５１を用いて算出するため「厳密所要時間」とも呼ぶ。

　続くステップＳ３６では計画案生成部４４は、ステップＳ３４において算出された暫定作業計画の平均所要時間と、ステップＳ３５において算出された暫定作業計画の平均所要時間との差が閾値以内であるか否かを判断する。換言すると、本ステップにおいて計画案生成部４４は、代理所要時間と厳密所要時間との差が閾値以内であるか否かを判断する。

　計画案生成部４４は、２つの平均所要時間の差が閾値以内であると判断する場合は、ステップＳ３７に進んで暫定作業計画を出力して図９の処理を終了する。計画案生成部４４は、２つの平均所要時間の差が閾値以上であると判断する場合はステップＳ３８に進む。

　ステップＳ３８では代理モデル更新部４２は、ステップＳ３５における厳密評価部５１への入力および同ステップにおける厳密評価部５１の出力を学習データ２５に追加し、さらにこの学習データ２５を用いて代理モデル２７を更新してステップＳ３４に戻る。代理モデル２７の更新とは、代理モデル情報２６におけるパラメータ値の更新である。なお、ステップＳ３８から遷移して実行されるステップＳ３４では、初回のステップＳ３４とは異なる、更新された代理モデル２７が使用される。更新された代理モデル２７の学習データ２５には、これから行う演算で用いる環境パラメータ２２および作業指示２１と同一のデータが含まれるため、更新前の学習データ２５よりも精度が高まる蓋然性が高い。以上が図９の説明である。

　図１０は、代理モデル生成部４１による代理モデル生成処理を示すフローチャートである。図１０は、図９に示したステップＳ３１の詳細を示す。ステップＳ３１１では代理モデル生成部４１は、環境パラメータ２２の基準値および変動範囲を決定する。代理モデル生成部４１は、想定変動範囲２３に記載された変動範囲を採用してもよいし、環境パラメータ２２に含まれるいずれかの詳細パラメータの値をランダムに決定してもよい。代理モデル生成部４１はたとえば環境パラメータ２２の基準値として、ピッキング速度を１時間当たり１５０個、ＡＧＶの台数を２０台、ＡＧＶの速度を時速１０ｋｍとする。また、環境パラメータ２２の変動範囲として、ピッキング速度を±５０個／時、ＡＧＶの台数を±５台、ＡＧＶの速度を±時速２ｋｍとする。

　続くステップＳ３１２では代理モデル生成部４１は、ステップＳ３０１において決定した変動範囲で環境パラメータ２２をランダムに生成する。たとえばステップＳ３０２において、ピッキング速度、ＡＧＶの台数、およびＡＧＶの速度のそれぞれをランダムに１０個算出した場合には環境パラメータ２２は１０の３乗で１０００通り算出される。

　続くステップＳ３１３では代理モデル生成部４１は、実行計画、すなわち作業指示および作業順序をランダムに複数生成する。続くステップＳ３１４では代理モデル生成部４１は、ステップＳ３０２において生成した複数の環境パラメータ２２と、ステップＳ３０３において生成した複数の実行計画とを組み合わせて厳密評価部５１に入力し、それぞれの所要時間を算出する。たとえば、ステップＳ３０２において生成した環境パラメータ２２が１０００通りあり、ステップＳ３０３において生成した実行計画が１００通りある場合には、ステップＳ３０４では厳密評価部５１は１万回の演算を行う。

　ステップＳ３１５では代理モデル生成部４１は、ステップＳ３０４において厳密評価部５１に入力した環境パラメータ２２および実行計画と、その際に厳密評価部５１が出力した所要時間とを１組の学習データとしてまとめる。前述の例では、学習データが１万組得られる。続くステップＳ３１６では代理モデル生成部４１は、ステップＳ３０５において得られた複数の学習データを用いて代理モデル２７を生成する。実行計画をＸ、環境パラメータ２２をθ、所要時間をＹと置くと、代理モデル２７は次の式１における関数ｆに相当する。

　　　Ｙ≒ｆ（Ｘ、θ）　・・・・（式１）

　代理モデル２７は、シミュレーション評価を近似するニューラルネットワークなど、機械学習により実現してもよいし、厳密評価部５１よりも抽象的なシミュレーションモデルでもよいし、単純な数式でもよい。以上が代理モデル生成処理の説明である。

　図１１は、評価シナリオ生成部４３による評価シナリオ生成処理を示すフローチャートである。図１１は、図９に示したステップＳ３３の詳細を示す。ステップＳ３３１では評価シナリオ生成部４３は、現在の環境パラメータ２２の値を取得する。続くステップＳ３３２では評価シナリオ生成部４３は、環境パラメータ２２の変動範囲を決定する。たとえば評価シナリオ生成部４３は、想定変動範囲２３に記載された値を採用する。

　続くステップＳ３３３では評価シナリオ生成部４３は、環境パラメータ２２の値をステップＳ３３１において取得した値を中心として、ステップＳ３３２において決定した範囲でランダムに生成する。たとえばステップＳ３３１において取得した詳細パラメータ「ピッキング速度」の値が「１５０」であり、ステップＳ３３２において決定した「ピッキング速度」の範囲が「±３０」の場合には、「１５０」を中心とした「±３０」の範囲、すなわち「１２０」～「１８０」の範囲でランダムに複数の値を決定する。

　続くステップＳ３３４では評価シナリオ生成部４３は、ステップＳ３３３において決定した複数の環境パラメータ２２をまとめて、評価シナリオとして記憶部１３に保存する。評価シナリオに含まれる環境パラメータ２２の数は特に限定されない。たとえば、ステップＳ３３３において決定したそれぞれの詳細パラメータの値を全とおり組み合わせてもよい。以上が評価シナリオ生成処理の説明である。

　図１２は、計画案生成部４４による計画案算出処理を示すフローチャートである。図１２は、図９に示したステップＳ３４の詳細を示す。ステップＳ３４１では計画案生成部４４は、作業計画をランダムに生成してステップＳ３４２に進む。ステップＳ３４２では計画案生成部４４は、ステップＳ３４１においてランダム生成した作業指示から未選択の作業計画を１つ選択してステップＳ３４３に進む。

　ステップＳ３４３では計画案生成部４４は、評価シナリオの中から未選択の環境パラメータ２２を１つ選択する。続くステップＳ３４４では計画案生成部４４は、ステップＳ３４２において選択した環境パラメータ２２と、ステップＳ３４２において選択した作業計画とを代理モデル２７に入力する。厳密には計画案生成部４４は、代理モデル２７を用いて演算を行う簡易評価部５２に環境パラメータ２２および作業計画を入力する。続くステップＳ３４５では、ステップＳ３４４において代理モデル２７が算出した想定所要時間を一時記録する。

　続くステップＳ３４６では計画案生成部４４は、評価シナリオに含まれる全ての環境パラメータ２２をステップＳ３４３において選択したか否かを判断する。計画案生成部４４は、全ての環境パラメータ２２を選択したと判断する場合はステップＳ３４７に進み、１つでも未選択の環境パラメータ２２が存在すると判断する場合はステップＳ３４３に戻る。すなわち本ステップにおいて肯定判断がされる場合は、ある作業計画について評価シナリオに含まれる全ての環境パラメータ２２に対応する想定所要時間が全て算出済みの状況である。

　ステップＳ３４７では計画案生成部４４は、これまでにステップＳ３４５において一時記録した想定所要時間の平均値を算出して記録する。平均値の記録が完了すると、ステップＳ３４５において一時記録した値は全て消去される。

　続くステップＳ３４８では計画案生成部４４は、ステップＳ３４１においてランダム生成した全ての作業計画を、ステップＳ３４２において選択したか否かを判断する。計画案生成部４４は、全ての作業計画を選択したと判断する場合はステップＳ３４９に進み、１つでも未選択の作業計画が存在すると判断する場合はステップＳ３４２に戻る。なお本ステップにおいて否定判断をした場合には、環境パラメータ２２の選択状況はリセットされ、これまでにいずれの環境パラメータ２２も選択されていないとみなされる。

　ステップＳ３４９では計画案生成部４４は、暫定作業計画の設定、および暫定作業計画の代理モデルによる平均所要時間を特定する。具体的には計画案生成部４４は、まず、ステップＳ３４７において記録した平均値から最小値を特定し、その最小の平均値に対応する作業計画を暫定作業計画に設定する。以上が図１２の説明である。

　上述した第１の実施の形態によれば、次の作用効果が得られる。
（１）演算装置１は、変動する環境に関する情報を環境パラメータ２２として表現可能な環境において、所定の作業に関する作業計画を作成する。演算装置１は、所定の作業に関する所要時間を算出する厳密評価部５１と、最新の環境パラメータ２２に基づき複数の環境パラメータ２２を評価シナリオとして生成する評価シナリオ生成部４３と、学習データ２５を用いて、厳密評価部５１よりも簡易に所定の作業に関する所要時間を算出するための代理モデル２７を作成する代理モデル生成部４１と、代理モデル２７を用いて所要時間を算出し、複数の環境パラメータ２２のいずれにも適する作業計画である暫定作業計画を算出する計画案生成部４４と、厳密評価部５１を用いて算出された時間であり、暫定作業計画における所定の作業に要する所要時間である厳密所要時間と、代理モデル２７を用いて算出された時間であり暫定作業計画における所定の作業に要する所要時間である代理所要時間との差が所定の閾値以上の場合に、暫定作業計画および厳密所要時間を用いて代理モデル２７を更新する、代理モデル更新部４２とを備える。そのため、代理モデル２７の精度が低く、代理モデル２７を用いた計算結果と厳密評価部５１を用いた計算結果に乖離がある場合に、厳密評価部５１の計算結果を用いて代理モデル２７を更新し、簡易な計算に用いる代理モデル２７の精度を向上できる。

（２）環境パラメータ２２には、所定の作業を実行する速度、すなわちピッキング速度の情報が含まれる。評価シナリオ生成部４３は、環境パラメータ２２を変動させる範囲が記載された想定変動範囲２３に基づき、評価シナリオを生成する。

（変形例１）
　上述した第１の実施の形態では、演算装置１は１つのハードウエア装置として説明した。しかし演算装置１は複数のハードウエアから構成されてもよく、各機能が異なるコンピュータにより実現されてもよい。この場合には、演算装置１の機能はネットワークにより接続され物理的に離れた場所に存在する複数のハードウエアにより実現されてもよい。

―第２の実施の形態―
　図１３～図１４を参照して、演算装置の第２の実施の形態を説明する。以下の説明では、第１の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第１の実施の形態と同じである。本実施の形態では、主に、計算中に環境パラメータが大きく変動すると計算をやり直す点で第１の実施の形態と異なる。

　図１３は、第２の実施の形態における演算装置１Ａの構成図である。演算装置１Ａは、第１の実施の形態における構成に加えて、外乱評価部４５をさらに備える。外乱評価部４５は、計画案生成部４４の動作開始時における環境パラメータ２２と、現在の環境パラメータ２２との乖離を評価する。

　図１４は、第２の実施の形態における演算装置１Ａの処理の概要を示すフローチャートである。第１の実施の形態における図９との相違点は、ステップＳ３４とＳ３５との間にステップＳ３９が追加された点である。ステップＳ３９では外乱評価部４５は、ステップＳ３３の最初、すなわち図１１のステップＳ３３１において取得した環境パラメータ２２の値と、最新の環境パラメータ２２の値とを比較し、環境パラメータ２２の値がステップＳ３３の実行時から大きく変動したか否かを判断する。外乱評価部４５は、大きく変動したと判断する場合はステップＳ３３に戻り、大きくは変動していないと判断する場合はステップＳ３５に進む。環境パラメータ２２の変動が大きいか否かを判断する基準は、詳細パラメータごとに別途個別に定められてもよいし、想定変動範囲２３の値を用いてもよい。

　上述した第２の実施の形態によれば、次の作用効果が得られる。
（３）評価シナリオ生成部４３は、最新の環境パラメータ２２である開始時環境パラメータに基づき評価シナリオを生成する。計画案生成部４４は、評価シナリオを用いた暫定作業計画の算出が完了した際の環境パラメータ２２である完了時環境パラメータと、開始時環境パラメータとの差が所定の閾値以上である場合には、最新の環境パラメータ２２を用いて評価シナリオ生成部４３に評価シナリオを作成させ、再び暫定作業計画を算出する。そのため、環境パラメータ２２は短い時間で変動するため完全に一致する環境パラメータ２２の値を用いた計算は不可能であるが、計画案生成部４４が計画案を生成している最中に環境パラメータ２２が大きく変動した場合には改めて計画案を生成するので、実際とは乖離が小さい環境パラメータ２２を用いた計画案が生成できる。

（第２の実施の形態の変形例）
　計算開始からの経過時間が所定の閾値を超えた場合に暫定作業計画の算出をやり直してもよい。たとえば図１４のステップＳ３９においてさらに、ステップＳ３３の処理を開始してからの経過時間が所定の時間を超えた場合に肯定判断してステップＳ３３に戻るように変更してもよい。またステップＳ３５の直後において、ステップＳ３３の処理を開始してからの経過時間が所定の時間を超えた場合に、ステップＳ３３に戻る分岐を追加してもよい。

―第３の実施の形態―
　図１５～図１９を参照して、演算装置の第３の実施の形態を説明する。以下の説明では、第１の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第１の実施の形態と同じである。本実施の形態では、主に、複数の代理モデルを使い分ける点で、第１の実施の形態と異なる。

　図１５は、第３の実施の形態における演算装置１Ｂの構成図である。演算装置１Ａは、第１の実施の形態における構成に加えて、記憶部１３にパラメータ区分２８がさらに格納される。また、記憶部１３には学習データ２５および代理モデル情報２６の代わりに学習データ２５Ａおよび代理モデル情報２６Ａが格納される。

　代理モデル２７は厳密評価部５１に比べると計算量が少ない利点を有するが、環境パラメータ２２の値が変化すると計算の精度が低下する傾向にある。そのため、予め複数の代理モデル２７を生成しておき環境パラメータ２２の値に応じてそれらの代理モデル２７を使い分ける。本実施の形態では、環境パラメータ２２の値を予め複数の区分に分け、区分ごとにデータセットを形成する。そしてこのデータセットごとに代理モデルを生成する。記憶部１３には、環境パラメータ２２の区分を示す情報がパラメータ区分２８として保存される。本実施の形態では、代理モデル２７が複数生成されるので、これら複数の代理モデル２７を生成するための学習データ２５Ａおよび代理モデル情報２６Ａも第１の実施の形態と異なる。

　図１６は、パラメータ区分２８の一例を示す図である。パラメータ区分２８には、データセットＩＤと環境パラメータ２２の値の範囲との対応関係が示されている。たとえばデータセットＩＤ「ＤＳ００１」に対応する環境パラメータ２２の値の範囲は、ＡＧＶ台数が「８～１２台」、ピッキング速度が「８０～１２０個／時」である。次に示すデータセットＩＤ「ＤＳ００２」に対応する環境パラメータ２２の値の範囲は、ピッキング速度は同一であるが、ＡＧＶ台数が「１３～２０台」である点が１つ目のデータセットと異なる。なお、データセット同士の環境パラメータ２２の値は完全に一致がなければよく、値の範囲に重複があってもよい。

　図１７は、本実施の形態における学習データ２５Ａの一例を示す図である。第１の実施の形態における学習データ２５との相違点は、データセットＩＤの情報が追加されている点である。図１７に示す例では、環境パラメータ２２が同一の区分に含まれる２つのサンプルＩＤのデータが示されている。

　図１８は、本実施の形態における代理モデル情報２６Ａの一例を示す図である。第１の実施の形態における代理モデル情報２６との相違点は、代理モデルの識別子である代理モデルＩＤ、およびその代理モデルの生成に使用されたデータセットを示すデータセットＩＤが追加されている点である。

　図１９は、第３の実施の形態における演算装置１Ｂの処理の概要を示すフローチャートである。第１の実施の形態における図９との相違点は、ステップＳ３３とＳ３４との間にステップＳ３９１が追加された点である。ステップＳ３９１では計画案生成部４４は、最適な代理モデル２７を選択肢、ステップＳ３４以降ではその代理モデル２７を用いる。

　本ステップにおける計画案生成部４４の具体的な処理は次のとおりである。まず計画案生成部４４は、現在の環境パラメータ２２の値を読み取り、パラメータ区分２８において現在の環境パラメータ２２の値が含まれる範囲に対応するデータセットＩＤを特定する。そして計画案生成部４４は、代理モデル情報２６Ａを参照して特定したデータセットＩＤに対応する代理モデル２７の内部パラメータの値を読み取り、代理モデル２７を使用する。

　上述した第３の実施の形態によれば、次の作用効果が得られる。
（ＣＬ４）評価シナリオ生成部４３は、環境パラメータの値の範囲が異なる評価シナリオを複数生成する。代理モデル生成部４１は、評価シナリオのそれぞれに対応する代理モデル２７を生成し、計画案生成部４４は、環境パラメータ２２の値に応じていずれかの代理モデル２７を選択する。そのため、状況にあわせて代理モデル２７を選択することで、計算の精度を向上することができる。

（第３の実施の形態の変形例）
　第２の実施の形態における構成と、第３の実施の形態における構成とを組み合わせてもよい。この場合には、計画案生成部４４が最適な代理モデル２７を用いて演算を行う利点、および計画案生成部４４の処理中に環境パラメータ２２が大きく変動した場合には再計算を行える利点がある。なおこの場合には、ステップＳ３９における判断にパラメータ区分２８を用いることができる。

　図２０は、本変形例における演算装置１Ｂの処理の概要を示すフローチャートである。ただし図２０では、作図の都合により開始からステップＳ３１までの記載を省略している。本フローチャートを第１の実施の形態における図９と比較すると、ステップＳ３３とステップＳ３４との間にステップＳ３９１が追加され、さらにステップＳ３４とステップＳ３５との間にステップＳ３９が追加されている。

　上述した各実施の形態および変形例において、機能ブロックの構成は一例に過ぎない。別々の機能ブロックとして示したいくつかの機能構成を一体に構成してもよいし、１つの機能ブロック図で表した構成を２以上の機能に分割してもよい。また各機能ブロックが有する機能の一部を他の機能ブロックが備える構成としてもよい。

　上述した各実施の形態および変形例において、プログラムはＲＯＭ１２に格納されるとしたが、プログラムは記憶部１３に格納されていてもよい。また、演算装置１が不図示の入出力インタフェースを備え、必要なときに入出力インタフェースと演算装置１が利用可能な媒体を介して、他の装置からプログラムが読み込まれてもよい。ここで媒体とは、例えば入出力インタフェースに着脱可能な記憶媒体、または通信媒体、すなわち有線、無線、光などのネットワーク、または当該ネットワークを伝搬する搬送波やディジタル信号、を指す。また、プログラムにより実現される機能の一部または全部がハードウエア回路やＦＰＧＡにより実現されてもよい。

　上述した各実施の形態および変形例は、それぞれ組み合わせてもよい。上記では、種々の実施の形態および変形例を説明したが、本発明はこれらの内容に限定されるものではない。本発明の技術的思想の範囲内で考えられるその他の態様も本発明の範囲内に含まれる。

１、１Ａ、１Ｂ…演算装置
１３…記憶部
１４…メモリ
２１…作業指示
２２…環境パラメータ
２３…想定変動範囲
２４…許容予測誤差
２５、２５Ａ…学習データ
２６、２６Ａ…代理モデル情報
２７…代理モデル
２８…パラメータ区分
４１…代理モデル生成部
４２…代理モデル更新部
４３…評価シナリオ生成部
４４…計画案生成部
４５…外乱評価部
５１…厳密評価部
５２…簡易評価部

Claims

　変動する環境に関する情報を環境パラメータとして表現可能な環境において、所定の作業に関する作業計画を作成する演算装置であって、
　前記所定の作業に関する所要時間を算出する厳密評価部と、
　最新の前記環境パラメータに基づき複数の前記環境パラメータを評価シナリオとして生成する評価シナリオ生成部と、
　学習データを用いて、前記厳密評価部よりも簡易に前記所定の作業に関する所要時間を算出するための代理モデルを作成する代理モデル生成部と、
　前記代理モデルを用いて前記所要時間を算出し、前記複数の環境パラメータのいずれにも適する前記作業計画である暫定作業計画を算出する計画案生成部と、
　前記厳密評価部を用いて算出された時間であり、前記暫定作業計画における前記所定の作業に要する所要時間である厳密所要時間と、前記代理モデルを用いて算出された時間であり前記暫定作業計画における前記所定の作業に要する所要時間である代理所要時間との差が所定の閾値以上の場合に、前記暫定作業計画および前記厳密所要時間を用いて前記代理モデルを更新する、代理モデル更新部とを備える、演算装置。
　請求項１に記載の演算装置において、
　前記環境パラメータには、前記所定の作業を実行する速度の情報が含まれ、
　前記評価シナリオ生成部は、前記環境パラメータを変動させる範囲が記載された環境パラメータ変動情報に基づき、前記評価シナリオを生成する、演算装置。
　請求項１に記載の演算装置において、
　前記評価シナリオ生成部は、最新の前記環境パラメータである開始時環境パラメータに基づき前記評価シナリオを生成し、
　前記計画案生成部は、前記評価シナリオを用いた前記暫定作業計画の算出が完了した際の前記環境パラメータである完了時環境パラメータと、前記開始時環境パラメータとの差が所定の閾値以上である場合には、最新の前記環境パラメータを用いて前記評価シナリオ生成部に前記評価シナリオを作成させ、再度前記暫定作業計画を算出する、演算装置。
　請求項１に記載の演算装置において、
　前記評価シナリオ生成部は、前記環境パラメータの値の範囲が異なる前記評価シナリオを複数生成し、
　前記代理モデル生成部は、前記評価シナリオのそれぞれに対応する前記代理モデルを生成し、
　前記計画案生成部は、前記環境パラメータの値に応じていずれかの前記代理モデルを選択する、演算装置。
　変動する環境に関する情報を環境パラメータとして表現可能な環境を対象として、所定の作業に関する作業計画を演算装置が作成する、作業計画の作成方法であって、
　前記所定の作業に関する所要時間を算出する厳密評価処理と、
　最新の前記環境パラメータに基づき複数の前記環境パラメータを評価シナリオとして生成する評価シナリオ生成処理と、
　学習データを用いて、前記厳密評価処理よりも簡易に前記所定の作業に関する演算を行うための代理モデルを作成する代理モデル生成処理と、
　前記代理モデルを用いて前記所定の作業に関する演算を行い、前記複数の環境パラメータのいずれにも適する前記作業計画である暫定作業計画を算出する計画案生成処理と、
　前記厳密評価処理により算出された時間であり、前記暫定作業計画における前記所定の作業に要する所要時間である厳密所要時間と、前記代理モデルを用いて算出された時間であり前記暫定作業計画における前記所定の作業に要する所要時間である代理所要時間との差が所定の閾値以上の場合に、前記暫定作業計画および前記厳密所要時間を用いて前記代理モデルを更新する、代理モデル更新処理とを含む、作業計画の作成方法。
　変動する環境に関する情報を環境パラメータとして表現可能な環境において、所定の作業に関する作業計画を作成する演算システムであって、
　前記所定の作業に関する所要時間を算出する厳密評価部と、
　最新の前記環境パラメータに基づき複数の前記環境パラメータを評価シナリオとして生成する評価シナリオ生成部と、
　学習データを用いて、前記厳密評価部よりも簡易に前記所定の作業に関する演算を行うための代理モデルを作成する代理モデル生成部と、
　前記代理モデルを用いて前記所定の作業に関する演算を行い、前記複数の環境パラメータのいずれにも適する前記作業計画である暫定作業計画を算出する計画案生成部と、
　前記厳密評価部を用いて算出された時間であり、前記暫定作業計画における前記所定の作業に要する所要時間である厳密所要時間と、前記代理モデルを用いて算出された時間であり前記暫定作業計画における前記所定の作業に要する所要時間である代理所要時間との差が所定の閾値以上の場合に、前記暫定作業計画および前記厳密所要時間を用いて前記代理モデルを更新する、代理モデル更新部とを備える、演算システム。