JP2020144720A - Machine learning program, machine learning method, and machine learning device - Google Patents

Machine learning program, machine learning method, and machine learning device Download PDF

Info

Publication number
JP2020144720A
JP2020144720A JP2019042111A JP2019042111A JP2020144720A JP 2020144720 A JP2020144720 A JP 2020144720A JP 2019042111 A JP2019042111 A JP 2019042111A JP 2019042111 A JP2019042111 A JP 2019042111A JP 2020144720 A JP2020144720 A JP 2020144720A
Authority
JP
Japan
Prior art keywords
sample
harvest
prediction model
date
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019042111A
Other languages
Japanese (ja)
Other versions
JP7208503B2 (en
Inventor
由信 飯村
Yoshinobu Iimura
由信 飯村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019042111A priority Critical patent/JP7208503B2/en
Publication of JP2020144720A publication Critical patent/JP2020144720A/en
Application granted granted Critical
Publication of JP7208503B2 publication Critical patent/JP7208503B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

To generate a predictive model with improved accuracy of harvest prediction of crops.SOLUTION: Training data including a plurality of records in which information on growing environment of sample agricultural products and required days from a reference date to a harvest date are associated with each other, and total number data showing an achievement distribution of the number of harvest relative to a harvest date for a crop set including a sample crop and other crops are acquired. A prediction model for calculating a probability distribution of a required number of days from information on growth environment is generated, and learning processing is started for repeating updating of the prediction model by evaluating an error of a probability distribution using the training data. In the middle of the learning processing, a plurality of probability distributions calculated by the predictive model from information on training environment indicated by a plurality of records are combined to calculate a predicted distribution of a harvest number relative to the harvest date, and a stop timing of the learning processing is determined based on a similarity degree between the predicted distribution and the achievement distribution.SELECTED DRAWING: Figure 9

Description

本発明は機械学習プログラム、機械学習方法および機械学習装置に関する。 The present invention relates to machine learning programs, machine learning methods and machine learning devices.

コンピュータを利用したデータ分析として、機械学習が行われることがある。機械学習では、結果が既知である複数の事例を示す訓練データをコンピュータに入力する。コンピュータは、訓練データを分析して、要因(説明変数や独立変数と言うことがある)と結果(目的変数や従属変数と言うことがある)との間の関係を一般化した予測モデルを生成する。生成された予測モデルを用いることで、未知の結果を予測することができる。 Machine learning may be performed as data analysis using a computer. In machine learning, training data showing multiple cases with known results is input to a computer. The computer analyzes the training data to generate a predictive model that generalizes the relationship between factors (sometimes referred to as explanatory or independent variables) and outcomes (sometimes referred to as objective or dependent variables). To do. By using the generated prediction model, unknown results can be predicted.

機械学習は、農作物の収穫予測に用いられることがある。例えば、農作物の最適収穫日を予測する予測装置が提案されている。提案の予測装置は、収穫前の異なる複数の日に撮像された農作物の画像と、当該農作物が実際に収穫された収穫日とを含む教師データを収集する。予測装置は、教師データから機械学習により予測モデルを生成し、予測モデルに対象の農作物の画像を入力して対象の農作物の収穫日を予測する。 Machine learning may be used to predict crop yields. For example, a predictor that predicts the optimum harvest date of agricultural products has been proposed. The proposed predictor collects teacher data including images of crops taken on different days before harvesting and the harvest dates when the crops were actually harvested. The prediction device generates a prediction model by machine learning from the teacher data, inputs an image of the target crop into the prediction model, and predicts the harvest date of the target crop.

特開2018−169993号公報Japanese Unexamined Patent Publication No. 2018-169993

農作物の収穫予測を可能とする機械学習では、気温や日射量などの育成環境を説明変数とし、着果日などの基準日から収穫日までの所要日数を目的変数とする予測モデルを生成することが考えられる。しかし、農作物は、同じ育成環境のもとで育てても成長速度が異なるという個体差をもっている。特に、一部の種類の農作物は個体差が大きい。これに対して、一般的な機械学習は、説明変数の1つの値に対して目的変数の1つの期待値(最も可能性が高い値)を算出する予測モデルを生成する。その結果、実際は収穫日にばらつきが生じるにもかかわらず、予測モデルによれば多くの農作物の予測収穫日が特定の日に集中することになり、実情から乖離した予測結果となってしまうおそれがある。 In machine learning that enables crop harvest prediction, a prediction model is generated with the growing environment such as temperature and solar radiation as the explanatory variable and the required number of days from the reference date such as the fruit set date to the harvest date as the objective variable. Can be considered. However, crops have individual differences in that the growth rate differs even if they are grown in the same growing environment. In particular, some types of crops have large individual differences. On the other hand, general machine learning generates a prediction model that calculates one expected value (most likely value) of the objective variable for one value of the explanatory variable. As a result, despite the fact that the harvest dates vary, the forecast model shows that the forecast harvest dates for many crops are concentrated on specific days, which may lead to forecast results that deviate from the actual situation. is there.

1つの側面では、本発明は、農作物の収穫予測の精度が向上した予測モデルを生成する機械学習プログラム、機械学習方法および機械学習装置を提供することを目的とする。 In one aspect, it is an object of the present invention to provide machine learning programs, machine learning methods and machine learning devices that generate prediction models with improved accuracy of crop yield prediction.

1つの態様では、コンピュータに以下の処理を実行させる機械学習プログラムが提供される。それぞれ標本農作物の育成環境の情報と所定の状態が観測された基準日から標本農作物の収穫日までの所要日数とを対応付けた複数のレコードを含む訓練データと、複数のレコードが示す複数の標本農作物および他の農作物を含む農作物集合について収穫日に対する収穫数の実績分布を示す総数データとを取得する。育成環境の情報から所要日数の確率分布を算出する予測モデルを生成し、訓練データを用いて、予測モデルにより算出される確率分布の誤差を評価して予測モデルを更新することを繰り返す学習処理を開始する。学習処理の途中において、複数のレコードが示す育成環境の情報から予測モデルにより算出される複数の確率分布を合成して、収穫日に対する収穫数の予測分布を算出し、予測分布と総数データが示す実績分布との間の類似度に基づいて、学習処理の停止タイミングを判定する。 In one aspect, a machine learning program is provided that causes a computer to perform the following processes: Training data including a plurality of records in which information on the growing environment of the sample crop and the required number of days from the reference date when the predetermined state was observed to the harvest date of the sample crop are associated with each other, and a plurality of samples indicated by the plurality of records. Acquire total number data showing the actual distribution of the number of crops with respect to the harvest date for crop sets including crops and other crops. A learning process that generates a prediction model that calculates the probability distribution of the required number of days from the information of the breeding environment, evaluates the error of the probability distribution calculated by the prediction model using training data, and updates the prediction model repeatedly. Start. In the middle of the learning process, multiple probability distributions calculated by the prediction model are synthesized from the information on the breeding environment shown by multiple records to calculate the predicted distribution of the number of harvests for the harvest date, and the predicted distribution and the total number data show. The stop timing of the learning process is determined based on the degree of similarity with the actual distribution.

また、1つの態様では、コンピュータが実行する機械学習方法が提供される。また、1つの態様では、記憶部と処理部とを有する機械学習装置が提供される。 Also, in one aspect, a computer-executed machine learning method is provided. Further, in one aspect, a machine learning device having a storage unit and a processing unit is provided.

1つの側面では、農作物の収穫予測の精度が向上した予測モデルを生成できる。 In one aspect, it is possible to generate a prediction model with improved accuracy of crop yield prediction.

第1の実施の形態の機械学習装置の例を説明する図である。It is a figure explaining the example of the machine learning apparatus of 1st Embodiment. 第2の実施の形態の情報処理システムの例を示す図である。It is a figure which shows the example of the information processing system of the 2nd Embodiment. 機械学習装置のハードウェア例を示す図である。It is a figure which shows the hardware example of the machine learning apparatus. 収穫予測のデータフローの例を示す図である。It is a figure which shows the example of the data flow of the harvest prediction. 期待値を出力する予測モデルの使用例を示す図である。It is a figure which shows the use example of the prediction model which outputs an expected value. 確率分布を出力する予測モデルの使用例を示す図である。It is a figure which shows the use example of the prediction model which outputs a probability distribution. 学習不足の予測モデルの使用例を示す図である。It is a figure which shows the use example of the prediction model of under-learning. 過学習した予測モデルの使用例を示す図である。It is a figure which shows the use example of the overfitting prediction model. 機械学習の停止タイミング例を示す図である。It is a figure which shows the stop timing example of machine learning. 機械学習のデータフローの例を示す図である。It is a figure which shows the example of the data flow of machine learning. 機械学習装置の機能例を示すブロック図である。It is a block diagram which shows the functional example of the machine learning apparatus. 気象データと標本データと総数データのテーブル例を示す図である。It is a figure which shows the table example of the meteorological data, the sample data, and the total number data. 訓練データテーブルの例を示す図である。It is a figure which shows the example of the training data table. 機械学習の手順例を示すフローチャートである。It is a flowchart which shows the procedure example of machine learning. 機械学習の手順例を示すフローチャート(続き)である。It is a flowchart (continued) which shows the procedure example of machine learning. 収穫予測の手順例を示すフローチャートである。It is a flowchart which shows the procedure example of a harvest prediction.

以下、本実施の形態を図面を参照して説明する。
[第1の実施の形態]
第1の実施の形態を説明する。
Hereinafter, the present embodiment will be described with reference to the drawings.
[First Embodiment]
The first embodiment will be described.

図1は、第1の実施の形態の機械学習装置の例を説明する図である。
第1の実施の形態の機械学習装置10は、農作物の収穫予測に用いる予測モデルを機械学習によって生成する。機械学習装置10を、情報処理装置やコンピュータと言うこともある。機械学習装置10は、クライアント装置でもよいしサーバ装置でもよい。
FIG. 1 is a diagram illustrating an example of a machine learning device according to the first embodiment.
The machine learning device 10 of the first embodiment generates a prediction model used for crop yield prediction by machine learning. The machine learning device 10 may also be referred to as an information processing device or a computer. The machine learning device 10 may be a client device or a server device.

機械学習装置10は、記憶部11および処理部12を有する。記憶部11は、RAM(Random Access Memory)などの揮発性の半導体メモリでもよいし、HDD(Hard Disk Drive)やフラッシュメモリなどの不揮発性ストレージでもよい。処理部12は、例えば、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)などのプロセッサである。ただし、処理部12は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの特定用途の電子回路を含んでもよい。プロセッサは、RAMなどのメモリ(記憶部11でもよい)に記憶されたプログラムを実行する。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。 The machine learning device 10 has a storage unit 11 and a processing unit 12. The storage unit 11 may be a volatile semiconductor memory such as a RAM (Random Access Memory) or a non-volatile storage such as an HDD (Hard Disk Drive) or a flash memory. The processing unit 12 is, for example, a processor such as a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), or a DSP (Digital Signal Processor). However, the processing unit 12 may include an electronic circuit for a specific purpose such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array). The processor executes a program stored in a memory such as RAM (may be a storage unit 11). A collection of multiple processors is sometimes referred to as a "multiprocessor" or simply a "processor."

記憶部11は、訓練データ13および総数データ14を記憶する。訓練データ13および総数データ14は、収穫済みの農作物に関する履歴データである。訓練データ13および総数データ14は、前年に収穫された農作物など過去に収穫された農作物の育成状況や収穫状況を示す。訓練データ13が示す農作物と総数データ14が示す農作物は、同じ年に収穫されたものである。訓練データ13および総数データ14は、1年分の農作物を示す単年データであってもよいし、複数年分の農作物が混在した複数年データであってもよい。農作物には果実が含まれ得る。果実は、野菜や果物など植物の食用の実であり、農家によって栽培される。農作物は、同じ育成環境で育てても成長に個体差があり、収穫可能日にばらつきが生じる。農作物は、パプリカなど成長の個体差が大きい種類でもよい。 The storage unit 11 stores the training data 13 and the total number data 14. The training data 13 and the total number data 14 are historical data regarding the harvested crops. The training data 13 and the total number data 14 show the growing status and the harvesting status of the crops harvested in the past such as the crops harvested in the previous year. The crops shown in the training data 13 and the crops shown in the total number data 14 were harvested in the same year. The training data 13 and the total number data 14 may be single-year data showing crops for one year, or may be multi-year data in which crops for a plurality of years are mixed. Agricultural crops can contain fruits. Fruits are edible fruits of plants such as vegetables and fruits, and are cultivated by farmers. Even if crops are grown in the same growing environment, there are individual differences in growth, and the harvestable dates vary. The crop may be a type such as paprika, which has a large individual difference in growth.

訓練データ13は、収穫された農作物全体(農作物集合)の一部である標本農作物に関する複数のレコードを含む。農作物集合のうち標本農作物は、育成状況や収穫状況について個別の詳細情報を収集したものである。農作物集合のうち他の農作物は、個別の詳細情報を収集しなかったものである。農作物集合に対する標本農作物の割合(標本割合)は、0.01%〜0.3%程度でよい。詳細情報の収集には手間がかかるためである。 The training data 13 includes a plurality of records relating to sample crops that are part of the entire harvested crop (crop set). Specimen crops in the crop set are a collection of individual detailed information on the growing and harvesting conditions. Other crops in the crop set did not collect individual details. The ratio of the sample crops to the crop set (sample ratio) may be about 0.01% to 0.3%. This is because it takes time and effort to collect detailed information.

訓練データ13に含まれる複数のレコードは、それぞれ、標本農作物の育成環境の情報と所要日数とを対応付けている。育成環境の情報は、気温や日射量など農作物の成長と相関のある指標を含む。例えば、育成環境の情報は、下記の基準日から収穫日までの間の平均気温および平均日射量を含む。ただし、農作物の成長と相関が認められれば、基準日より前の気温や日射量を用いてもよいし、累積気温や累積日射量を用いてもよい。標本農作物によって基準日が異なることがある。基準日が異なると、結果的にその標本農作物に対応付けられる育成環境の情報も変わることがある。所要日数は、標本農作物について所定の状態が観測された基準日から、当該標本農作物が収穫された収穫日までの日数である。例えば、基準日は、植物が実をつけたことが観測された日(着果日)である。ただし、基準日は、着果前に植物が所定の状態になった日でもよいし、着果後に標本農作物が所定の状態になった日でもよい。収穫管理が週単位で行われている場合、所要日数の単位が週であってもよい。 Each of the plurality of records included in the training data 13 associates information on the growing environment of the sample crop with the required number of days. Information on the growing environment includes indicators that correlate with the growth of crops, such as temperature and amount of solar radiation. For example, the information on the growing environment includes the average temperature and the average amount of solar radiation from the following reference date to the harvest date. However, if a correlation is found with the growth of the crop, the temperature and the amount of solar radiation before the reference date may be used, or the cumulative temperature and the cumulative amount of solar radiation may be used. The base date may differ depending on the sample crop. If the reference date is different, the information on the growing environment associated with the sample crop may change as a result. The required number of days is the number of days from the reference date when a predetermined state of the sample crop is observed to the harvest date when the sample crop is harvested. For example, the reference date is the day when the plant is observed to bear fruit (fruiting date). However, the reference date may be the day when the plant is in a predetermined state before fruit set, or the day when the sample crop is in a predetermined state after fruit set. If harvest management is performed on a weekly basis, the required number of days may be a week.

総数データ14は、訓練データ13が示す標本農作物および他の農作物を含む農作物集合について、収穫日に対する収穫数(収穫された農作物の個数)の実績分布を示す。各農作物は、十分に成長したと農家が判断した日に植物から切り離されて収穫される。着果日の違いや成長の個体差により、収穫日にばらつきが生じる。収穫管理が週単位で行われている場合、総数データ14は、収穫日の属する週に対する収穫数の実績分布を示してもよい。総数データ14は、出荷管理のために収集され、訓練データ13よりも収集の手間が少ない。 The total number data 14 shows the actual distribution of the number of harvests (the number of harvested crops) with respect to the harvest date for the crop set including the sample crop and other crops shown in the training data 13. Each crop is harvested separately from the plant on the day the farmer determines that it has grown sufficiently. Harvest dates vary due to differences in fruit set dates and individual differences in growth. When the harvest management is performed on a weekly basis, the total number data 14 may show the actual distribution of the number of harvests with respect to the week to which the harvest date belongs. The total number data 14 is collected for shipping management, and it takes less time to collect than the training data 13.

例えば、訓練データ13に含まれる1つのレコードは、特定の平均気温や平均日射量のもとで育成された標本農作物について、着果日から収穫日までの所要日数が8週間であったという情報を示す。また、訓練データ13に含まれる別のレコードは、別の平均気温や平均日射量のもとで育成された標本農作物について、着果日から収穫日までの所要日数が7週間であったという情報を示す。総数データ14は、標本農作物および他の農作物を含む12,000個の農作物のうち、ある週に3,700個が収穫され、その次の週に5,800個が収穫され、その次の週に2,500個が収穫されたという情報を示す。 For example, one record included in the training data 13 shows that the number of days required from the fruit set date to the harvest date was 8 weeks for the sample crops grown under a specific average temperature and average amount of solar radiation. Is shown. In addition, another record included in the training data 13 shows that the number of days required from the fruit set date to the harvest date was 7 weeks for the sample crops grown under different average temperatures and average amounts of solar radiation. Is shown. Total data 14 shows that out of 12,000 crops, including sample crops and other crops, 3,700 were harvested one week, 5,800 were harvested the following week, and the following week. Shows information that 2,500 pieces have been harvested.

処理部12は、学習処理15を実行して予測モデル16を生成する。予測モデル16の生成には、遺伝的プログラミング(GP:Genetic Programming)、重回帰分析、ニューラルネットワーク(NN:Neural Network)など、様々な機械学習アルゴリズムを使用することが可能である。予測モデル16は、育成環境の情報を説明変数として受け付け、所要日数の確率分布を目的変数として出力する統計モデルである。訓練データ13の所要日数の単位が週である場合、予測モデル16は、週数の確率分布を出力するようにしてもよい。予測モデル16は、最も確率が高い所要日数(所要日数の期待値)のみを出力する代わりに、複数の所要日数それぞれの確率を出力するように学習される。例えば、予測モデル16は、特定の平均気温および平均日射量に対して、7週間が30%、8週間が50%、9週間が20%という確率分布を出力する。 The processing unit 12 executes the learning process 15 to generate the prediction model 16. Various machine learning algorithms such as genetic programming (GP), multiple regression analysis, and neural network (NN) can be used to generate the prediction model 16. The prediction model 16 is a statistical model that accepts information on the breeding environment as an explanatory variable and outputs the probability distribution of the required number of days as an objective variable. When the unit of the required number of days in the training data 13 is a week, the prediction model 16 may output the probability distribution of the number of weeks. The prediction model 16 is learned to output the probabilities of each of a plurality of required days instead of outputting only the required number of days with the highest probability (expected value of required days). For example, the prediction model 16 outputs a probability distribution of 30% for 7 weeks, 50% for 8 weeks, and 20% for 9 weeks for a particular average temperature and average amount of solar radiation.

学習処理15では、処理部12は、訓練データ13を用いて、予測モデル16により算出される確率分布の誤差を評価して予測モデル16を更新することを繰り返す。例えば、処理部12は、訓練データ13に含まれる複数のレコードそれぞれについて、当該レコードが示す育成環境の情報を予測モデル16に入力し、当該レコードが示す所要日数を用いて、予測モデル16が出力する確率分布の誤差を評価する。そして、例えば、処理部12は、誤差が小さくなるように、予測モデル16に含まれる係数を更新する。ニューラルネットワークの場合、ノード間のエッジ(シナプス)の重みが更新される。 In the learning process 15, the processing unit 12 repeatedly uses the training data 13 to evaluate the error of the probability distribution calculated by the prediction model 16 and update the prediction model 16. For example, the processing unit 12 inputs the training environment information indicated by the record into the prediction model 16 for each of the plurality of records included in the training data 13, and the prediction model 16 outputs the information using the required number of days indicated by the record. Evaluate the error of the probability distribution. Then, for example, the processing unit 12 updates the coefficients included in the prediction model 16 so that the error becomes small. In the case of neural networks, the weights of edges (synapses) between nodes are updated.

ここで、処理部12は、学習処理15において予測モデル16を更新する繰り返し(イテレーション)の回数を制御する。イテレーション回数が少ない場合、予測モデル16が出力する確率分布は、訓練データ13に対する誤差が大きく訓練データ13へのフィッティング精度が低いものとなる。イテレーション回数の増加に応じて、予測モデル16が出力する確率分布は、訓練データ13に対する誤差が段階的に小さくなり、訓練データ13へのフィッティング精度が段階的に高くなっていく。 Here, the processing unit 12 controls the number of iterations (iterations) for updating the prediction model 16 in the learning process 15. When the number of iterations is small, the probability distribution output by the prediction model 16 has a large error with respect to the training data 13 and the fitting accuracy to the training data 13 is low. As the number of iterations increases, the error in the probability distribution output by the prediction model 16 with respect to the training data 13 gradually decreases, and the fitting accuracy with respect to the training data 13 gradually increases.

ただし、訓練データ13が示す標本農作物は全体の農作物集合に対して少数であると共に、農作物の成長には個体差がある。よって、訓練データ13が示す所要日数の標本は、全体の農作物集合に対する真実の確率分布を忠実に表しているとは限らず、バイアスが存在する。このため、イテレーション回数を増やし過ぎると、過学習により、予測モデル16が訓練データ13に過度にフィットするものとなってしまう。過学習された予測モデル16が出力する確率分布は、分散が過度に小さいものとなり、個体差により所要日数がばらつくという真実の確率分布から乖離したものとなるおそれがある。 However, the number of sample crops shown in the training data 13 is small with respect to the total crop set, and there are individual differences in the growth of the crops. Therefore, the sample of the required number of days shown by the training data 13 does not always faithfully represent the true probability distribution for the entire crop set, and there is a bias. Therefore, if the number of iterations is increased too much, the prediction model 16 will be overfitted to the training data 13 due to overfitting. The probability distribution output by the over-learned prediction model 16 has an excessively small variance, which may deviate from the true probability distribution that the required number of days varies due to individual differences.

そこで、処理部12は、総数データ14を参照して、学習処理15における予測モデル16の更新を適切なタイミングで停止するようにする。
具体的には、処理部12は、学習処理15の途中において、訓練データ13に含まれる複数のレコードが示す育成環境の情報から、現在の予測モデル16により複数の確率分布を算出し、これら複数の確率分布を合成して予測分布17を算出する。予測分布17は、例えば、予測モデル16が更新される毎に算出される。予測分布17は、標本農作物および他の農作物を含む農作物集合について収穫日に対する収穫数の分布を予測したものである。
Therefore, the processing unit 12 refers to the total number data 14 and stops the update of the prediction model 16 in the learning process 15 at an appropriate timing.
Specifically, in the middle of the learning process 15, the processing unit 12 calculates a plurality of probability distributions by the current prediction model 16 from the information of the training environment indicated by the plurality of records included in the training data 13, and these plurality. The predicted distribution 17 is calculated by synthesizing the probability distributions of. The prediction distribution 17 is calculated every time the prediction model 16 is updated, for example. The predicted distribution 17 is a prediction of the distribution of the number of crops with respect to the harvest date for the crop set including the sample crop and other crops.

訓練データ13が、着果日などの基準日が異なる標本農作物のデータを含んでいる場合、例えば、訓練データ13に基準日を含めておき、予測モデル16が出力する複数の確率分布を基準日に応じてシフトして合成すればよい。予測モデル16が週数の確率分布を出力する場合、予測分布17は、収穫日の属する週に対する収穫数の分布を示してもよい。また、処理部12は、標本割合を用いて、標本農作物の収穫数の予測分布を全体の農作物集合の収穫数の予測分布17に変換してもよい。例えば、予測分布17は、標本農作物および他の農作物を含む12,000個の農作物のうち、ある週に3,600個が収穫され、その次の週に6,000個が収穫され、その次の週に2,400個が収穫されるという予測を示す。 When the training data 13 includes data of sample crops having different reference dates such as fruit set date, for example, the reference date is included in the training data 13 and a plurality of probability distributions output by the prediction model 16 are set as the reference date. It may be synthesized by shifting according to. When the prediction model 16 outputs a probability distribution of the number of weeks, the prediction distribution 17 may show the distribution of the number of harvests with respect to the week to which the harvest date belongs. In addition, the processing unit 12 may convert the predicted distribution of the number of harvests of the sample crops into the predicted distribution 17 of the number of harvests of the entire set of crops by using the sample ratio. For example, the predicted distribution 17 shows that out of 12,000 crops, including sample crops and other crops, 3,600 are harvested one week, 6,000 are harvested the following week, and so on. It shows the prediction that 2,400 pieces will be harvested in the week.

そして、処理部12は、予測分布17と総数データ14が示す実績分布との間の類似度を評価し、類似度に基づいて学習処理15の停止タイミングを判定する。学習処理15の初期では、予測モデル16を更新する毎に予測モデル16の出力が真実の確率分布に近付き、その結果として予測分布17が総数データ14に近付く。一方、過学習になると、予測モデル16を更新する毎に予測モデル16の出力が過度に分散の小さいものとなり真実の確率分布から遠ざかり、その結果として予測分布17が総数データ14から遠ざかる。 Then, the processing unit 12 evaluates the similarity between the predicted distribution 17 and the actual distribution indicated by the total number data 14, and determines the stop timing of the learning process 15 based on the similarity. In the initial stage of the learning process 15, the output of the prediction model 16 approaches the true probability distribution every time the prediction model 16 is updated, and as a result, the prediction distribution 17 approaches the total number data 14. On the other hand, in the case of overfitting, every time the prediction model 16 is updated, the output of the prediction model 16 becomes excessively small in variance and moves away from the true probability distribution, and as a result, the prediction distribution 17 moves away from the total number data 14.

そこで、例えば、処理部12は、予測モデル16が更新される毎に類似度を評価して類似度のピークを検出し、ピークが検出されると学習処理15を停止して、ピークに対応する予測モデル16を学習結果として出力する。処理部12は、予測分布17と総数データ14が示す実績分布との間の類似度を示す指標として両者の誤差(総数誤差)を算出し、総数誤差が最小になるタイミングを検出するようにしてもよい。誤差は、収穫日毎に予測収穫数と実績収穫数の差の二乗を合計した残差平方和でもよい。また、処理部12は、類似度の評価結果が、予測分布17と総数データ14が示す実績分布とが所定の基準以上類似することを示す場合に、学習処理15を停止することとしてもよい。 Therefore, for example, the processing unit 12 evaluates the similarity every time the prediction model 16 is updated to detect the peak of the similarity, and when the peak is detected, stops the learning process 15 to correspond to the peak. The prediction model 16 is output as a learning result. The processing unit 12 calculates an error (total error) between the predicted distribution 17 and the actual distribution indicated by the total number data 14 as an index indicating the degree of similarity, and detects the timing at which the total error becomes the minimum. May be good. The error may be the sum of squared residuals, which is the sum of the squares of the differences between the predicted number of harvests and the actual number of harvests for each harvest date. Further, the processing unit 12 may stop the learning process 15 when the evaluation result of the similarity indicates that the predicted distribution 17 and the actual distribution indicated by the total number data 14 are similar to each other by a predetermined reference or more.

第1の実施の形態の機械学習装置10によれば、気温や日射量などの育成環境の情報から、着果日などの基準日から収穫日までの所要日数を予測する予測モデル16が生成される。よって、農作物の収穫日および収穫数の予測が可能となる。また、予測モデル16は、所要日数の期待値ではなく所要日数の確率分布を出力するように学習される。よって、同じ育成環境のもとで育てても成長速度が異なるという農作物の個体差の性質を考慮して、収穫日のばらつきを表現することが可能となる。 According to the machine learning device 10 of the first embodiment, a prediction model 16 for predicting the required number of days from the reference date such as the fruit set date to the harvest date is generated from the information on the growing environment such as the temperature and the amount of solar radiation. To. Therefore, it is possible to predict the harvest date and the number of crops. Further, the prediction model 16 is learned to output the probability distribution of the required number of days instead of the expected value of the required number of days. Therefore, it is possible to express the variation of the harvest date in consideration of the property of individual difference of the crops that the growth rate is different even if they are grown in the same growing environment.

また、訓練データ13に含まれる個々のレコードに対して予測モデル16の予測結果の誤差を評価することに加え、訓練データ13の全体から予測される収穫数の予測分布17と総数データ14が示す収穫数の実績分布との間の類似度が評価される。そして、この類似度に基づいて、学習処理15による予測モデル16の更新のイテレーションが停止される。よって、過学習により予測モデル16が過度に分散の小さい確率分布を出力するようになることを抑制でき、予測モデル16の予測精度が向上する。 Further, in addition to evaluating the error of the prediction result of the prediction model 16 for each record included in the training data 13, the prediction distribution 17 of the number of harvests predicted from the whole training data 13 and the total number data 14 show. The degree of similarity with the actual distribution of yields is evaluated. Then, based on this similarity, the iteration of updating the prediction model 16 by the learning process 15 is stopped. Therefore, it is possible to prevent the prediction model 16 from outputting a probability distribution having an excessively small variance due to overfitting, and the prediction accuracy of the prediction model 16 is improved.

特に、個々の標本農作物について基準日や収穫日などの詳細情報を収集することは農家の負担が大きいことから、訓練データ13が十分な数の標本農作物のデータを含んでいないことがある。また、成長の個体差から、訓練データ13が示す所要日数にはバイアスがある。このような訓練データ13を用いて予測モデル16を生成すると、過学習が生じた場合に、予測モデル16が不適切な分散をもつ確率分布を出力してしまう可能性が高い。これに対して、機械学習装置10によれば、過学習が抑制され、予測モデル16が適切な分散をもつ確率分布を出力でき、収穫日のばらつきを表現することが可能となる。 In particular, since it is a heavy burden on the farmer to collect detailed information such as the reference date and the harvest date for each sample crop, the training data 13 may not include the data of a sufficient number of sample crops. In addition, there is a bias in the required number of days indicated by the training data 13 due to individual differences in growth. When the prediction model 16 is generated using such training data 13, there is a high possibility that the prediction model 16 will output a probability distribution having an inappropriate variance when overfitting occurs. On the other hand, according to the machine learning device 10, overfitting is suppressed, the prediction model 16 can output a probability distribution having an appropriate variance, and it is possible to express variations in harvest dates.

なお、少ない訓練データから、できる限り予測精度の高い予測モデルを生成する機械学習技術として、クロスバリデーション法がある。クロスバリデーション法では、データ集合を複数のブロック(例えば、10個のブロック)に分割し、それら複数のブロックの1つをテストデータとして選択し、残りのブロック(例えば、9個のブロック)を訓練データとして選択する。訓練データを用いて予測モデルを生成し、テストデータを用いて予測モデルの予測精度を測定する。テストデータとして選択するブロックを変えることで、予測モデルの生成を複数回(例えば、10回)繰り返す。 There is a cross-validation method as a machine learning technique for generating a prediction model with as high prediction accuracy as possible from a small amount of training data. In the cross-validation method, the data set is divided into multiple blocks (eg, 10 blocks), one of the multiple blocks is selected as test data, and the remaining blocks (eg, 9 blocks) are trained. Select as data. A prediction model is generated using the training data, and the prediction accuracy of the prediction model is measured using the test data. By changing the block selected as test data, the generation of the prediction model is repeated a plurality of times (for example, 10 times).

すなわち、クロスバリデーション法は、訓練データに含まれるレコードを入れ替えながら予測モデルの生成を繰り返すことで、できる限り予測精度の高い予測モデルが生成されるレコードの組み合わせを発見するものである。しかし、使用可能なレコードが非常に少ない場合、データ集合を適切に複数のブロックに分割することが難しく、クロスバリデーション法によっても農作物の収穫予測の精度を向上させることは容易でない。 That is, the cross-validation method is to find a combination of records in which a prediction model with as high prediction accuracy as possible is generated by repeating the generation of a prediction model while exchanging the records included in the training data. However, when the number of available records is very small, it is difficult to properly divide the data set into a plurality of blocks, and it is not easy to improve the accuracy of crop yield prediction even by the cross-validation method.

[第2の実施の形態]
次に、第2の実施の形態を説明する。
図2は、第2の実施の形態の情報処理システムの例を示す図である。
[Second Embodiment]
Next, a second embodiment will be described.
FIG. 2 is a diagram showing an example of an information processing system according to the second embodiment.

第2の実施の形態の情報処理システムは、機械学習を利用して農作物の収穫日および収穫数を予測する。収穫日および収穫数の予測は、農家が出荷先と契約する際の基礎資料として使用することができる。第2の実施の形態の情報処理システムは、成長の個体差が大きく収穫日のばらつきが大きい農作物の管理に好適である。第2の実施の形態では、農作物の種類としてパプリカを想定する。ただし、第2の実施の形態の情報処理システムは、パプリカ以外の農作物の管理に適用することも可能である。 The information processing system of the second embodiment uses machine learning to predict the harvest date and number of crops. Harvest date and harvest forecasts can be used as basic data when farmers contract with destinations. The information processing system of the second embodiment is suitable for managing crops having a large individual difference in growth and a large variation in harvest date. In the second embodiment, paprika is assumed as the type of crop. However, the information processing system of the second embodiment can also be applied to the management of agricultural products other than paprika.

第2の実施の形態の情報処理システムは、ビニールハウス20、ネットワーク30、気象データサーバ31および機械学習装置100を含む。
ビニールハウス20の屋内は、パプリカを栽培する農地として標本栽培エリア21および一般栽培エリア22を含む。標本栽培エリア21で栽培されるパプリカは、農家が着果日および収穫日を個別に観測する標本果実である。一般栽培エリア22で栽培されるパプリカは、着果日および収穫日を個別に観測しない果実である。標本栽培エリア21で栽培される標本果実は、標本栽培エリア21と一般栽培エリア22を合わせた果実全体の約0.1%である。ただし、出荷管理のため、収穫日毎の収穫総数はカウントされる。また、農地を標本栽培エリア21と一般栽培エリア22に分けず、農地内に点在する幾つかの木の果実を標本果実として選択してもよい。また、図2には1つのビニールハウスを示しているが、農地が複数のビニールハウスに分割されていてもよい。
The information processing system of the second embodiment includes a vinyl house 20, a network 30, a weather data server 31, and a machine learning device 100.
The interior of the greenhouse 20 includes a sample cultivation area 21 and a general cultivation area 22 as farmland for cultivating paprika. The paprika cultivated in the sample cultivation area 21 is a sample fruit in which the farmer observes the fruit set date and the harvest date individually. The paprika cultivated in the general cultivation area 22 is a fruit whose fruit set date and harvest date are not individually observed. The sample fruit cultivated in the sample cultivation area 21 is about 0.1% of the total fruit including the sample cultivation area 21 and the general cultivation area 22. However, for shipping control, the total number of harvests for each harvest date is counted. Further, the farmland may not be divided into the sample cultivation area 21 and the general cultivation area 22, and the fruits of some trees scattered in the farmland may be selected as the sample fruits. Further, although FIG. 2 shows one greenhouse, the farmland may be divided into a plurality of greenhouses.

ビニールハウス20の屋内には、センサ23が設置されている。センサ23は、少なくとも気温および日射量を測定するセンサデバイスである。センサ23が測定する気温および日射量は、ビニールハウス20の屋内のものであり、屋外の気温および日射量とは異なる。センサ23は、測定されたデータを定期的に所定の情報処理装置に送信する。 A sensor 23 is installed indoors of the vinyl house 20. The sensor 23 is a sensor device that measures at least air temperature and the amount of solar radiation. The air temperature and the amount of solar radiation measured by the sensor 23 are indoors of the vinyl house 20, and are different from the outdoor air temperature and the amount of solar radiation. The sensor 23 periodically transmits the measured data to a predetermined information processing device.

ネットワーク30は、インターネットなどの広域データ通信ネットワークを含む。ネットワーク30には、気象データサーバ31および機械学習装置100が接続されている。センサ23がネットワーク30に接続されることもある。 The network 30 includes a wide area data communication network such as the Internet. A weather data server 31 and a machine learning device 100 are connected to the network 30. The sensor 23 may be connected to the network 30.

気象データサーバ31は、現在日以降の気象予報を示す気象予報データを提供するサーバコンピュータである。気象予報データは、公的機関または民間気象会社により提供される。気象データサーバ31は、機械学習装置100からの要求に応じて気象予報データを機械学習装置100に送信する。気象予報データは、現在日以降の屋外の予報気温および予報日射量を含む。予報気温および予報日射量は、1時間毎の数値であることが好ましい。数値は、翌日の午前6時の気温および日射量といった日単位の予報でもよいし、翌週の午前6時の平均気温および平均日射量といった週単位の予報でもよいし、翌月の午前6時の平均気温および平均日射量といった月単位の予報でもよい。 The weather data server 31 is a server computer that provides weather forecast data indicating the weather forecast after the current date. Weather forecast data is provided by public institutions or private weather companies. The weather data server 31 transmits the weather forecast data to the machine learning device 100 in response to a request from the machine learning device 100. The weather forecast data includes the forecasted outdoor temperature and the forecasted amount of solar radiation after the current date. The forecast temperature and the forecast amount of solar radiation are preferably numerical values for each hour. The numerical value may be a daily forecast such as the temperature and the amount of solar radiation at 6 am the next day, a weekly forecast such as the average temperature and the average amount of solar radiation at 6 am the next week, or the average at 6 am the next month. Monthly forecasts such as temperature and average insolation may be used.

機械学習装置100は、機械学習により予測モデルを生成し、予測モデルを用いてパプリカの収穫日および収穫数を予測するコンピュータである。機械学習装置100は、過年度(例えば、前年度)における個々の標本果実の着果日および収穫日を示す標本データを収集する。また、機械学習装置100は、センサ23によって測定された気温および日射量を示す気象データを収集する。機械学習装置100は、標本データおよび気象データを用いて、パプリカの着果から収穫までに要する所要日数を、着果から収穫までの間の気温および日射量から予測する予測モデルを生成する。 The machine learning device 100 is a computer that generates a prediction model by machine learning and predicts the harvest date and the number of harvests of paprika using the prediction model. The machine learning device 100 collects sample data indicating the fruit set date and the harvest date of each sample fruit in the previous year (for example, the previous year). In addition, the machine learning device 100 collects meteorological data indicating the temperature and the amount of solar radiation measured by the sensor 23. The machine learning device 100 uses sample data and meteorological data to generate a prediction model that predicts the number of days required from fruit set to harvest of paprika from the temperature and the amount of solar radiation from fruit set to harvest.

機械学習装置100は、標本栽培エリア21において今年度のパプリカの着果が観測されてから収穫時期になる前に、予測モデルを用いて所要日数を予測する。このとき、機械学習装置100は、気象データサーバ31から気象予報データを受信する。予測モデルの入力に対応する気温および日射量は、予測日以前の期間についてはセンサ23で測定されたものを使用し、予測日以降の期間については気象予報データのものを使用する。機械学習装置100は、標本果実の着果日および着果数と、予測モデルが出力する所要日数と、標本果実の割合(0.1%)から、パプリカの収穫日および収穫数を予測する。 The machine learning device 100 predicts the required number of days using a prediction model after the fruit set of paprika of this year is observed in the sample cultivation area 21 and before the harvest time comes. At this time, the machine learning device 100 receives the weather forecast data from the weather data server 31. As the temperature and the amount of solar radiation corresponding to the input of the prediction model, those measured by the sensor 23 are used for the period before the prediction date, and those of the weather forecast data are used for the period after the prediction date. The machine learning device 100 predicts the harvest date and the number of harvests of paprika from the fruit set date and the number of fruit set of the sample fruit, the required number of days output by the prediction model, and the ratio of the sample fruit (0.1%).

なお、機械学習装置100は、クライアントコンピュータでもよいしサーバコンピュータでもよい。また、機械学習装置100は、農家が所有するコンピュータでもよいし、データセンタなど情報処理事業者が所有するコンピュータでもよい。機械学習装置100を農家が所有している場合、例えば、機械学習装置100は、広域データ通信ネットワークを介さずにセンサ23から気象データを受信し、農家のユーザから標本データの入力を受け付ける。機械学習装置100を農家が所有していない場合、例えば、機械学習装置100は、農家が所有する端末装置から、広域データ通信ネットワークを介して気象データおよび標本データを受信する。また、第2の実施の形態では、機械学習装置100が予測モデルの生成と予測モデルを用いた収穫予測の両方を行っているが、両者を異なるコンピュータが行うようにしてもよい。例えば、サーバコンピュータが予測モデルを生成し、クライアントコンピュータが予測モデルを用いて収穫予測を行ってもよい。 The machine learning device 100 may be a client computer or a server computer. Further, the machine learning device 100 may be a computer owned by a farmer or a computer owned by an information processing company such as a data center. When the machine learning device 100 is owned by the farmer, for example, the machine learning device 100 receives the weather data from the sensor 23 without going through the wide area data communication network, and receives the input of the sample data from the user of the farmer. When the machine learning device 100 is not owned by the farmer, for example, the machine learning device 100 receives weather data and sample data from a terminal device owned by the farmer via a wide area data communication network. Further, in the second embodiment, the machine learning device 100 performs both the generation of the prediction model and the harvest prediction using the prediction model, but both may be performed by different computers. For example, the server computer may generate a forecast model, and the client computer may use the forecast model to predict the harvest.

図3は、機械学習装置のハードウェア例を示す図である。
機械学習装置100は、CPU101、RAM102、HDD103、画像インタフェース104、入力インタフェース105、媒体リーダ106および通信インタフェース107を有する。上記ユニットはバスに接続されている。CPU101は、第1の実施の形態の処理部12に対応する。RAM102またはHDD103は、第1の実施の形態の記憶部11に対応する。気象データサーバ31なども同様のハードウェアを有する。
FIG. 3 is a diagram showing a hardware example of the machine learning device.
The machine learning device 100 includes a CPU 101, a RAM 102, an HDD 103, an image interface 104, an input interface 105, a medium reader 106, and a communication interface 107. The above unit is connected to the bus. The CPU 101 corresponds to the processing unit 12 of the first embodiment. The RAM 102 or the HDD 103 corresponds to the storage unit 11 of the first embodiment. The weather data server 31 and the like also have similar hardware.

CPU101は、プログラムの命令を実行するプロセッサである。CPU101は、HDD103に記憶されたプログラムやデータの少なくとも一部をRAM102にロードし、プログラムを実行する。なお、CPU101は複数のプロセッサコアを備えてもよく、機械学習装置100は複数のプロセッサを備えてもよい。複数のプロセッサの集合を「マルチプロセッサ」または単に「プロセッサ」と言うことがある。 The CPU 101 is a processor that executes a program instruction. The CPU 101 loads at least a part of the programs and data stored in the HDD 103 into the RAM 102 and executes the program. The CPU 101 may include a plurality of processor cores, and the machine learning device 100 may include a plurality of processors. A collection of multiple processors is sometimes referred to as a "multiprocessor" or simply a "processor."

RAM102は、CPU101が実行するプログラムやCPU101が演算に使用するデータを一時的に記憶する揮発性の半導体メモリである。なお、機械学習装置100は、RAM以外の種類のメモリを備えてもよく、複数のメモリを備えてもよい。 The RAM 102 is a volatile semiconductor memory that temporarily stores a program executed by the CPU 101 and data used by the CPU 101 for calculation. The machine learning device 100 may include a type of memory other than RAM, or may include a plurality of memories.

HDD103は、OS(Operating System)やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性ストレージである。なお、機械学習装置100は、フラッシュメモリやSSD(Solid State Drive)など他の種類のストレージを備えてもよく、複数のストレージを備えてもよい。 The HDD 103 is a non-volatile storage that stores software programs such as an OS (Operating System), middleware, and application software, and data. The machine learning device 100 may include other types of storage such as a flash memory and an SSD (Solid State Drive), or may include a plurality of storages.

画像インタフェース104は、CPU101からの命令に従って、機械学習装置100に接続された表示装置111に画像を出力する。表示装置111として、CRT(Cathode Ray Tube)ディスプレイ、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機EL(OEL:Organic Electro-Luminescence)ディスプレイ、プロジェクタなど、任意の種類の表示装置を使用することができる。また、機械学習装置100に、プリンタなど表示装置111以外の出力デバイスが接続されてもよい。 The image interface 104 outputs an image to the display device 111 connected to the machine learning device 100 in accordance with a command from the CPU 101. As the display device 111, any kind of display device such as a CRT (Cathode Ray Tube) display, a liquid crystal display (LCD), an organic EL (OEL: Organic Electro-Luminescence) display, and a projector can be used. .. Further, an output device other than the display device 111 such as a printer may be connected to the machine learning device 100.

入力インタフェース105は、機械学習装置100に接続された入力デバイス112から入力信号を受け付ける。入力デバイス112として、マウス、タッチパネル、タッチパッド、キーボードなど、任意の種類の入力デバイスを使用することができる。また、機械学習装置100に複数種類の入力デバイスが接続されてもよい。 The input interface 105 receives an input signal from the input device 112 connected to the machine learning device 100. As the input device 112, any kind of input device such as a mouse, a touch panel, a touch pad, and a keyboard can be used. Further, a plurality of types of input devices may be connected to the machine learning device 100.

媒体リーダ106は、記録媒体113に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体113として、フレキシブルディスク(FD:Flexible Disk)やHDDなどの磁気ディスク、CD(Compact Disc)やDVD(Digital Versatile Disc)などの光ディスク、半導体メモリなど、任意の種類の記録媒体を使用することができる。媒体リーダ106は、例えば、記録媒体113から読み取ったプログラムやデータを、RAM102やHDD103などの他の記録媒体にコピーする。読み取られたプログラムは、例えば、CPU101によって実行される。なお、記録媒体113は可搬型記録媒体であってもよく、プログラムやデータの配布に用いられることがある。また、記録媒体113やHDD103を、コンピュータ読み取り可能な記録媒体と言うことがある。 The medium reader 106 is a reading device that reads programs and data recorded on the recording medium 113. As the recording medium 113, any kind of recording medium such as a magnetic disk such as a flexible disk (FD) or HDD, an optical disk such as a CD (Compact Disc) or a DVD (Digital Versatile Disc), or a semiconductor memory is used. Can be done. The medium reader 106, for example, copies a program or data read from the recording medium 113 to another recording medium such as the RAM 102 or the HDD 103. The read program is executed by, for example, the CPU 101. The recording medium 113 may be a portable recording medium, and may be used for distribution of programs and data. Further, the recording medium 113 and the HDD 103 may be referred to as a computer-readable recording medium.

通信インタフェース107は、ネットワーク30に接続され、気象データサーバ31など他の情報処理装置と通信する。通信インタフェース107は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。 The communication interface 107 is connected to the network 30 and communicates with other information processing devices such as the weather data server 31. The communication interface 107 may be a wired communication interface connected to a wired communication device such as a switch or a router, or may be a wireless communication interface connected to a wireless communication device such as a base station or an access point.

次に、予測モデルを用いた収穫予測の方法について説明する。なお、第2の実施の形態では、着果の観測および収穫の管理は週単位で行うものとする。そこで、標本データの着果日および収穫日は1週間のうちの特定の曜日の日付である。また、予測モデルが出力する所要日数は週数を示し、予測収穫日は1週間のうちの特定の曜日の日付となる。 Next, a method of harvest prediction using a prediction model will be described. In the second embodiment, fruit set observation and harvest management shall be performed on a weekly basis. Therefore, the fruit set date and the harvest date of the sample data are the dates of specific days of the week. In addition, the required number of days output by the prediction model indicates the number of weeks, and the predicted harvest date is the date of a specific day of the week.

図4は、収穫予測のデータフローの例を示す図である。
ある日に1以上の標本果実の着果が観測されると、標本データとして着果日211および標本着果数212が採取される。着果日211は農家が着果を観測した日であり、標本着果数212はその日に着果した標本果実の個数である。例えば、着果日211が10月23日であり、標本着果数212が5個である。
FIG. 4 is a diagram showing an example of a data flow of harvest prediction.
When fruit set of one or more sample fruits is observed on a certain day, the fruit set date 211 and the sample fruit set number 212 are collected as sample data. The fruit set date 211 is the day when the farmer observes the fruit set, and the sample fruit set number 212 is the number of sample fruits set on that day. For example, the fruit set date 211 is October 23, and the sample fruit set number 212 is 5.

すると、着果日211から収穫時期までの期間について、説明変数としてビニールハウス20の屋内の平均気温213および平均日射量214が算出される。平均気温213および平均日射量214は、それぞれ1時間毎の数値である。よって、説明変数は48次元のベクトルとなる。なお、第2の実施の形態では、説明変数として平均気温および平均日射量を使用しているが、累積気温や累積日射量など他の指標とすることも可能である。 Then, for the period from the fruit set date 211 to the harvest time, the indoor average temperature 213 and the average solar radiation amount 214 of the vinyl house 20 are calculated as explanatory variables. The average temperature 213 and the average amount of solar radiation 214 are numerical values for each hour. Therefore, the explanatory variable is a 48-dimensional vector. In the second embodiment, the average temperature and the average amount of solar radiation are used as explanatory variables, but other indexes such as the cumulative temperature and the cumulative amount of solar radiation can be used.

平均気温213および平均日射量214は以下のように算出される。着果日から予測日の前日までの期間については、センサ23により測定されたビニールハウス20の屋内の測定気温221および測定日射量222が使用される。予測日から収穫時期までの期間については、気象予報データの予報気温223および予報日射量224が使用される。 The average temperature 213 and the average amount of solar radiation 214 are calculated as follows. For the period from the fruit set date to the day before the predicted date, the indoor measured air temperature 221 and the measured solar radiation amount 222 of the vinyl house 20 measured by the sensor 23 are used. For the period from the forecast date to the harvest time, the forecast temperature 223 and the forecast solar radiation amount 224 of the weather forecast data are used.

ただし、予報気温223および予報日射量224は、屋外の気温および日射量である。そこで、環境パラメータ227を用いて、予報気温223がビニールハウス20の屋内の予想気温225に変換され、予報日射量224がビニールハウス20の屋内の予想日射量226に変換される。環境パラメータ227は、屋外の気温と屋内の気温の関係、および、屋外の日射量と屋内の日射量の関係を示す。例えば、環境パラメータ227は、屋外の気温を屋内の気温に変換する一次式と、屋外の日射量を屋内の日射量に変換する一次式とを含む。環境パラメータ227は予め用意されている。環境パラメータ227は、ビニールハウス毎に個別に調整された個別パラメータであってもよいし、様々なビニールハウスに共通に適用される汎用パラメータであってもよい。 However, the forecast temperature 223 and the forecast solar radiation amount 224 are the outdoor temperature and the solar radiation amount. Therefore, using the environmental parameter 227, the forecast temperature 223 is converted into the forecast temperature 225 indoors in the greenhouse 20, and the forecast solar radiation 224 is converted into the forecast solar radiation 226 indoors in the greenhouse 20. Environmental parameter 227 indicates the relationship between the outdoor air temperature and the indoor air temperature, and the relationship between the outdoor solar radiation amount and the indoor solar radiation amount. For example, the environmental parameter 227 includes a linear equation that converts an outdoor air temperature into an indoor air temperature and a linear equation that converts an outdoor solar radiation amount into an indoor solar radiation amount. The environmental parameter 227 is prepared in advance. The environmental parameter 227 may be an individual parameter individually adjusted for each greenhouse, or may be a general-purpose parameter commonly applied to various greenhouses.

測定気温221および予想気温225が平均化されて平均気温213が算出され、測定日射量222および予想日射量226が平均化されて平均日射量214が算出される。すると、予め生成された予測モデル210に平均気温213および平均日射量214が入力され、予測モデル210から所要日数215が出力される。所要日数215は、着果から収穫までの日数の予測である。着果日211に所要日数215を加えることで、収穫日216が算出される。収穫日216は、着果日211に着果した果実の好適な収穫日の予測である。例えば、所要日数215が8週間であり、収穫日216が12月18日である。 The measured air temperature 221 and the expected air temperature 225 are averaged to calculate the average temperature 213, and the measured insolation amount 222 and the expected insolation amount 226 are averaged to calculate the average insolation amount 214. Then, the average temperature 213 and the average amount of solar radiation 214 are input to the predicted model 210 generated in advance, and the required number of days 215 is output from the predicted model 210. The required number of days 215 is a prediction of the number of days from fruit set to harvest. The harvest date 216 is calculated by adding the required number of days 215 to the fruit set date 211. Harvest date 216 is a prediction of a suitable harvest date for fruits that have set on fruit set date 211. For example, the required number of days 215 is 8 weeks and the harvest date 216 is December 18.

また、標本着果数212から標本収穫数217が算出される。標本収穫数217は、着果日211に観測された標本果実のうち、収穫日216に収穫される標本果実の個数の予測である。ここでは、予測モデル210が所要日数215として所要日数の期待値を出力することを想定しているため、標本収穫数217は標本着果数212と同じである。例えば、標本収穫数217は5個である。ただし、後述するように、所要日数の確率分布を出力する予測モデルを生成することもできる。その場合、標本収穫数217は、所要日数毎の標本果実の個数を示す。所要日数毎の標本果実の個数は、標本着果数212に所要日数毎の確率を乗ずることで算出することができる。 In addition, the sample harvest number 217 is calculated from the sample fruit set number 212. The number of sample harvests 217 is a prediction of the number of sample fruits harvested on the harvest day 216 among the sample fruits observed on the fruit set day 211. Here, since it is assumed that the prediction model 210 outputs the expected value of the required number of days as the required number of days 215, the sample harvest number 217 is the same as the sample fruit set number 212. For example, the number of sample harvests 217 is 5. However, as will be described later, it is also possible to generate a prediction model that outputs the probability distribution of the required number of days. In that case, the sample harvest number 217 indicates the number of sample fruits for each required number of days. The number of sample fruits for each required number of days can be calculated by multiplying the number of sample fruit set 212 by the probability for each required number of days.

そして、標本収穫数217が収穫数218に変換される。収穫数218は、着果日211に着果したと予測される果実であって、収穫日216に収穫される果実の個数の予測である。着果日211に着果したと予測される果実には、観測された標本果実とそれ以外の果実とが含まれる。収穫数218は、標本収穫数217と標本割合219から算出される。標本割合219は、果実全体に対する標本果実の割合である。収穫数218は、標本収穫数217を標本割合219で割る、すなわち、標本収穫数217に標本割合219の逆数を乗ずることで算出できる。例えば、標本割合219が0.1%であり、収穫数218が500個÷0.1%=500個×1,000=5,000個である。 Then, the sample harvest number 217 is converted into the harvest number 218. The number of harvests 218 is a prediction of the number of fruits harvested on the harvest day 216, which is a fruit predicted to have set on the fruit set day 211. Fruits predicted to have settled on the fruit set day 211 include observed sample fruits and other fruits. The number of harvests 218 is calculated from the number of sample harvests 217 and the sample ratio 219. Specimen ratio 219 is the ratio of the sample fruit to the whole fruit. The number of harvests 218 can be calculated by dividing the number of sample harvests 217 by the sample ratio 219, that is, multiplying the number of sample harvests 217 by the reciprocal of the sample ratio 219. For example, the sample ratio 219 is 0.1%, and the number of harvests 218 is 500 ÷ 0.1% = 500 × 1,000 = 5,000.

このようにして、着果日211に着果した果実について、収穫日216に収穫数218の果実が収穫されると予測される。例えば、10月23日に着果した果実について、12月18日に5,000個の果実が収穫されると予測される。異なる着果日の予測を合算することで、全体の収穫日および収穫数を予測することが可能である。 In this way, with respect to the fruits set on the fruit set day 211, it is predicted that the fruits with a harvest number of 218 will be harvested on the harvest day 216. For example, for fruits that settled on October 23, 5,000 fruits are expected to be harvested on December 18. By adding up the forecasts of different fruit set dates, it is possible to predict the total harvest date and the number of harvests.

ただし、パプリカは成長の個体差が大きいため、実際には着果日が同じでも収穫日にばらつきが生じる。このため、所要日数の期待値を出力する予測モデル210を使用すると、全体の収穫日および収穫数の予測が実情から乖離するおそれがある。 However, since paprika has a large individual difference in growth, the harvest date actually varies even if the fruit set date is the same. Therefore, if the prediction model 210 that outputs the expected value of the required number of days is used, the prediction of the total harvest date and the number of harvests may deviate from the actual situation.

図5は、期待値を出力する予測モデルの使用例を示す図である。
異なる着果日に標本着果数231,232,233が測定されたとする。標本着果数231は、10月23日に着果が観測された5個の標本果実を示す。標本着果数232は、10月30日に着果が観測された3個の標本果実を示す。標本着果数233は、11月6日に着果が観測された4個の標本果実を示す。
FIG. 5 is a diagram showing a usage example of a prediction model that outputs an expected value.
It is assumed that the sample fruit set numbers 231,232,233 were measured on different fruit set days. Specimen fruit set number 231 indicates 5 sample fruits whose fruit set was observed on October 23. Specimen fruit set number 232 indicates three sample fruits whose fruit set was observed on October 30. Specimen fruit set number 233 indicates four sample fruits whose fruit set was observed on November 6.

標本着果数231,232,233それぞれに対して所要日数が予測される。ここでは、所要日数の期待値を出力する予測モデルを使用するものとする。すると、標本着果数231に対して、10月23日以降の平均気温および平均日射量から所要日数の期待値が算出される。標本着果数232に対して、10月30日以降の平均気温および平均日射量から所要日数の期待値が算出される。標本着果数233に対して、11月6日以降の平均気温および平均日射量から所要日数の期待値が算出される。異なる着果日に対しては異なる平均気温および平均日射量が使用されるため、異なる所要日数の期待値が算出され得る。ここでは、標本着果数231に対する所要日数が8週間、標本着果数232に対する所要日数が7週間、標本着果数233に対する所要日数が6週間である。 The required number of days is predicted for each of the sample fruit set numbers 231, 32, and 233. Here, it is assumed that a prediction model that outputs the expected value of the required number of days is used. Then, the expected value of the required number of days is calculated from the average temperature and the average amount of solar radiation after October 23 for the sample fruit set number 231. The expected value of the required number of days is calculated from the average temperature and the average amount of solar radiation after October 30 for the sample fruit set number 232. For the sample fruit set number 233, the expected value of the required number of days is calculated from the average temperature and the average amount of solar radiation after November 6. Since different average temperatures and average amounts of solar radiation are used for different fruit set dates, expected values for different required days can be calculated. Here, the required number of days for the sample fruit set number 231 is 8 weeks, the required number of days for the sample fruit set number 232 is 7 weeks, and the required number of days for the sample fruit set number 233 is 6 weeks.

すると、標本収穫数234,235,236が予測される。標本収穫数234は、10月23日から8週間後の12月18日に収穫が予測される5個の標本果実を示す。標本収穫数235は、10月30日から7週間後の12月18日に収穫が予測される3個の標本果実を示す。標本収穫数236は、11月6日から6週間後の12月18日に収穫が予測される4個の標本果実を示す。標本収穫数234,235,236を合計すると、12月11日に0個の標本果実が収穫され、12月18日に12個の標本果実が収穫され、12月25日0個の標本果実が収穫されるという予測になる。 Then, the number of sample harvests is predicted to be 234,235,236. Specimen harvest number 234 indicates five sample fruits that are expected to be harvested on December 18, eight weeks after October 23. Specimen harvest number 235 indicates three sample fruits that are expected to be harvested on December 18, seven weeks after October 30. Specimen harvest number 236 indicates four sample fruits that are expected to be harvested on December 18, six weeks after November 6. When the number of sample harvests 234,235 and 236 is totaled, 0 sample fruits are harvested on December 11, 12 sample fruits are harvested on December 18, and 0 sample fruits are harvested on December 25. It is predicted that it will be harvested.

標本割合=0.1%を用いてこれらの標本収穫数を全体の収穫数に変換すると、収穫数237,238,239が予測される。収穫数237は、12月11日に収穫が予測される0個の果実を示す。収穫数238は、12月18日に収穫が予測される12,000個の果実を示す。収穫数239は、12月25日に収穫が予測される0個の果実を示す。このように、所要日数の期待値を出力する予測モデルを使用すると、特定の収穫日に収穫数が集中するという予測になることがある。しかし、実際には個体差により収穫日にばらつきが生じるため、収穫数237,238,239の信頼度は低い。そこで、所要日数の期待値ではなく所要日数の確率分布を出力する予測モデルを使用する。 Converting the number of these sample crops to the total number of harvests using the sample ratio = 0.1% predicts the number of harvests 237, 238, 239. The number of harvests 237 indicates 0 fruits that are expected to be harvested on December 11. The number of harvests 238 indicates 12,000 fruits that are expected to be harvested on December 18. The number of harvests 239 indicates 0 fruits that are expected to be harvested on December 25th. In this way, using a prediction model that outputs the expected value of the required number of days may result in prediction that the number of harvests will be concentrated on a specific harvest day. However, in reality, the reliability of the number of harvests 237, 238, 239 is low because the harvest date varies due to individual differences. Therefore, we use a prediction model that outputs the probability distribution of the required number of days instead of the expected value of the required number of days.

図6は、確率分布を出力する予測モデルの使用例を示す図である。
標本着果数231,232,233それぞれに対して所要日数の確率分布が予測される。標本着果数231に対して、10月23日以降の平均気温および平均日射量から所要日数の確率分布が算出される。標本着果数232に対して、10月30日以降の平均気温および平均日射量から所要日数の確率分布が算出される。標本着果数233に対して、11月6日以降の平均気温および平均日射量から所要日数の確率分布が算出される。
FIG. 6 is a diagram showing a usage example of a prediction model that outputs a probability distribution.
The probability distribution of the required number of days is predicted for each of the sample fruit set numbers 231, 232, and 233. The probability distribution of the required number of days is calculated from the average temperature and the average amount of solar radiation after October 23 for the sample fruit set number 231. For the sample fruit set number 232, the probability distribution of the required number of days is calculated from the average temperature and the average amount of solar radiation after October 30. For the sample fruit set number 233, the probability distribution of the required number of days is calculated from the average temperature and the average amount of solar radiation after November 6.

異なる着果日に対しては異なる平均気温および平均日射量が使用されるため、異なる所要日数の確率分布が算出され得る。ここでは、標本着果数231に対する確率分布は、7週間が30%、8週間が50%、9週間が20%である。標本着果数232に対する確率分布は、6週間が30%、7週間が50%、8週間が20%である。標本着果数233に対する確率分布は、5週間が30%、6週間が50%、7週間が20%である。 Since different average temperatures and average amounts of solar radiation are used for different fruit set dates, probability distributions for different required days can be calculated. Here, the probability distribution for the sample fruit set number 231 is 30% for 7 weeks, 50% for 8 weeks, and 20% for 9 weeks. The probability distribution for the number of fruit set 232 is 30% for 6 weeks, 50% for 7 weeks, and 20% for 8 weeks. The probability distribution for the number of fruit set 233 is 30% for 5 weeks, 50% for 6 weeks, and 20% for 7 weeks.

すると、10月23日の標本着果数231に対して標本収穫数241,242,243という分布が予測される。標本収穫数241は、12月11日に収穫が予測される5個×30%=1.5個の標本果実を示す。標本収穫数242は、12月18日に収穫が予測される5個×50%=1.5個の標本果実を示す。標本収穫数243は、12月25日に収穫が予測される5個×20%=1.0個の標本果実を示す。 Then, the distribution of sample yields 241,242,243 is predicted with respect to the sample fruit set number 231 on October 23. The sample harvest number 241 indicates 5 sample fruits x 30% = 1.5 sample fruits that are expected to be harvested on December 11. The sample harvest number 242 indicates 5 sample fruits x 50% = 1.5 sample fruits that are expected to be harvested on December 18. The sample harvest number 243 indicates 5 sample fruits x 20% = 1.0 sample fruits that are expected to be harvested on December 25.

同様にして、10月30日の標本着果数232に対して標本収穫数244,245,246という分布が予測される。標本収穫数244は、12月11日に収穫が予測される3個×30%=0.9個の標本果実を示す。標本収穫数245は、12月18日に収穫が予測される3個×50%=1.5個の標本果実を示す。標本収穫数246は、12月25日に収穫が予測される3個×20%=0.6個の標本果実を示す。 Similarly, the distribution of sample yields of 244, 245 and 246 is predicted for the sample fruit set number of 232 on October 30. The number of sample harvests 244 indicates 3 x 30% = 0.9 sample fruits that are expected to be harvested on December 11. Specimen harvest number 245 indicates 3 x 50% = 1.5 sample fruits expected to be harvested on December 18. The number of sample harvests 246 indicates 3 x 20% = 0.6 sample fruits that are expected to be harvested on December 25.

また、11月6日の標本着果数233に対して標本収穫数247,248,249という分布が予測される。標本収穫数247は、12月11日に収穫が予測される4個×30%=1.2個の標本果実を示す。標本収穫数248は、12月18日に収穫が予測される4個×50%=2.0個の標本果実を示す。標本収穫数249は、12月25日に収穫が予測される4個×20%=0.8個の標本果実を示す。 In addition, the distribution of sample yields of 247, 248, and 249 is predicted for the sample fruit set number of 233 on November 6. The number of sample harvests 247 indicates 4 x 30% = 1.2 sample fruits that are expected to be harvested on December 11. Specimen harvest number 248 indicates 4 x 50% = 2.0 sample fruits expected to be harvested on December 18. The number of sample harvests 249 indicates 4 x 20% = 0.8 sample fruits that are expected to be harvested on December 25.

標本収穫数241,244,247を合計すると、12月11日に3.6個の標本果実が収穫されるという予測になる。標本収穫数242,246,248を合計すると、12月18日に6.0個の標本果実が収穫されるという予測になる。標本収穫数243,246,249を合計すると、12月25日に2.4個の標本果実が収穫されるという予測になる。標本割合=0.1%を用いてこれらの標本収穫数を全体の収穫数に変換すると、収穫数251,252,253が予測される。収穫数251は、12月11日に収穫が予測される3,600個の果実を示す。収穫数252は、12月18日に収穫が予測される6,000個の果実を示す。収穫数253は、12月25日に収穫が予測される2,400個の果実を示す。このように、確率分布を出力する予測モデルを使用することで、収穫日のばらつきを表現でき、収穫数251,252,253の信頼度が高くなる。 If the number of sample harvests 241,244,247 is added up, it is predicted that 3.6 sample fruits will be harvested on December 11. The total number of sample harvests 242,246,248 predicts that 6.0 sample fruits will be harvested on December 18. The total number of sample harvests 243, 246, 249 predicts that 2.4 sample fruits will be harvested on December 25th. Converting the number of these sample crops to the total number of harvests using the sample ratio = 0.1% predicts the number of harvests 251,252,253. The number of harvests 251 indicates 3,600 fruits that are expected to be harvested on December 11. The number of harvests 252 indicates 6,000 fruits that are expected to be harvested on December 18. The number of harvests 253 indicates 2,400 fruits that are expected to be harvested on December 25th. In this way, by using the prediction model that outputs the probability distribution, the variation of the harvest date can be expressed, and the reliability of the number of harvests 251, 252, 253 becomes high.

ここで、所要日数の確率分布を出力する予測モデルを、どの様に学習すればよいかが問題となる。典型的な機械学習は、訓練データを用いて予測モデルの出力の誤差を評価し、誤差が小さくなるように予測モデルの係数を更新することを繰り返す。予測モデルには、GPモデル、重回帰モデル、ニューラルネットワークなど様々な機械学習モデルを使用できる。イテレーション回数が少ないうちは、予測モデルの出力の誤差が大きく訓練データに対するフィッティング精度が低い。イテレーション回数が多くなるほど、予測モデルの出力の誤差が小さくなり訓練データに対するフィッティング精度が高くなる。訓練データに対する誤差が十分に小さくなるまで上記を繰り返すことが多い。 Here, the problem is how to learn the prediction model that outputs the probability distribution of the required number of days. Typical machine learning uses training data to evaluate the error in the output of the prediction model and repeatedly updates the coefficients of the prediction model to reduce the error. Various machine learning models such as a GP model, a multiple regression model, and a neural network can be used as the prediction model. While the number of iterations is small, the output error of the prediction model is large and the fitting accuracy for the training data is low. As the number of iterations increases, the error in the output of the prediction model decreases and the fitting accuracy for the training data increases. The above is often repeated until the error in the training data is small enough.

一方で、農作物の収穫予測の場合、個々の標本果実の観察および追跡は農家の負担が大きいため、標本果実は少数に限られており機械学習に使用できる訓練データは少量になる。また、パプリカは成長の個体差が大きいこともあり、これら少数の標本果実の所要日数は収穫果実全体の所要日数のばらつきを正確に表現しているわけではない。このため、訓練データに対する誤差が十分に小さくなるまでイテレーション回数を増やすと、予測モデルが訓練データに過度にフィッティングする過学習が発生しやすい。少量の訓練データから過学習された予測モデルは、分散が過度に小さい確率分布を出力する。その結果、予測モデルが出力する確率分布の信頼度が低下してしまう。 On the other hand, in the case of crop yield prediction, the burden on farmers is heavy for observing and tracking individual sample fruits, so the number of sample fruits is limited and the amount of training data that can be used for machine learning is small. In addition, since paprika has large individual differences in growth, the required number of days for these small number of sample fruits does not accurately represent the variation in the required number of days for the entire harvested fruit. Therefore, if the number of iterations is increased until the error with respect to the training data becomes sufficiently small, overfitting in which the prediction model fits the training data excessively tends to occur. A predictive model overfitted from a small amount of training data outputs a probability distribution with an overly small variance. As a result, the reliability of the probability distribution output by the prediction model decreases.

図7は、学習不足の予測モデルの使用例を示す図である。
イテレーション回数が少ない初期段階の予測モデルを考える。学習不足の予測モデルが出力する確率分布は、所要日数を十分に絞り込めておらず分散が大きい。
FIG. 7 is a diagram showing an example of using a prediction model for under-learning.
Consider an early stage prediction model with a small number of iterations. The probability distribution output by the under-learning prediction model does not sufficiently narrow down the required number of days and has a large variance.

10月23日の着果に対して、予測モデルは7週間が33%、8週間が33%、9週間が33%という確率分布を出力する。すると、標本着果数231が5個であるため、12月11日に1.7個、12月18日に1.7個、12月25日に1.7個という標本収穫数が予測される。同様に、10月30日の着果に対して、予測モデルは6週間が33%、7週間が33%、8週間が33%という確率分布を出力する。すると、標本着果数232が3個であるため、12月11日に1.0個、12月18日に1.0個、12月25日に1.0個という標本収穫数が予測される。11月6日の着果に対して、予測モデルは5週間が33%、6週間が33%、7週間が33%という確率分布を出力する。すると、標本着果数233が4個であるため、12月11日に1.3個、12月18日に1.3個、12月25日に1.3個という標本収穫数が予測される。 For the fruit set on October 23, the prediction model outputs a probability distribution of 33% for 7 weeks, 33% for 8 weeks, and 33% for 9 weeks. Then, since the number of fruit set 231 is 5, the number of sample harvests is predicted to be 1.7 on December 11, 1.7 on December 18, and 1.7 on December 25. To. Similarly, for the fruit set on October 30, the prediction model outputs a probability distribution of 33% for 6 weeks, 33% for 7 weeks, and 33% for 8 weeks. Then, since the number of fruit set 232 is 3, the number of sample harvests is predicted to be 1.0 on December 11, 1.0 on December 18, and 1.0 on December 25. To. For the fruit set on November 6, the prediction model outputs a probability distribution of 33% for 5 weeks, 33% for 6 weeks, and 33% for 7 weeks. Then, since the number of fruit set 233 is 4, the number of sample harvests is predicted to be 1.3 on December 11, 1.3 on December 18, and 1.3 on December 25. To.

上記の標本収穫数を収穫日毎に合計すると、12月11日は4.0個、12月18日は4.0個、12月25日は4.0個と算出される。標本割合=0.1%を用いると、全体の収穫数254,255,256が予測される。収穫数254は、12月11日の収穫数として4,000個を示す。収穫数255は、12月18日の収穫数として4,000個を示す。収穫数255は、12月25日の収穫数として4,000個を示す。 When the number of the above sample harvests is totaled for each harvest date, it is calculated to be 4.0 on December 11, 4.0 on December 18, and 4.0 on December 25. Using the sample ratio = 0.1%, the total yield is predicted to be 254,255,256. The number of harvests 254 indicates 4,000 as the number of harvests on December 11. The number of harvests 255 indicates 4,000 as the number of harvests on December 18. The number of harvests 255 indicates 4,000 as the number of harvests on December 25.

このように、学習不足の予測モデルを使用すると、確率分布の分散が過度に大きくなり所要日数が適切に絞り込まれない。その結果、予測される収穫数254,255,256が過度にばらつくことになり信頼度が低下してしまう。 In this way, when the under-learning prediction model is used, the variance of the probability distribution becomes excessively large, and the required number of days cannot be narrowed down appropriately. As a result, the predicted number of harvests 254, 255, 256 becomes excessively variable, and the reliability is lowered.

図8は、過学習した予測モデルの使用例を示す図である。
イテレーション回数が多く過学習された予測モデルを考える。過学習された予測モデルが出力する確率分布は、訓練データが示す所要日数に適合し過ぎており分散が小さい。
FIG. 8 is a diagram showing a usage example of the overfitted prediction model.
Consider a predictive model that is overfitted with many iterations. The probability distribution output by the overfitted prediction model is too suitable for the required number of days indicated by the training data, and the variance is small.

10月23日の着果に対して、予測モデルは7週間が0%、8週間が100%、9週間が0%という確率分布を出力する。すると、標本着果数231が5個であるため、12月11日に0個、12月18日に5個、12月25日に0個という標本収穫数が予測される。10月30日の着果に対して、予測モデルは6週間が0%、7週間が100%、8週間が0%という確率分布を出力する。すると、標本着果数232が3個であるため、12月11日に0個、12月18日に3個、12月25日に0個という標本収穫数が予測される。11月6日の着果に対して、予測モデルは5週間が0%、6週間が100%、7週間が0%という確率分布を出力する。すると、標本着果数233が4個であるため、12月11日に0個、12月18日に4個、12月25日に0個という標本収穫数が予測される。 For the fruit set on October 23, the prediction model outputs a probability distribution of 0% for 7 weeks, 100% for 8 weeks, and 0% for 9 weeks. Then, since the number of fruit set 231 is 5, the number of sample harvests is predicted to be 0 on December 11, 5 on December 18, and 0 on December 25. For the fruit set on October 30, the prediction model outputs a probability distribution of 0% for 6 weeks, 100% for 7 weeks, and 0% for 8 weeks. Then, since the number of fruit set 232 is 3, the number of sample harvests is predicted to be 0 on December 11, 3 on December 18, and 0 on December 25. For the fruit set on November 6, the prediction model outputs a probability distribution of 0% for 5 weeks, 100% for 6 weeks, and 0% for 7 weeks. Then, since the number of fruit set 233 is 4, the number of sample harvests is predicted to be 0 on December 11, 4 on December 18, and 0 on December 25.

上記の標本収穫数を収穫日毎に合計すると、12月11日は0個、12月18日は12個、12月25日は0個と算出される。標本割合=0.1%を用いると、全体の収穫数257,258,259が予測される。収穫数257は、12月11日の収穫数として0個を示す。収穫数258は、12月18日の収穫数として12,000個を示す。収穫数259は、12月25日の収穫数として0個を示す。 When the above-mentioned number of sample harvests is totaled for each harvest date, it is calculated as 0 on December 11, 12 on December 18, and 0 on December 25. Using the sample ratio = 0.1%, the total yield is predicted to be 257,258,259. The number of harvests 257 indicates 0 as the number of harvests on December 11. The number of harvests 258 indicates 12,000 as the number of harvests on December 18. The number of harvests 259 indicates 0 as the number of harvests on December 25.

上記の例では、収穫数257,258,259は、図5に示した収穫数237,238,239と同一になっている。すなわち、確率分布を出力する予測モデルを使用しても、過学習により分散が過度に小さくなってしまうと、結果的に期待値を出力する予測モデルに近い予測結果が得られることになり予測結果の信頼度が向上しない。 In the above example, the number of harvests 257, 258, 259 is the same as the number of harvests 237, 238, 239 shown in FIG. That is, even if a prediction model that outputs a probability distribution is used, if the variance becomes excessively small due to overfitting, a prediction result close to the prediction model that outputs the expected value can be obtained as a result. The reliability of is not improved.

予測モデルが出力する確率分布の分散は、機械学習のイテレーション回数の増加に応じて小さくなる。そのため、機械学習のイテレーションを適切な回数で停止することで、確率分布の分散を適切な大きさに誘導することができる。そこで、機械学習のイテレーションを何れのタイミングで停止すればよいかが問題となる。 The variance of the probability distribution output by the prediction model decreases as the number of machine learning iterations increases. Therefore, by stopping the iteration of machine learning at an appropriate number of times, the variance of the probability distribution can be guided to an appropriate size. Therefore, the question is at what timing the machine learning iteration should be stopped.

ここで、過年度のパプリカの栽培について、着果から収穫までの所要日数の実績を示す標本データは、少数の標本果実についてのみ収集される一方、収穫日毎の全体の収穫数の実績を示す総数データは、出荷管理のために農業機械などを用いて収集されている。そこで、機械学習装置100は、予測モデルの係数を更新するイテレーション毎に、そのときの予測モデルと訓練データと標本割合から過年度の全体の収穫数を予測し、予測と総数データが示す実績とを比較して、イテレーションを停止するタイミングを判定する。全体の収穫数は、訓練データに対して図6と同様の方法を適用することで予測できる。 Here, for the cultivation of paprika in the past years, the sample data showing the actual number of days required from fruit set to harvest is collected only for a small number of sample fruits, while the total number data showing the actual number of total harvests for each harvest day. Is collected using agricultural machinery for shipping control. Therefore, the machine learning device 100 predicts the total number of harvests in the past year from the prediction model, training data, and sample ratio at that time for each iteration that updates the coefficient of the prediction model, and obtains the prediction and the actual result indicated by the total number data. By comparison, the timing to stop the iteration is determined. The total number of harvests can be predicted by applying the same method as in FIG. 6 to the training data.

予測モデルが出力する確率分布の分散が過度に大きい場合、全体の収穫数の予測は実績と類似しない可能性が高い。また、予測モデルが出力する確率分布の分散が過度に小さい場合も、全体の収穫数の予測は実績と類似しない可能性が高い。一方、予測モデルが出力する確率分布の分散が実際の収穫日のばらつきを反映して最適である場合、全体の収穫数の予測と実績との間の類似度が最大になる可能性が高い。そのため、機械学習装置100は、類似度が最大になったときの予測モデルを学習結果として採用する。 If the variance of the probability distribution output by the prediction model is excessively large, the prediction of the total number of harvests is likely not similar to the actual result. In addition, even if the variance of the probability distribution output by the prediction model is excessively small, it is highly likely that the prediction of the total number of harvests does not resemble the actual result. On the other hand, if the variance of the probability distribution output by the prediction model is optimal, reflecting the variability of the actual harvest date, the similarity between the prediction of the total number of harvests and the actual result is likely to be maximized. Therefore, the machine learning device 100 adopts a prediction model when the similarity is maximized as a learning result.

図9は、機械学習の停止タイミング例を示す図である。
イテレーション回数の増加に応じて、特定の平均気温および平均日射量に対して予測モデルが出力する確率分布は、確率分布261,262,263のように変化する。
FIG. 9 is a diagram showing an example of stop timing of machine learning.
As the number of iterations increases, the probability distribution output by the prediction model for a specific average temperature and average amount of solar radiation changes as in the probability distributions 261,262,263.

確率分布261は、学習不足の予測モデルから出力されるものであり、図7の予測モデルに対応する。すなわち、確率分布261の分散は過度に大きい。確率分布262は、最適な予測モデルから出力されたものであり、図6の予測モデルに対応する。すなわち、確率分布262の分散はパプリカの収穫日のばらつきを反映して最適である。確率分布263は、過学習された予測モデルから出力されたものであり、図8の予測モデルに対応する。すなわち、確率分布263の分散は過度に小さい。 The probability distribution 261 is output from the under-learning prediction model and corresponds to the prediction model of FIG. That is, the variance of the probability distribution 261 is excessively large. The probability distribution 262 is output from the optimal prediction model and corresponds to the prediction model of FIG. That is, the variance of the probability distribution 262 is optimal, reflecting the variation in the harvest date of paprika. The probability distribution 263 is output from the overfitted prediction model and corresponds to the prediction model of FIG. That is, the variance of the probability distribution 263 is too small.

機械学習装置100は、予測モデルが確率分布261を出力するとき、訓練データから図7と同様の方法で収穫数分布264を予測する。収穫数分布264は、収穫日毎の全体の収穫数の予測を示す。収穫数分布264は、収穫数254,255,256に相当する。すなわち、機械学習装置100は、訓練データのレコード毎に、平均気温および平均日射量を予測モデルに入力して収穫数の確率分布を算出し、確率分布に標本着果数を乗じて収穫日毎の標本収穫数を算出する。機械学習装置100は、訓練データのレコード毎の予測を合計し、標本割合の逆数を乗じて収穫日毎の収穫数を算出する。 When the prediction model outputs the probability distribution 261, the machine learning device 100 predicts the yield distribution 264 from the training data in the same manner as in FIG. 7. The harvest number distribution 264 shows a forecast of the total number of harvests for each harvest date. The harvest number distribution 264 corresponds to the harvest number 254,255,256. That is, the machine learning device 100 inputs the average temperature and the average amount of solar radiation into the prediction model for each record of training data, calculates the probability distribution of the number of harvests, and multiplies the probability distribution by the number of sample fruits set for each harvest day. Calculate the number of sample harvests. The machine learning device 100 totals the predictions for each record of the training data and multiplies the reciprocal of the sample ratio to calculate the number of harvests for each harvest day.

収穫数分布264が予測されると、機械学習装置100は、収穫数分布264と収穫数分布267とを比較して誤差(総数誤差)を算出する。収穫数分布267は、訓練データと同じ年度の収穫状況であって、収穫日毎の全体の収穫数の実績を示す。収穫数分布267は、12月11の収穫数が3,700個、12月18日の収穫数が5,800個、12月25日の収穫数が2,500個であることを示す。総数誤差の指標として、例えば、残差平方和を用いる。残差平方和は、収穫日毎に予測と実績の間で収穫数の差の二乗を算出し、差の二乗を合計した数値である。収穫数分布264と収穫数分布267の残差平方和は、5,580,000である。よって、総数誤差は大きい。 When the harvest number distribution 264 is predicted, the machine learning device 100 compares the harvest number distribution 264 with the harvest number distribution 267 and calculates an error (total error). The harvest number distribution 267 is the harvest situation in the same year as the training data, and shows the actual result of the total number of harvests for each harvest day. The yield distribution 267 shows that the number of harvests on December 11 is 3,700, the number of harvests on December 18 is 5,800, and the number of harvests on December 25 is 2,500. For example, the sum of squared residuals is used as an index of the total error. The residual sum of squares is the sum of the squares of the differences calculated by calculating the square of the difference in the number of harvests between the forecast and the actual result for each harvest date. The residual sum of squares of the harvest number distribution 264 and the harvest number distribution 267 is 5,580,000. Therefore, the total error is large.

次に、機械学習装置100は、予測モデルが確率分布262を出力するとき、訓練データから図6と同様の方法で収穫数分布265を予測する。収穫数分布265は、収穫数251,252,253に相当する。収穫数分布265が予測されると、機械学習装置100は、収穫数分布265と収穫数分布267とを比較して総数誤差を算出する。収穫数分布265と収穫数分布267の残差平方和は、60,000である。よって、総数誤差は予測モデルが確率分布261を出力するときよりも小さい。 Next, when the prediction model outputs the probability distribution 262, the machine learning device 100 predicts the yield distribution 265 from the training data in the same manner as in FIG. The number of harvests distribution 265 corresponds to the number of harvests 251,252,253. When the harvest number distribution 265 is predicted, the machine learning device 100 compares the harvest number distribution 265 with the harvest number distribution 267 and calculates the total number error. The residual sum of squares of the harvest number distribution 265 and the harvest number distribution 267 is 60,000. Therefore, the total error is smaller than when the prediction model outputs the probability distribution 261.

次に、機械学習装置100は、予測モデルが確率分布263を出力するとき、訓練データから図8と同様の方法で収穫数分布266を予測する。収穫数分布266は、収穫数257,258,259に相当する。収穫数分布266が予測されると、機械学習装置100は、収穫数分布266と収穫数分布267とを比較して総数誤差を算出する。収穫数分布266と収穫数分布267の残差平方和は、58,380,000である。よって、総数誤差は予測モデルが確率分布262を出力するときよりも大きい。 Next, when the prediction model outputs the probability distribution 263, the machine learning device 100 predicts the harvest number distribution 266 from the training data in the same manner as in FIG. The harvest number distribution 266 corresponds to the harvest number 257,258,259. When the harvest number distribution 266 is predicted, the machine learning device 100 compares the harvest number distribution 266 with the harvest number distribution 267 and calculates the total error. The residual sum of squares of the harvest number distribution 266 and the harvest number distribution 267 is 58,380,000. Therefore, the total error is larger than when the prediction model outputs the probability distribution 262.

このようにして、機械学習装置100は、予測モデルが確率分布262を出力するときに総数誤差が最小になった、すなわち、類似度が最大になったことを検出する。すると、機械学習装置100は、機械学習のイテレーションを停止し、確率分布262を出力する予測モデルを学習結果として出力する。 In this way, the machine learning device 100 detects that the total error is minimized, that is, the similarity is maximized when the prediction model outputs the probability distribution 262. Then, the machine learning device 100 stops the machine learning iteration, and outputs a prediction model that outputs the probability distribution 262 as the learning result.

図10は、機械学習のデータフローの例を示す図である。
予測モデル270の生成に使用する訓練データは、着果日の異なる複数のレコードを含む。訓練データの各レコードは、着果日271、標本着果数272、標本日数分布273、平均気温277および平均日射量278を含む。標本日数分布273は、所要日数毎の標本収穫数を示す。標本日数分布273は、個数で表現されていてもよいし、個数を標本着果数272で割った確率で表現されていてもよい。例えば、標本日数分布273は、7週間が40%、8週間が60%、9週間が0%であることを示す。
FIG. 10 is a diagram showing an example of a machine learning data flow.
The training data used to generate the prediction model 270 includes multiple records with different fruit set dates. Each record of the training data includes a fruit set date 271, a sample fruit set number 272, a sample day distribution 273, an average temperature 277 and an average amount of solar radiation 278. The sample number distribution 273 indicates the number of sample harvests for each required number of days. The sample day distribution 273 may be expressed by the number, or may be expressed by the probability that the number is divided by the sample fruit set number 272. For example, the sample day distribution 273 shows that 7 weeks is 40%, 8 weeks is 60%, and 9 weeks is 0%.

平均気温277は、1時間毎の屋内の気温であって着果日271から収穫日までの期間で平均化したものである。平均日射量278は、1時間毎の屋内の日射量であって着果日271から収穫日までの期間で平均化したものである。よって、平均気温277および平均日射量278はそれぞれ24次元のベクトルであり、合わせて48次元のベクトルになる。平均気温277は、センサ23によって測定された測定気温275から算出される。平均日射量278は、センサ23によって測定された測定日射量276から算出される。訓練データは過年度の標本果実を示しているため、着果日271から収穫日までの測定気温275および測定日射量276は既知であり、気象予報データは使用しなくてよい。 The average temperature 277 is the hourly indoor air temperature, which is averaged from the fruit set date 271 to the harvest date. The average amount of solar radiation 278 is the amount of indoor solar radiation every hour, which is averaged from the fruit set date 271 to the harvest date. Therefore, the average temperature 277 and the average amount of solar radiation 278 are 24-dimensional vectors, respectively, and the total is a 48-dimensional vector. The average air temperature 277 is calculated from the measured air temperature 275 measured by the sensor 23. The average amount of solar radiation 278 is calculated from the measured amount of solar radiation 276 measured by the sensor 23. Since the training data shows the sample fruits of previous years, the measured temperature 275 and the measured insolation amount 276 from the fruit set date 271 to the harvest date are known, and the weather forecast data need not be used.

また、訓練データとは別に収穫数274を示す総数データが予め用意される。収穫数274は、収穫日毎の収穫数の実績である。例えば、収穫数274は、12月11日に3,700個の果実が収穫され、12月18日に5,800個の果実が収穫され、12月25日に2,500個の果実が収穫されたことを示す。 In addition to the training data, total number data indicating the number of harvests 274 is prepared in advance. The number of harvests 274 is the actual number of harvests for each harvest day. For example, with a harvest of 274, 3,700 fruits were harvested on December 11, 5,800 fruits were harvested on December 18, and 2,500 fruits were harvested on December 25. Indicates that it was done.

機械学習が開始されると、予測モデル270の係数が初期化される。訓練データのレコード毎に、予測モデル270に平均気温277および平均日射量278が入力され、予測モデル270から所要日数分布281が出力される。所要日数分布281は、所要日数毎の収穫確率の予測を示す。例えば、所要日数分布281は、7週間が33%、8週間が33%、9週間が33%であることを示す。訓練データのレコード毎に、所要日数分布281と標本日数分布273が比較されて誤差が算出される。そして、訓練データのレコード毎の誤差が合算されて、訓練データ全体に対するモデル誤差282が算出される。 When machine learning is started, the coefficients of the prediction model 270 are initialized. For each record of training data, the average temperature 277 and the average amount of solar radiation 278 are input to the prediction model 270, and the required number of days distribution 281 is output from the prediction model 270. The required number of days distribution 281 indicates a prediction of the harvest probability for each required number of days. For example, the required days distribution 281 shows that 7 weeks is 33%, 8 weeks is 33%, and 9 weeks is 33%. For each record of training data, the required number of days distribution 281 and the sample number of days distribution 273 are compared to calculate an error. Then, the errors for each record of the training data are added up to calculate the model error 282 for the entire training data.

訓練データのレコード毎の誤差には、例えば、残差平方和を用いる。この残差平方和は、所要日数毎に所要日数分布281の値と標本日数分布273の値の差を二乗し、複数の所要日数について差の二乗を合計した指標である。所要日数分布281と標本日数分布273の比較は、33%と40%の比較など確率同士の比較として行ってもよい。また、所要日数分布281と標本日数分布273の比較は、確率に標本着果数272を乗ずることで、1.7個と2個の比較など個数同士の比較として行ってもよい。 For example, the residual sum of squares is used as the error for each record of the training data. This residual sum of squares is an index obtained by squaring the difference between the value of the required number of days distribution 281 and the value of the sampled number of days distribution 273 for each required number of days, and summing the squares of the differences for a plurality of required days. The comparison between the required number of days distribution 281 and the sample number of days distribution 273 may be performed as a comparison between probabilities such as a comparison of 33% and 40%. Further, the comparison between the required number of days distribution 281 and the sample number of days distribution 273 may be performed as a comparison between the numbers such as 1.7 and two by multiplying the probability by the sample fruit set number 272.

モデル誤差282が算出されると、モデル誤差282が小さくなるように予測モデル270の係数が更新される。予測モデル270の係数を更新する際には、1つ前の係数を退避しておく。以上の予測モデル270の更新からモデル誤差282の算出までが1回のイテレーションである。下記の停止判定によってイテレーションの停止が決定されるまで予測モデル270の更新が繰り返される。停止判定はイテレーション毎に実行される。停止判定は、予測モデル270が所要日数分布281を出力してから予測モデル270が次に更新されるまでの間に、イテレーションを中断して実行してもよい。また、上記のイテレーションと並列に停止判定を実行してもよい。異なるプロセッサまたはプロセッサコアを用いて、イテレーションと停止判定を並列実行してもよい。 When the model error 282 is calculated, the coefficients of the prediction model 270 are updated so that the model error 282 becomes smaller. When updating the coefficient of the prediction model 270, the previous coefficient is saved. One iteration is from updating the prediction model 270 to calculating the model error 282. The update of the prediction model 270 is repeated until the stop of the iteration is determined by the following stop determination. The stop determination is executed for each iteration. The stop determination may be executed by interrupting the iteration between the time when the prediction model 270 outputs the required number of days distribution 281 and the time when the prediction model 270 is next updated. Further, the stop determination may be executed in parallel with the above iteration. Iterations and stop decisions may be performed in parallel using different processors or processor cores.

所要日数分布281が算出されると、訓練データのレコード毎に、収穫確率に標本着果数272を乗じて標本収穫数283が算出される。標本収穫数283は、所要日数毎の標本果実の収穫数の予測を示す。例えば、標本収穫数283は、5個の標本果実のうち、7週間が1.7個、8週間が1.7個、9週間が1.7個であることを示す。 When the required number of days distribution 281 is calculated, the sample harvest number 283 is calculated by multiplying the harvest probability by the sample fruit set number 272 for each record of the training data. The sample harvest number 283 indicates a prediction of the sample fruit harvest number for each required number of days. For example, the sample yield of 283 indicates that, of the five sample fruits, 1.7 for 7 weeks, 1.7 for 8 weeks, and 1.7 for 9 weeks.

訓練データのレコード毎の標本収穫数283の所要日数が、着果日271に基づいて、収穫日が揃うようにシフトされる。例えば、10月23日の7週間後は10月30日の6週間後に相当するため、着果日271が10月30日であるレコードに対応する標本収穫数283は、着果日271が10月23日であるレコードに対応する標本収穫数283に対して1週間後ろにシフトされる。訓練データの複数のレコードについて、収穫日が揃った標本収穫数283が収穫日毎に合算される。 The required number of days for the sample harvest number 283 for each record of the training data is shifted so that the harvest dates are aligned based on the fruit set date 271. For example, 7 weeks after October 23 corresponds to 6 weeks after October 30, so the number of sample harvests 283 corresponding to the record whose fruit set date 271 is October 30 has 10 fruit set dates 271. It will be shifted back one week to the sample yield of 283 corresponding to the record on the 23rd of October. For a plurality of records of training data, the number of sample harvests 283 with the same harvest date is added up for each harvest date.

そして、合算された標本収穫数に標本割合284の逆数を乗じて(標本割合284で割って)収穫数285が算出される。例えば、合算された標本収穫数が1,000倍される。収穫数285は、収穫日毎の果実全体の収穫数の予測を示す。例えば、収穫数285は、12月11日に4,000個の果実が収穫され、12月18日に4,000個の果実が収穫され、12月25日に4,000個の果実が収穫されるという予測を示す。 Then, the total number of sample harvests is multiplied by the reciprocal of the sample ratio 284 (divided by the sample ratio 284) to calculate the number of harvests 285. For example, the total number of sample harvests is multiplied by 1,000. The number of harvests 285 indicates a prediction of the total number of fruits harvested for each harvest date. For example, with a harvest of 285, 4,000 fruits are harvested on December 11, 4,000 fruits are harvested on December 18, and 4,000 fruits are harvested on December 25. Show the prediction that it will be done.

収穫数285が算出されると、収穫数285と収穫数274とが比較されて総数誤差286が算出される。総数誤差286には、例えば、残差平方和を用いる。そして、前回のイテレーションの総数誤差286と今回のイテレーションの総数誤差286とが比較される。今回の総数誤差286が前回の総数誤差286以下であれば、イテレーションの継続が決定される。この場合、モデル誤差282に応じて予測モデル270が更新される。 When the number of harvests 285 is calculated, the number of harvests 285 and the number of harvests 274 are compared to calculate the total error 286. For the total error 286, for example, the residual sum of squares is used. Then, the total error 286 of the previous iteration and the total error 286 of the current iteration are compared. If the current total error 286 is less than or equal to the previous total error 286, the continuation of the iteration is determined. In this case, the prediction model 270 is updated according to the model error 282.

一方、今回の総数誤差286が前回の総数誤差286より大きければ、イテレーションの停止が決定される。この場合、予測モデル270は更新されない。最適な予測モデル270の係数は前回のイテレーションの係数であるため、退避しておいた予測モデル270の係数が読み出され、学習結果として出力される。すなわち、収穫数274と収穫数285の類似度が最大になり、総数誤差286が最小になったことが検出される。ここでは、最適な予測モデル270の係数に到達する前は総数誤差286が単調に減少し、最適な予測モデル270の係数に到達した後は総数誤差286が単調に増加すると仮定している。 On the other hand, if the current total error 286 is larger than the previous total error 286, it is determined to stop the iteration. In this case, the prediction model 270 is not updated. Since the coefficient of the optimum prediction model 270 is the coefficient of the previous iteration, the coefficient of the saved prediction model 270 is read out and output as a learning result. That is, it is detected that the similarity between the number of harvests 274 and the number of harvests 285 is maximized and the total error 286 is minimized. Here, it is assumed that the total error 286 decreases monotonically before reaching the coefficient of the optimum prediction model 270, and the total error 286 monotonically increases after reaching the coefficient of the optimum prediction model 270.

次に、機械学習装置100の機能について説明する。
図11は、機械学習装置の機能例を示すブロック図である。
機械学習装置100は、気象データ記憶部121、標本データ記憶部122、総数データ記憶部123、予測モデル記憶部124、データ収集部125、データ加工部126、機械学習部127、イテレーション制御部128および収穫予測部129を有する。気象データ記憶部121、標本データ記憶部122、総数データ記憶部123および予測モデル記憶部124は、例えば、RAM102またはHDD103の記憶領域を用いて実現される。データ収集部125、データ加工部126、機械学習部127、イテレーション制御部128および収穫予測部129は、例えば、プログラムを用いて実現される。
Next, the function of the machine learning device 100 will be described.
FIG. 11 is a block diagram showing a functional example of the machine learning device.
The machine learning device 100 includes a weather data storage unit 121, a sample data storage unit 122, a total number data storage unit 123, a prediction model storage unit 124, a data collection unit 125, a data processing unit 126, a machine learning unit 127, an iteration control unit 128, and It has a harvest prediction unit 129. The weather data storage unit 121, the sample data storage unit 122, the total number data storage unit 123, and the prediction model storage unit 124 are realized by using, for example, the storage area of the RAM 102 or the HDD 103. The data collection unit 125, the data processing unit 126, the machine learning unit 127, the iteration control unit 128, and the harvest prediction unit 129 are realized by using, for example, a program.

気象データ記憶部121は、過年度の着果日から収穫日までの気象データと、今年度の着果日から予測日の前日までの気象データを記憶する。気象データは、センサ23によって測定された測定気温および測定日射量を含む。また、気象データ記憶部121は、今年度の予測日以降の気象予報データを記憶する。気象予報データは、気象データサーバ31から収集される。気象予報データは、屋外の予報気温および予報日射量を含む。また、気象データ記憶部121は、屋外の予報気温および予報日射量を、屋内の予想気温および予想日射量に変換するための環境パラメータを記憶する。 The meteorological data storage unit 121 stores the meteorological data from the fruit set date to the harvest date of the previous year and the meteorological data from the fruit set date of this year to the day before the predicted date. The meteorological data includes the measured air temperature and the measured amount of solar radiation measured by the sensor 23. In addition, the weather data storage unit 121 stores the weather forecast data after the forecast date of this year. The weather forecast data is collected from the weather data server 31. The weather forecast data includes the forecasted outdoor temperature and the forecasted amount of solar radiation. In addition, the weather data storage unit 121 stores environmental parameters for converting the forecast outdoor temperature and the forecast solar radiation amount into the indoor forecast temperature and the forecast solar radiation amount.

標本データ記憶部122は、過年度の標本果実毎の着果日および収穫日を示す標本データと、今年度の標本果実毎の着果日を示す標本データを記憶する。また、標本データ記憶部122は、全体の果実に対する標本果実の割合である標本割合を記憶する。 The sample data storage unit 122 stores sample data indicating the fruit set date and harvest date for each sample fruit of the previous year and sample data indicating the fruit set date for each sample fruit of this year. Further, the sample data storage unit 122 stores the sample ratio, which is the ratio of the sample fruit to the whole fruit.

総数データ記憶部123は、過年度の収穫日毎の収穫数を示す総数データを記憶する。
予測モデル記憶部124は、学習結果としての予測モデルを記憶する。
データ収集部125は、気象データ記憶部121、標本データ記憶部122および総数データ記憶部123に記憶される各種のデータを収集する。データの収集方法として、データ収集部125は、ユーザからデータの入力を受け付けることがある。また、データ収集部125は、他の情報処理装置からデータを受信することがある。
The total number data storage unit 123 stores total number data indicating the number of harvests for each harvest day in the previous year.
The prediction model storage unit 124 stores the prediction model as a learning result.
The data collection unit 125 collects various data stored in the meteorological data storage unit 121, the sample data storage unit 122, and the total number data storage unit 123. As a data collection method, the data collection unit 125 may accept data input from the user. In addition, the data collection unit 125 may receive data from another information processing device.

データ加工部126は、気象データ記憶部121に記憶された過年度の気象データと、標本データ記憶部122に記憶された過年度の標本データを加工して、着果日が異なる複数のレコードを含む訓練データを生成する。具体的には、データ加工部126は、過年度の標本データから着果日を抽出し、着果日毎に標本着果数をカウントし、着果日毎に着果日と収穫日の差から標本日数分布を算出する。また、データ加工部126は、過年度の気象データから、着果日毎に着果日から収穫日までの測定気温および測定日射量を抽出し、1時間毎の平均気温および平均日射量を算出する。 The data processing unit 126 processes the weather data of the previous year stored in the weather data storage unit 121 and the sample data of the previous year stored in the sample data storage unit 122, and trains to include a plurality of records having different fruit set dates. Generate data. Specifically, the data processing unit 126 extracts the fruit set date from the sample data of the previous year, counts the sample fruit set number for each fruit set date, and samples the sample days from the difference between the fruit set date and the harvest date for each fruit set date. Calculate the distribution. In addition, the data processing unit 126 extracts the measured air temperature and the measured amount of solar radiation from the fruit-bearing date to the harvest date for each fruit-bearing day from the meteorological data of the past years, and calculates the average temperature and the average amount of solar radiation for each hour.

また、データ加工部126は、気象データ記憶部121に記憶された今年度の気象データおよび気象予報データと、標本データ記憶部122に記憶された今年度の標本データを加工して、収穫予測用の入力データを生成する。具体的には、データ加工部126は、今年度の標本データから着果日を抽出し、着果日毎に標本着果数をカウントする。また、データ加工部126は、今年度の気象データから、着果日毎に着果日から予測日の前日までの測定気温および測定日射量を抽出する。データ加工部126は、気象予報データから、予測日から収穫時期までの予報気温および予報日射量を抽出し、気象データ記憶部121に記憶された環境パラメータを用いて、屋内の予想気温および予想日射量に変換する。そして、データ加工部126は、着果日毎に着果日から収穫時期までの通算の1時間毎の平均気温および平均日射量を算出する。 Further, the data processing unit 126 processes the weather data and weather forecast data of this year stored in the weather data storage unit 121 and the sample data of this year stored in the sample data storage unit 122 for harvest prediction. Generate input data for. Specifically, the data processing unit 126 extracts the fruit set date from the sample data of this year and counts the number of sample fruit set for each fruit set date. In addition, the data processing unit 126 extracts the measured temperature and the measured amount of solar radiation from the fruit set date to the day before the predicted date for each fruit set date from the meteorological data of this year. The data processing unit 126 extracts the forecast temperature and the forecast solar radiation amount from the forecast date to the harvest time from the weather forecast data, and uses the environmental parameters stored in the weather data storage unit 121 to obtain the indoor expected temperature and the forecast solar radiation. Convert to quantity. Then, the data processing unit 126 calculates the average temperature and the average amount of solar radiation for each hour from the fruit set date to the harvest time for each fruit set date.

データ加工部126は、訓練データを機械学習部127に提供する。また、データ加工部126は、総数データ記憶部123に記憶された総数データをイテレーション制御部128に提供する。データ加工部126は、入力データを収穫予測部129に提供する。 The data processing unit 126 provides the training data to the machine learning unit 127. Further, the data processing unit 126 provides the iteration control unit 128 with the total number of data stored in the total number data storage unit 123. The data processing unit 126 provides the input data to the harvest prediction unit 129.

機械学習部127は、異なる着果日についての複数のレコードを含む訓練データを用いて機械学習を行う。使用する機械学習アルゴリズムは予め指定されている。生成される予測モデルは、着果から収穫までの所要日数の確率分布を出力する。機械学習部127は、予測モデルの係数を更新して訓練データに対するモデル誤差を算出することを繰り返す。機械学習部127は、イテレーション制御部128からイテレーションの停止が指示されると、1つ前の予測モデルを予測モデル記憶部124に出力する。 The machine learning unit 127 performs machine learning using training data including a plurality of records for different fruit set dates. The machine learning algorithm to be used is specified in advance. The generated prediction model outputs the probability distribution of the number of days required from fruit set to harvest. The machine learning unit 127 repeatedly updates the coefficients of the prediction model and calculates the model error for the training data. When the iteration control unit 128 instructs the machine learning unit 127 to stop the iteration, the machine learning unit 127 outputs the previous prediction model to the prediction model storage unit 124.

イテレーション制御部128は、機械学習部127が予測モデルを更新する毎に、予測モデルが出力する所要日数分布と標本着果数と標本割合から、過年度の収穫日毎の全体の収穫数を予測し、総数データが示す実績と比較する。イテレーション制御部128は、全体の収穫数の予測と実績の間の総数誤差を算出し、総数誤差が前回より増えている場合、イテレーションを停止するよう機械学習部127に指示する。 Each time the machine learning unit 127 updates the prediction model, the iteration control unit 128 predicts the total number of harvests for each harvest day in the previous year from the required number of days distribution, the number of sample fruits set, and the sample ratio output by the prediction model. Compare with the actual results shown by the total number data. The iteration control unit 128 calculates the total number error between the prediction of the total number of harvests and the actual number, and instructs the machine learning unit 127 to stop the iteration when the total number error is larger than the previous time.

収穫予測部129は、予測モデル記憶部124に記憶された予測モデルとデータ加工部126から提供される入力データに基づいて、今年度の収穫日毎の収穫数を予測する。具体的には、収穫予測部129は、今年度の平均気温および平均日射量を予測モデルに入力し、着果日毎の所要日数分布を予測する。収穫予測部129は、着果日に所要日数を加えて収穫日を算出すると共に、所要日数分布が示す確率に標本着果数を乗じて標本収穫数を算出し、標本割合の逆数を乗じて収穫数に変換する。収穫予測部129は、異なる着果日の収穫数を収穫日毎に合算し、収穫日毎の全体の収穫数を予測する。 The harvest prediction unit 129 predicts the number of harvests for each harvest day of this year based on the prediction model stored in the prediction model storage unit 124 and the input data provided by the data processing unit 126. Specifically, the harvest prediction unit 129 inputs the average temperature and the average amount of solar radiation for this year into the prediction model, and predicts the required number of days distribution for each fruit set day. The harvest prediction unit 129 calculates the harvest date by adding the required number of days to the fruit set date, multiplies the probability indicated by the required number of days distribution by the sample fruit set number, calculates the sample harvest number, and multiplies the reciprocal of the sample ratio. Convert to the number of harvests. The harvest prediction unit 129 adds up the number of harvests on different fruiting days for each harvest day and predicts the total number of harvests for each harvest day.

収穫予測部129は、収穫日毎の全体の収穫数の予測結果を出力する。例えば、収穫予測部129は、表示装置111に予測結果を表示する。また、例えば、収穫予測部129は、HDD103などの不揮発性ストレージに予測結果を保存する。また、例えば、収穫予測部129は、プリンタなどの他の出力デバイスに予測結果を出力する。また、例えば、収穫予測部129は、他の情報処理装置に予測結果を送信する。 The harvest prediction unit 129 outputs a prediction result of the total number of harvests for each harvest day. For example, the harvest prediction unit 129 displays the prediction result on the display device 111. Further, for example, the harvest prediction unit 129 stores the prediction result in a non-volatile storage such as HDD 103. Further, for example, the harvest prediction unit 129 outputs the prediction result to another output device such as a printer. Further, for example, the harvest prediction unit 129 transmits the prediction result to another information processing device.

図12は、気象データと標本データと総数データのテーブル例を示す図である。
気象データテーブル131は、気象データ記憶部121に記憶される。気象データテーブル131は、過年度の気象データを含む。今年度の気象データや気象予報データも、気象データテーブル131と同様のテーブルで管理することが可能である。気象データテーブル131は、日時、気温および日射量の項目を含む。日時は、1時間刻みである。気温は、気温の1時間の平均である。気温の単位は、例えば、℃である。日射量は、瞬間日射量の1時間の平均である。日射量の単位は、例えば、kW/mである。
FIG. 12 is a diagram showing a table example of meteorological data, sample data, and total number data.
The meteorological data table 131 is stored in the meteorological data storage unit 121. The meteorological data table 131 includes meteorological data of previous years. This year's meteorological data and meteorological forecast data can also be managed in the same table as the meteorological data table 131. The meteorological data table 131 includes items of date and time, air temperature and amount of solar radiation. The date and time are in 1-hour increments. The temperature is an hourly average of the temperature. The unit of air temperature is, for example, ° C. The amount of solar radiation is the average of the amount of instantaneous solar radiation for one hour. The unit of the amount of solar radiation is, for example, kW / m 2 .

標本データテーブル132は、標本データ記憶部122に記憶される。標本データテーブル132は、過年度の標本データを含む。今年度の標本データも、標本データテーブル132と同様のテーブルで管理することが可能である。ただし、今年度の標本データについては収穫日は登録されない。標本データテーブル132は、品種、果実番号、着果日および収穫日の項目を含む。品種は、パプリカの品種であり、果実の色が異なる赤品種と黄品種と橙品種を含む。収穫予測は品種毎に行われる。果実番号は、標本果実を個々に識別する識別番号である。同じ品種の中で一意な果実番号が標本果実に付与される。着果日は、標本果実の着果が観測された日である。収穫日は、標本果実を収穫した日である。ただし、データ管理の都合上、着果日および収穫日は1週間の中の特定の曜日の日付である。 The sample data table 132 is stored in the sample data storage unit 122. The sample data table 132 contains sample data from previous years. This year's sample data can also be managed in the same table as the sample data table 132. However, the harvest date is not registered for this year's sample data. Specimen data table 132 includes items of variety, fruit number, fruit set date and harvest date. The varieties are paprika varieties, including red varieties, yellow varieties and orange varieties with different fruit colors. Harvest forecasting is done for each variety. The fruit number is an identification number that individually identifies the sample fruit. A unique fruit number within the same variety is given to the sample fruit. The fruit set date is the day when the fruit set of the sample fruit was observed. The harvest date is the date when the sample fruit is harvested. However, for the convenience of data management, the fruit set date and the harvest date are the dates of specific days of the week.

総数データテーブル133は、総数データ記憶部123に記憶される。総数データテーブル133は、過年度の総数データを含む。総数データテーブル133は、収穫日、赤個数、黄個数および橙個数の項目を含む。収穫日は、果実を収穫した日である。ただし、データ管理の都合上、収穫日は1週間の中の特定の曜日の日付である。赤個数は、赤品種の収穫数である。黄個数は、黄品種の収穫数である。橙個数は、橙品種の収穫数である。 The total number data table 133 is stored in the total number data storage unit 123. The total number data table 133 includes total number data for previous years. The total number data table 133 includes items of harvest date, number of reds, number of yellows and number of oranges. The harvest date is the date when the fruit is harvested. However, for the convenience of data management, the harvest date is the date of a specific day of the week. The number of reds is the number of red varieties harvested. The number of yellows is the number of yellow varieties harvested. The number of oranges is the number of orange varieties harvested.

図13は、訓練データテーブルの例を示す図である。
訓練データテーブル134は、気象データテーブル131および標本データテーブル132に基づいて生成され、機械学習に使用される。訓練データテーブル134は、着果日、標本着果数、目的変数および説明変数の項目を含む。着果日は、標本データテーブル132に出現する着果日である。標本着果数は、標本データテーブル132に登録された標本果実のうち着果日が同じ標本果実の個数である。
FIG. 13 is a diagram showing an example of a training data table.
The training data table 134 is generated based on the meteorological data table 131 and the sample data table 132 and is used for machine learning. The training data table 134 includes items of fruit set date, sample fruit set number, objective variable and explanatory variable. The fruit set date is the fruit set date that appears in the sample data table 132. The sample fruit set number is the number of sample fruits having the same fruit set date among the sample fruits registered in the sample data table 132.

目的変数は、標本日数分布である。標本日数分布は、6週間が0個、7週間が2個、8週間が3個のように、所要日数毎の標本果実の個数である。所要日数は、標本データテーブル132の着果日と収穫日の差である。所要日数毎の標本果実は、標本データテーブル132に登録された標本果実のうち所要日数が同じ標本果実である。所要日数毎の標本果実の個数の合計は、標本着果数に一致する。 The objective variable is the sample days distribution. The sample day distribution is the number of sample fruits for each required number of days, such as 0 for 6 weeks, 2 for 7 weeks, and 3 for 8 weeks. The required number of days is the difference between the fruit set date and the harvest date in the sample data table 132. The sample fruit for each required number of days is a sample fruit having the same required number of days among the sample fruits registered in the sample data table 132. The total number of sample fruits for each required number of days matches the number of sample fruits.

説明変数は、1時間毎の平均気温および1時間毎の平均日射量を含む。1時間毎の平均気温は、着果日から収穫日までの各日付の気温を気象データテーブル131から抽出し、0時、1時、2時、…のように時刻で分類して平均化することで算出される。1時間毎の平均日射量は、着果日から収穫日までの各日付の日射量を気象データテーブル131から抽出し、0時、1時、2時、…のように時刻で分類して平均化することで算出される。なお、ある着果日に対応する収穫日は、標本日数分布で1以上の標本果実が収穫された収穫日のうち、最後の収穫日でもよいし最初の収穫日でもよいし中心の収穫日でもよい。 Explanatory variables include the average hourly temperature and the average amount of solar radiation per hour. The hourly average temperature is averaged by extracting the temperature of each date from the fruit set date to the harvest date from the meteorological data table 131 and classifying it by time such as 0:00, 1:00, 2:00, and so on. It is calculated by. The average amount of solar radiation per hour is obtained by extracting the amount of solar radiation on each date from the fruit set date to the harvest date from the meteorological data table 131 and classifying it by time such as 0:00, 1:00, 2:00, and so on. It is calculated by converting. The harvest date corresponding to a certain fruit set date may be the last harvest date, the first harvest date, or the central harvest date among the harvest dates in which one or more sample fruits are harvested in the sample number distribution. Good.

次に、機械学習装置100の処理手順について説明する。
図14は、機械学習の手順例を示すフローチャートである。
(S10)データ収集部125は、気象データと標本データと総数データを収集する。機械学習は品種毎に行う。ただし、品種を予測モデルの説明変数に加えてもよい。
Next, the processing procedure of the machine learning device 100 will be described.
FIG. 14 is a flowchart showing an example of a machine learning procedure.
(S10) The data collection unit 125 collects meteorological data, sample data, and total number data. Machine learning is performed for each product type. However, the variety may be added to the explanatory variables of the prediction model.

(S11)データ加工部126は、標本データから着果日を抽出し、標本果実を着果日で分類する。データ加工部126は、着果日毎に標本果実をカウントして訓練データの標本着果数とする。また、データ加工部126は、着果日と収穫日の差である所要日数を算出し、各所要日数の標本果実をカウントして訓練データの標本日数分布とする。 (S11) The data processing unit 126 extracts the fruit set date from the sample data and classifies the sample fruit by the fruit set date. The data processing unit 126 counts the sample fruits for each fruit set day and uses them as the number of sample fruits set in the training data. Further, the data processing unit 126 calculates the required number of days, which is the difference between the fruit set date and the harvest date, and counts the sample fruits of each required number of days to obtain the sample number of days distribution of the training data.

(S12)データ加工部126は、着果日毎に気象データから、着果日から収穫日までの気温および日射量を抽出する。データ加工部126は、抽出した気温を時刻で分類し、各時刻の気温の平均を訓練データの平均気温とする。また、データ加工部126は、抽出した日射量を時刻で分類し、各時刻の日射量の平均を訓練データの平均日射量とする。 (S12) The data processing unit 126 extracts the temperature and the amount of solar radiation from the fruit set date to the harvest date from the meteorological data for each fruit set date. The data processing unit 126 classifies the extracted air temperature by time, and sets the average temperature at each time as the average temperature of the training data. Further, the data processing unit 126 classifies the extracted amount of solar radiation by time, and sets the average amount of solar radiation at each time as the average amount of solar radiation in the training data.

(S13)機械学習部127は、予測モデルの係数を初期化する。
(S14)機械学習部127は、訓練データのレコードを1つ選択する。
(S15)機械学習部127は、平均気温および平均日射量を示す48次元の説明変数のデータを予測モデルに入力し、予測モデルから目的変数のデータを読み出すことで所要日数分布を予測する。所要日数分布は、所要日数毎の確率を示す。
(S13) The machine learning unit 127 initializes the coefficients of the prediction model.
(S14) The machine learning unit 127 selects one record of training data.
(S15) The machine learning unit 127 inputs the data of the 48-dimensional explanatory variables indicating the average temperature and the average amount of solar radiation into the prediction model, and predicts the required number of days distribution by reading the data of the objective variable from the prediction model. The required number of days distribution shows the probability for each required number of days.

(S16)機械学習部127は、ステップS14で訓練データの全てのレコードを選択したか判断する。全てのレコードを選択した場合はステップS17に進み、訓練データに未選択のレコードがある場合はステップS14に戻る。 (S16) The machine learning unit 127 determines whether all the records of the training data have been selected in step S14. If all the records are selected, the process proceeds to step S17, and if there are unselected records in the training data, the process returns to step S14.

(S17)機械学習部127は、訓練データのレコード毎に、ステップS15で予測された所要日数分布と標本日数分布とを比較して誤差を算出する。誤差は、例えば、残差平方和である。機械学習部127は、訓練データ全体に対するモデル誤差を算出する。例えば、モデル誤差は、訓練データのレコード毎の誤差の合計である。 (S17) The machine learning unit 127 calculates an error by comparing the required number of days distribution predicted in step S15 with the sample day number distribution for each record of training data. The error is, for example, the residual sum of squares. The machine learning unit 127 calculates the model error for the entire training data. For example, the model error is the sum of the errors for each record of training data.

図15は、機械学習の手順例を示すフローチャート(続き)である。
(S18)イテレーション制御部128は、訓練データのレコードを1つ選択する。
(S19)イテレーション制御部128は、ステップS15で機械学習部127が算出した所要日数分布の確率に標本着果数を乗じて、所要日数毎の標本収穫数を予測する。
FIG. 15 is a flowchart (continued) showing an example of a machine learning procedure.
(S18) The iteration control unit 128 selects one record of training data.
(S19) The iteration control unit 128 predicts the number of sample harvests for each required number of days by multiplying the probability of the required number of days distribution calculated by the machine learning unit 127 in step S15 by the number of sample fruits.

(S20)イテレーション制御部128は、ステップS18で訓練データの全てのレコードを選択したか判断する。全てのレコードを選択した場合はステップS21に進み、訓練データに未選択のレコードがある場合はステップS18に戻る。 (S20) The iteration control unit 128 determines whether all the records of the training data have been selected in step S18. If all the records are selected, the process proceeds to step S21, and if there are unselected records in the training data, the process returns to step S18.

(S21)イテレーション制御部128は、異なる着果日の標本収穫数を、収穫日が揃うように着果日に応じてずらし、収穫日毎に標本収穫数を集計する。
(S22)イテレーション制御部128は、収穫日毎の合計の標本収穫数に標本割合の逆数を乗じて、収穫日毎の全体の収穫数を予測する。
(S21) The iteration control unit 128 shifts the number of sample harvests on different fruit set dates according to the fruit set dates so that the harvest dates are aligned, and totals the sample harvest numbers for each harvest date.
(S22) The iteration control unit 128 predicts the total number of harvests for each harvest day by multiplying the total number of sample harvests for each harvest day by the reciprocal of the sample ratio.

(S23)イテレーション制御部128は、総数データが示す収穫日毎の収穫数の実績とステップS22で算出した収穫日毎の収穫数の予測とを比較し、総数誤差を算出する。総数誤差は、例えば、残差平方和である。 (S23) The iteration control unit 128 compares the actual number of harvests for each harvest date indicated by the total number data with the prediction of the number of harvests for each harvest date calculated in step S22, and calculates the total number error. The total error is, for example, the residual sum of squares.

(S24)イテレーション制御部128は、ステップS14〜S17でモデル誤差を評価するイテレーションが2回目以降であるか判断する。イテレーションが2回目以降の場合はステップS25に進み、1回目である場合はステップS26に進む。 (S24) The iteration control unit 128 determines whether or not the iteration for evaluating the model error in steps S14 to S17 is the second and subsequent iterations. If the iteration is the second time or later, the process proceeds to step S25, and if the iteration is the first time, the process proceeds to step S26.

(S25)イテレーション制御部128は、今回の総数誤差が前回の総数誤差より大きいか判断する。今回の総数誤差が前回の総数誤差より大きい場合はステップS26に進み、今回の総数誤差が前回の総数誤差以下である場合はステップS27に進む。 (S25) The iteration control unit 128 determines whether the current total error is larger than the previous total error. If the current total error is larger than the previous total error, the process proceeds to step S26, and if the current total error is less than or equal to the previous total error, the process proceeds to step S27.

(S26)イテレーション制御部128は、機械学習部127にイテレーション継続を指示する。機械学習部127は、現在の予測モデルの係数を退避し、ステップS17で算出したモデル誤差が小さくなるように係数を更新する。そして、ステップS14に戻る。 (S26) The iteration control unit 128 instructs the machine learning unit 127 to continue the iteration. The machine learning unit 127 saves the coefficient of the current prediction model and updates the coefficient so that the model error calculated in step S17 becomes small. Then, the process returns to step S14.

(S27)イテレーション制御部128は、退避してある予測モデルの係数を読み出し、1つ前のイテレーションで使用した予測モデルを予測モデル記憶部124に出力する。
図16は、収穫予測の手順例を示すフローチャートである。
(S27) The iteration control unit 128 reads out the coefficients of the saved prediction model and outputs the prediction model used in the previous iteration to the prediction model storage unit 124.
FIG. 16 is a flowchart showing an example of a harvest prediction procedure.

(S30)データ収集部125は、今年度の気象データと標本データを収集する。また、データ収集部125は、予測日以降の気象予報データを収集する。
(S31)データ加工部126は、標本データから着果日を抽出し、標本果実を着果日で分類する。データ加工部126は、着果日毎に標本着果数をカウントする。
(S30) The data collection unit 125 collects meteorological data and sample data for this year. In addition, the data collection unit 125 collects weather forecast data after the forecast date.
(S31) The data processing unit 126 extracts the fruit set date from the sample data and classifies the sample fruit by the fruit set date. The data processing unit 126 counts the number of sample fruits set for each fruit set date.

(S32)データ加工部126は、気象予報データから、予測日から収穫時期までの予報気温および予報日射量を抽出する。データ加工部126は、環境パラメータを用いて、予報気温および予報日射量を屋内の予想気温および予想日射量に変換する。 (S32) The data processing unit 126 extracts the forecast temperature and the forecast solar radiation amount from the forecast date to the harvest time from the weather forecast data. The data processing unit 126 converts the forecast temperature and the forecast solar radiation amount into the indoor expected temperature and the forecast solar radiation amount by using the environmental parameters.

(S33)データ加工部126は、着果日毎に気象データから、着果日から予測日の前日までの測定気温および測定日射量を抽出する。データ加工部126は、測定気温および予想気温を時刻で分類し、各時刻の平均気温を算出する。また、データ加工部126は、測定日射量および予想日射量を時刻で分類し、各時刻の平均日射量を算出する。 (S33) The data processing unit 126 extracts the measured air temperature and the measured amount of solar radiation from the fruit set date to the day before the predicted date from the meteorological data for each fruit set date. The data processing unit 126 classifies the measured temperature and the expected temperature by the time, and calculates the average temperature at each time. In addition, the data processing unit 126 classifies the measured amount of solar radiation and the expected amount of solar radiation by time, and calculates the average amount of solar radiation at each time.

(S34)収穫予測部129は、着果日を1つ選択する。
(S35)収穫予測部129は、選択した着果日に対応する平均気温および平均日射量を予測モデルに入力し、所要日数分布を予測する。
(S34) The harvest prediction unit 129 selects one fruit set date.
(S35) The harvest prediction unit 129 inputs the average temperature and the average amount of solar radiation corresponding to the selected fruit set date into the prediction model, and predicts the required number of days distribution.

(S36)収穫予測部129は、選択した着果日に対応する標本着果数を、所要日数分布が示す確率に乗じて、所要日数毎の標本収穫数に変換する。
(S37)収穫予測部129は、ステップS34で、標本データに出現する全ての着果日を選択したか判断する。全ての着果日を選択した場合はステップS38に進み、未選択の着果日がある場合はステップS34に戻る。
(S36) The harvest prediction unit 129 converts the number of sample fruits set corresponding to the selected fruit set date into the number of sample harvests for each required number of days by multiplying the probability indicated by the required number of days distribution.
(S37) The harvest prediction unit 129 determines in step S34 whether all the fruit set dates appearing in the sample data have been selected. If all fruit set dates are selected, the process proceeds to step S38, and if there are unselected fruit set dates, the process returns to step S34.

(S38)収穫予測部129は、異なる着果日の標本収穫数を、収穫日が揃うように着果日に応じてずらし、収穫日毎に標本収穫数を集計する。
(S39)収穫予測部129は、収穫日毎の合計の標本収穫数に標本割合の逆数を乗じて、収穫日毎の全体の収穫数を予測する。
(S38) The harvest prediction unit 129 shifts the number of sample harvests on different fruit set dates according to the fruit set dates so that the harvest dates are aligned, and totals the sample harvest numbers for each harvest date.
(S39) The harvest prediction unit 129 predicts the total number of harvests for each harvest day by multiplying the total number of sample harvests for each harvest day by the reciprocal of the sample ratio.

(S40)収穫予測部129は、収穫日毎の収穫数を示す予測結果を出力する。例えば、収穫予測部129は、予測結果を表示装置111に表示する。
第2の実施の形態の情報処理システムによれば、過年度の着果から収穫までの所要日数とその期間の平均気温および平均日射量とを対応付けた訓練データを用いて、平均気温および平均日射量から所要日数を予測する予測モデルが学習される。そして、学習された予測モデルと今年度の着果状況から、今年度の収穫日および収穫数が予測される。よって、パプリカの収穫前に農家の運営にとって有用な情報を提供することができる。
(S40) The harvest prediction unit 129 outputs a prediction result indicating the number of harvests for each harvest day. For example, the harvest prediction unit 129 displays the prediction result on the display device 111.
According to the information processing system of the second embodiment, the average temperature and the average insolation are used by using the training data in which the number of days required from the fruit set to the harvest in the previous year is associated with the average temperature and the average amount of insolation during that period. A prediction model that predicts the required number of days from the quantity is learned. Then, the harvest date and the number of harvests of this year are predicted from the learned prediction model and the fruit set situation of this year. Therefore, it is possible to provide useful information for the farmer's operation before harvesting paprika.

また、予測モデルは所要日数の期待値ではなく所要日数の確率分布を出力するよう学習される。よって、同じ育成環境のもとで育てても成長速度が大きく異なるというパプリカの個体差の性質を考慮して、収穫日のばらつきを予測することが可能となる。また、学習途中の予測モデルを用いて訓練データから予測される全体収穫数と過年度の実際の全体収穫数とが比較され、総数誤差が最小になったことが検出されると機械学習のイテレーションが停止され、総数誤差が最小になったときの予測モデルが出力される。よって、過学習により予測モデルが過度に分散の小さい確率分布を出力するようになることを抑制でき、予測モデルの予測精度を向上させることができる。また、少ない標本データからであっても、収穫日のばらつきを適切に反映した予測モデルが生成される。よって、標本果実を観測して標本データを採取する農家の負担を軽減できる。 In addition, the prediction model is trained to output the probability distribution of the required days instead of the expected value of the required days. Therefore, it is possible to predict the variation in the harvest date in consideration of the property of individual differences in paprika that the growth rate differs greatly even if the plants are grown in the same growing environment. In addition, the total number of harvests predicted from the training data is compared with the actual total number of harvests in the past year using a prediction model during training, and when it is detected that the total error is minimized, the machine learning iteration is performed. The prediction model is output when it is stopped and the total error is minimized. Therefore, it is possible to prevent the prediction model from outputting a probability distribution having an excessively small variance due to overfitting, and it is possible to improve the prediction accuracy of the prediction model. Moreover, even from a small amount of sample data, a prediction model that appropriately reflects the variation of the harvest date is generated. Therefore, it is possible to reduce the burden on the farmer who observes the sample fruit and collects the sample data.

10 機械学習装置
11 記憶部
12 処理部
13 訓練データ
14 総数データ
15 学習処理
16 予測モデル
17 予測分布
10 Machine learning device 11 Storage unit 12 Processing unit 13 Training data 14 Total data 15 Learning processing 16 Prediction model 17 Prediction distribution

Claims (7)

コンピュータに、
それぞれ標本農作物の育成環境の情報と所定の状態が観測された基準日から当該標本農作物の収穫日までの所要日数とを対応付けた複数のレコードを含む訓練データと、前記複数のレコードが示す複数の標本農作物および他の農作物を含む農作物集合について収穫日に対する収穫数の実績分布を示す総数データとを取得し、
育成環境の情報から所要日数の確率分布を算出する予測モデルを生成し、前記訓練データを用いて、前記予測モデルにより算出される前記確率分布の誤差を評価して前記予測モデルを更新することを繰り返す学習処理を開始し、
前記学習処理の途中において、前記複数のレコードが示す育成環境の情報から前記予測モデルにより算出される複数の確率分布を合成して、収穫日に対する収穫数の予測分布を算出し、前記予測分布と前記総数データが示す前記実績分布との間の類似度に基づいて、前記学習処理の停止タイミングを判定する、
処理を実行させる機械学習プログラム。
On the computer
Training data including a plurality of records in which information on the growing environment of the sample crop and the required number of days from the reference date when the predetermined state was observed to the harvest date of the sample crop are associated with each other, and a plurality of records indicated by the plurality of records. Obtain the total number data showing the actual distribution of the number of crops with respect to the harvest date for the sample crops and crop sets including other crops.
A prediction model for calculating the probability distribution of the required number of days is generated from the information of the breeding environment, and the error of the probability distribution calculated by the prediction model is evaluated using the training data to update the prediction model. Start the iterative learning process and
In the middle of the learning process, a plurality of probability distributions calculated by the prediction model are synthesized from the information of the breeding environment indicated by the plurality of records, and the prediction distribution of the number of harvests with respect to the harvest date is calculated, and the predicted distribution The stop timing of the learning process is determined based on the degree of similarity between the total number data and the actual distribution.
A machine learning program that executes processing.
前記標本農作物および前記他の農作物はそれぞれ果実であり、
前記基準日は、着果が観測された着果日であり、
前記標本農作物の育成環境の情報は、当該標本農作物の着果日から収穫日までの間の気温および日射量を含む、
請求項1記載の機械学習プログラム。
The sample crop and the other crop are fruits, respectively.
The reference date is the fruit set date on which fruit set was observed.
The information on the growing environment of the sample crop includes the temperature and the amount of solar radiation from the fruiting date to the harvest date of the sample crop.
The machine learning program according to claim 1.
前記停止タイミングの判定では、前記予測モデルが更新される毎に前記類似度を評価し、前記類似度のピークが検出されると、前記学習処理を停止し、前記類似度のピークに対応する前記予測モデルを学習結果として出力する、
請求項1または2記載の機械学習プログラム。
In the determination of the stop timing, the similarity is evaluated every time the prediction model is updated, and when a peak of the similarity is detected, the learning process is stopped and the peak of the similarity corresponds to the peak of the similarity. Output the prediction model as a learning result,
The machine learning program according to claim 1 or 2.
前記複数のレコードはそれぞれ前記基準日を含み、
前記停止タイミングの判定では、前記複数のレコードに対応する前記複数の確率分布を前記基準日に基づいて合成して、前記複数の標本農作物について収穫日に対する収穫数の標本予測分布を算出し、前記農作物集合に対する前記複数の標本農作物の標本割合と前記標本予測分布とから、前記農作物集合について前記予測分布を算出する、
請求項1乃至3の何れか一項に記載の機械学習プログラム。
Each of the plurality of records includes the reference date.
In the determination of the stop timing, the plurality of probability distributions corresponding to the plurality of records are synthesized based on the reference date, and the sample prediction distribution of the number of harvests for the plurality of sample crops with respect to the harvest date is calculated. The predicted distribution for the crop set is calculated from the sample ratio of the plurality of sample crops to the crop set and the sample predicted distribution.
The machine learning program according to any one of claims 1 to 3.
前記停止タイミングの判定では、前記類似度が所定の基準以上類似することを示す場合に、前記学習処理を停止する、
請求項1乃至4の何れか一項に記載の機械学習プログラム。
In the determination of the stop timing, the learning process is stopped when it is shown that the similarity is similar to or more than a predetermined reference.
The machine learning program according to any one of claims 1 to 4.
コンピュータが、
それぞれ標本農作物の育成環境の情報と所定の状態が観測された基準日から当該標本農作物の収穫日までの所要日数とを対応付けた複数のレコードを含む訓練データと、前記複数のレコードが示す複数の標本農作物および他の農作物を含む農作物集合について収穫日に対する収穫数の実績分布を示す総数データとを取得し、
育成環境の情報から所要日数の確率分布を算出する予測モデルを生成し、前記訓練データを用いて、前記予測モデルにより算出される前記確率分布の誤差を評価して前記予測モデルを更新することを繰り返す学習処理を開始し、
前記学習処理の途中において、前記複数のレコードが示す育成環境の情報から前記予測モデルにより算出される複数の確率分布を合成して、収穫日に対する収穫数の予測分布を算出し、前記予測分布と前記総数データが示す前記実績分布との間の類似度に基づいて、前記学習処理の停止タイミングを判定する、
機械学習方法。
The computer
Training data including a plurality of records in which information on the growing environment of the sample crop and the required number of days from the reference date when the predetermined state was observed to the harvest date of the sample crop are associated with each other, and a plurality of records indicated by the plurality of records. Obtain the total number data showing the actual distribution of the number of crops with respect to the harvest date for the sample crops and crop sets including other crops.
A prediction model for calculating the probability distribution of the required number of days is generated from the information of the breeding environment, and the error of the probability distribution calculated by the prediction model is evaluated using the training data to update the prediction model. Start the iterative learning process and
In the middle of the learning process, a plurality of probability distributions calculated by the prediction model are synthesized from the information of the breeding environment indicated by the plurality of records, and the prediction distribution of the number of harvests with respect to the harvest date is calculated, and the predicted distribution The stop timing of the learning process is determined based on the degree of similarity between the total number data and the actual distribution.
Machine learning method.
それぞれ標本農作物の育成環境の情報と所定の状態が観測された基準日から当該標本農作物の収穫日までの所要日数とを対応付けた複数のレコードを含む訓練データと、前記複数のレコードが示す複数の標本農作物および他の農作物を含む農作物集合について収穫日に対する収穫数の実績分布を示す総数データとを記憶する記憶部と、
育成環境の情報から所要日数の確率分布を算出する予測モデルを生成し、前記訓練データを用いて、前記予測モデルにより算出される前記確率分布の誤差を評価して前記予測モデルを更新することを繰り返す学習処理を開始し、前記学習処理の途中において、前記複数のレコードが示す育成環境の情報から前記予測モデルにより算出される複数の確率分布を合成して、収穫日に対する収穫数の予測分布を算出し、前記予測分布と前記総数データが示す前記実績分布との間の類似度に基づいて、前記学習処理の停止タイミングを判定する処理部と、
を有する機械学習装置。
Training data including a plurality of records in which information on the growing environment of the sample crop and the required number of days from the reference date when the predetermined state was observed to the harvest date of the sample crop are associated with each other, and a plurality of records indicated by the plurality of records. A storage unit that stores total data showing the actual distribution of the number of crops with respect to the harvest date for the sample crops and crop sets including other crops.
A prediction model for calculating the probability distribution of the required number of days is generated from the information of the breeding environment, and the error of the probability distribution calculated by the prediction model is evaluated using the training data to update the prediction model. The repeated learning process is started, and in the middle of the learning process, a plurality of probability distributions calculated by the prediction model are synthesized from the information of the breeding environment indicated by the plurality of records, and the predicted distribution of the number of harvests with respect to the harvest date is obtained. A processing unit that calculates and determines the stop timing of the learning process based on the similarity between the predicted distribution and the actual distribution indicated by the total number data.
Machine learning device with.
JP2019042111A 2019-03-08 2019-03-08 Machine learning program, machine learning method and machine learning apparatus Active JP7208503B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019042111A JP7208503B2 (en) 2019-03-08 2019-03-08 Machine learning program, machine learning method and machine learning apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019042111A JP7208503B2 (en) 2019-03-08 2019-03-08 Machine learning program, machine learning method and machine learning apparatus

Publications (2)

Publication Number Publication Date
JP2020144720A true JP2020144720A (en) 2020-09-10
JP7208503B2 JP7208503B2 (en) 2023-01-19

Family

ID=72354325

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019042111A Active JP7208503B2 (en) 2019-03-08 2019-03-08 Machine learning program, machine learning method and machine learning apparatus

Country Status (1)

Country Link
JP (1) JP7208503B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022079833A1 (en) * 2020-10-14 2022-04-21 日本電信電話株式会社 Communication information prediction device, communication information prediction method, and communication information prediction program
WO2024090613A1 (en) * 2022-10-26 2024-05-02 신유식 Smart farm for predicting amount of production by using artificial intelligence

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013051887A (en) * 2011-08-31 2013-03-21 Hitachi East Japan Solutions Ltd Method for managing growth
JP2015219651A (en) * 2014-05-15 2015-12-07 株式会社Jsol Harvest prediction device for farm crop, harvest prediction system and harvest prediction method
JP2017169511A (en) * 2016-03-24 2017-09-28 株式会社日立ソリューションズ東日本 Apparatus for estimating normal stock ratio of agricultural crop, apparatus for predicting yield of agricultural crop, and method for estimating normal stock ratio of agricultural crop
JP2019030253A (en) * 2017-08-08 2019-02-28 株式会社誠和 Culture support device, culture support method, computer program and recording medium

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013051887A (en) * 2011-08-31 2013-03-21 Hitachi East Japan Solutions Ltd Method for managing growth
JP2015219651A (en) * 2014-05-15 2015-12-07 株式会社Jsol Harvest prediction device for farm crop, harvest prediction system and harvest prediction method
JP2017169511A (en) * 2016-03-24 2017-09-28 株式会社日立ソリューションズ東日本 Apparatus for estimating normal stock ratio of agricultural crop, apparatus for predicting yield of agricultural crop, and method for estimating normal stock ratio of agricultural crop
JP2019030253A (en) * 2017-08-08 2019-02-28 株式会社誠和 Culture support device, culture support method, computer program and recording medium

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022079833A1 (en) * 2020-10-14 2022-04-21 日本電信電話株式会社 Communication information prediction device, communication information prediction method, and communication information prediction program
JP7505569B2 (en) 2020-10-14 2024-06-25 日本電信電話株式会社 Communication information prediction device, communication information prediction method, and communication information prediction program
WO2024090613A1 (en) * 2022-10-26 2024-05-02 신유식 Smart farm for predicting amount of production by using artificial intelligence

Also Published As

Publication number Publication date
JP7208503B2 (en) 2023-01-19

Similar Documents

Publication Publication Date Title
US11222385B2 (en) Method and system for forecasting crop yield
Bannayan et al. Using pattern recognition for estimating cultivar coefficients of a crop simulation model
Bannayan et al. A stochastic modelling approach for real-time forecasting of winter wheat yield
Rale et al. Prediction of crop cultivation
JP2021056573A (en) Crop growth prediction program, crop growth prediction method, and crop growth prediction device
Sultan et al. Estimating the potential economic value of seasonal forecasts in West Africa: A long-term ex-ante assessment in Senegal
Salazar et al. Tomato yield prediction in a semi-closed greenhouse
JP7208503B2 (en) Machine learning program, machine learning method and machine learning apparatus
Diniz et al. Forecasting frost risk in forest plantations by the combination of spatial data and machine learning algorithms
JP2022136058A (en) Method of generating prediction model for predicting crop production performance, generation apparatus, and generation program
JP7163881B2 (en) Crop Characteristics Prediction System, Crop Characteristics Prediction Method, and Crop Characteristics Prediction Program
Mishra et al. Crop recommendation system using knn and random forest considering indian data set
Jayagopal et al. Weather-based maize yield forecast in Saudi Arabia using statistical analysis and machine learning
US11580609B2 (en) Crop monitoring to determine and control crop yield
Singh et al. Forecasting crop yield through weather indices through LASSO
KR20190063410A (en) Method for predicting production of main production complex crop and computer-readable recording medium having program to execute method thereof
JP2021174062A (en) Machine learning program, machine learning method, and machine learning apparatus
Majumdar et al. Demand prediction of rice growth stage-wise irrigation water requirement and fertilizer using Bayesian genetic algorithm and random forest for yield enhancement
JP2021056572A (en) Crop production assisting program, crop production assisting method, and crop production assisting device
WO2019003441A1 (en) Forecasting device, forecasting method, storage medium stored with forecasting program, and genetic inference device
Sundaramoorthi et al. Machine-learning-based simulation for estimating parameters in portfolio optimization: empirical application to soybean variety selection
CN116579873A (en) Method and system for evaluating crop disaster yield reduction condition based on high-temperature drought weather
Elghamrawy An AI-Based Prediction Model for Climate Change Effects on Crop production using IoT
Deshmukh et al. Analysis of machine learning technique for crop selection and prediction of crop cultivation
Gupta et al. Farmer’s guide: crop prediction using random forest regression

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211208

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20211213

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20211213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221219

R150 Certificate of patent or registration of utility model

Ref document number: 7208503

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150