JP7484223B2 - Information processing device and method - Google Patents
Information processing device and method Download PDFInfo
- Publication number
- JP7484223B2 JP7484223B2 JP2020035133A JP2020035133A JP7484223B2 JP 7484223 B2 JP7484223 B2 JP 7484223B2 JP 2020035133 A JP2020035133 A JP 2020035133A JP 2020035133 A JP2020035133 A JP 2020035133A JP 7484223 B2 JP7484223 B2 JP 7484223B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- label
- unit
- operator
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 141
- 230000010365 information processing Effects 0.000 title claims description 63
- 238000012545 processing Methods 0.000 claims description 19
- 238000002372 labelling Methods 0.000 claims 1
- 238000011156 evaluation Methods 0.000 description 53
- 238000003860 storage Methods 0.000 description 39
- 230000015572 biosynthetic process Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
本発明は、情報処理装置および方法に関する。 The present invention relates to an information processing device and method.
近日、機械学習により作成された分類器を用いることにより、画像または音声などの多様なデータを識別することが可能となっている。分類器を用いた識別の精度は、分類器を作成する機械学習で用いられた教師データの精度に依存し得る。正解ラベルが設定されている教師データが多いほど識別の精度が向上し、正解ラベルが設定されている教師データが少ないほど識別の精度が低下するので、機械学習において教師データの精度は重視されている。 Recently, it has become possible to classify a variety of data, such as images or audio, by using classifiers created through machine learning. The accuracy of classification using a classifier may depend on the accuracy of the training data used in the machine learning to create the classifier. The more training data with correct answer labels set, the higher the accuracy of classification, and the less training data with correct answer labels set, the lower the accuracy of classification, so the accuracy of the training data is important in machine learning.
教師データの精度を向上するための技術を開示する文献として、例えば特許文献1および特許文献2が知られている。具体的には、特許文献1には、教師データセットを用いた機械学習により分類器を作成した後、評価データセットのラベルを分類器で予測し、予測結果が不正解であったラベルをユーザが再設定する一連の処理を、教師データセットと評価データセットを入れ替えながら繰り返し実行する技術が開示されている。また、特許文献2には、ラベルの信頼度を評価し、信頼度が低い場合にラベルの見直しを行うための技術が開示されている。
For example,
ここで、特徴空間において複数のクラスの境界付近に位置する評価データも存在し得て、このような評価データに正しくラベル付けを行うことも重要である。しかし、特許文献1に記載の技術では、評価データに設定されたラベルが誤っていても、分類器が同一のラベルを予測した場合には当該評価データの存在がユーザに伝えられないので、誤ったラベルが維持されたままとなる。特許文献2に記載の技術でも当該課題は解決されない。
Here, evaluation data may exist that is located near the boundaries of multiple classes in the feature space, and it is important to correctly label such evaluation data. However, with the technology described in
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、データに設定されるラベルの精度を向上することが可能な、新規かつ改良された情報処理装置および方法を提供することにある。 Therefore, the present invention has been made in consideration of the above problems, and the object of the present invention is to provide a new and improved information processing device and method that can improve the accuracy of labels set to data.
上記課題を解決するために、本発明のある観点によれば、複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置であって、第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測する分類部と、第2の処理として、前記分類部による予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する判定部と、第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新する学習部と、を備え、前記分類部、前記判定部および前記学習部は、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行し、前記判定部は、同一のデータについての前記分類部による予測結果が変化した回数が閾値以上である場合、当該データのラベルの再設定を作業者に依頼すると判定する、情報処理装置が提供される。また、本発明の別の観点によれば、複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置であって、第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測する分類部と、第2の処理として、前記分類部による予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する判定部と、第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新する学習部と、2以上のデータの少なくとも一部のデータに自動でラベルを設定するラベル設定部と、前記2以上のデータから前記複数のデータセットを形成するデータセット形成部と、を備え、前記分類部、前記判定部および前記学習部は、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行し、前記判定部は、同一のデータについての前記分類部による予測結果の安定性に基づき、当該データのラベルの再設定を作業者に依頼するか否かを判定し、前記ラベル設定部は、前記第1の処理~前記第3の処理が繰り返し実行された後に、前記2以上のデータのうちで作業者によるラベル設定作業が行われていないデータに対して自動でラベルを再設定し、前記分類部、前記判定部および前記学習部は、前記ラベル設定部によりラベルが再設定された後に、前記第1の処理~前記第3の処理の繰り返し実行を再開する、情報処理装置が提供される。また、本発明の別の観点によれば、複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置であって、第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測する分類部と、第2の処理として、前記分類部による予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する判定部と、第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新する学習部と、を備え、前記分類部、前記判定部および前記学習部は、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行し、前記判定部は、前記分類部により予測されたラベルが不正解であったデータに関し、当該データに設定されたラベルが自動で設定されたラベルである場合、当該データのラベルの再設定を作業者に依頼すると判定する、情報処理装置が提供される。
In order to solve the above problem, according to an aspect of the present invention, there is provided an information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data, the information processing device including: a classification unit that predicts, as a first process, a label for each of a plurality of data included in the data set using a classifier acquired by learning; a determination unit that determines, as a second process, data among the plurality of data included in the data set, for which a label is to be requested to be reset by an operator, based on a prediction result by the classification unit; and a learning unit that updates the classifier by learning based on the data set after the label has been reset by the operator, the classification unit, the determination unit, and the learning unit repeatedly perform the first process to the third process while changing a target data set among the plurality of data sets, and the determination unit determines that a request is to be made to reset the label of the data, if the number of times the prediction result by the classification unit for the same data has changed is equal to or greater than a threshold value. According to another aspect of the present invention, there is provided an information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data sets, the information processing device including, as a first process, a classification unit that predicts a label for each of the plurality of data sets included in the data set using a classifier acquired by learning, a determination unit that determines, as a second process, data among the plurality of data sets included in the data set, based on a prediction result by the classification unit, for which a label is to be requested to be reset by an operator, and a learning unit that updates the classifier by learning based on the data set after the label has been reset by the operator, a label setting unit that automatically sets labels for at least a portion of two or more data sets, and a classification unit that creates the plurality of data sets from the two or more data sets. and a dataset forming unit which forms a dataset from among the plurality of datasets, wherein the classification unit, the determination unit, and the learning unit repeatedly execute the first process to the third process while changing a target dataset from among the plurality of datasets, the determination unit determines whether or not to request an operator to reset the label of the same data based on the stability of a prediction result by the classification unit for the same data, the label setting unit, after the first process to the third process have been repeatedly executed, automatically resets a label for data among the two or more pieces of data for which a label setting operation has not been performed by an operator, and the classification unit, the determination unit, and the learning unit resume the repeated execution of the first process to the third process after the label has been reset by the label setting unit. According to another aspect of the present invention, there is provided an information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data, the information processing device including: a classification unit that predicts, as a first process, a label for each of a plurality of data included in the data set using a classifier acquired by learning; a determination unit that determines, as a second process, data for which an operator is requested to reset the label among the plurality of data included in the data set based on a prediction result by the classification unit; and a learning unit that updates the classifier by learning based on the data set after the label has been reset by the operator, as a third process, wherein the classification unit, the determination unit, and the learning unit repeatedly perform the first process to the third process while changing a target data set among the plurality of data sets, and the determination unit determines that, for data for which the label predicted by the classification unit is incorrect, the label set for the data is an automatically set label, to request the operator to reset the label of the data.
前記判定部は、同一のデータについての前記分類部による予測結果が変化した回数が閾値以上である場合、当該データのラベルの再設定を作業者に依頼すると判定してもよい。 The determination unit may determine that a request should be made to the operator to relabel the data if the number of times the prediction result by the classification unit for the same data has changed is equal to or greater than a threshold value.
前記情報処理装置は、2以上のデータの少なくとも一部のデータに自動でラベルを設定するラベル設定部と、前記2以上のデータから前記複数のデータセットを形成するデータセット形成部と、をさらに備えてもよい。 The information processing device may further include a label setting unit that automatically sets labels to at least some of the two or more pieces of data, and a dataset forming unit that forms the multiple datasets from the two or more pieces of data.
前記ラベル設定部は、前記第1の処理~前記第3の処理が繰り返し実行された後に、前記2以上のデータのうちで作業者によるラベル設定作業が行われていないデータに対して自動でラベルを再設定し、前記分類部、前記判定部および前記学習部は、前記ラベル設定部によりラベルが再設定された後に、前記第1の処理~前記第3の処理の繰り返し実行を再開してもよい。 After the first process to the third process are repeatedly executed, the label setting unit may automatically reset the labels for data among the two or more pieces of data for which a label setting operation has not been performed by an operator, and the classification unit, the determination unit, and the learning unit may resume the repeated execution of the first process to the third process after the labels are reset by the label setting unit.
前記データセット形成部は、前記2以上のデータを分割することにより前記複数のデータセットを形成してもよい。 The dataset forming unit may form the multiple datasets by dividing the two or more pieces of data.
前記複数のデータセットは、前記2以上のデータの第1の分割により得られた2以上の第1のデータセット、および前記2以上のデータの第2の分割により得られた2以上の第2のデータセットを含んでもよい。 The plurality of data sets may include two or more first data sets obtained by a first division of the two or more data, and two or more second data sets obtained by a second division of the two or more data.
前記判定部は、前記分類部により予測されたラベルが不正解であったデータに関し、当該データに設定されたラベルが自動で設定されたラベルである場合、当該データのラベルの再設定を作業者に依頼すると判定してもよい。 The determination unit may determine that, for data in which the label predicted by the classification unit is incorrect, the label set for the data is an automatically set label, and request the operator to re-set the label for the data.
前記判定部は、作業者によりラベルが設定されたデータに関し、前記作業者による当該データへのラベル設定の信頼性が所定の基準を満たさない場合、当該データのラベルの再設定を作業者に依頼すると判定してもよい。 The determination unit may determine that, for data on which a label has been set by a worker, the reliability of the label setting by the worker to the data does not meet a predetermined standard, to request the worker to re-label the data.
前記情報処理装置は、前記判定部により前記作業者に前記ラベルの再設定を依頼すると判定されたデータの数が収束したことに基づき、前記第1の処理~前記第3の処理の終了を制御する制御部をさらに備えてもよい。 The information processing device may further include a control unit that controls the end of the first process to the third process based on the convergence of the number of data items for which the determination unit has determined that the worker should be asked to reset the label.
また、上記課題を解決するために、本発明の別の観点によれば、複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置により実行される方法であって、第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測することと、第2の処理として、前記第1の処理での予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定することと、第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新することと、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行することと、を含み、前記第2の処理は、同一のデータについての前記第1の処理による予測結果が変化した回数が閾値以上である場合、当該データのラベルの再設定を作業者に依頼すると判定することを含む、方法が提供される。また、本発明の別の観点によれば、複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置により実行される方法であって、第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測することと、第2の処理として、前記第1の処理での予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定することと、第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新することと、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行することと、2以上のデータの少なくとも一部のデータに自動でラベルを設定することと、前記2以上のデータから前記複数のデータセットを形成することと、前記第1の処理~前記第3の処理が繰り返し実行された後に、前記2以上のデータのうちで作業者によるラベル設定作業が行われていないデータに対して自動でラベルを再設定することと、ラベルが再設定された後に、前記第1の処理~前記第3の処理の繰り返し実行を再開することと、を含み、前記第2の処理は、同一のデータについての前記第1の処理での予測結果の安定性に基づき、当該データのラベルの再設定を作業者に依頼するか否かを判定することを含む、方法が提供される。また、本発明の別の観点によれば、複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置により実行される方法であって、第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測することと、第2の処理として、前記第1の処理での予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定することと、第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新することと、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行することと、を含み、前記第2の処理は、前記第1の処理において予測されたラベルが不正解であったデータに関し、当該データに設定されたラベルが自動で設定されたラベルである場合、当該データのラベルの再設定を作業者に依頼すると判定することを含む、方法が提供される。
In order to solve the above problem, according to another aspect of the present invention, there is provided a method executed by an information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data sets, the method including: as a first process, predicting a label for each of a plurality of data sets included in the data set using a classifier acquired by learning; as a second process, determining, based on a prediction result in the first process, data among the plurality of data sets included in the data set for which a label is to be requested to be reset by an operator; and as a third process, updating the classifier by learning based on the data set after the label has been reset by the operator; and repeatedly executing the first process to the third process while changing a target data set among the plurality of data sets, wherein the second process includes determining that, when the number of times the prediction result by the first process for the same data has changed is equal to or greater than a threshold value, a request is made to reset the label of the data . According to another aspect of the present invention, there is provided a method executed by an information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data sets, the method including: a first process of predicting a label for each of the plurality of data sets included in the data sets using a classifier acquired by learning; a second process of determining, based on a prediction result in the first process, data among the plurality of data sets included in the data sets for which a label is to be requested to be reset by an operator; a third process of updating the classifier by learning based on the data sets after the labels have been reset by the operator; the first process to the third process from a data set that includes a plurality of data items, automatically setting labels for at least a portion of the two or more data items, forming the plurality of data sets from the two or more data items, automatically resetting labels for data that has not been subjected to a label setting operation by an operator among the two or more data items after the first process to the third process have been repeatedly performed, and resuming the repeated execution of the first process to the third process after the labels have been reset, wherein the second process includes determining whether or not to request an operator to reset the label of the data based on stability of a prediction result in the first process for the same data. According to another aspect of the present invention, there is provided a method executed by an information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data sets, the method including: as a first process, predicting a label for each of a plurality of data sets included in the data set using a classifier acquired by learning; as a second process, determining, based on a prediction result in the first process, data among the plurality of data sets included in the data set for which a label is to be requested to be reset by an operator; and as a third process, updating the classifier by learning based on the data set after the label has been reset by the operator; and repeatedly executing the first process to the third process while changing a target data set among the plurality of data sets, wherein the second process includes, for data for which a label predicted in the first process was incorrect, determining that a request is to be made to reset the label of the data from an operator when the label set for the data is an automatically set label.
以上説明した本発明によれば、データに設定されるラベルの精度を向上することが可能である。 According to the present invention described above, it is possible to improve the accuracy of labels set on data.
以下に添付図面を参照しながら、本発明の実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 The following describes in detail an embodiment of the present invention with reference to the accompanying drawings. Note that in this specification and the drawings, components that have substantially the same functional configuration are designated by the same reference numerals to avoid redundant description.
また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、複数の構成要素の各々に同一符号のみを付する。 In addition, in this specification and drawings, multiple components having substantially the same functional configuration may be distinguished by adding different alphabets after the same reference numeral. However, if there is no particular need to distinguish between multiple components having substantially the same functional configuration, each of the multiple components will be given only the same reference numeral.
<1.概要>
本発明の一実施形態は、機械学習のための教師データの精度を向上するための情報処理装置に関する。教師データの精度を向上するための技術として、教師データセットを用いた機械学習により分類器を作成した後、評価データセットのラベルを分類器で予測し、予測結果が不正解であったラベルをユーザが再設定する一連の処理を、教師データセットと評価データセットを入れ替えながら繰り返し実行する技術が考えられる。
<1. Overview>
An embodiment of the present invention relates to an information processing device for improving the accuracy of teacher data for machine learning. As a technique for improving the accuracy of teacher data, a technique is considered in which a classifier is created by machine learning using a teacher data set, the label of an evaluation data set is predicted by the classifier, and a user resets a label whose prediction result is incorrect, and the series of processes are repeatedly performed while switching between the teacher data set and the evaluation data set.
しかし、上記の技術では、予測結果が不正解であったラベルの再設定を作業者に依頼し続けるので、作業者が何度も同じデータについてラベルが正しいかを確認することとなり、効率が悪い。また、上記の技術では、適用先のデータが未ラベルで、別のデータで学習したモデルを使って適用先のデータにラベルを自動で設定した場合、学習したデータと適用先のデータの取得環境の相違によっては正しいラベル設定が困難である。結果、適用先のデータに設定されたラベルの多くが誤っている場合、ラベルの質を向上させていくことが難しい。 However, with the above technology, workers must continue to be asked to re-assign labels where prediction results were incorrect, which is inefficient as workers must repeatedly check whether the labels are correct for the same data. Also, with the above technology, if the data to which the technology is applied is unlabeled and labels are automatically assigned to the data to which the technology is applied using a model trained on other data, it can be difficult to assign correct labels depending on the differences in the acquisition environments of the trained data and the data to which the technology is applied. As a result, if many of the labels assigned to the data to which the technology is applied are incorrect, it is difficult to improve the quality of the labels.
また、特徴空間において複数のクラスの境界付近に位置する評価データも存在し得て、このような評価データに正しくラベル付けを行うことも重要である。しかし、上記の技術では、評価データに設定されたラベルが誤っていても、分類器が同一のラベルを予測した場合には当該評価データの存在が作業者に伝えられないので、誤ったラベルが維持されたままとなる。 In addition, there may be evaluation data that is located near the boundaries of multiple classes in the feature space, and it is important to correctly label such evaluation data. However, with the above technology, even if the label set for the evaluation data is incorrect, if the classifier predicts the same label, the existence of the evaluation data is not communicated to the worker, and the incorrect label remains.
本件発明者は、上記事情を一着眼点にして本発明の一実施形態を創作するに至った。本発明の一実施形態による情報処理装置は、データに設定されるラベルの精度を向上することが可能である。以下、このような本発明の一実施形態による情報処理装置の構成および動作を順次詳細に説明する。 The inventor of the present invention has come up with an embodiment of the present invention with the above circumstances in mind. An information processing device according to an embodiment of the present invention is capable of improving the accuracy of labels set to data. The configuration and operation of such an information processing device according to an embodiment of the present invention will be described in detail below.
<2.情報処理装置の構成>
図1は、本発明の一実施形態による情報処理装置20の構成を示す説明図である。図1に示したように、本発明の一実施形態による情報処理装置20は、記憶部220、表示部224、操作部228、ラベル設定部230、制御部240、学習部252、分類部254および評価部256を備える。本発明の一実施形態による情報処理装置20では高精度なラベルが設定されたデータセットが取得されるので、当該データセットを用いた機械学習により高精度な分類器を得ることが可能である。このような分類器の適用先は特に限定されず、例えば、画像の識別であってもよいし、音声の識別であってもよい。より具体的には、適用先は、工場における製品の製造過程を撮像して得られたX線画像の識別であってもよく、この場合、識別結果として得られる製造過程の良否に基づいて製品の品質管理を的確に行うことが可能である。
2. Configuration of information processing device
FIG. 1 is an explanatory diagram showing the configuration of an
(記憶部)
記憶部220は、2以上のデータおよび2以上のデータの各々に設定されているラベルを関連付けて記憶する。本発明の一実施形態による一連の処理が開始される段階では、2以上のデータのうちの一部のデータに作業者によりラベルが設定されていることを想定する。その後、本発明の一実施形態による一連の処理の進行に伴い、記憶部220において各データに関連付けて記憶されるラベルが更新される。また、記憶部220は、図5を参照して後述するように、各データの処理履歴も記憶する。なお、記憶部220が記憶する各データは、画像データであってもよいし、音声データであってもよいし、テキストデータであってもよい。
(Memory unit)
The
(表示部)
表示部224は、制御部240からの制御に基づき多様な画面を表示する。特に、本発明の一実施形態による表示部224は、作業者がラベルを再設定するためのラベル再設定画面を表示する。ラベル再設定画面は、制御部240によりラベルの再設定を作業者に依頼すると判定されたデータの表示、および、当該データに現在設定されているラベルの表示を含んでもよい。作業者は、ラベル再設定画面に含まれるデータの表示を見ながら、当該データにラベルを再設定することが可能である。
(Display)
The
(操作部)
操作部228は、作業者が情報処理装置20の情報または指示などを入力するために操作する構成である。特に、本発明の一実施形態による操作部228は、上述したラベル再設定画面において作業者がラベルを再設定するための操作を検出し、当該操作を示す信号を制御部240に出力する。
(Operation section)
The
(ラベル設定部)
ラベル設定部230は、記憶部220に記憶されている2以上のデータの少なくとも一部のデータに自動でラベルを設定する。例えば、ラベル設定部230は、記憶部220に記憶されている2以上のデータのうちで、ラベルが設定されていないデータに、ラベルが設定されているデータを教師データとして用いる半教師あり学習でのクラスタリングにより自動でラベルを設定する。図2を参照して、このようなラベル設定部230による処理の具体例を説明する。
(Label setting section)
The
図2は、ラベル設定部230によるラベルの設定の具体例を示す説明図である。より詳細には、図2の上段にはラベル設定部230による処理前に記憶部220に記憶されているラベルの状態を示し、図2の下段にはラベル設定部230による処理後に記憶部220に記憶されているラベルの状態を示している。
Figure 2 is an explanatory diagram showing a specific example of label setting by the
図2の上段に示した例では、データ1、データ2、データ5およびデータ6などにはラベルが設定されており、ラベルの設定主体として作業者Xまたは作業者Yが関連付けられている。一方、データ3、データ4およびデータNなどにはラベルが設定されていない。これらデータ3、データ4およびデータNなどについて、ラベル設定部230による処理後には、図2の下段に示したようにラベルが設定され、設定主体として自動が関連付けられる。
In the example shown in the upper part of Figure 2, labels are set for
図3は、これらデータの特徴空間における分布イメージを示す説明図である。図3において、クラスAの領域にデータ1およびデータ4が含まれ、クラスBの領域にデータ2およびデータ3が含まれ、クラスCの領域にデータ5およびデータ6が含まれている。データNは、各クラスの領域の境界付近に存在し、いずれのクラスに属するかを自動で判断し難いデータである。本発明の一実施形態では、後述する方法によりデータNのような各クラスの領域の境界付近に存在するデータを抽出し、当該データのラベルの手動での設定を作業者に依頼することにより、ラベルの精度を向上することが可能である。
Figure 3 is an explanatory diagram showing an image of the distribution of these data in feature space. In Figure 3,
(制御部)
制御部240は、情報処理装置20の動作全般を制御する。例えば、制御部240は、ラベル設定部230にラベルの自動設定の実行を指示したり、学習部252、分類部254および評価部256による処理を制御したり、ラベル再設定画面を生成してラベル再設定画面を表示部224に表示させたり、記憶部220に記憶されているラベルを更新したりする。
(Control Unit)
The
また、制御部240は、記憶部220に記憶されている2以上のデータから複数のデータセットを形成するデータセット形成部242の機能を有する。例えば、データセット形成部242は、図4に示すようにラベル設定部230による処理後の2以上のデータを分割することにより複数のデータセットを形成してもよい。
The
図4は、データセットの形成例を示す説明図である。図4に示した例では、記憶部220に記憶されている2以上のデータが分割されて、データセット1およびデータセット2が形成されている。当該データの分割は、ランダムに行われてもよいし、所定の規則に従って行われてもよい。所定の規則は、例えば、自動でラベルが設定されたデータの数を各データセットで均等にする規則であってもよいし、同一のラベルが設定されたデータの数を各データセットで均等にする規則であってもよい。なお、図4においては記憶部220に記憶されている2以上のデータの分割数が2である例を示しているが、分割数は2に限られず、分割数は3以上であってもよい。
FIG. 4 is an explanatory diagram showing an example of the formation of a dataset. In the example shown in FIG. 4, two or more pieces of data stored in the
データセット形成部242は、分割により得られた複数のデータセットから、教師データセットに用いるデータセット、および評価データセットに用いるデータセットを選択する。また、データセット形成部242は、教師データセットと評価データセットの置き換えを行うこともできる。
The
その他、制御部240は、依頼判定部244、更新部246および終了判定部248などの機能を有する。これら制御部240が有する各機能については詳細に後述する。
In addition, the
(学習部)
学習部252は、データセット形成部242により教師データセットとして選択されたデータセットに基づく学習により分類器を作成または更新する。分類器は、データから抽出された特徴量に基づいて当該データに対応するラベルを予測するために用いられるパラメータ群であってもよい。
(Learning Department)
The
(分類部)
分類部254は、データセット形成部242により評価データセットとして選択されたデータセットに含まれる複数のデータの各々のラベルを、学習部252により作成または更新された分類器を用いて予測する。
(Classification Department)
The
(評価部)
評価部256は、分類部254により複数のデータの各々について予測されたラベルが、複数のデータの各々に設定されているラベルと同一であるか否か、すなわち、分類部254による予測結果が正解であるか否かを評価する。
(Evaluation Department)
The
<3.制御部の構成>
以上、情報処理装置20の構成を説明した。続いて、制御部240の構成をより詳細に説明する。図1に示したように、制御部240は、データセット形成部242、依頼判定部244、更新部246および終了判定部248の機能を有する。
3. Configuration of the control unit
The above describes the configuration of the
(データセット形成部)
データセット形成部242は、上述したように、ラベル設定部230による処理後の2以上のデータを分割することにより複数のデータセットを形成する。
(Data Set Creation Department)
As described above, the data
(依頼判定部)
依頼判定部244は、判定部の一例であり、評価部256による評価の結果に基づき、評価データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する。例えば、依頼判定部244は、予測結果が正解であったか否か、ラベルが自動で設定されたか否か、作業者によるラベル設定の信頼性が所定の基準を満たすか、などに基づいて判定を行う。作業者によるラベル設定の信頼性は、例えば、どの作業者がラベルを設定したか、ラベルの設定にかかった時間はどの程度か、ラベルの設定が人手により何回更新されたか、に応じて評価されてもよい。また、依頼判定部244は、同一のデータについての分類部254による予測結果の安定性に基づいて当該データのラベルの再設定を作業者に依頼するか否かを判定してもよい。
(Request Determination Unit)
The
(更新部)
更新部246は、あるデータについて表示部224がラベル再設定画面を表示し、作業者が操作部228を介して当該データのラベルを再設定すると、記憶部220に記憶されている当該データのラベルを再設定されたラベルに更新する。ここで、更新部246は、ラベルを再設定した作業者も設定主体として記憶部220に記憶させる。なお、作業者にラベルの再設定が依頼され、作業者がラベルを変更しなかった場合にも、更新部246は当該作業者を設定主体として記憶部220に記憶させる。
(Update Department)
When the
評価データセットの全てのデータについて、分類部254によるラベルの予測(第1の処理)、評価部256による予測結果の評価、依頼判定部244による依頼判定(第2の処理)および更新部246によるラベル更新が終わると、データセット形成部242により当該評価データセットと教師データセットが置き換えられ、学習部252において新たな教師データセットに基づく学習による分類器の更新(第3の処理)が行われる。これら一連の処理が、評価データセットと教師データセットが置き換えられながら、繰り返し実行される。
After the label prediction by the classification unit 254 (first process), the evaluation of the prediction result by the
(終了判定部)
終了判定部248は、教師データセットと評価データセットの置き換えが所定回数行われたか否かを判定する。教師データセットと評価データセットの置き換え回数が所定回数未満である場合、終了判定部248は上述した一連の処理の繰り返しを制御する。
(End Determination Unit)
The
さらに、終了判定部248は、教師データセットと評価データセットの置き換えが所定回数行われたと判定した場合、作業者にラベルの再設定を依頼するデータの数(再設定依頼数)が収束したか否かを判定する。具体的には、終了判定部248は、再設定依頼数が所定数以下となったこと、または、再設定依頼数が評価データセットに含まれるデータの数の所定割合以下になったこと、などに基づいて再設定依頼数が収束したと判定してもよい。
Furthermore, when the
再設定依頼数が収束している場合、終了判定部248は、上述した一連の処理の終了を制御する。
If the number of reconfiguration requests has converged, the
一方、再設定依頼数が収束していない場合、終了判定部248は、記憶部220に記憶されている2以上のデータにラベルを再度自動で設定するようラベル設定部230に指示する。ラベル設定部230は、設定主体が自動であるデータのラベルを、設定主体が作業者であるデータを教師データとして用いる半教師あり学習でのクラスタリングにより再設定する。その後、データセット形成部242が記憶部220に記憶されている2以上のデータを複数のデータセットに分割し、上述した一連の処理が繰り返される。
On the other hand, if the number of reset requests has not converged, the
なお、データセット形成部242が前回の分割である第1の分割により形成した2以上の第1のデータセットと、新たな分割である第2の分割により形成した2以上の第2のデータセットは、同一であってもよいし、異なってもよい。2以上の第1のデータセットと2以上の第2のデータセットが異なる場合、データセット間でのデータの偏りによる悪影響を緩和することが可能である。
The two or more first datasets formed by the
(処理履歴の具体例)
ここで、図5を参照し、あるデータの処理履歴の具体例を説明する。
(Example of processing history)
Now, with reference to FIG. 5, a specific example of the processing history of certain data will be described.
図5は、データNの処理履歴の具体例を示す説明図である。図5に示した例では、データNは、ラベル設定部230による1回目の半教師あり学習(クラスタリング)でラベルが「クラスA」が設定されている。続いて、1回目のクラスタリングの後の1回目の評価(評価1-1回目)、および2回目の評価(評価1-2回目)の双方において予測結果が正解し、ラベル「クラスA」が維持されている。
Figure 5 is an explanatory diagram showing a specific example of the processing history of data N. In the example shown in Figure 5, the label "Class A" is set for data N in the first semi-supervised learning (clustering) by the
その後、データNは、ラベル設定部230による2回目のクラスタリングでラベルが「クラスB」に変更されている。続いて、2回目のクラスタリングの後の1回目の評価(評価2-1回目)、および2回目の評価(評価2-2回目)の双方において予測結果が正解し、ラベル「クラスB」が維持されている。
After that, the label of data N is changed to "Class B" in the second clustering by the
さらに、データNは、ラベル設定部230による3回目のクラスタリングでラベルが「クラスC」に変更されている。続いて、3回目のクラスタリングの後の1回目の評価(評価3-1回目)において予測結果が正解している。このように、データNでは予測結果の正解が続いているが、予測結果が「クラスA」、「クラスB」、「クラスC」と変化している。
Furthermore, the label of data N is changed to "Class C" in the third clustering by the
ここで、特徴空間における各クラスの境界面付近に位置するデータは予測結果が安定しないと考えられる。そこで、依頼判定部244は、予測結果が安定していないデータのラベルの再設定を作業者に依頼すると判定する。具体的には、依頼判定部244は、予測結果が変化した回数が閾値以上であるか否かに基づいて予測結果が安定しているか否かを判定してもよい。閾値が「2」である場合、図5に示した例ではデータNの予測結果の変化回数が閾値である「2」に達しているので、依頼判定部244はデータNのラベルの再設定を作業者に依頼すると判定する。そして、図5に示した例では、作業者による操作部228への操作に基づいてデータNのラベルが「クラスA」に更新されている。
Here, it is considered that the prediction results of data located near the boundary surfaces of each class in the feature space are unstable. Therefore, the
<4.情報処理装置の動作>
以上、本発明の一実施形態による情報処理装置20の構成を説明した。続いて、図6および図7を参照し、本発明の一実施形態による情報処理装置20の動作を整理する。
4. Operation of the Information Processing Device
The configuration of the
図6は、本発明の一実施形態による情報処理装置20の動作を示すフローチャートである。図6に示したように、ラベル設定部230が、記憶部220に記憶されている2以上のデータのうちで、ラベルが設定されていないデータに、ラベルが設定されているデータを教師データとして用いる半教師あり学習でのクラスタリングにより自動でラベルを設定する(S304)。そして、データセット形成部242が、記憶部220に記憶されている2以上のデータを分割することにより複数のデータセットを形成する(S308)。
Figure 6 is a flowchart showing the operation of the
さらに、データセット形成部242は、分割により得られた複数のデータセットから、教師データセットに用いるデータセット、および評価データセットに用いるデータセットを選択する(S312)。
Furthermore, the
続いて、学習部252が、データセット形成部242により教師データセットとして選択されたデータセットに基づく学習により分類器を作成または更新する(S316)。そして、分類部254は、データセット形成部242により評価データセットとして選択されたデータセットに含まれる複数のデータの各々のラベルを、学習部252により作成または更新された分類器を用いて予測する(S320)。
Next, the
そして、分類部254による予測結果が正解であるか否かを評価し、依頼判定部244が、評価部256による評価の結果に基づき、評価データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する(S324)。続いて、再設定が依頼されたデータの記憶部220に記憶されているラベルを、作業者により再設定されたラベルに更新する(S328)。
Then, the prediction result by the
ここで、終了判定部248が、教師データセットと評価データセットの置き換えが所定回数行われたか否かを判定する(S332)。教師データセットと評価データセットの置き換え回数が所定回数未満である場合(S332/No)、S312からの処理が繰り返される。
Then, the
一方、教師データセットと評価データセットの置き換えが所定回数行われた場合(S332/Yes)、終了判定部248は、作業者にラベルの再設定を依頼するデータの数(再設定依頼数)が収束したか否かを判定する(S336)。再設定依頼数が収束している場合(S336/Yes)、終了判定部248は、上述した一連の処理の終了を制御する。一方、再設定依頼数が収束していない場合(S336/No)、S304からの処理が繰り返される。
On the other hand, if the replacement of the teacher dataset and the evaluation dataset has been performed a predetermined number of times (S332/Yes), the
次に、図7を参照し、S324に示した判定処理をより詳細に説明する。 Next, the determination process shown in S324 will be explained in more detail with reference to FIG. 7.
図7は、終了判定部248による判定処理を示すフローチャートである。終了判定部248は、まず、あるデータについての分類部254による予測結果が正解であったか否かを判定する(S410)。予測結果が不正解であった場合(S410/No)、終了判定部248は、当該データのラベルが自動で設定されたラベルであるか否かを判定する(S420)。
Figure 7 is a flowchart showing the determination process by the
そして、当該データのラベルが自動で設定されたラベルである場合(S420/Yes)、終了判定部248は、当該データのラベルの再設定を作業者に依頼すると判定する(S430)。一方、当該データのラベルが作業者により手動で設定されたラベルである場合(S420/No)、終了判定部248は、ラベル設定の信頼性が所定の基準を満たすか否かを判定する(S440)。ラベル設定の信頼性が所定の基準を満たす場合(S440/Yes)、終了判定部248は、当該データのラベルの再設定を依頼しないと判定する。一方、ラベル設定の信頼性が所定の基準を満たさない場合(S440/No)、終了判定部248は、当該データのラベルの再設定を作業者に依頼すると判定する(S470)。
If the label of the data is an automatically set label (S420/Yes), the
S410において、予測結果が正解であった場合(S410/Yes)、終了判定部248は、当該データのラベルが自動で設定されたラベルであるか否かを判定する(S450)。当該データのラベルが作業者により手動で設定されたラベルである場合(S450/No)、処理は先に説明したS440に進む。
If the prediction result is correct in S410 (S410/Yes), the
一方、当該データのラベルが自動で設定されたラベルである場合(S450/Yes)、終了判定部248は、当該データのラベルの予測結果が変化した回数が閾値以上であるか否かを判定する(S460)。予測結果が変化した回数が閾値以上である場合(S460/Yes)、終了判定部248は、当該データのラベルの再設定を作業者に依頼すると判定する(S470)。一方、予測結果が変化した回数が閾値未満である場合(S460/No)、終了判定部248は、当該データのラベルの再設定を依頼しないと判定する。
On the other hand, if the label of the data is an automatically set label (S450/Yes), the
<5.作用効果>
以上説明した本発明の一実施形態によれば、多様な作用効果が得られる。例えば、本発明の一実施形態によれば、特徴空間における各クラスの境界付近に位置するデータを抽出し、当該データのラベルの手動での設定を作業者に依頼することにより、ラベルの精度を向上することが可能である。
<5. Effects>
According to the embodiment of the present invention described above, various operational effects can be obtained. For example, according to the embodiment of the present invention, by extracting data located near the boundaries of each class in the feature space and requesting an operator to manually set the labels of the data, it is possible to improve the accuracy of the labels.
また、本発明の一実施形態によれば、予測結果が不正解であったラベルであっても、ラベル設定の信頼性が所定の基準を満たす場合には、当該ラベルの再設定の依頼が行われない。このため、作業者が何度も同じデータについてラベルが正しいかを確認するケースの発生を抑制できる。一方で、予測結果が不正解であり、かつ自動でラベルが設定されたデータ、および、ラベル設定の信頼性が所定の基準を満たさないデータに関してはラベルの再設定を作業者に依頼することにより、効率的にラベルの品質を向上することが可能である。また、本発明の一実施形態によれば、ラベル設定部230が自動で設定したラベルに基づいて学習を進めることが可能であるので、作業者が全てのデータにラベルを設定しなくてもよい点でも効率的である。
Furthermore, according to one embodiment of the present invention, even if the predicted result is an incorrect label, if the reliability of the label setting meets a predetermined standard, a request to reset the label is not made. This can prevent the operator from repeatedly checking whether the label is correct for the same data. On the other hand, for data where the predicted result is incorrect and the label was automatically set, and data where the reliability of the label setting does not meet a predetermined standard, the quality of the labels can be efficiently improved by requesting the operator to reset the label. Furthermore, according to one embodiment of the present invention, learning can be carried out based on the labels automatically set by the
<6.ハードウェア構成>
以上、本発明の各実施形態を説明した。上述した学習、分類、評価および判定などの情報処理は、ソフトウェアと、以下に説明する情報処理装置20のハードウェアとの協働により実現される。
6. Hardware Configuration
The above is a description of the embodiments of the present invention. The above-mentioned information processing, such as learning, classification, evaluation, and judgment, is realized by cooperation between software and hardware of the
図8は、情報処理装置20のハードウェア構成を示したブロック図である。情報処理装置20は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、ホストバス204と、を備える。また、情報処理装置20は、ブリッジ205と、外部バス206と、インターフェース207と、入力装置208と、表示装置209と、音声出力装置210と、ストレージ装置(HDD)211と、ドライブ212と、ネットワークインターフェース215とを備える。
Figure 8 is a block diagram showing the hardware configuration of the
CPU201は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置20内の動作全般を制御する。また、CPU201は、マイクロプロセッサであってもよい。ROM202は、CPU201が使用するプログラムや演算パラメータ等を記憶する。RAM203は、CPU201の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバス204により相互に接続されている。これらCPU201、ROM202およびRAM203とソフトウェアとの協働により、上述したラベル設定部230、制御部240、学習部252、分類部254および評価部256などの機能が実現され得る。
The
ホストバス204は、ブリッジ205を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス206に接続されている。なお、必ずしもホストバス204、ブリッジ205および外部バス206を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。
The
入力装置208は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、センサー、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU201に出力する入力制御回路などから構成されている。情報処理装置20のユーザは、該入力装置208を操作することにより、情報処理装置20に対して各種のデータを入力したり処理動作を指示したりすることができる。
The
表示装置209は、例えば、液晶ディスプレイ(LCD)装置、プロジェクター装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置を含む。また、音声出力装置210は、スピーカおよびヘッドホンなどの音声出力装置を含む。
The
ストレージ装置211は、本実施形態にかかる情報処理装置20の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置211は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置211は、例えば、HDD(Hard Disk Drive)またはSSD(Solid Strage Drive)、あるいは同等の機能を有するメモリ等で構成される。このストレージ装置211は、ストレージを駆動し、CPU201が実行するプログラムや各種データを格納する。
The
ドライブ212は、記憶媒体用リーダライタであり、情報処理装置20に内蔵、あるいは外付けされる。ドライブ212は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体24に記録されている情報を読み出して、RAM203またはストレージ装置211に出力する。また、ドライブ212は、リムーバブル記憶媒体24に情報を書き込むこともできる。
The
ネットワークインターフェース215は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インターフェースである。また、ネットワークインターフェース215は、無線LAN(Local Area Network)対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。
The
<7.補足>
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
<7. Supplementary Information>
Although the preferred embodiment of the present invention has been described in detail above with reference to the accompanying drawings, the present invention is not limited to such an example. It is clear that a person having ordinary knowledge in the technical field to which the present invention pertains can conceive of various modified or altered examples within the scope of the technical ideas described in the claims, and it is understood that these also naturally belong to the technical scope of the present invention.
例えば、ラベルの再設定を依頼するか否かの依頼判定部244による判定に関し、依頼判定部244は、上述した処理に加えて、または代えて、各データの各クラスの重心からの距離、または境界面からの距離を計算することで各データが各クラスの境界付近に位置するか否かを判定し、境界面付近に位置するデータのラベルの再設定を依頼すると判定してもよい。
For example, in relation to the determination by the
また、上記ではラベル設定部230が半教師あり学習によりラベルを設定する例を説明したが、ラベル設定部230は、k-means法などの教師なし学習によりラベルを設定してもよい。
In addition, although an example in which the
また、上記では教師データセットと評価データセットの置き換えが所定回数行われた場合にラベル設定部230がラベルを自動で再設定する例を説明したが、ラベル設定部230は、作業者による指示に従ってラベルの再設定を実行してもよい。
In addition, although an example has been described above in which the
また、本明細書の情報処理装置20の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、情報処理装置20の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
Furthermore, each step in the processing of the
また、情報処理装置20に内蔵されるCPU、ROMおよびRAMなどのハードウェアに、上述した情報処理装置20の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。
It is also possible to create a computer program that causes the hardware, such as the CPU, ROM, and RAM, built into the
20 情報処理装置
220 記憶部
224 表示部
228 操作部
230 ラベル設定部
240 制御部
242 データセット形成部
244 依頼判定部
246 更新部
248 終了判定部
252 学習部
254 分類部
256 評価部
20
Claims (14)
第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測する分類部と、
第2の処理として、前記分類部による予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する判定部と、
第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新する学習部と、
を備え、
前記分類部、前記判定部および前記学習部は、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行し、
前記判定部は、同一のデータについての前記分類部による予測結果が変化した回数が閾値以上である場合、当該データのラベルの再設定を作業者に依頼すると判定する、情報処理装置。 An information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data,
As a first process, a classification unit predicts labels of each of a plurality of data included in a dataset using a classifier acquired by learning;
As a second process, a determination unit determines data for which a label should be requested to be reassigned from an operator among a plurality of data included in the data set based on a prediction result by the classification unit;
As a third process, a learning unit that updates the classifier by learning based on the data set after the label has been reset by the operator;
Equipped with
the classification unit, the determination unit, and the learning unit repeatedly execute the first process to the third process while changing a target data set among the plurality of data sets;
The information processing device, wherein the determination unit determines that, when the number of times that the prediction result by the classification unit for the same data has changed is equal to or greater than a threshold, to request an operator to re-assign the label of the data .
第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測する分類部と、
第2の処理として、前記分類部による予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する判定部と、
第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新する学習部と、
2以上のデータの少なくとも一部のデータに自動でラベルを設定するラベル設定部と、
前記2以上のデータから前記複数のデータセットを形成するデータセット形成部と、
を備え、
前記分類部、前記判定部および前記学習部は、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行し、
前記判定部は、同一のデータについての前記分類部による予測結果の安定性に基づき、当該データのラベルの再設定を作業者に依頼するか否かを判定し、
前記ラベル設定部は、前記第1の処理~前記第3の処理が繰り返し実行された後に、前記2以上のデータのうちで作業者によるラベル設定作業が行われていないデータに対して自動でラベルを再設定し、
前記分類部、前記判定部および前記学習部は、前記ラベル設定部によりラベルが再設定された後に、前記第1の処理~前記第3の処理の繰り返し実行を再開する、情報処理装置。 An information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data,
As a first process, a classification unit predicts labels of each of a plurality of data included in a dataset using a classifier acquired by learning;
As a second process, a determination unit determines data for which a label should be requested to be reassigned from an operator among a plurality of data included in the data set based on a prediction result by the classification unit;
As a third process, a learning unit that updates the classifier by learning based on the data set after the label has been reset by the operator;
a label setting unit that automatically sets a label to at least a part of the two or more pieces of data;
A data set forming unit that forms the plurality of data sets from the two or more data;
Equipped with
the classification unit, the determination unit, and the learning unit repeatedly execute the first process to the third process while changing a target data set among the plurality of data sets;
the determination unit determines whether to request an operator to re-assign a label for the same data based on the stability of the prediction result by the classification unit; and
the label setting unit automatically resets a label to data for which a label setting operation has not been performed by an operator among the two or more pieces of data after the first process to the third process have been repeatedly performed;
The classification unit, the determination unit, and the learning unit resume repeated execution of the first process to the third process after the labels are reset by the label setting unit .
第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測する分類部と、As a first process, a classification unit predicts labels of each of a plurality of data included in a dataset using a classifier acquired by learning;
第2の処理として、前記分類部による予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する判定部と、As a second process, a determination unit determines data for which a label should be requested to be reassigned from an operator among a plurality of data included in the data set based on a prediction result by the classification unit;
第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新する学習部と、As a third process, a learning unit that updates the classifier by learning based on the data set after the label has been reset by the operator;
を備え、Equipped with
前記分類部、前記判定部および前記学習部は、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行し、the classification unit, the determination unit, and the learning unit repeatedly execute the first process to the third process while changing a target data set among the plurality of data sets;
前記判定部は、前記分類部により予測されたラベルが不正解であったデータに関し、当該データに設定されたラベルが自動で設定されたラベルである場合、当該データのラベルの再設定を作業者に依頼すると判定する、情報処理装置。The information processing device, wherein the determination unit determines that, for data in which the label predicted by the classification unit is incorrect, the label set for the data is an automatically set label, to request an operator to re-set the label for the data.
2以上のデータの少なくとも一部のデータに自動でラベルを設定するラベル設定部と、
前記2以上のデータから前記複数のデータセットを形成するデータセット形成部と、
をさらに備える、請求項1または3に記載の情報処理装置。 The information processing device includes:
a label setting unit that automatically sets a label to at least a part of the two or more pieces of data;
A data set forming unit that forms the plurality of data sets from the two or more data;
The information processing device according to claim 1 , further comprising:
前記分類部、前記判定部および前記学習部は、前記ラベル設定部によりラベルが再設定された後に、前記第1の処理~前記第3の処理の繰り返し実行を再開する、請求項5に記載の情報処理装置。 the label setting unit automatically resets a label to data for which a label setting operation has not been performed by an operator among the two or more pieces of data after the first process to the third process have been repeatedly performed;
The information processing device according to claim 5 , wherein the classification unit, the determination unit, and the learning unit resume repeated execution of the first process to the third process after the labels are reset by the label setting unit.
第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測することと、
第2の処理として、前記第1の処理での予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定することと、
第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新することと、
前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行することと、
を含み、
前記第2の処理は、同一のデータについての前記第1の処理による予測結果が変化した回数が閾値以上である場合、当該データのラベルの再設定を作業者に依頼すると判定することを含む、方法。 A method executed by an information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data,
As a first process, a label of each of a plurality of data included in a dataset is predicted using a classifier obtained by learning;
As a second process, determining data for which a label is to be requested to be reassigned to an operator from among a plurality of data included in the data set based on a prediction result in the first process;
As a third process, updating the classifier by learning based on the data set after the labels have been reset by the operator;
Repeating the first process to the third process while changing a target data set among the plurality of data sets;
Including,
The method, wherein the second process includes determining, when a number of times a prediction result by the first process for the same data has changed is equal to or greater than a threshold, to request an operator to relabel the data .
第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測することと、As a first process, a label of each of a plurality of data included in a dataset is predicted using a classifier obtained by learning;
第2の処理として、前記第1の処理での予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定することと、As a second process, determining data for which a label is to be requested to be reassigned to an operator from among a plurality of data included in the data set based on a prediction result in the first process;
第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新することと、As a third process, updating the classifier by learning based on the data set after the labels have been reset by the operator;
前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行することと、Repeating the first process to the third process while changing a target data set among the plurality of data sets;
2以上のデータの少なくとも一部のデータに自動でラベルを設定することと、Automatically setting a label to at least a portion of the two or more pieces of data;
前記2以上のデータから前記複数のデータセットを形成することと、forming the plurality of data sets from the two or more data;
前記第1の処理~前記第3の処理が繰り返し実行された後に、前記2以上のデータのうちで作業者によるラベル設定作業が行われていないデータに対して自動でラベルを再設定することと、After the first process to the third process are repeatedly executed, automatically re-labeling data among the two or more pieces of data for which a label setting operation has not been performed by an operator; and
ラベルが再設定された後に、前記第1の処理~前記第3の処理の繰り返し実行を再開することと、After the label is reset, restarting the repeated execution of the first process to the third process; and
を含み、Including,
前記第2の処理は、同一のデータについての前記第1の処理での予測結果の安定性に基づき、当該データのラベルの再設定を作業者に依頼するか否かを判定することを含む、方法。The method, wherein the second process includes determining whether to request an operator to re-label the data based on stability of a prediction result in the first process for the same data.
第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測することと、As a first process, a label of each of a plurality of data included in a dataset is predicted using a classifier obtained by learning;
第2の処理として、前記第1の処理での予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定することと、As a second process, determining data for which a label is to be requested to be reassigned to an operator from among a plurality of data included in the data set based on a prediction result in the first process;
第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新することと、As a third process, updating the classifier by learning based on the data set after the labels have been reset by the operator;
前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行することと、Repeating the first process to the third process while changing a target data set among the plurality of data sets;
を含み、Including,
前記第2の処理は、前記第1の処理において予測されたラベルが不正解であったデータに関し、当該データに設定されたラベルが自動で設定されたラベルである場合、当該データのラベルの再設定を作業者に依頼すると判定することを含む、方法。the second processing includes, for data whose label predicted in the first processing is incorrect, determining to request an operator to re-label the data when the label set for the data is an automatically set label.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020035133A JP7484223B2 (en) | 2020-03-02 | 2020-03-02 | Information processing device and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020035133A JP7484223B2 (en) | 2020-03-02 | 2020-03-02 | Information processing device and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021140254A JP2021140254A (en) | 2021-09-16 |
JP7484223B2 true JP7484223B2 (en) | 2024-05-16 |
Family
ID=77668609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020035133A Active JP7484223B2 (en) | 2020-03-02 | 2020-03-02 | Information processing device and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7484223B2 (en) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015087903A (en) | 2013-10-30 | 2015-05-07 | ソニー株式会社 | Apparatus and method for information processing |
JP2018013857A (en) | 2016-07-19 | 2018-01-25 | 富士通株式会社 | Sensor data learning method, sensor data learning program, and sensor data learning apparatus |
-
2020
- 2020-03-02 JP JP2020035133A patent/JP7484223B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015087903A (en) | 2013-10-30 | 2015-05-07 | ソニー株式会社 | Apparatus and method for information processing |
JP2018013857A (en) | 2016-07-19 | 2018-01-25 | 富士通株式会社 | Sensor data learning method, sensor data learning program, and sensor data learning apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP2021140254A (en) | 2021-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11880968B2 (en) | Distributed computing system for product defect analysis | |
JP6629678B2 (en) | Machine learning device | |
US9886669B2 (en) | Interactive visualization of machine-learning performance | |
US20180174062A1 (en) | Root cause analysis for sequences of datacenter states | |
US11526696B2 (en) | Model maintenance device, pattern recognition system, model maintenance method, and computer program product | |
AU2016200021A1 (en) | End-to-end project management | |
KR102337070B1 (en) | Method and system for building training database using automatic anomaly detection and automatic labeling technology | |
US20120294496A1 (en) | Face recognition apparatus, control method thereof, and face recognition method | |
US20220129794A1 (en) | Generation of counterfactual explanations using artificial intelligence and machine learning techniques | |
JP2017111731A (en) | Information processing system, information processing method, and program | |
JPWO2019187594A1 (en) | Learning equipment, learning methods and learning programs | |
KR20210029073A (en) | Virtual machine workload prediction method based on multiple prediction models | |
WO2021079440A1 (en) | Creation method, creation program, and information processing device | |
CN109144715B (en) | Resource optimization and update method, server and equipment | |
US20210182701A1 (en) | Virtual data scientist with prescriptive analytics | |
JP2019109924A (en) | Information processing system, information processing method, and program | |
JP7484223B2 (en) | Information processing device and method | |
JP4641492B2 (en) | Singular image detection device, singular image detection method and program | |
JP7272455B2 (en) | DETECTION METHOD, DETECTION PROGRAM AND INFORMATION PROCESSING DEVICE | |
US20220392107A1 (en) | Image processing apparatus, image processing method, image capturing apparatus, and non-transitory computer-readable storage medium | |
KR102413588B1 (en) | Object recognition model recommendation method, system and computer program according to training data | |
WO2023195139A1 (en) | Display data creation device, operation system, display data creation method, and display data creation program | |
JP2007164346A (en) | Decision tree changing method, abnormality determination method, and program | |
JP2020204812A5 (en) | ||
JP2020052935A (en) | Method of creating learned model, method of classifying data, computer and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231114 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240415 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7484223 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |