JP7484223B2 - Information processing device and method - Google Patents

Information processing device and method Download PDF

Info

Publication number
JP7484223B2
JP7484223B2 JP2020035133A JP2020035133A JP7484223B2 JP 7484223 B2 JP7484223 B2 JP 7484223B2 JP 2020035133 A JP2020035133 A JP 2020035133A JP 2020035133 A JP2020035133 A JP 2020035133A JP 7484223 B2 JP7484223 B2 JP 7484223B2
Authority
JP
Japan
Prior art keywords
data
label
unit
operator
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020035133A
Other languages
Japanese (ja)
Other versions
JP2021140254A (en
Inventor
まり 鈴木
誠 増田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2020035133A priority Critical patent/JP7484223B2/en
Publication of JP2021140254A publication Critical patent/JP2021140254A/en
Application granted granted Critical
Publication of JP7484223B2 publication Critical patent/JP7484223B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、情報処理装置および方法に関する。 The present invention relates to an information processing device and method.

近日、機械学習により作成された分類器を用いることにより、画像または音声などの多様なデータを識別することが可能となっている。分類器を用いた識別の精度は、分類器を作成する機械学習で用いられた教師データの精度に依存し得る。正解ラベルが設定されている教師データが多いほど識別の精度が向上し、正解ラベルが設定されている教師データが少ないほど識別の精度が低下するので、機械学習において教師データの精度は重視されている。 Recently, it has become possible to classify a variety of data, such as images or audio, by using classifiers created through machine learning. The accuracy of classification using a classifier may depend on the accuracy of the training data used in the machine learning to create the classifier. The more training data with correct answer labels set, the higher the accuracy of classification, and the less training data with correct answer labels set, the lower the accuracy of classification, so the accuracy of the training data is important in machine learning.

教師データの精度を向上するための技術を開示する文献として、例えば特許文献1および特許文献2が知られている。具体的には、特許文献1には、教師データセットを用いた機械学習により分類器を作成した後、評価データセットのラベルを分類器で予測し、予測結果が不正解であったラベルをユーザが再設定する一連の処理を、教師データセットと評価データセットを入れ替えながら繰り返し実行する技術が開示されている。また、特許文献2には、ラベルの信頼度を評価し、信頼度が低い場合にラベルの見直しを行うための技術が開示されている。 For example, Patent Document 1 and Patent Document 2 are known as documents disclosing techniques for improving the accuracy of training data. Specifically, Patent Document 1 discloses a technique in which a classifier is created by machine learning using a training dataset, the classifier predicts the labels of an evaluation dataset, and the user resets any labels for which the predictions are incorrect. This series of processes is repeatedly performed while switching between the training dataset and the evaluation dataset. Patent Document 2 also discloses a technique for evaluating the reliability of labels and revising the labels when the reliability is low.

特開2015-087903号公報JP 2015-087903 A 特開2019-101560号公報JP 2019-101560 A

ここで、特徴空間において複数のクラスの境界付近に位置する評価データも存在し得て、このような評価データに正しくラベル付けを行うことも重要である。しかし、特許文献1に記載の技術では、評価データに設定されたラベルが誤っていても、分類器が同一のラベルを予測した場合には当該評価データの存在がユーザに伝えられないので、誤ったラベルが維持されたままとなる。特許文献2に記載の技術でも当該課題は解決されない。 Here, evaluation data may exist that is located near the boundaries of multiple classes in the feature space, and it is important to correctly label such evaluation data. However, with the technology described in Patent Document 1, even if the label set for the evaluation data is incorrect, if the classifier predicts the same label, the existence of the evaluation data is not notified to the user, and the incorrect label remains. The technology described in Patent Document 2 does not solve this problem either.

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、データに設定されるラベルの精度を向上することが可能な、新規かつ改良された情報処理装置および方法を提供することにある。 Therefore, the present invention has been made in consideration of the above problems, and the object of the present invention is to provide a new and improved information processing device and method that can improve the accuracy of labels set to data.

上記課題を解決するために、本発明のある観点によれば、複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置であって、第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測する分類部と、第2の処理として、前記分類部による予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する判定部と、第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新する学習部と、を備え、前記分類部、前記判定部および前記学習部は、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行し、前記判定部は、同一のデータについての前記分類部による予測結果が変化した回数が閾値以上である場合、当該データのラベルの再設定を作業者に依頼すると判定する、情報処理装置が提供される。また、本発明の別の観点によれば、複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置であって、第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測する分類部と、第2の処理として、前記分類部による予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する判定部と、第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新する学習部と、2以上のデータの少なくとも一部のデータに自動でラベルを設定するラベル設定部と、前記2以上のデータから前記複数のデータセットを形成するデータセット形成部と、を備え、前記分類部、前記判定部および前記学習部は、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行し、前記判定部は、同一のデータについての前記分類部による予測結果の安定性に基づき、当該データのラベルの再設定を作業者に依頼するか否かを判定し、前記ラベル設定部は、前記第1の処理~前記第3の処理が繰り返し実行された後に、前記2以上のデータのうちで作業者によるラベル設定作業が行われていないデータに対して自動でラベルを再設定し、前記分類部、前記判定部および前記学習部は、前記ラベル設定部によりラベルが再設定された後に、前記第1の処理~前記第3の処理の繰り返し実行を再開する、情報処理装置が提供される。また、本発明の別の観点によれば、複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置であって、第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測する分類部と、第2の処理として、前記分類部による予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する判定部と、第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新する学習部と、を備え、前記分類部、前記判定部および前記学習部は、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行し、前記判定部は、前記分類部により予測されたラベルが不正解であったデータに関し、当該データに設定されたラベルが自動で設定されたラベルである場合、当該データのラベルの再設定を作業者に依頼すると判定する、情報処理装置が提供される。
In order to solve the above problem, according to an aspect of the present invention, there is provided an information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data, the information processing device including: a classification unit that predicts, as a first process, a label for each of a plurality of data included in the data set using a classifier acquired by learning; a determination unit that determines, as a second process, data among the plurality of data included in the data set, for which a label is to be requested to be reset by an operator, based on a prediction result by the classification unit; and a learning unit that updates the classifier by learning based on the data set after the label has been reset by the operator, the classification unit, the determination unit, and the learning unit repeatedly perform the first process to the third process while changing a target data set among the plurality of data sets, and the determination unit determines that a request is to be made to reset the label of the data, if the number of times the prediction result by the classification unit for the same data has changed is equal to or greater than a threshold value. According to another aspect of the present invention, there is provided an information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data sets, the information processing device including, as a first process, a classification unit that predicts a label for each of the plurality of data sets included in the data set using a classifier acquired by learning, a determination unit that determines, as a second process, data among the plurality of data sets included in the data set, based on a prediction result by the classification unit, for which a label is to be requested to be reset by an operator, and a learning unit that updates the classifier by learning based on the data set after the label has been reset by the operator, a label setting unit that automatically sets labels for at least a portion of two or more data sets, and a classification unit that creates the plurality of data sets from the two or more data sets. and a dataset forming unit which forms a dataset from among the plurality of datasets, wherein the classification unit, the determination unit, and the learning unit repeatedly execute the first process to the third process while changing a target dataset from among the plurality of datasets, the determination unit determines whether or not to request an operator to reset the label of the same data based on the stability of a prediction result by the classification unit for the same data, the label setting unit, after the first process to the third process have been repeatedly executed, automatically resets a label for data among the two or more pieces of data for which a label setting operation has not been performed by an operator, and the classification unit, the determination unit, and the learning unit resume the repeated execution of the first process to the third process after the label has been reset by the label setting unit. According to another aspect of the present invention, there is provided an information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data, the information processing device including: a classification unit that predicts, as a first process, a label for each of a plurality of data included in the data set using a classifier acquired by learning; a determination unit that determines, as a second process, data for which an operator is requested to reset the label among the plurality of data included in the data set based on a prediction result by the classification unit; and a learning unit that updates the classifier by learning based on the data set after the label has been reset by the operator, as a third process, wherein the classification unit, the determination unit, and the learning unit repeatedly perform the first process to the third process while changing a target data set among the plurality of data sets, and the determination unit determines that, for data for which the label predicted by the classification unit is incorrect, the label set for the data is an automatically set label, to request the operator to reset the label of the data.

前記判定部は、同一のデータについての前記分類部による予測結果が変化した回数が閾値以上である場合、当該データのラベルの再設定を作業者に依頼すると判定してもよい。 The determination unit may determine that a request should be made to the operator to relabel the data if the number of times the prediction result by the classification unit for the same data has changed is equal to or greater than a threshold value.

前記情報処理装置は、2以上のデータの少なくとも一部のデータに自動でラベルを設定するラベル設定部と、前記2以上のデータから前記複数のデータセットを形成するデータセット形成部と、をさらに備えてもよい。 The information processing device may further include a label setting unit that automatically sets labels to at least some of the two or more pieces of data, and a dataset forming unit that forms the multiple datasets from the two or more pieces of data.

前記ラベル設定部は、前記第1の処理~前記第3の処理が繰り返し実行された後に、前記2以上のデータのうちで作業者によるラベル設定作業が行われていないデータに対して自動でラベルを再設定し、前記分類部、前記判定部および前記学習部は、前記ラベル設定部によりラベルが再設定された後に、前記第1の処理~前記第3の処理の繰り返し実行を再開してもよい。 After the first process to the third process are repeatedly executed, the label setting unit may automatically reset the labels for data among the two or more pieces of data for which a label setting operation has not been performed by an operator, and the classification unit, the determination unit, and the learning unit may resume the repeated execution of the first process to the third process after the labels are reset by the label setting unit.

前記データセット形成部は、前記2以上のデータを分割することにより前記複数のデータセットを形成してもよい。 The dataset forming unit may form the multiple datasets by dividing the two or more pieces of data.

前記複数のデータセットは、前記2以上のデータの第1の分割により得られた2以上の第1のデータセット、および前記2以上のデータの第2の分割により得られた2以上の第2のデータセットを含んでもよい。 The plurality of data sets may include two or more first data sets obtained by a first division of the two or more data, and two or more second data sets obtained by a second division of the two or more data.

前記判定部は、前記分類部により予測されたラベルが不正解であったデータに関し、当該データに設定されたラベルが自動で設定されたラベルである場合、当該データのラベルの再設定を作業者に依頼すると判定してもよい。 The determination unit may determine that, for data in which the label predicted by the classification unit is incorrect, the label set for the data is an automatically set label, and request the operator to re-set the label for the data.

前記判定部は、作業者によりラベルが設定されたデータに関し、前記作業者による当該データへのラベル設定の信頼性が所定の基準を満たさない場合、当該データのラベルの再設定を作業者に依頼すると判定してもよい。 The determination unit may determine that, for data on which a label has been set by a worker, the reliability of the label setting by the worker to the data does not meet a predetermined standard, to request the worker to re-label the data.

前記情報処理装置は、前記判定部により前記作業者に前記ラベルの再設定を依頼すると判定されたデータの数が収束したことに基づき、前記第1の処理~前記第3の処理の終了を制御する制御部をさらに備えてもよい。 The information processing device may further include a control unit that controls the end of the first process to the third process based on the convergence of the number of data items for which the determination unit has determined that the worker should be asked to reset the label.

また、上記課題を解決するために、本発明の別の観点によれば、複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置により実行される方法であって、第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測することと、第2の処理として、前記第1の処理での予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定することと、第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新することと、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行することと、を含み、前記第2の処理は、同一のデータについての前記第1の処理による予測結果が変化した回数が閾値以上である場合、当該データのラベルの再設定を作業者に依頼すると判定することを含む、方法が提供される。また、本発明の別の観点によれば、複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置により実行される方法であって、第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測することと、第2の処理として、前記第1の処理での予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定することと、第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新することと、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行することと、2以上のデータの少なくとも一部のデータに自動でラベルを設定することと、前記2以上のデータから前記複数のデータセットを形成することと、前記第1の処理~前記第3の処理が繰り返し実行された後に、前記2以上のデータのうちで作業者によるラベル設定作業が行われていないデータに対して自動でラベルを再設定することと、ラベルが再設定された後に、前記第1の処理~前記第3の処理の繰り返し実行を再開することと、を含み、前記第2の処理は、同一のデータについての前記第1の処理での予測結果の安定性に基づき、当該データのラベルの再設定を作業者に依頼するか否かを判定することを含む、方法が提供される。また、本発明の別の観点によれば、複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置により実行される方法であって、第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測することと、第2の処理として、前記第1の処理での予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定することと、第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新することと、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行することと、を含み、前記第2の処理は、前記第1の処理において予測されたラベルが不正解であったデータに関し、当該データに設定されたラベルが自動で設定されたラベルである場合、当該データのラベルの再設定を作業者に依頼すると判定することを含む、方法が提供される。
In order to solve the above problem, according to another aspect of the present invention, there is provided a method executed by an information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data sets, the method including: as a first process, predicting a label for each of a plurality of data sets included in the data set using a classifier acquired by learning; as a second process, determining, based on a prediction result in the first process, data among the plurality of data sets included in the data set for which a label is to be requested to be reset by an operator; and as a third process, updating the classifier by learning based on the data set after the label has been reset by the operator; and repeatedly executing the first process to the third process while changing a target data set among the plurality of data sets, wherein the second process includes determining that, when the number of times the prediction result by the first process for the same data has changed is equal to or greater than a threshold value, a request is made to reset the label of the data . According to another aspect of the present invention, there is provided a method executed by an information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data sets, the method including: a first process of predicting a label for each of the plurality of data sets included in the data sets using a classifier acquired by learning; a second process of determining, based on a prediction result in the first process, data among the plurality of data sets included in the data sets for which a label is to be requested to be reset by an operator; a third process of updating the classifier by learning based on the data sets after the labels have been reset by the operator; the first process to the third process from a data set that includes a plurality of data items, automatically setting labels for at least a portion of the two or more data items, forming the plurality of data sets from the two or more data items, automatically resetting labels for data that has not been subjected to a label setting operation by an operator among the two or more data items after the first process to the third process have been repeatedly performed, and resuming the repeated execution of the first process to the third process after the labels have been reset, wherein the second process includes determining whether or not to request an operator to reset the label of the data based on stability of a prediction result in the first process for the same data. According to another aspect of the present invention, there is provided a method executed by an information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data sets, the method including: as a first process, predicting a label for each of a plurality of data sets included in the data set using a classifier acquired by learning; as a second process, determining, based on a prediction result in the first process, data among the plurality of data sets included in the data set for which a label is to be requested to be reset by an operator; and as a third process, updating the classifier by learning based on the data set after the label has been reset by the operator; and repeatedly executing the first process to the third process while changing a target data set among the plurality of data sets, wherein the second process includes, for data for which a label predicted in the first process was incorrect, determining that a request is to be made to reset the label of the data from an operator when the label set for the data is an automatically set label.

以上説明した本発明によれば、データに設定されるラベルの精度を向上することが可能である。 According to the present invention described above, it is possible to improve the accuracy of labels set on data.

本発明の一実施形態による情報処理装置20の構成を示す説明図である。FIG. 1 is an explanatory diagram showing a configuration of an information processing device 20 according to an embodiment of the present invention. ラベル設定部230によるラベルの設定の具体例を示す説明図である。11 is an explanatory diagram showing a specific example of label setting by the label setting unit 230. FIG. 各データの特徴空間における分布イメージを示す説明図である。FIG. 1 is an explanatory diagram showing a distribution image of each piece of data in a feature space. データセットの形成例を示す説明図である。FIG. 11 is an explanatory diagram showing an example of forming a data set. データNの処理履歴の具体例を示す説明図である。FIG. 13 is an explanatory diagram showing a specific example of the processing history of data N. 本発明の一実施形態による情報処理装置20の動作を示すフローチャートである。4 is a flowchart showing the operation of the information processing device 20 according to the embodiment of the present invention. 終了判定部248による判定処理を示すフローチャートである。13 is a flowchart showing a determination process performed by an end determination unit 248. 情報処理装置20のハードウェア構成を示したブロック図である。FIG. 2 is a block diagram showing a hardware configuration of an information processing device 20.

以下に添付図面を参照しながら、本発明の実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 The following describes in detail an embodiment of the present invention with reference to the accompanying drawings. Note that in this specification and the drawings, components that have substantially the same functional configuration are designated by the same reference numerals to avoid redundant description.

また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、複数の構成要素の各々に同一符号のみを付する。 In addition, in this specification and drawings, multiple components having substantially the same functional configuration may be distinguished by adding different alphabets after the same reference numeral. However, if there is no particular need to distinguish between multiple components having substantially the same functional configuration, each of the multiple components will be given only the same reference numeral.

<1.概要>
本発明の一実施形態は、機械学習のための教師データの精度を向上するための情報処理装置に関する。教師データの精度を向上するための技術として、教師データセットを用いた機械学習により分類器を作成した後、評価データセットのラベルを分類器で予測し、予測結果が不正解であったラベルをユーザが再設定する一連の処理を、教師データセットと評価データセットを入れ替えながら繰り返し実行する技術が考えられる。
<1. Overview>
An embodiment of the present invention relates to an information processing device for improving the accuracy of teacher data for machine learning. As a technique for improving the accuracy of teacher data, a technique is considered in which a classifier is created by machine learning using a teacher data set, the label of an evaluation data set is predicted by the classifier, and a user resets a label whose prediction result is incorrect, and the series of processes are repeatedly performed while switching between the teacher data set and the evaluation data set.

しかし、上記の技術では、予測結果が不正解であったラベルの再設定を作業者に依頼し続けるので、作業者が何度も同じデータについてラベルが正しいかを確認することとなり、効率が悪い。また、上記の技術では、適用先のデータが未ラベルで、別のデータで学習したモデルを使って適用先のデータにラベルを自動で設定した場合、学習したデータと適用先のデータの取得環境の相違によっては正しいラベル設定が困難である。結果、適用先のデータに設定されたラベルの多くが誤っている場合、ラベルの質を向上させていくことが難しい。 However, with the above technology, workers must continue to be asked to re-assign labels where prediction results were incorrect, which is inefficient as workers must repeatedly check whether the labels are correct for the same data. Also, with the above technology, if the data to which the technology is applied is unlabeled and labels are automatically assigned to the data to which the technology is applied using a model trained on other data, it can be difficult to assign correct labels depending on the differences in the acquisition environments of the trained data and the data to which the technology is applied. As a result, if many of the labels assigned to the data to which the technology is applied are incorrect, it is difficult to improve the quality of the labels.

また、特徴空間において複数のクラスの境界付近に位置する評価データも存在し得て、このような評価データに正しくラベル付けを行うことも重要である。しかし、上記の技術では、評価データに設定されたラベルが誤っていても、分類器が同一のラベルを予測した場合には当該評価データの存在が作業者に伝えられないので、誤ったラベルが維持されたままとなる。 In addition, there may be evaluation data that is located near the boundaries of multiple classes in the feature space, and it is important to correctly label such evaluation data. However, with the above technology, even if the label set for the evaluation data is incorrect, if the classifier predicts the same label, the existence of the evaluation data is not communicated to the worker, and the incorrect label remains.

本件発明者は、上記事情を一着眼点にして本発明の一実施形態を創作するに至った。本発明の一実施形態による情報処理装置は、データに設定されるラベルの精度を向上することが可能である。以下、このような本発明の一実施形態による情報処理装置の構成および動作を順次詳細に説明する。 The inventor of the present invention has come up with an embodiment of the present invention with the above circumstances in mind. An information processing device according to an embodiment of the present invention is capable of improving the accuracy of labels set to data. The configuration and operation of such an information processing device according to an embodiment of the present invention will be described in detail below.

<2.情報処理装置の構成>
図1は、本発明の一実施形態による情報処理装置20の構成を示す説明図である。図1に示したように、本発明の一実施形態による情報処理装置20は、記憶部220、表示部224、操作部228、ラベル設定部230、制御部240、学習部252、分類部254および評価部256を備える。本発明の一実施形態による情報処理装置20では高精度なラベルが設定されたデータセットが取得されるので、当該データセットを用いた機械学習により高精度な分類器を得ることが可能である。このような分類器の適用先は特に限定されず、例えば、画像の識別であってもよいし、音声の識別であってもよい。より具体的には、適用先は、工場における製品の製造過程を撮像して得られたX線画像の識別であってもよく、この場合、識別結果として得られる製造過程の良否に基づいて製品の品質管理を的確に行うことが可能である。
2. Configuration of information processing device
FIG. 1 is an explanatory diagram showing the configuration of an information processing device 20 according to an embodiment of the present invention. As shown in FIG. 1, the information processing device 20 according to an embodiment of the present invention includes a storage unit 220, a display unit 224, an operation unit 228, a label setting unit 230, a control unit 240, a learning unit 252, a classification unit 254, and an evaluation unit 256. In the information processing device 20 according to an embodiment of the present invention, a data set in which a highly accurate label is set is acquired, so that a highly accurate classifier can be obtained by machine learning using the data set. The application of such a classifier is not particularly limited, and may be, for example, image recognition or voice recognition. More specifically, the application may be recognition of X-ray images obtained by capturing an image of a product manufacturing process in a factory, and in this case, it is possible to accurately perform quality control of the product based on the quality of the manufacturing process obtained as the recognition result.

(記憶部)
記憶部220は、2以上のデータおよび2以上のデータの各々に設定されているラベルを関連付けて記憶する。本発明の一実施形態による一連の処理が開始される段階では、2以上のデータのうちの一部のデータに作業者によりラベルが設定されていることを想定する。その後、本発明の一実施形態による一連の処理の進行に伴い、記憶部220において各データに関連付けて記憶されるラベルが更新される。また、記憶部220は、図5を参照して後述するように、各データの処理履歴も記憶する。なお、記憶部220が記憶する各データは、画像データであってもよいし、音声データであってもよいし、テキストデータであってもよい。
(Memory unit)
The storage unit 220 stores two or more pieces of data and labels set to each of the two or more pieces of data in association with each other. At a stage where a series of processes according to an embodiment of the present invention is started, it is assumed that an operator has set labels to some of the two or more pieces of data. Thereafter, as the series of processes according to an embodiment of the present invention progresses, the labels stored in the storage unit 220 in association with each piece of data are updated. In addition, the storage unit 220 also stores a processing history of each piece of data, as will be described later with reference to FIG. 5. Note that each piece of data stored in the storage unit 220 may be image data, audio data, or text data.

(表示部)
表示部224は、制御部240からの制御に基づき多様な画面を表示する。特に、本発明の一実施形態による表示部224は、作業者がラベルを再設定するためのラベル再設定画面を表示する。ラベル再設定画面は、制御部240によりラベルの再設定を作業者に依頼すると判定されたデータの表示、および、当該データに現在設定されているラベルの表示を含んでもよい。作業者は、ラベル再設定画面に含まれるデータの表示を見ながら、当該データにラベルを再設定することが可能である。
(Display)
The display unit 224 displays various screens under the control of the control unit 240. In particular, the display unit 224 according to an embodiment of the present invention displays a label reset screen for the worker to reset the label. The label reset screen may include a display of data determined by the control unit 240 to be requested to the worker to reset the label, and a display of the label currently set for the data. The worker can reset the label for the data while viewing the display of the data included in the label reset screen.

(操作部)
操作部228は、作業者が情報処理装置20の情報または指示などを入力するために操作する構成である。特に、本発明の一実施形態による操作部228は、上述したラベル再設定画面において作業者がラベルを再設定するための操作を検出し、当該操作を示す信号を制御部240に出力する。
(Operation section)
The operation unit 228 is configured to be operated by the worker to input information or instructions for the information processing device 20. In particular, the operation unit 228 according to one embodiment of the present invention detects an operation by the worker to reset a label on the above-mentioned label resetting screen, and outputs a signal indicating the operation to the control unit 240.

(ラベル設定部)
ラベル設定部230は、記憶部220に記憶されている2以上のデータの少なくとも一部のデータに自動でラベルを設定する。例えば、ラベル設定部230は、記憶部220に記憶されている2以上のデータのうちで、ラベルが設定されていないデータに、ラベルが設定されているデータを教師データとして用いる半教師あり学習でのクラスタリングにより自動でラベルを設定する。図2を参照して、このようなラベル設定部230による処理の具体例を説明する。
(Label setting section)
The label setting unit 230 automatically sets labels to at least some of the two or more pieces of data stored in the storage unit 220. For example, the label setting unit 230 automatically sets labels to unlabeled data among the two or more pieces of data stored in the storage unit 220 by clustering in semi-supervised learning using labeled data as teacher data. A specific example of such processing by the label setting unit 230 will be described with reference to FIG. 2 .

図2は、ラベル設定部230によるラベルの設定の具体例を示す説明図である。より詳細には、図2の上段にはラベル設定部230による処理前に記憶部220に記憶されているラベルの状態を示し、図2の下段にはラベル設定部230による処理後に記憶部220に記憶されているラベルの状態を示している。 Figure 2 is an explanatory diagram showing a specific example of label setting by the label setting unit 230. More specifically, the upper part of Figure 2 shows the state of the labels stored in the storage unit 220 before processing by the label setting unit 230, and the lower part of Figure 2 shows the state of the labels stored in the storage unit 220 after processing by the label setting unit 230.

図2の上段に示した例では、データ1、データ2、データ5およびデータ6などにはラベルが設定されており、ラベルの設定主体として作業者Xまたは作業者Yが関連付けられている。一方、データ3、データ4およびデータNなどにはラベルが設定されていない。これらデータ3、データ4およびデータNなどについて、ラベル設定部230による処理後には、図2の下段に示したようにラベルが設定され、設定主体として自動が関連付けられる。 In the example shown in the upper part of Figure 2, labels are set for data 1, data 2, data 5, data 6, etc., and worker X or worker Y is associated as the label setting subject. On the other hand, no labels are set for data 3, data 4, data N, etc. After processing by the label setting unit 230, labels are set for these data 3, data 4, data N, etc., as shown in the lower part of Figure 2, and automatic is associated as the setting subject.

図3は、これらデータの特徴空間における分布イメージを示す説明図である。図3において、クラスAの領域にデータ1およびデータ4が含まれ、クラスBの領域にデータ2およびデータ3が含まれ、クラスCの領域にデータ5およびデータ6が含まれている。データNは、各クラスの領域の境界付近に存在し、いずれのクラスに属するかを自動で判断し難いデータである。本発明の一実施形態では、後述する方法によりデータNのような各クラスの領域の境界付近に存在するデータを抽出し、当該データのラベルの手動での設定を作業者に依頼することにより、ラベルの精度を向上することが可能である。 Figure 3 is an explanatory diagram showing an image of the distribution of these data in feature space. In Figure 3, data 1 and data 4 are included in the area of class A, data 2 and data 3 are included in the area of class B, and data 5 and data 6 are included in the area of class C. Data N exists near the boundary between the areas of each class, and is data that is difficult to automatically determine which class it belongs to. In one embodiment of the present invention, data that exists near the boundary between the areas of each class, such as data N, is extracted using a method described below, and the label accuracy can be improved by asking an operator to manually set the label for that data.

(制御部)
制御部240は、情報処理装置20の動作全般を制御する。例えば、制御部240は、ラベル設定部230にラベルの自動設定の実行を指示したり、学習部252、分類部254および評価部256による処理を制御したり、ラベル再設定画面を生成してラベル再設定画面を表示部224に表示させたり、記憶部220に記憶されているラベルを更新したりする。
(Control Unit)
The control unit 240 controls the overall operation of the information processing device 20. For example, the control unit 240 instructs the label setting unit 230 to execute automatic label setting, controls the processing by the learning unit 252, the classification unit 254, and the evaluation unit 256, generates a label resetting screen and displays the label resetting screen on the display unit 224, and updates the labels stored in the storage unit 220.

また、制御部240は、記憶部220に記憶されている2以上のデータから複数のデータセットを形成するデータセット形成部242の機能を有する。例えば、データセット形成部242は、図4に示すようにラベル設定部230による処理後の2以上のデータを分割することにより複数のデータセットを形成してもよい。 The control unit 240 also has the function of a dataset forming unit 242 that forms multiple datasets from two or more pieces of data stored in the storage unit 220. For example, the dataset forming unit 242 may form multiple datasets by dividing two or more pieces of data after processing by the label setting unit 230, as shown in FIG. 4.

図4は、データセットの形成例を示す説明図である。図4に示した例では、記憶部220に記憶されている2以上のデータが分割されて、データセット1およびデータセット2が形成されている。当該データの分割は、ランダムに行われてもよいし、所定の規則に従って行われてもよい。所定の規則は、例えば、自動でラベルが設定されたデータの数を各データセットで均等にする規則であってもよいし、同一のラベルが設定されたデータの数を各データセットで均等にする規則であってもよい。なお、図4においては記憶部220に記憶されている2以上のデータの分割数が2である例を示しているが、分割数は2に限られず、分割数は3以上であってもよい。 FIG. 4 is an explanatory diagram showing an example of the formation of a dataset. In the example shown in FIG. 4, two or more pieces of data stored in the storage unit 220 are divided to form dataset 1 and dataset 2. The data may be divided randomly or according to a predetermined rule. The predetermined rule may be, for example, a rule that equalizes the number of pieces of data to which labels are automatically set in each dataset, or a rule that equalizes the number of pieces of data to which the same label is set in each dataset. Note that FIG. 4 shows an example in which two or more pieces of data stored in the storage unit 220 are divided into two, but the number of divisions is not limited to two and may be three or more.

データセット形成部242は、分割により得られた複数のデータセットから、教師データセットに用いるデータセット、および評価データセットに用いるデータセットを選択する。また、データセット形成部242は、教師データセットと評価データセットの置き換えを行うこともできる。 The dataset formation unit 242 selects a dataset to be used as a teacher dataset and a dataset to be used as an evaluation dataset from the multiple datasets obtained by the division. The dataset formation unit 242 can also replace the teacher dataset and the evaluation dataset.

その他、制御部240は、依頼判定部244、更新部246および終了判定部248などの機能を有する。これら制御部240が有する各機能については詳細に後述する。 In addition, the control unit 240 has functions such as a request determination unit 244, an update unit 246, and an end determination unit 248. Each of these functions of the control unit 240 will be described in detail later.

(学習部)
学習部252は、データセット形成部242により教師データセットとして選択されたデータセットに基づく学習により分類器を作成または更新する。分類器は、データから抽出された特徴量に基づいて当該データに対応するラベルを予測するために用いられるパラメータ群であってもよい。
(Learning Department)
The learning unit 252 creates or updates a classifier by learning based on the dataset selected as the teacher dataset by the dataset formation unit 242. The classifier may be a group of parameters used to predict a label corresponding to data based on features extracted from the data.

(分類部)
分類部254は、データセット形成部242により評価データセットとして選択されたデータセットに含まれる複数のデータの各々のラベルを、学習部252により作成または更新された分類器を用いて予測する。
(Classification Department)
The classification unit 254 predicts the label of each of the multiple data included in the dataset selected as the evaluation dataset by the dataset formation unit 242 using the classifier created or updated by the learning unit 252.

(評価部)
評価部256は、分類部254により複数のデータの各々について予測されたラベルが、複数のデータの各々に設定されているラベルと同一であるか否か、すなわち、分類部254による予測結果が正解であるか否かを評価する。
(Evaluation Department)
The evaluation unit 256 evaluates whether or not the label predicted for each of the multiple data by the classification unit 254 is identical to the label set for each of the multiple data, i.e., whether or not the prediction result by the classification unit 254 is correct.

<3.制御部の構成>
以上、情報処理装置20の構成を説明した。続いて、制御部240の構成をより詳細に説明する。図1に示したように、制御部240は、データセット形成部242、依頼判定部244、更新部246および終了判定部248の機能を有する。
3. Configuration of the control unit
The above describes the configuration of the information processing device 20. Next, a more detailed description will be given of the configuration of the control unit 240. As shown in FIG. 1 , the control unit 240 has the functions of a data set formation unit 242, a request determination unit 244, an update unit 246, and an end determination unit 248.

(データセット形成部)
データセット形成部242は、上述したように、ラベル設定部230による処理後の2以上のデータを分割することにより複数のデータセットを形成する。
(Data Set Creation Department)
As described above, the data set forming unit 242 forms a plurality of data sets by dividing two or more pieces of data processed by the label setting unit 230 .

(依頼判定部)
依頼判定部244は、判定部の一例であり、評価部256による評価の結果に基づき、評価データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する。例えば、依頼判定部244は、予測結果が正解であったか否か、ラベルが自動で設定されたか否か、作業者によるラベル設定の信頼性が所定の基準を満たすか、などに基づいて判定を行う。作業者によるラベル設定の信頼性は、例えば、どの作業者がラベルを設定したか、ラベルの設定にかかった時間はどの程度か、ラベルの設定が人手により何回更新されたか、に応じて評価されてもよい。また、依頼判定部244は、同一のデータについての分類部254による予測結果の安定性に基づいて当該データのラベルの再設定を作業者に依頼するか否かを判定してもよい。
(Request Determination Unit)
The request determination unit 244 is an example of a determination unit, and determines which of the multiple data included in the evaluation data set is to be requested to be relabeled by an operator based on the result of the evaluation by the evaluation unit 256. For example, the request determination unit 244 makes a determination based on whether the prediction result was correct, whether the label was automatically set, whether the reliability of the label setting by the operator satisfies a predetermined standard, and the like. The reliability of the label setting by the operator may be evaluated based on, for example, which operator set the label, how much time it took to set the label, and how many times the label setting was manually updated. In addition, the request determination unit 244 may determine whether to request the operator to relabel the data based on the stability of the prediction result by the classification unit 254 for the same data.

(更新部)
更新部246は、あるデータについて表示部224がラベル再設定画面を表示し、作業者が操作部228を介して当該データのラベルを再設定すると、記憶部220に記憶されている当該データのラベルを再設定されたラベルに更新する。ここで、更新部246は、ラベルを再設定した作業者も設定主体として記憶部220に記憶させる。なお、作業者にラベルの再設定が依頼され、作業者がラベルを変更しなかった場合にも、更新部246は当該作業者を設定主体として記憶部220に記憶させる。
(Update Department)
When the display unit 224 displays a label reset screen for certain data and the worker resets the label of the data via the operation unit 228, the update unit 246 updates the label of the data stored in the storage unit 220 to the reset label. Here, the update unit 246 also stores the worker who reset the label as a setting subject in the storage unit 220. Note that even if a worker is requested to reset a label but does not change the label, the update unit 246 stores the worker as a setting subject in the storage unit 220.

評価データセットの全てのデータについて、分類部254によるラベルの予測(第1の処理)、評価部256による予測結果の評価、依頼判定部244による依頼判定(第2の処理)および更新部246によるラベル更新が終わると、データセット形成部242により当該評価データセットと教師データセットが置き換えられ、学習部252において新たな教師データセットに基づく学習による分類器の更新(第3の処理)が行われる。これら一連の処理が、評価データセットと教師データセットが置き換えられながら、繰り返し実行される。 After the label prediction by the classification unit 254 (first process), the evaluation of the prediction result by the evaluation unit 256, the request determination by the request determination unit 244 (second process), and the label update by the update unit 246 are completed for all data in the evaluation dataset, the evaluation dataset and the teacher dataset are replaced by the dataset formation unit 242, and the classifier is updated by learning based on the new teacher dataset in the learning unit 252 (third process). This series of processes is repeatedly executed while the evaluation dataset and the teacher dataset are replaced.

(終了判定部)
終了判定部248は、教師データセットと評価データセットの置き換えが所定回数行われたか否かを判定する。教師データセットと評価データセットの置き換え回数が所定回数未満である場合、終了判定部248は上述した一連の処理の繰り返しを制御する。
(End Determination Unit)
The end determination unit 248 determines whether the replacement of the teacher dataset with the evaluation dataset has been performed a predetermined number of times. If the replacement of the teacher dataset with the evaluation dataset has not been performed a predetermined number of times, the end determination unit 248 controls the repetition of the above-mentioned series of processes.

さらに、終了判定部248は、教師データセットと評価データセットの置き換えが所定回数行われたと判定した場合、作業者にラベルの再設定を依頼するデータの数(再設定依頼数)が収束したか否かを判定する。具体的には、終了判定部248は、再設定依頼数が所定数以下となったこと、または、再設定依頼数が評価データセットに含まれるデータの数の所定割合以下になったこと、などに基づいて再設定依頼数が収束したと判定してもよい。 Furthermore, when the end determination unit 248 determines that the teacher dataset and the evaluation dataset have been replaced a predetermined number of times, it determines whether the number of data for which the worker is requested to reset the labels (the number of reset requests) has converged. Specifically, the end determination unit 248 may determine that the number of reset requests has converged based on the fact that the number of reset requests has become equal to or less than a predetermined number, or the number of reset requests has become equal to or less than a predetermined percentage of the number of data included in the evaluation dataset, etc.

再設定依頼数が収束している場合、終了判定部248は、上述した一連の処理の終了を制御する。 If the number of reconfiguration requests has converged, the termination determination unit 248 controls the termination of the above-mentioned series of processes.

一方、再設定依頼数が収束していない場合、終了判定部248は、記憶部220に記憶されている2以上のデータにラベルを再度自動で設定するようラベル設定部230に指示する。ラベル設定部230は、設定主体が自動であるデータのラベルを、設定主体が作業者であるデータを教師データとして用いる半教師あり学習でのクラスタリングにより再設定する。その後、データセット形成部242が記憶部220に記憶されている2以上のデータを複数のデータセットに分割し、上述した一連の処理が繰り返される。 On the other hand, if the number of reset requests has not converged, the termination determination unit 248 instructs the label setting unit 230 to automatically re-set labels for two or more pieces of data stored in the storage unit 220. The label setting unit 230 resets the labels of data set by an automatic setter through clustering in semi-supervised learning using data set by an operator as teacher data. Thereafter, the dataset formation unit 242 divides the two or more pieces of data stored in the storage unit 220 into multiple datasets, and the above-mentioned series of processes are repeated.

なお、データセット形成部242が前回の分割である第1の分割により形成した2以上の第1のデータセットと、新たな分割である第2の分割により形成した2以上の第2のデータセットは、同一であってもよいし、異なってもよい。2以上の第1のデータセットと2以上の第2のデータセットが異なる場合、データセット間でのデータの偏りによる悪影響を緩和することが可能である。 The two or more first datasets formed by the dataset forming unit 242 through the first division, which is the previous division, and the two or more second datasets formed through the second division, which is the new division, may be the same or different. When the two or more first datasets and the two or more second datasets are different, it is possible to mitigate the adverse effects of data bias between the datasets.

(処理履歴の具体例)
ここで、図5を参照し、あるデータの処理履歴の具体例を説明する。
(Example of processing history)
Now, with reference to FIG. 5, a specific example of the processing history of certain data will be described.

図5は、データNの処理履歴の具体例を示す説明図である。図5に示した例では、データNは、ラベル設定部230による1回目の半教師あり学習(クラスタリング)でラベルが「クラスA」が設定されている。続いて、1回目のクラスタリングの後の1回目の評価(評価1-1回目)、および2回目の評価(評価1-2回目)の双方において予測結果が正解し、ラベル「クラスA」が維持されている。 Figure 5 is an explanatory diagram showing a specific example of the processing history of data N. In the example shown in Figure 5, the label "Class A" is set for data N in the first semi-supervised learning (clustering) by the label setting unit 230. Subsequently, the prediction results are correct in both the first evaluation (Evaluation 1-1) and the second evaluation (Evaluation 1-2) after the first clustering, and the label "Class A" is maintained.

その後、データNは、ラベル設定部230による2回目のクラスタリングでラベルが「クラスB」に変更されている。続いて、2回目のクラスタリングの後の1回目の評価(評価2-1回目)、および2回目の評価(評価2-2回目)の双方において予測結果が正解し、ラベル「クラスB」が維持されている。 After that, the label of data N is changed to "Class B" in the second clustering by the label setting unit 230. Then, the prediction results are correct in both the first evaluation after the second clustering (Evaluation 2-1st) and the second evaluation (Evaluation 2-2nd), and the label "Class B" is maintained.

さらに、データNは、ラベル設定部230による3回目のクラスタリングでラベルが「クラスC」に変更されている。続いて、3回目のクラスタリングの後の1回目の評価(評価3-1回目)において予測結果が正解している。このように、データNでは予測結果の正解が続いているが、予測結果が「クラスA」、「クラスB」、「クラスC」と変化している。 Furthermore, the label of data N is changed to "Class C" in the third clustering by the label setting unit 230. Then, the prediction result is correct in the first evaluation after the third clustering (Evaluation 3-1). In this way, the prediction results for data N continue to be correct, but the prediction results change to "Class A", "Class B", and "Class C".

ここで、特徴空間における各クラスの境界面付近に位置するデータは予測結果が安定しないと考えられる。そこで、依頼判定部244は、予測結果が安定していないデータのラベルの再設定を作業者に依頼すると判定する。具体的には、依頼判定部244は、予測結果が変化した回数が閾値以上であるか否かに基づいて予測結果が安定しているか否かを判定してもよい。閾値が「2」である場合、図5に示した例ではデータNの予測結果の変化回数が閾値である「2」に達しているので、依頼判定部244はデータNのラベルの再設定を作業者に依頼すると判定する。そして、図5に示した例では、作業者による操作部228への操作に基づいてデータNのラベルが「クラスA」に更新されている。 Here, it is considered that the prediction results of data located near the boundary surfaces of each class in the feature space are unstable. Therefore, the request determination unit 244 determines that the prediction results are to be requested to the worker to reset the labels of the data with unstable prediction results. Specifically, the request determination unit 244 may determine whether the prediction results are stable based on whether the number of times the prediction results have changed is equal to or greater than a threshold. When the threshold is "2", in the example shown in FIG. 5, the number of times the prediction results of data N have changed has reached the threshold value of "2", and therefore the request determination unit 244 determines that the label of data N is to be requested to the worker. Then, in the example shown in FIG. 5, the label of data N is updated to "Class A" based on the operator's operation of the operation unit 228.

<4.情報処理装置の動作>
以上、本発明の一実施形態による情報処理装置20の構成を説明した。続いて、図6および図7を参照し、本発明の一実施形態による情報処理装置20の動作を整理する。
4. Operation of the Information Processing Device
The configuration of the information processing device 20 according to one embodiment of the present invention has been described above. Next, the operation of the information processing device 20 according to one embodiment of the present invention will be summarized with reference to Figs.

図6は、本発明の一実施形態による情報処理装置20の動作を示すフローチャートである。図6に示したように、ラベル設定部230が、記憶部220に記憶されている2以上のデータのうちで、ラベルが設定されていないデータに、ラベルが設定されているデータを教師データとして用いる半教師あり学習でのクラスタリングにより自動でラベルを設定する(S304)。そして、データセット形成部242が、記憶部220に記憶されている2以上のデータを分割することにより複数のデータセットを形成する(S308)。 Figure 6 is a flowchart showing the operation of the information processing device 20 according to one embodiment of the present invention. As shown in Figure 6, the label setting unit 230 automatically sets labels to unlabeled data among two or more pieces of data stored in the storage unit 220 by clustering in semi-supervised learning using labeled data as training data (S304). Then, the dataset formation unit 242 forms multiple datasets by dividing the two or more pieces of data stored in the storage unit 220 (S308).

さらに、データセット形成部242は、分割により得られた複数のデータセットから、教師データセットに用いるデータセット、および評価データセットに用いるデータセットを選択する(S312)。 Furthermore, the dataset formation unit 242 selects a dataset to be used as the teacher dataset and a dataset to be used as the evaluation dataset from the multiple datasets obtained by the division (S312).

続いて、学習部252が、データセット形成部242により教師データセットとして選択されたデータセットに基づく学習により分類器を作成または更新する(S316)。そして、分類部254は、データセット形成部242により評価データセットとして選択されたデータセットに含まれる複数のデータの各々のラベルを、学習部252により作成または更新された分類器を用いて予測する(S320)。 Next, the learning unit 252 creates or updates a classifier by learning based on the dataset selected as the teacher dataset by the dataset formation unit 242 (S316). Then, the classification unit 254 predicts the labels of each of the multiple data included in the dataset selected as the evaluation dataset by the dataset formation unit 242 using the classifier created or updated by the learning unit 252 (S320).

そして、分類部254による予測結果が正解であるか否かを評価し、依頼判定部244が、評価部256による評価の結果に基づき、評価データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する(S324)。続いて、再設定が依頼されたデータの記憶部220に記憶されているラベルを、作業者により再設定されたラベルに更新する(S328)。 Then, the prediction result by the classification unit 254 is evaluated as to whether it is correct or not, and the request determination unit 244 determines, based on the result of the evaluation by the evaluation unit 256, data among the multiple data included in the evaluation dataset for which the worker is requested to reset the label (S324). Next, the label stored in the storage unit 220 for the data for which resetting is requested is updated to the label reset by the worker (S328).

ここで、終了判定部248が、教師データセットと評価データセットの置き換えが所定回数行われたか否かを判定する(S332)。教師データセットと評価データセットの置き換え回数が所定回数未満である場合(S332/No)、S312からの処理が繰り返される。 Then, the end determination unit 248 determines whether the teacher dataset and the evaluation dataset have been replaced a predetermined number of times (S332). If the number of times the teacher dataset and the evaluation dataset have been replaced is less than the predetermined number (S332/No), the process is repeated from S312.

一方、教師データセットと評価データセットの置き換えが所定回数行われた場合(S332/Yes)、終了判定部248は、作業者にラベルの再設定を依頼するデータの数(再設定依頼数)が収束したか否かを判定する(S336)。再設定依頼数が収束している場合(S336/Yes)、終了判定部248は、上述した一連の処理の終了を制御する。一方、再設定依頼数が収束していない場合(S336/No)、S304からの処理が繰り返される。 On the other hand, if the replacement of the teacher dataset and the evaluation dataset has been performed a predetermined number of times (S332/Yes), the end determination unit 248 determines whether the number of data for which the worker is requested to reset the labels (the number of reset requests) has converged (S336). If the number of reset requests has converged (S336/Yes), the end determination unit 248 controls the end of the series of processes described above. On the other hand, if the number of reset requests has not converged (S336/No), the process from S304 is repeated.

次に、図7を参照し、S324に示した判定処理をより詳細に説明する。 Next, the determination process shown in S324 will be explained in more detail with reference to FIG. 7.

図7は、終了判定部248による判定処理を示すフローチャートである。終了判定部248は、まず、あるデータについての分類部254による予測結果が正解であったか否かを判定する(S410)。予測結果が不正解であった場合(S410/No)、終了判定部248は、当該データのラベルが自動で設定されたラベルであるか否かを判定する(S420)。 Figure 7 is a flowchart showing the determination process by the termination determination unit 248. The termination determination unit 248 first determines whether or not the prediction result by the classification unit 254 for certain data was correct (S410). If the prediction result was incorrect (S410/No), the termination determination unit 248 determines whether or not the label of the data was an automatically set label (S420).

そして、当該データのラベルが自動で設定されたラベルである場合(S420/Yes)、終了判定部248は、当該データのラベルの再設定を作業者に依頼すると判定する(S430)。一方、当該データのラベルが作業者により手動で設定されたラベルである場合(S420/No)、終了判定部248は、ラベル設定の信頼性が所定の基準を満たすか否かを判定する(S440)。ラベル設定の信頼性が所定の基準を満たす場合(S440/Yes)、終了判定部248は、当該データのラベルの再設定を依頼しないと判定する。一方、ラベル設定の信頼性が所定の基準を満たさない場合(S440/No)、終了判定部248は、当該データのラベルの再設定を作業者に依頼すると判定する(S470)。 If the label of the data is an automatically set label (S420/Yes), the termination determination unit 248 determines that the worker should be requested to reset the label of the data (S430). On the other hand, if the label of the data is a label that was manually set by the worker (S420/No), the termination determination unit 248 determines whether the reliability of the label setting meets a predetermined standard (S440). If the reliability of the label setting meets the predetermined standard (S440/Yes), the termination determination unit 248 determines that the worker should not be requested to reset the label of the data. On the other hand, if the reliability of the label setting does not meet the predetermined standard (S440/No), the termination determination unit 248 determines that the worker should be requested to reset the label of the data (S470).

S410において、予測結果が正解であった場合(S410/Yes)、終了判定部248は、当該データのラベルが自動で設定されたラベルであるか否かを判定する(S450)。当該データのラベルが作業者により手動で設定されたラベルである場合(S450/No)、処理は先に説明したS440に進む。 If the prediction result is correct in S410 (S410/Yes), the termination determination unit 248 determines whether the label of the data is an automatically set label (S450). If the label of the data is a label that was manually set by the worker (S450/No), the process proceeds to S440 described above.

一方、当該データのラベルが自動で設定されたラベルである場合(S450/Yes)、終了判定部248は、当該データのラベルの予測結果が変化した回数が閾値以上であるか否かを判定する(S460)。予測結果が変化した回数が閾値以上である場合(S460/Yes)、終了判定部248は、当該データのラベルの再設定を作業者に依頼すると判定する(S470)。一方、予測結果が変化した回数が閾値未満である場合(S460/No)、終了判定部248は、当該データのラベルの再設定を依頼しないと判定する。 On the other hand, if the label of the data is an automatically set label (S450/Yes), the termination determination unit 248 determines whether the number of times the prediction result of the label of the data has changed is equal to or greater than a threshold (S460). If the number of times the prediction result has changed is equal to or greater than the threshold (S460/Yes), the termination determination unit 248 determines that the worker should be requested to reset the label of the data (S470). On the other hand, if the number of times the prediction result has changed is less than the threshold (S460/No), the termination determination unit 248 determines that the worker should not be requested to reset the label of the data.

<5.作用効果>
以上説明した本発明の一実施形態によれば、多様な作用効果が得られる。例えば、本発明の一実施形態によれば、特徴空間における各クラスの境界付近に位置するデータを抽出し、当該データのラベルの手動での設定を作業者に依頼することにより、ラベルの精度を向上することが可能である。
<5. Effects>
According to the embodiment of the present invention described above, various operational effects can be obtained. For example, according to the embodiment of the present invention, by extracting data located near the boundaries of each class in the feature space and requesting an operator to manually set the labels of the data, it is possible to improve the accuracy of the labels.

また、本発明の一実施形態によれば、予測結果が不正解であったラベルであっても、ラベル設定の信頼性が所定の基準を満たす場合には、当該ラベルの再設定の依頼が行われない。このため、作業者が何度も同じデータについてラベルが正しいかを確認するケースの発生を抑制できる。一方で、予測結果が不正解であり、かつ自動でラベルが設定されたデータ、および、ラベル設定の信頼性が所定の基準を満たさないデータに関してはラベルの再設定を作業者に依頼することにより、効率的にラベルの品質を向上することが可能である。また、本発明の一実施形態によれば、ラベル設定部230が自動で設定したラベルに基づいて学習を進めることが可能であるので、作業者が全てのデータにラベルを設定しなくてもよい点でも効率的である。 Furthermore, according to one embodiment of the present invention, even if the predicted result is an incorrect label, if the reliability of the label setting meets a predetermined standard, a request to reset the label is not made. This can prevent the operator from repeatedly checking whether the label is correct for the same data. On the other hand, for data where the predicted result is incorrect and the label was automatically set, and data where the reliability of the label setting does not meet a predetermined standard, the quality of the labels can be efficiently improved by requesting the operator to reset the label. Furthermore, according to one embodiment of the present invention, learning can be carried out based on the labels automatically set by the label setting unit 230, which is also efficient in that the operator does not have to set labels for all data.

<6.ハードウェア構成>
以上、本発明の各実施形態を説明した。上述した学習、分類、評価および判定などの情報処理は、ソフトウェアと、以下に説明する情報処理装置20のハードウェアとの協働により実現される。
6. Hardware Configuration
The above is a description of the embodiments of the present invention. The above-mentioned information processing, such as learning, classification, evaluation, and judgment, is realized by cooperation between software and hardware of the information processing device 20 described below.

図8は、情報処理装置20のハードウェア構成を示したブロック図である。情報処理装置20は、CPU(Central Processing Unit)201と、ROM(Read Only Memory)202と、RAM(Random Access Memory)203と、ホストバス204と、を備える。また、情報処理装置20は、ブリッジ205と、外部バス206と、インターフェース207と、入力装置208と、表示装置209と、音声出力装置210と、ストレージ装置(HDD)211と、ドライブ212と、ネットワークインターフェース215とを備える。 Figure 8 is a block diagram showing the hardware configuration of the information processing device 20. The information processing device 20 includes a CPU (Central Processing Unit) 201, a ROM (Read Only Memory) 202, a RAM (Random Access Memory) 203, and a host bus 204. The information processing device 20 also includes a bridge 205, an external bus 206, an interface 207, an input device 208, a display device 209, an audio output device 210, a storage device (HDD) 211, a drive 212, and a network interface 215.

CPU201は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置20内の動作全般を制御する。また、CPU201は、マイクロプロセッサであってもよい。ROM202は、CPU201が使用するプログラムや演算パラメータ等を記憶する。RAM203は、CPU201の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバス204により相互に接続されている。これらCPU201、ROM202およびRAM203とソフトウェアとの協働により、上述したラベル設定部230、制御部240、学習部252、分類部254および評価部256などの機能が実現され得る。 The CPU 201 functions as an arithmetic processing device and control device, and controls the overall operation of the information processing device 20 in accordance with various programs. The CPU 201 may also be a microprocessor. The ROM 202 stores programs and arithmetic parameters used by the CPU 201. The RAM 203 temporarily stores programs used in the execution of the CPU 201 and parameters that change appropriately during the execution. These are connected to each other by a host bus 204 consisting of a CPU bus and the like. The functions of the label setting unit 230, control unit 240, learning unit 252, classification unit 254, evaluation unit 256, and the like described above can be realized by the cooperation of the CPU 201, ROM 202, and RAM 203 with software.

ホストバス204は、ブリッジ205を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス206に接続されている。なお、必ずしもホストバス204、ブリッジ205および外部バス206を分離構成する必要はなく、1つのバスにこれらの機能を実装してもよい。 The host bus 204 is connected to an external bus 206, such as a PCI (Peripheral Component Interconnect/Interface) bus, via a bridge 205. Note that the host bus 204, bridge 205, and external bus 206 do not necessarily need to be configured separately, and these functions may be implemented on a single bus.

入力装置208は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、センサー、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、CPU201に出力する入力制御回路などから構成されている。情報処理装置20のユーザは、該入力装置208を操作することにより、情報処理装置20に対して各種のデータを入力したり処理動作を指示したりすることができる。 The input device 208 is composed of input means for the user to input information, such as a mouse, keyboard, touch panel, button, microphone, sensor, switch, and lever, and an input control circuit that generates an input signal based on the user's input and outputs it to the CPU 201. A user of the information processing device 20 can input various data and instruct the information processing device 20 to perform processing operations by operating the input device 208.

表示装置209は、例えば、液晶ディスプレイ(LCD)装置、プロジェクター装置、OLED(Organic Light Emitting Diode)装置およびランプなどの表示装置を含む。また、音声出力装置210は、スピーカおよびヘッドホンなどの音声出力装置を含む。 The display device 209 includes display devices such as a liquid crystal display (LCD) device, a projector device, an OLED (Organic Light Emitting Diode) device, and a lamp. The audio output device 210 includes audio output devices such as a speaker and headphones.

ストレージ装置211は、本実施形態にかかる情報処理装置20の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置211は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。ストレージ装置211は、例えば、HDD(Hard Disk Drive)またはSSD(Solid Strage Drive)、あるいは同等の機能を有するメモリ等で構成される。このストレージ装置211は、ストレージを駆動し、CPU201が実行するプログラムや各種データを格納する。 The storage device 211 is a data storage device configured as an example of a storage unit of the information processing device 20 according to this embodiment. The storage device 211 may include a storage medium, a recording device that records data on the storage medium, a reading device that reads data from the storage medium, and a deleting device that deletes data recorded on the storage medium. The storage device 211 is configured, for example, by a HDD (Hard Disk Drive) or an SSD (Solid Storage Drive), or a memory having equivalent functions. This storage device 211 drives the storage and stores programs executed by the CPU 201 and various data.

ドライブ212は、記憶媒体用リーダライタであり、情報処理装置20に内蔵、あるいは外付けされる。ドライブ212は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体24に記録されている情報を読み出して、RAM203またはストレージ装置211に出力する。また、ドライブ212は、リムーバブル記憶媒体24に情報を書き込むこともできる。 The drive 212 is a reader/writer for a storage medium, and is built into the information processing device 20 or is externally attached. The drive 212 reads information recorded on a removable storage medium 24, such as an attached magnetic disk, optical disk, magneto-optical disk, or semiconductor memory, and outputs the information to the RAM 203 or the storage device 211. The drive 212 can also write information to the removable storage medium 24.

ネットワークインターフェース215は、例えば、ネットワークに接続するための通信デバイス等で構成された通信インターフェースである。また、ネットワークインターフェース215は、無線LAN(Local Area Network)対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。 The network interface 215 is, for example, a communication interface configured with a communication device for connecting to a network. The network interface 215 may be a wireless LAN (Local Area Network) compatible communication device or a wired communication device that performs wired communication.

<7.補足>
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
<7. Supplementary Information>
Although the preferred embodiment of the present invention has been described in detail above with reference to the accompanying drawings, the present invention is not limited to such an example. It is clear that a person having ordinary knowledge in the technical field to which the present invention pertains can conceive of various modified or altered examples within the scope of the technical ideas described in the claims, and it is understood that these also naturally belong to the technical scope of the present invention.

例えば、ラベルの再設定を依頼するか否かの依頼判定部244による判定に関し、依頼判定部244は、上述した処理に加えて、または代えて、各データの各クラスの重心からの距離、または境界面からの距離を計算することで各データが各クラスの境界付近に位置するか否かを判定し、境界面付近に位置するデータのラベルの再設定を依頼すると判定してもよい。 For example, in relation to the determination by the request determination unit 244 of whether or not to request relabeling, the request determination unit 244 may, in addition to or instead of the above-mentioned processing, determine whether or not each piece of data is located near the boundary of each class by calculating the distance of each piece of data from the center of gravity of each class or the distance from the boundary surface, and may determine to request relabeling of data located near the boundary surface.

また、上記ではラベル設定部230が半教師あり学習によりラベルを設定する例を説明したが、ラベル設定部230は、k-means法などの教師なし学習によりラベルを設定してもよい。 In addition, although an example in which the label setting unit 230 sets labels using semi-supervised learning has been described above, the label setting unit 230 may set labels using unsupervised learning such as the k-means method.

また、上記では教師データセットと評価データセットの置き換えが所定回数行われた場合にラベル設定部230がラベルを自動で再設定する例を説明したが、ラベル設定部230は、作業者による指示に従ってラベルの再設定を実行してもよい。 In addition, although an example has been described above in which the label setting unit 230 automatically resets the labels when the teacher dataset and the evaluation dataset have been replaced a predetermined number of times, the label setting unit 230 may reset the labels according to instructions from an operator.

また、本明細書の情報処理装置20の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、情報処理装置20の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。 Furthermore, each step in the processing of the information processing device 20 in this specification does not necessarily have to be processed chronologically in the order described in the flowchart. For example, each step in the processing of the information processing device 20 may be processed in an order different from the order described in the flowchart, or may be processed in parallel.

また、情報処理装置20に内蔵されるCPU、ROMおよびRAMなどのハードウェアに、上述した情報処理装置20の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。 It is also possible to create a computer program that causes the hardware, such as the CPU, ROM, and RAM, built into the information processing device 20 to perform functions equivalent to those of each of the components of the information processing device 20 described above. A storage medium that stores the computer program is also provided.

20 情報処理装置
220 記憶部
224 表示部
228 操作部
230 ラベル設定部
240 制御部
242 データセット形成部
244 依頼判定部
246 更新部
248 終了判定部
252 学習部
254 分類部
256 評価部
20 Information processing device 220 Storage unit 224 Display unit 228 Operation unit 230 Label setting unit 240 Control unit 242 Data set formation unit 244 Request determination unit 246 Update unit 248 End determination unit 252 Learning unit 254 Classification unit 256 Evaluation unit

Claims (14)

複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置であって、
第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測する分類部と、
第2の処理として、前記分類部による予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する判定部と、
第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新する学習部と、
を備え、
前記分類部、前記判定部および前記学習部は、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行し、
前記判定部は、同一のデータについての前記分類部による予測結果が変化した回数が閾値以上である場合、当該データのラベルの再設定を作業者に依頼すると判定する、情報処理装置。
An information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data,
As a first process, a classification unit predicts labels of each of a plurality of data included in a dataset using a classifier acquired by learning;
As a second process, a determination unit determines data for which a label should be requested to be reassigned from an operator among a plurality of data included in the data set based on a prediction result by the classification unit;
As a third process, a learning unit that updates the classifier by learning based on the data set after the label has been reset by the operator;
Equipped with
the classification unit, the determination unit, and the learning unit repeatedly execute the first process to the third process while changing a target data set among the plurality of data sets;
The information processing device, wherein the determination unit determines that, when the number of times that the prediction result by the classification unit for the same data has changed is equal to or greater than a threshold, to request an operator to re-assign the label of the data .
複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置であって、
第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測する分類部と、
第2の処理として、前記分類部による予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する判定部と、
第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新する学習部と、
2以上のデータの少なくとも一部のデータに自動でラベルを設定するラベル設定部と、
前記2以上のデータから前記複数のデータセットを形成するデータセット形成部と、
を備え、
前記分類部、前記判定部および前記学習部は、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行し、
前記判定部は、同一のデータについての前記分類部による予測結果の安定性に基づき、当該データのラベルの再設定を作業者に依頼するか否かを判定し、
前記ラベル設定部は、前記第1の処理~前記第3の処理が繰り返し実行された後に、前記2以上のデータのうちで作業者によるラベル設定作業が行われていないデータに対して自動でラベルを再設定し、
前記分類部、前記判定部および前記学習部は、前記ラベル設定部によりラベルが再設定された後に、前記第1の処理~前記第3の処理の繰り返し実行を再開する、情報処理装置
An information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data,
As a first process, a classification unit predicts labels of each of a plurality of data included in a dataset using a classifier acquired by learning;
As a second process, a determination unit determines data for which a label should be requested to be reassigned from an operator among a plurality of data included in the data set based on a prediction result by the classification unit;
As a third process, a learning unit that updates the classifier by learning based on the data set after the label has been reset by the operator;
a label setting unit that automatically sets a label to at least a part of the two or more pieces of data;
A data set forming unit that forms the plurality of data sets from the two or more data;
Equipped with
the classification unit, the determination unit, and the learning unit repeatedly execute the first process to the third process while changing a target data set among the plurality of data sets;
the determination unit determines whether to request an operator to re-assign a label for the same data based on the stability of the prediction result by the classification unit; and
the label setting unit automatically resets a label to data for which a label setting operation has not been performed by an operator among the two or more pieces of data after the first process to the third process have been repeatedly performed;
The classification unit, the determination unit, and the learning unit resume repeated execution of the first process to the third process after the labels are reset by the label setting unit .
複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置であって、An information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data,
第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測する分類部と、As a first process, a classification unit predicts labels of each of a plurality of data included in a dataset using a classifier acquired by learning;
第2の処理として、前記分類部による予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定する判定部と、As a second process, a determination unit determines data for which a label should be requested to be reassigned from an operator among a plurality of data included in the data set based on a prediction result by the classification unit;
第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新する学習部と、As a third process, a learning unit that updates the classifier by learning based on the data set after the label has been reset by the operator;
を備え、Equipped with
前記分類部、前記判定部および前記学習部は、前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行し、the classification unit, the determination unit, and the learning unit repeatedly execute the first process to the third process while changing a target data set among the plurality of data sets;
前記判定部は、前記分類部により予測されたラベルが不正解であったデータに関し、当該データに設定されたラベルが自動で設定されたラベルである場合、当該データのラベルの再設定を作業者に依頼すると判定する、情報処理装置。The information processing device, wherein the determination unit determines that, for data in which the label predicted by the classification unit is incorrect, the label set for the data is an automatically set label, to request an operator to re-set the label for the data.
前記判定部は、同一のデータについての前記分類部による予測結果が変化した回数が閾値以上である場合、当該データのラベルの再設定を作業者に依頼すると判定する、請求項2または3に記載の情報処理装置。 The information processing apparatus according to claim 2 , wherein the determining unit determines that a worker should be requested to reset the label of the data when the number of times that the prediction result by the classifying unit for the same data has changed is equal to or greater than a threshold value. 前記情報処理装置は、
2以上のデータの少なくとも一部のデータに自動でラベルを設定するラベル設定部と、
前記2以上のデータから前記複数のデータセットを形成するデータセット形成部と、
をさらに備える、請求項1または3に記載の情報処理装置。
The information processing device includes:
a label setting unit that automatically sets a label to at least a part of the two or more pieces of data;
A data set forming unit that forms the plurality of data sets from the two or more data;
The information processing device according to claim 1 , further comprising:
前記ラベル設定部は、前記第1の処理~前記第3の処理が繰り返し実行された後に、前記2以上のデータのうちで作業者によるラベル設定作業が行われていないデータに対して自動でラベルを再設定し、
前記分類部、前記判定部および前記学習部は、前記ラベル設定部によりラベルが再設定された後に、前記第1の処理~前記第3の処理の繰り返し実行を再開する、請求項に記載の情報処理装置。
the label setting unit automatically resets a label to data for which a label setting operation has not been performed by an operator among the two or more pieces of data after the first process to the third process have been repeatedly performed;
The information processing device according to claim 5 , wherein the classification unit, the determination unit, and the learning unit resume repeated execution of the first process to the third process after the labels are reset by the label setting unit.
前記データセット形成部は、前記2以上のデータを分割することにより前記複数のデータセットを形成する、請求項5または6に記載の情報処理装置。 The information processing apparatus according to claim 5 , wherein the data set forming unit forms the plurality of data sets by dividing the two or more pieces of data. 前記複数のデータセットは、前記2以上のデータの第1の分割により得られた2以上の第1のデータセット、および前記2以上のデータの第2の分割により得られた2以上の第2のデータセットを含む、請求項に記載の情報処理装置。 The information processing device according to claim 7 , wherein the plurality of data sets include two or more first data sets obtained by a first division of the two or more pieces of data, and two or more second data sets obtained by a second division of the two or more pieces of data. 前記判定部は、前記分類部により予測されたラベルが不正解であったデータに関し、当該データに設定されたラベルが自動で設定されたラベルである場合、当該データのラベルの再設定を作業者に依頼すると判定する、請求項1または2に記載の情報処理装置。 3 . The information processing device according to claim 1 , wherein the determination unit determines that, for data for which a label predicted by the classification unit is incorrect, a label set for the data is an automatically set label, to request an operator to reset the label for the data. 前記判定部は、作業者によりラベルが設定されたデータに関し、前記作業者による当該データへのラベル設定の信頼性が所定の基準を満たさない場合、当該データのラベルの再設定を作業者に依頼すると判定する、請求項1~9までのいずれか一項に記載の情報処理装置。 The information processing device according to any one of claims 1 to 9, wherein the determination unit determines to request the worker to re-label the data when reliability of the label setting by the worker to the data to which the label has been set by the worker does not satisfy a predetermined standard. 前記情報処理装置は、前記判定部により前記作業者に前記ラベルの再設定を依頼すると判定されたデータの数が収束したことに基づき、前記第1の処理~前記第3の処理の終了を制御する制御部をさらに備える、請求項1~10までのいずれか一項に記載の情報処理装置。 The information processing device according to any one of claims 1 to 10, further comprising a control unit that controls termination of the first process to the third process based on convergence of a number of pieces of data for which the determination unit has determined that the worker should be requested to reset the label. 複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置により実行される方法であって、
第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測することと、
第2の処理として、前記第1の処理での予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定することと、
第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新することと、
前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行することと、
を含み、
前記第2の処理は、同一のデータについての前記第1の処理による予測結果が変化した回数が閾値以上である場合、当該データのラベルの再設定を作業者に依頼すると判定することを含む、方法。
A method executed by an information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data,
As a first process, a label of each of a plurality of data included in a dataset is predicted using a classifier obtained by learning;
As a second process, determining data for which a label is to be requested to be reassigned to an operator from among a plurality of data included in the data set based on a prediction result in the first process;
As a third process, updating the classifier by learning based on the data set after the labels have been reset by the operator;
Repeating the first process to the third process while changing a target data set among the plurality of data sets;
Including,
The method, wherein the second process includes determining, when a number of times a prediction result by the first process for the same data has changed is equal to or greater than a threshold, to request an operator to relabel the data .
複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置により実行される方法であって、A method executed by an information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data,
第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測することと、As a first process, a label of each of a plurality of data included in a dataset is predicted using a classifier obtained by learning;
第2の処理として、前記第1の処理での予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定することと、As a second process, determining data for which a label is to be requested to be reassigned to an operator from among a plurality of data included in the data set based on a prediction result in the first process;
第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新することと、As a third process, updating the classifier by learning based on the data set after the labels have been reset by the operator;
前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行することと、Repeating the first process to the third process while changing a target data set among the plurality of data sets;
2以上のデータの少なくとも一部のデータに自動でラベルを設定することと、Automatically setting a label to at least a portion of the two or more pieces of data;
前記2以上のデータから前記複数のデータセットを形成することと、forming the plurality of data sets from the two or more data;
前記第1の処理~前記第3の処理が繰り返し実行された後に、前記2以上のデータのうちで作業者によるラベル設定作業が行われていないデータに対して自動でラベルを再設定することと、After the first process to the third process are repeatedly executed, automatically re-labeling data among the two or more pieces of data for which a label setting operation has not been performed by an operator; and
ラベルが再設定された後に、前記第1の処理~前記第3の処理の繰り返し実行を再開することと、After the label is reset, restarting the repeated execution of the first process to the third process; and
を含み、Including,
前記第2の処理は、同一のデータについての前記第1の処理での予測結果の安定性に基づき、当該データのラベルの再設定を作業者に依頼するか否かを判定することを含む、方法。The method, wherein the second process includes determining whether to request an operator to re-label the data based on stability of a prediction result in the first process for the same data.
複数のデータおよび前記複数のデータの各々に設定されたラベルを含む複数のデータセットに基づく学習を行う情報処理装置により実行される方法であって、A method executed by an information processing device that performs learning based on a plurality of data sets including a plurality of data and labels set for each of the plurality of data,
第1の処理として、データセットに含まれる複数のデータの各々のラベルを、学習により取得された分類器を用いて予測することと、As a first process, a label of each of a plurality of data included in a dataset is predicted using a classifier obtained by learning;
第2の処理として、前記第1の処理での予測結果に基づき、前記データセットに含まれる複数のデータのうちでラベルの再設定を作業者に依頼するデータを判定することと、As a second process, determining data for which a label is to be requested to be reassigned to an operator from among a plurality of data included in the data set based on a prediction result in the first process;
第3の処理として、前記作業者によりラベルが再設定された後の前記データセットに基づく学習により前記分類器を更新することと、As a third process, updating the classifier by learning based on the data set after the labels have been reset by the operator;
前記複数のデータセットの中で対象となるデータセットを変えながら前記第1の処理~前記第3の処理を繰り返し実行することと、Repeating the first process to the third process while changing a target data set among the plurality of data sets;
を含み、Including,
前記第2の処理は、前記第1の処理において予測されたラベルが不正解であったデータに関し、当該データに設定されたラベルが自動で設定されたラベルである場合、当該データのラベルの再設定を作業者に依頼すると判定することを含む、方法。the second processing includes, for data whose label predicted in the first processing is incorrect, determining to request an operator to re-label the data when the label set for the data is an automatically set label.

JP2020035133A 2020-03-02 2020-03-02 Information processing device and method Active JP7484223B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020035133A JP7484223B2 (en) 2020-03-02 2020-03-02 Information processing device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020035133A JP7484223B2 (en) 2020-03-02 2020-03-02 Information processing device and method

Publications (2)

Publication Number Publication Date
JP2021140254A JP2021140254A (en) 2021-09-16
JP7484223B2 true JP7484223B2 (en) 2024-05-16

Family

ID=77668609

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020035133A Active JP7484223B2 (en) 2020-03-02 2020-03-02 Information processing device and method

Country Status (1)

Country Link
JP (1) JP7484223B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015087903A (en) 2013-10-30 2015-05-07 ソニー株式会社 Apparatus and method for information processing
JP2018013857A (en) 2016-07-19 2018-01-25 富士通株式会社 Sensor data learning method, sensor data learning program, and sensor data learning apparatus

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015087903A (en) 2013-10-30 2015-05-07 ソニー株式会社 Apparatus and method for information processing
JP2018013857A (en) 2016-07-19 2018-01-25 富士通株式会社 Sensor data learning method, sensor data learning program, and sensor data learning apparatus

Also Published As

Publication number Publication date
JP2021140254A (en) 2021-09-16

Similar Documents

Publication Publication Date Title
US11880968B2 (en) Distributed computing system for product defect analysis
JP6629678B2 (en) Machine learning device
US9886669B2 (en) Interactive visualization of machine-learning performance
US20180174062A1 (en) Root cause analysis for sequences of datacenter states
US11526696B2 (en) Model maintenance device, pattern recognition system, model maintenance method, and computer program product
AU2016200021A1 (en) End-to-end project management
KR102337070B1 (en) Method and system for building training database using automatic anomaly detection and automatic labeling technology
US20120294496A1 (en) Face recognition apparatus, control method thereof, and face recognition method
US20220129794A1 (en) Generation of counterfactual explanations using artificial intelligence and machine learning techniques
JP2017111731A (en) Information processing system, information processing method, and program
JPWO2019187594A1 (en) Learning equipment, learning methods and learning programs
KR20210029073A (en) Virtual machine workload prediction method based on multiple prediction models
WO2021079440A1 (en) Creation method, creation program, and information processing device
CN109144715B (en) Resource optimization and update method, server and equipment
US20210182701A1 (en) Virtual data scientist with prescriptive analytics
JP2019109924A (en) Information processing system, information processing method, and program
JP7484223B2 (en) Information processing device and method
JP4641492B2 (en) Singular image detection device, singular image detection method and program
JP7272455B2 (en) DETECTION METHOD, DETECTION PROGRAM AND INFORMATION PROCESSING DEVICE
US20220392107A1 (en) Image processing apparatus, image processing method, image capturing apparatus, and non-transitory computer-readable storage medium
KR102413588B1 (en) Object recognition model recommendation method, system and computer program according to training data
WO2023195139A1 (en) Display data creation device, operation system, display data creation method, and display data creation program
JP2007164346A (en) Decision tree changing method, abnormality determination method, and program
JP2020204812A5 (en)
JP2020052935A (en) Method of creating learned model, method of classifying data, computer and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240415

R150 Certificate of patent or registration of utility model

Ref document number: 7484223

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150