JP2021018678A - Training method, training device, clustering method, clustering device, clustering model generation method, program and computer readable storage medium - Google Patents

Training method, training device, clustering method, clustering device, clustering model generation method, program and computer readable storage medium Download PDF

Info

Publication number
JP2021018678A
JP2021018678A JP2019134811A JP2019134811A JP2021018678A JP 2021018678 A JP2021018678 A JP 2021018678A JP 2019134811 A JP2019134811 A JP 2019134811A JP 2019134811 A JP2019134811 A JP 2019134811A JP 2021018678 A JP2021018678 A JP 2021018678A
Authority
JP
Japan
Prior art keywords
clustering
training
model
data
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019134811A
Other languages
Japanese (ja)
Inventor
嗣生 最上
Tsuguo Mogami
嗣生 最上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Preferred Networks Inc
Original Assignee
Preferred Networks Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Preferred Networks Inc filed Critical Preferred Networks Inc
Priority to JP2019134811A priority Critical patent/JP2021018678A/en
Publication of JP2021018678A publication Critical patent/JP2021018678A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To provide a novel loss function suitable for a mechanical learning model for clustering.SOLUTION: One aspect of the present disclosure relates to a training method comprising causing one or more processors to: cluster data with a clustering model; and train the clustering model according to an expected value of similarity between a clustering result by the clustering model and a training clustering result.SELECTED DRAWING: Figure 12

Description

本開示は、訓練方法、訓練装置、クラスタリング方法、クラスタリング装置、クラスタリングモデル生成方法、プログラム及びコンピュータ可読記憶媒体に関する。 The present disclosure relates to training methods, training devices, clustering methods, clustering devices, clustering model generation methods, programs and computer-readable storage media.

点群データなどのデータをクラスタリングする方法はいくつも存在するが、これらは全て例示から学習することができない非学習的アルゴリズムであった。そのためクラスタリング問題は、近年の大規模データによる精度向上やニューラルネットワークの適用拡大の恩恵を受けることができなかった。 There are many methods for clustering data such as point cloud data, but all of them are non-learning algorithms that cannot be learned from examples. Therefore, the clustering problem could not benefit from the recent improvement in accuracy due to large-scale data and the expansion of application of neural networks.

ニューラルネットワークなどによるクラスタリングモデルの訓練処理を実現するためには、訓練用入力データである点群データを訓練対象のニューラルネットワークに入力し、ニューラルネットワークから出力されたクラスタリング結果と訓練用出力データであるクラスタリング結果とを比較し、双方の誤差が小さくなるよう誤差逆伝播法に従ってニューラルネットワークのパラメータが調整される必要がある。 In order to realize the training processing of the clustering model by the neural network or the like, the point group data which is the training input data is input to the neural network to be trained, and the clustering result and the training output data output from the neural network. It is necessary to compare with the clustering result and adjust the neural network parameters according to the error back propagation method so that the error between the two becomes smaller.

このようなクラスタ間の誤差又は類似度を算出するための指標はいくつかあるが、例示すればランド指数が知られている。すなわち、ランド指数は、2つのクラスタリング結果について、同一のクラスタに割り当てられたデータ対の和から異なるクラスタに割り当てられたデータ対の和の差分のデータ対の合計に対する比率を表す。 There are several indicators for calculating the error or similarity between such clusters, for example, the land index is known. That is, the land index represents the ratio of the sum of the data pairs assigned to the same cluster to the sum of the sums of the data pairs assigned to different clusters to the total of the data pairs for the two clustering results.

一方、ランド指数は一般に入力も出力も離散値であり、微分可能性が所望される機械学習モデルの訓練処理に利用される損失関数には適していない。 On the other hand, the land index is generally a discrete value in both input and output, and is not suitable for a loss function used in training processing of a machine learning model in which differentiability is desired.

https://y-uti.hatenablog.jp/entry/2014/01/19/133936https://y-uti.hatenablog.jp/entry/2014/01/19/133936

本開示の課題は、クラスタリングのための機械学習モデルに適した新規な損失関数を提供することである。 An object of the present disclosure is to provide a novel loss function suitable for a machine learning model for clustering.

上記課題を解決するため、本開示の一態様は、1つ以上のプロセッサが、クラスタリングモデルによってデータをクラスタリングすることと、前記1つ以上のプロセッサが、前記クラスタリングモデルによるクラスタリング結果と訓練用クラスタリング結果との間の類似度の期待値に従って前記クラスタリングモデルを訓練することと、を有する訓練方法に関する。 In order to solve the above problems, one aspect of the present disclosure is that one or more processors cluster data by a clustering model, and the one or more processors perform clustering results by the clustering model and clustering results for training. With respect to training the clustering model according to the expected value of similarity between and.

本開示の他の態様は、1つ以上のプロセッサが、クラスタリング対象のデータを取得することと、前記1つ以上のプロセッサが、クラスタリングモデルによって前記取得したデータをクラスタリングすることと、を有し、前記クラスタリングモデルは、訓練用入力データに対するクラスタリング結果と訓練用クラスタリング結果との間の類似度の期待値に従って訓練されたモデルであるクラスタリング方法に関する。 Another aspect of the present disclosure comprises one or more processors acquiring the data to be clustered, and the one or more processors clustering the acquired data by a clustering model. The clustering model relates to a clustering method that is a model trained according to an expected value of similarity between a clustering result for training input data and a training clustering result.

本開示の一実施例によるクラスタリングモデルを示す概略図である。It is a schematic diagram which shows the clustering model by one Example of this disclosure. 本開示の一実施例による訓練装置の機能構成を示すブロック図である。It is a block diagram which shows the functional structure of the training apparatus by one Example of this disclosure. 本開示の一実施例によるランド指数の算出例を示す図である。It is a figure which shows the calculation example of the land index by one Example of this disclosure. 本開示の一実施例によるランド指数の算出例を示す図である。It is a figure which shows the calculation example of the land index by one Example of this disclosure. 本開示の一実施例による擬似相互情報量の算出例を示す図である。It is a figure which shows the calculation example of the pseudo mutual information amount by one Example of this disclosure. 本開示の一実施例による擬似相互情報量の算出例を示す図である。It is a figure which shows the calculation example of the pseudo mutual information amount by one Example of this disclosure. 本開示の一実施例による擬似相互情報量の算出例を示す図である。It is a figure which shows the calculation example of the pseudo mutual information amount by one Example of this disclosure. 本開示の一実施例による擬似相互情報量の算出例を示す図である。It is a figure which shows the calculation example of the pseudo mutual information amount by one Example of this disclosure. 本開示の一実施例によるランド指数の期待値の算出例を示す図である。It is a figure which shows the calculation example of the expected value of the land index by one Example of this disclosure. 本開示の一実施例による擬似相互情報量の期待値の算出例を示す図である。It is a figure which shows the calculation example of the expected value of the pseudo mutual information amount by one Example of this disclosure. 本開示の一実施例による擬似相互情報量の期待値の算出例を示す図である。It is a figure which shows the calculation example of the expected value of the pseudo mutual information amount by one Example of this disclosure. 本開示の一実施例による訓練処理を示すフローチャートである。It is a flowchart which shows the training process by one Example of this disclosure. 本開示の一実施例によるクラスタリング装置の機能構成を示すブロック図である。It is a block diagram which shows the functional structure of the clustering apparatus by one Example of this disclosure. 本開示の一実施例によるクラスタリング処理を示すフローチャートである。It is a flowchart which shows the clustering process by one Example of this disclosure. 本開示の一実施例によるクラスタリング例を示す図である。It is a figure which shows the clustering example by one Example of this disclosure. 本開示の一実施例によるクラスタリング例を示す図である。It is a figure which shows the clustering example by one Example of this disclosure. 本開示の一実施例によるクラスタリング例を示す図である。It is a figure which shows the clustering example by one Example of this disclosure. 本開示の一実施例によるクラスタリング例を示す図である。It is a figure which shows the clustering example by one Example of this disclosure. 本開示の一実施例によるクラスタリング例を示す図である。It is a figure which shows the clustering example by one Example of this disclosure. 本開示の一実施例による訓練装置及びクラスタリング装置のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware configuration of the training apparatus and the clustering apparatus by one Example of this disclosure.

以下、図面に基づいて本開示の実施の形態を説明する。以下の実施例では、点群データなどのデータをクラスタリングする機械学習モデルを訓練する訓練装置と、訓練済み機械学習モデルによってデータをクラスタリングするクラスタリング装置とが開示される。 Hereinafter, embodiments of the present disclosure will be described with reference to the drawings. In the following examples, a training device for training a machine learning model for clustering data such as point cloud data and a clustering device for clustering data with a trained machine learning model are disclosed.

[本開示の概略]
図1に示されるように、本開示の実施例による訓練装置100は、例えば、ニューラルネットワークなどの何れかのタイプの機械学習モデルとして実現されるクラスタリングモデルを教師有り学習によって訓練する。当該訓練は、データベース50に格納されている訓練用のクラスタリング対象データに対するクラスタリングモデルによるクラスタリング結果と対応する訓練用の正解のクラスタリング結果との間の類似度の期待値に基づきクラスタリングモデルを訓練する。本開示の実施例によるクラスタリング装置200は、このようにして訓練装置100によって訓練されたクラスタリングモデルを利用して、点群データなどのデータをクラスタリングし、クラスタリング結果及び当該クラスタリング結果の確率を出力する。
[Summary of the present disclosure]
As shown in FIG. 1, the training device 100 according to the embodiment of the present disclosure trains a clustering model realized as any type of machine learning model such as a neural network by supervised learning. In the training, the clustering model is trained based on the expected value of the similarity between the clustering result by the clustering model for the clustering target data for training stored in the database 50 and the clustering result of the corresponding correct answer for training. The clustering device 200 according to the embodiment of the present disclosure clusters data such as point cloud data by using the clustering model trained by the training device 100 in this way, and outputs the clustering result and the probability of the clustering result. ..

本開示によると、非離散的な値であるクラスタリング結果の類似度の期待値をクラスタリングモデルを訓練するための損失関数として利用することによって、クラスタリングモデルを良好に訓練することができ、クラスタリングモデルの予測精度を向上させることができる。 According to the present disclosure, the clustering model can be well trained by using the expected value of similarity of the clustering result, which is a non-discrete value, as a loss function for training the clustering model. The prediction accuracy can be improved.

[訓練装置]
まず、図2〜11を参照して、本開示の一実施例によるクラスタリングモデルの訓練装置100を説明する。本実施例による訓練装置100は、損失関数として類似度の期待値(より正確には、類似度の期待値を符号反転したもの、あるいは、類似度の期待値の逆数)を利用して、ニューラルネットワークなどの何れかのタイプの機械学習モデルとして実現されるクラスタリングモデルを訓練する。図2は、本開示の一実施例による訓練装置100の機能構成を示すブロック図である。
[Training device]
First, the training device 100 of the clustering model according to the embodiment of the present disclosure will be described with reference to FIGS. 2 to 11. The training device 100 according to the present embodiment uses a neural expected value of similarity as a loss function (more accurately, a sign-inverted expected value of similarity or a reciprocal of the expected value of similarity). Train a clustering model realized as any type of machine learning model such as a network. FIG. 2 is a block diagram showing a functional configuration of the training device 100 according to an embodiment of the present disclosure.

図2に示されるように、訓練装置100は、クラスタリング部110及び訓練部120を有する。 As shown in FIG. 2, the training device 100 has a clustering unit 110 and a training unit 120.

クラスタリング部110は、訓練対象のクラスタリングモデルによってデータをクラスタリングする。具体的には、クラスタリング部110は、データベース50に予め用意された訓練データを利用した教師有り学習によって、ニューラルネットワークなどの何れかのタイプの機械学習モデルとして実現される訓練対象のクラスタリングモデルを訓練する。 The clustering unit 110 clusters data according to the clustering model to be trained. Specifically, the clustering unit 110 trains a clustering model to be trained, which is realized as any type of machine learning model such as a neural network by supervised learning using training data prepared in advance in the database 50. To do.

例えば、訓練データは、点群データなどのクラスタリング対象のデータと当該データの正解のクラスタリング結果との複数のペアから構成され、クラスタリング部110は、クラスタリング対象のデータを訓練用入力データとしてクラスタリングモデルに入力し、クラスタリングモデルから訓練用入力データに対するクラスタリング結果を取得する。また、クラスタリング部110は、クラスタリングモデルから当該クラスタリング結果の尤もらしさを示す確率を更に取得し、取得したクラスタリング結果及び関連する確率を訓練部120に提供する。 For example, the training data is composed of a plurality of pairs of clustering target data such as point group data and the clustering result of the correct answer of the data, and the clustering unit 110 uses the clustering target data as training input data in a clustering model. Input and get the clustering result for the training input data from the clustering model. Further, the clustering unit 110 further acquires the probability indicating the plausibility of the clustering result from the clustering model, and provides the acquired clustering result and the related probability to the training unit 120.

訓練部120は、クラスタリングモデルによるクラスタリング結果と訓練用クラスタリング結果との間の類似度の期待値に従ってクラスタリングモデルを訓練する。ここで、訓練用クラスタリング結果は、訓練データとして与えられる正解のクラスタリング結果である。具体的には、クラスタリング部110からクラスタリング結果を取得すると、訓練部120は、クラスタリング部110から取得したクラスタリング結果と、当該訓練用入力データに対応する訓練用の正解のクラスタリング結果とを比較し、クラスタリング結果と正解のクラスタリング結果との間の類似度を決定する。そして、訓練部120は、決定した類似度とクラスタリング部110から取得したクラスタリング結果における各クラスタの確率とに基づき類似度の期待値を導出し、導出した期待値に基づき訓練対象のクラスタリングモデルを訓練する。 The training unit 120 trains the clustering model according to the expected value of the similarity between the clustering result by the clustering model and the training clustering result. Here, the training clustering result is a correct clustering result given as training data. Specifically, when the clustering result is acquired from the clustering unit 110, the training unit 120 compares the clustering result acquired from the clustering unit 110 with the clustering result of the correct answer for training corresponding to the input data for training. Determine the degree of similarity between the clustering result and the correct clustering result. Then, the training unit 120 derives an expected value of similarity based on the determined similarity and the probability of each cluster in the clustering result obtained from the clustering unit 110, and trains the clustering model to be trained based on the derived expected value. To do.

例えば、クラスタリングモデルがニューラルネットワークとして実現されている場合、訓練部120は、導出した類似度の期待値(より正確には、類似度の期待値を符号反転したもの、あるいは、類似度の期待値の逆数)を損失関数の値として利用し、誤差逆伝播法に従ってニューラルネットワークのパラメータを更新する。 For example, when the clustering model is realized as a neural network, the training unit 120 receives the derived expected value of similarity (more accurately, the expected value of similarity inverted by sign, or the expected value of similarity. The reciprocal of) is used as the value of the loss function, and the parameters of the neural network are updated according to the backpropagation method.

本開示による類似度は、1)確率を受け入れ可能であること、2)クラスタリング結果が完全に一致するときに限って、最小値又は最大値をとること、3)完全一致から乖離するに従って値が増加又は減少すること、4)置換対称性(permutation invariance)、を充足してもよい。 The similarity according to the present disclosure is that 1) the probability is acceptable, 2) the minimum value or the maximum value is taken only when the clustering results are exactly the same, and 3) the value increases as the deviation from the perfect match. Increasing or decreasing, 4) permutation invariance, may be satisfied.

一実施例では、類似度は、第1のクラスタリング結果と第2のクラスタリング結果とのデータ対の合計に対する同一のクラスタに割り当てられたデータ対の和の比率であってもよい。ここで、2つのクラスタリング結果のデータ対の合計に対する同一のクラスタに割り当てられたデータ対の和の比率はまた、ランド指数として参照されうる。例えば、当該類似度を訓練処理に使用する場合、一方のクラスタリング結果はクラスタリングモデルによるクラスタリング結果であり、他方のクラスタリング結果は正解のクラスタリング結果である。 In one embodiment, the similarity may be the ratio of the sum of the data pairs assigned to the same cluster to the sum of the data pairs of the first clustering result and the second clustering result. Here, the ratio of the sum of the data pairs assigned to the same cluster to the sum of the data pairs of the two clustering results can also be referred to as the land index. For example, when the similarity is used for training processing, one clustering result is a clustering result by a clustering model, and the other clustering result is a correct clustering result.

以下において、佐藤、鈴木、加藤、田中、工藤及び高橋という6人をクラスタリングする具体例を参照して、ランド指数を説明する。 In the following, the land index will be described with reference to a specific example of clustering six people, Sato, Suzuki, Kato, Tanaka, Kudo, and Takahashi.

例えば、「(佐藤,鈴木),(加藤,田中),(工藤,高橋)」という第1のクラスタリング結果と、「(田中,加藤),(高橋,工藤),(鈴木,佐藤)」という第2のクラスタリング結果との間のランド指数を考える。これら2つのクラスタリング結果によると、第1のクラスタリング結果の第1項(佐藤,鈴木)と第2のクラスタリング結果の第3項(鈴木,佐藤)とは、項内の順序は異なるが、同一クラスタである。同様に、第1のクラスタリング結果の第2項(加藤,田中)と第2のクラスタリング結果の第1項(田中,加藤)と、第1のクラスタリング結果の第3項(工藤,高橋)と第2のクラスタリング結果の第2項(高橋,工藤)それぞれ、項内の順序は異なるが、同一クラスタである。さらに、第1のクラスタリング結果と第2のクラスタリング結果とは、クラスタの順序は異なるが、同一のクラスタリングである。従って、置換対称性が求められるため、これら2つのクラスタリング結果は同一であり、同一であることを示すランド指数が導出される必要がある。 For example, the first clustering result of "(Sato, Suzuki), (Kato, Tanaka), (Kudo, Takahashi)" and the first clustering result of "(Tanaka, Kato), (Takahashi, Kudo), (Suzuki, Sato)". Consider the land index between the two clustering results. According to these two clustering results, the first term (Sato, Suzuki) of the first clustering result and the third term (Suzuki, Sato) of the second clustering result are the same cluster although the order in the terms is different. Is. Similarly, the second term (Kato, Tanaka) of the first clustering result, the first term (Tanaka, Kato) of the second clustering result, and the third term (Kudo, Takahashi) and the first clustering result. The second term (Takahashi, Kudo) of the clustering result of 2 is the same cluster although the order in the term is different. Further, the first clustering result and the second clustering result are the same clustering although the order of the clusters is different. Therefore, since substitution symmetry is required, these two clustering results are the same, and it is necessary to derive a land index indicating that they are the same.

図3に示されるテーブルは、2つのクラスタリング結果を示す。すなわち、第1のクラスタリング結果では、“佐藤”と“鈴木”とは同一クラスタに属しているため、“佐藤”と“鈴木”とに対応するマトリクス内の要素の第1の項目に同一クラスタに属していることを示す“○”が入力される。また、第1のクラスタリング結果では、“加藤”と“田中”とは同一クラスタに属しているため、“加藤”と“田中”とに対応するマトリクス内のセルの第1の項目に同一クラスタに属していることを示す“○”が入力される。同様に、第1のクラスタリング結果では、“工藤”と“高橋”とは同一クラスタに属しているため、“工藤”と“高橋”とに対応するマトリクス内のセルの第1の項目に同一クラスタに属していることを示す“○”が入力される。第1のクラスタリング結果のその他の組み合わせは同一クラスタに属していないため、マトリクス内のセルの第1の項目に同一クラスタに属していないことを示す“×”が入力される。 The table shown in FIG. 3 shows two clustering results. That is, in the first clustering result, since "Sato" and "Suzuki" belong to the same cluster, the same cluster is assigned to the first item of the elements in the matrix corresponding to "Sato" and "Suzuki". "○" indicating that it belongs is input. In addition, in the first clustering result, since "Kato" and "Tanaka" belong to the same cluster, the same cluster is assigned to the first item of the cell in the matrix corresponding to "Kato" and "Tanaka". "○" indicating that it belongs is input. Similarly, in the first clustering result, since "Kudo" and "Takahashi" belong to the same cluster, the same cluster is assigned to the first item of the cell in the matrix corresponding to "Kudo" and "Takahashi". "○" indicating that it belongs to is input. Since the other combinations of the first clustering results do not belong to the same cluster, "x" indicating that they do not belong to the same cluster is input to the first item of the cells in the matrix.

次に、第2のクラスタリング結果では、“佐藤”と“鈴木”とは同一クラスタに属しているため、“佐藤”と“鈴木”とに対応するマトリクス内のセルの第2の項目に同一クラスタに属していることを示す“○”が入力される。また、第2のクラスタリング結果では、“加藤”と“田中”とは同一クラスタに属しているため、“加藤”と“田中”とに対応するマトリクス内のセルの第2の項目に同一クラスタに属していることを示す“○”が入力される。同様に、第2のクラスタリング結果では、“工藤”と“高橋”とは同一クラスタに属しているため、“工藤”と“高橋”とに対応するマトリクス内のセルの第2の項目に同一クラスタに属していることを示す“○”が入力される。第2のクラスタリング結果のその他の組み合わせは同一クラスタに属していないため、マトリクス内のセルの第2の項目に同一クラスタに属していないことを示す“×”が入力される。 Next, in the second clustering result, since "Sato" and "Suzuki" belong to the same cluster, the same cluster belongs to the second item of the cell in the matrix corresponding to "Sato" and "Suzuki". "○" indicating that it belongs to is input. In addition, in the second clustering result, since "Kato" and "Tanaka" belong to the same cluster, the second item of the cell in the matrix corresponding to "Kato" and "Tanaka" is in the same cluster. "○" indicating that it belongs is input. Similarly, in the second clustering result, since "Kudo" and "Takahashi" belong to the same cluster, the same cluster is assigned to the second item of the cell in the matrix corresponding to "Kudo" and "Takahashi". "○" indicating that it belongs to is input. Since the other combinations of the second clustering results do not belong to the same cluster, "x" indicating that they do not belong to the same cluster is input to the second item of the cells in the matrix.

このようにして、第1のクラスタリング結果と第2のクラスタリング結果とに基づき、図示されるようなテーブルが作成できる。データ対の合計はマトリクスの合計に対応し、15となる。一方、データ対が同一のクラスに割り当てられていることを示唆する“○○”及び“××”の総数は、3+12=15となる。従って、ランド指数は、同一のクラスタに割り当てられたデータ対/データ対の合計=(3+12)/15=1となる。すなわち、ランド指数は、2つのクラスタリング結果が同一であるとき、最大値1となる。 In this way, a table as shown can be created based on the first clustering result and the second clustering result. The sum of the data pairs corresponds to the sum of the matrix and is 15. On the other hand, the total number of "○○" and "XX" suggesting that the data pairs are assigned to the same class is 3 + 12 = 15. Therefore, the land index is the sum of data pairs / data pairs assigned to the same cluster = (3 + 12) / 15 = 1. That is, the land index has a maximum value of 1 when the two clustering results are the same.

次に、「(佐藤,鈴木),(加藤,田中),(工藤,高橋)」という第1のクラスタリング結果と、「(佐藤,田中),(加藤,鈴木),(工藤,高橋)」という第2のクラスタリング結果との間のランド指数を考える。第1のクラスタリング結果と第2のクラスタリング結果とは、第3項の(工藤,高橋)については一致しているが、第1項及び第2項は異なるクラスタリングとなっている。従って、これら2つのクラスタリング結果は異なっており、相違を示すランド指数が導出される必要がある。 Next, the first clustering result of "(Sato, Suzuki), (Kato, Tanaka), (Kudo, Takahashi)" and "(Sato, Tanaka), (Kato, Suzuki), (Kudo, Takahashi)" Consider the land index between the second clustering result. The first clustering result and the second clustering result are in agreement with respect to the third term (Kudo, Takahashi), but the first and second terms are different clustering. Therefore, these two clustering results are different, and it is necessary to derive a land index indicating the difference.

図4に示されるテーブルは、2つのクラスタリング結果を示す。すなわち、第1のクラスタリング結果では、“佐藤”と“鈴木”とは同一クラスタに属しているため、“佐藤”と“鈴木”とに対応するマトリクス内のセルの第1の項目に同一クラスタに属していることを示す“○”が入力される。また、第1のクラスタリング結果では、“加藤”と“田中”とは同一クラスタに属しているため、“加藤”と“田中”とに対応するマトリクス内のセルの第1の項目に同一クラスタに属していることを示す“○”が入力される。同様に、第1のクラスタリング結果では、“工藤”と“高橋”とは同一クラスタに属しているため、“工藤”と“高橋”とに対応するマトリクス内のセルの第1の項目に同一クラスタに属していることを示す“○”が入力される。第1のクラスタリング結果のその他の組み合わせは同一クラスタに属していないため、マトリクス内のセルの第1の項目に同一クラスタに属していないことを示す“×”が入力される。 The table shown in FIG. 4 shows two clustering results. That is, in the first clustering result, "Sato" and "Suzuki" belong to the same cluster, so that the first item of the cell in the matrix corresponding to "Sato" and "Suzuki" belongs to the same cluster. "○" indicating that it belongs is input. In addition, in the first clustering result, since "Kato" and "Tanaka" belong to the same cluster, the same cluster is assigned to the first item of the cell in the matrix corresponding to "Kato" and "Tanaka". "○" indicating that it belongs is input. Similarly, in the first clustering result, since "Kudo" and "Takahashi" belong to the same cluster, the same cluster is assigned to the first item of the cell in the matrix corresponding to "Kudo" and "Takahashi". "○" indicating that it belongs to is input. Since the other combinations of the first clustering results do not belong to the same cluster, "x" indicating that they do not belong to the same cluster is input to the first item of the cells in the matrix.

次に、第2のクラスタリング結果では、“佐藤”と“田中”とは同一クラスタに属しているため、“佐藤”と“田中”とに対応するマトリクス内のセルの第2の項目に同一クラスタに属していることを示す“○”が入力される。また、第2のクラスタリング結果では、“加藤”と“鈴木”とは同一クラスタに属しているため、“加藤”と“鈴木”とに対応するマトリクス内のセルの第2の項目に同一クラスタに属していることを示す“○”が入力される。同様に、第2のクラスタリング結果では、“工藤”と“高橋”とは同一クラスタに属しているため、“工藤”と“高橋”とに対応するマトリクス内のセルの第2の項目に同一クラスタに属していることを示す“○”が入力される。第2のクラスタリング結果のその他の組み合わせは同一クラスタに属していないため、マトリクス内のセルの第2の項目に同一クラスタに属していないことを示す“×”が入力される。 Next, in the second clustering result, since "Sato" and "Tanaka" belong to the same cluster, the same cluster is assigned to the second item of the cell in the matrix corresponding to "Sato" and "Tanaka". "○" indicating that it belongs to is input. In addition, in the second clustering result, since "Kato" and "Suzuki" belong to the same cluster, the second item of the cell in the matrix corresponding to "Kato" and "Suzuki" is in the same cluster. "○" indicating that it belongs is input. Similarly, in the second clustering result, since "Kudo" and "Takahashi" belong to the same cluster, the same cluster is assigned to the second item of the cell in the matrix corresponding to "Kudo" and "Takahashi". "○" indicating that it belongs to is input. Since the other combinations of the second clustering results do not belong to the same cluster, "x" indicating that they do not belong to the same cluster is input to the second item of the cells in the matrix.

このようにして、第1のクラスタリング結果と第2のクラスタリング結果とに基づき、図示されるようなテーブルが作成できる。データ対の合計はマトリクスの合計に対応し、15となる。一方、同一のクラスタに割り当てられたデータ対は、“○○”及び“××”に対応し、同一のクラスタに割り当てられたデータ対の和は、1+10=11となる。従って、ランド指数は、同一のクラスタに割り当てられたデータ対/データ対の合計=(1+10)/15=11/15となる。すなわち、ランド指数は、2つのクラスタリング結果が同一でないとき、完全一致の最大値1から乖離した値となる。 In this way, a table as shown can be created based on the first clustering result and the second clustering result. The sum of the data pairs corresponds to the sum of the matrix and is 15. On the other hand, the data pairs assigned to the same cluster correspond to "○○" and "XX", and the sum of the data pairs assigned to the same cluster is 1 + 10 = 11. Therefore, the land index is the sum of data pairs / data pairs assigned to the same cluster = (1 + 10) / 15 = 11/15. That is, when the two clustering results are not the same, the land index is a value deviating from the maximum value 1 of the exact match.

上述した2つのクラスタリング例から理解されるように、同一のクラスタに割り当てられたデータ対“○○”及び“××”の和が小さくなるほど、すなわち、異なるクラスタに割り当てられたデータ対“○×”及び“×○”の和が大きくなるほど、ランド指数は1から乖離して0に近付く。 As can be understood from the above two clustering examples, the smaller the sum of the data pairs “○○” and “XX” assigned to the same cluster, that is, the data pairs “○ ×” assigned to different clusters. The larger the sum of "" and "XX", the more the land index deviates from 1 and approaches 0.

一実施例では、類似度は、擬似相互情報量(mutual information−like)に基づく指数であってもよい。ここでの擬似相互情報量とは、要素が全て正なる行と列を有する表があり、その要素の総和が1であったとき、要素の値を擬似的に確率と見做して相互情報量の公式を適用したものである。クラスタリングの擬似相互情報量を利用した損失関数として、一例では、2つのクラスタリングAとBがあったとき、行をAにおけるクラスタ、列をBにおけるクラスタとして、個々のデータがどのクラスタに割り当てられたかの頻度表を作成し、この頻度表をデータ点の総数で除すれば、総和が1の表になり、これを擬似的に確率と見做して相互情報量の公式を適用した擬似相互情報量のマイナスないし逆数などを損失関数として使ってもよい。ここでは、ランド指数と同様に、佐藤、鈴木、加藤、田中、工藤及び高橋という6人をクラスタリングする具体例を参照して、擬似相互情報量に基づく指数を説明する。 In one embodiment, the similarity may be an exponent based on a pseudo mutual information-like. The pseudo mutual information here is a table in which all the elements have positive rows and columns, and when the sum of the elements is 1, the value of the elements is regarded as a pseudo probability and the mutual information It is an application of the quantity formula. As a loss function using the pseudo mutual information of clustering, in one example, when there are two clusterings A and B, the row is the cluster in A and the column is the cluster in B, and which cluster each data is assigned to. If you create a frequency table and divide this frequency table by the total number of data points, you get a table with a sum of 1, which is regarded as a pseudo probability and a pseudo mutual information amount to which the mutual information amount formula is applied. Negative or inverse numbers of may be used as the loss function. Here, the index based on the pseudo mutual information will be described with reference to a specific example of clustering six people, Sato, Suzuki, Kato, Tanaka, Kudo, and Takahashi, as in the case of the land index.

例えば、「(佐藤,鈴木),(加藤,田中),(工藤,高橋)」という第1のクラスタリング結果と、「(田中,加藤),(高橋,工藤),(鈴木,佐藤)」という第2のクラスタリング結果との間の擬似相互情報量に基づく指数を考える。第1のクラスタリング結果の(佐藤,鈴木),(加藤,田中),(工藤,高橋)をそれぞれチーム1,2,3とし、第2のクラスタリング結果の(田中,加藤),(高橋,工藤),(鈴木,佐藤)をそれぞれチーム1,2,3として表す。 For example, the first clustering result of "(Sato, Suzuki), (Kato, Tanaka), (Kudo, Takahashi)" and the first clustering result of "(Tanaka, Kato), (Takahashi, Kudo), (Suzuki, Sato)". Consider an exponent based on pseudo-mutual information between the two clustering results. The first clustering results (Sato, Suzuki), (Kato, Tanaka), and (Kudo, Takahashi) are teams 1, 2, and 3, respectively, and the second clustering results (Tanaka, Kato), (Takahashi, Kudo). , (Suzuki, Sato) are represented as teams 1, 2, and 3, respectively.

図5(A)に示されるテーブルでは、第1列に第1のクラスタリング結果のチーム1,2,3が示され、第1行に第2のクラスタリング結果のチーム1,2,3が示される。すなわち、第1のクラスタリング結果のチーム1の(佐藤,鈴木)の“佐藤”及び“鈴木”は、第2のクラスタリング結果のチーム3の(鈴木,佐藤)の“佐藤”及び“鈴木”と同一であるため、チーム1の列及びチーム3の行に対応するセルに“佐藤,鈴木”(又は“鈴木,佐藤”)が配置される。また、第1のクラスタリング結果のチーム2の(加藤,田中)の“加藤”及び“田中”は、第2のクラスタリング結果のチーム1の(田中,加藤)の“加藤”及び“田中”と同一であるため、チーム2の列及びチーム1の行に対応するセルに“加藤,田中”(又は“田中,加藤”)が配置される。さらに、第1のクラスタリング結果のチーム3の(工藤,高橋)の“工藤”及び“高橋”は、第2のクラスタリング結果のチーム3の(高橋,工藤)の“工藤”及び“高橋”と同一であるため、チーム3の列及びチーム3の行に対応するセルに“工藤,高橋”(又は“(高橋,工藤)”)が配置される。 In the table shown in FIG. 5 (A), the first column shows the teams 1, 2, 3 of the first clustering result, and the first row shows the teams 1, 2, 3 of the second clustering result. .. That is, "Sato" and "Suzuki" of Team 1 (Sato, Suzuki) of the first clustering result are the same as "Sato" and "Suzuki" of Team 3 (Suzuki, Sato) of the second clustering result. Therefore, "Sato, Suzuki" (or "Suzuki, Sato") is arranged in the cells corresponding to the columns of Team 1 and the rows of Team 3. In addition, "Kato" and "Tanaka" of Team 2 (Kato, Tanaka) of the first clustering result are the same as "Kato" and "Tanaka" of Team 1 (Tanaka, Kato) of the second clustering result. Therefore, "Kato, Tanaka" (or "Tanaka, Kato") is arranged in the cell corresponding to the column of team 2 and the row of team 1. Furthermore, "Kudo" and "Takahashi" of Team 3 (Kudo, Takahashi) of the first clustering result are the same as "Kudo" and "Takahashi" of Team 3 (Takahashi, Kudo) of the second clustering result. Therefore, "Kudo, Takahashi" (or "(Takahashi, Kudo)") is placed in the cell corresponding to the column of Team 3 and the row of Team 3.

このようにして、第1のクラスタリング結果と第2のクラスタリング結果とに基づき、図5(A)に示されるようなテーブルが作成できる。さらに、各セルに入力されたデータ項目数を計算し、図5(B)に示されるテーブルが作成できる。さらにデータ項目の総数によって各セルを割ると、図5(C)に示されるテーブルが作成できる。 In this way, a table as shown in FIG. 5A can be created based on the first clustering result and the second clustering result. Further, the number of data items input to each cell can be calculated to create the table shown in FIG. 5 (B). Further, by dividing each cell by the total number of data items, the table shown in FIG. 5C can be created.

次に、図5(C)に示されたテーブルのセルを行方向及び列方向に積算すると、図6(A)に示されるテーブルが作成できる。さらに、図6(A)に示されるテーブルの各セルの値pに対してplogpの演算を実行すると、図6(B)に示されるテーブルが作成できる。第1〜3行及び第1〜3列の9個のセルの総和“0−(log3)/3+0+0+0−(log3)/3−(log3)/3+0+0”から、積算値に関する6個のセルの総和“−(log3)/3−(log3)/3−(log3)/3−(log3)/3−(log3)/3−(log3)/3”を差し引くことによって取得される擬似相互情報量に基づく指数は、log3となる。すなわち、擬似相互情報量に基づく指数は、2つのクラスタリング結果が同一であるとき、チーム数N(=3)に対応してlogN(=log3)となる。なお、2つのクラスタリング結果が同一であるとき、擬似相互情報量に基づく指数は最大となる。 Next, by integrating the cells of the table shown in FIG. 5 (C) in the row direction and the column direction, the table shown in FIG. 6 (A) can be created. Further, by executing the operation of program for the value p of each cell of the table shown in FIG. 6 (A), the table shown in FIG. 6 (B) can be created. From the sum of the 9 cells in the 1st to 3rd rows and the 1st to 3rd columns "0- (log3) / 3 + 0 + 0 + 0- (log3) / 3- (log3) / 3 + 0 + 0", the sum of the 6 cells related to the integrated value. To the pseudo mutual information obtained by subtracting "-(log3) / 3- (log3) /3- (log3) /3-(log3) /3-(log3) /3-(log3)/3" The index on which it is based is log3. That is, the index based on the pseudo mutual information becomes logN (= log3) corresponding to the number of teams N (= 3) when the two clustering results are the same. When the two clustering results are the same, the index based on the pseudo mutual information becomes maximum.

次に、「(佐藤,鈴木),(加藤,田中),(工藤,高橋)」という第1のクラスタリング結果と、「(佐藤,田中),(加藤,鈴木),(工藤,高橋)」という第2のクラスタリング結果との間の擬似相互情報量に基づく指数を考える。 Next, the first clustering result of "(Sato, Suzuki), (Kato, Tanaka), (Kudo, Takahashi)" and "(Sato, Tanaka), (Kato, Suzuki), (Kudo, Takahashi)" Consider an exponent based on pseudo-mutual information with the second clustering result.

第1のクラスタリング結果の(佐藤,鈴木),(加藤,田中),(工藤,高橋)をそれぞれチーム1,2,3とし、第2のクラスタリング結果の(佐藤,田中),(加藤,鈴木),(工藤,高橋)をそれぞれチーム1,2,3として表す。 The first clustering results (Sato, Suzuki), (Kato, Tanaka), and (Kudo, Takahashi) are teams 1, 2, and 3, respectively, and the second clustering results (Sato, Tanaka), (Kato, Suzuki). , (Kudo, Takahashi) are represented as teams 1, 2, and 3, respectively.

図7(A)に示されるテーブルでは、第1列に第1のクラスタリング結果のチーム1,2,3が示され、第1行に第2のクラスタリング結果のチーム1,2,3が示される。すなわち、第1のクラスタリング結果のチーム1の(佐藤,鈴木)の“佐藤”は、第2のクラスタリング結果のチーム1の(佐藤,田中)の“佐藤”と同一であるため、チーム1の列及びチーム1の行に対応するセルに“佐藤”が配置され、第1のクラスタリング結果のチーム1の(佐藤,鈴木)の“鈴木”は、第2のクラスタリング結果のチーム2の(加藤,鈴木)の“鈴木”と同一であるため、チーム1の列及びチーム2の行に対応するセルに“鈴木”が配置される。また、第1のクラスタリング結果のチーム2の(加藤,田中)の“加藤”は、第2のクラスタリング結果のチーム2の(加藤,鈴木)の“加藤”と同一であるため、チーム2の列及びチーム2の行に対応するセルに“加藤”が配置され、第1のクラスタリング結果のチーム2の(加藤,田中)の“田中”は、第2のクラスタリング結果のチーム1の(佐藤,田中)の“田中”と同一であるため、チーム2の列及びチーム1の行に対応するセルに“田中”が配置される。さらに、第1のクラスタリング結果のチーム3の(工藤,高橋)の“工藤”及び“高橋”は、第2のクラスタリング結果のチーム3の(高橋,工藤)の“工藤”及び“高橋”と同一であるため、チーム3の列及びチーム3の行に対応するセルに“工藤,高橋”(又は“(高橋,工藤)”)が配置される。 In the table shown in FIG. 7A, the first column shows teams 1, 2, 3 of the first clustering result, and the first row shows teams 1, 2, 3 of the second clustering result. .. That is, since "Sato" of Team 1 (Sato, Suzuki) of the first clustering result is the same as "Sato" of Team 1 (Sato, Tanaka) of the second clustering result, the row of Team 1 And "Sato" is placed in the cell corresponding to the row of Team 1, and "Suzuki" of Team 1 (Sato, Suzuki) of the first clustering result is (Kato, Suzuki) of Team 2 of the second clustering result. ) Is the same as "Suzuki", so "Suzuki" is placed in the cell corresponding to the column of team 1 and the row of team 2. Also, since "Kato" of Team 2 (Kato, Tanaka) of the first clustering result is the same as "Kato" of Team 2 (Kato, Suzuki) of the second clustering result, the row of Team 2 And "Kato" is placed in the cell corresponding to the row of Team 2, and "Tanaka" of Team 2 (Kato, Tanaka) of the first clustering result is (Sato, Tanaka) of Team 1 of the second clustering result. ) Is the same as "Tanaka", so "Tanaka" is placed in the cell corresponding to the column of team 2 and the row of team 1. Furthermore, "Kudo" and "Takahashi" of Team 3 (Kudo, Takahashi) of the first clustering result are the same as "Kudo" and "Takahashi" of Team 3 (Takahashi, Kudo) of the second clustering result. Therefore, "Kudo, Takahashi" (or "(Takahashi, Kudo)") is placed in the cell corresponding to the column of Team 3 and the row of Team 3.

このようにして、第1のクラスタリング結果と第2のクラスタリング結果とに基づき、図7(A)に示されるようなテーブルが作成できる。さらに、各セルに入力されたデータ項目数を計算し、図7(B)に示されるテーブルが作成できる。さらにデータ項目の総数によって各セルを割ると、図7(C)に示されるテーブルが作成できる。 In this way, a table as shown in FIG. 7A can be created based on the first clustering result and the second clustering result. Further, the number of data items input to each cell can be calculated to create the table shown in FIG. 7B. Further, by dividing each cell by the total number of data items, the table shown in FIG. 7 (C) can be created.

次に、図7(C)に示されたテーブルのセルを行方向及び列方向に積算すると、図8(A)に示されるテーブルが作成できる。さらに、図8(A)に示されるテーブルの各セルの値pに対して、plogpの演算を実行すると、図8(B)に示されるテーブルが作成できる。第1〜3行及び第1〜3列の9個のセルの総和“−(log6)/6−(log6)/6+0−(log6)/6−(log6)/6+0+0+0−(log3)/3”から、積算値に関する6個のセルの総和“−(log3)/3−(log3)/3−(log3)/3−(log3)/3−(log3)/3−(log3)/3”を差し引くことによって取得される擬似相互情報量に基づく指数は、log3−2/3log2となる。すなわち、擬似相互情報量に基づく指数は、2つのクラスタリング結果が同一でないとき、チーム数N(=3)に対応してlogN(=log3)より小さい値となる。 Next, by integrating the cells of the table shown in FIG. 7 (C) in the row direction and the column direction, the table shown in FIG. 8 (A) can be created. Further, by executing the operation of program with respect to the value p of each cell of the table shown in FIG. 8 (A), the table shown in FIG. 8 (B) can be created. Sum of 9 cells in rows 1-3 and columns 1-3 "-(log6) / 6- (log6) / 6 + 0- (log6) / 6- (log6) / 6 + 0 + 0 + 0- (log3) / 3" From, the sum of 6 cells related to the integrated value "-(log3) / 3- (log3) /3- (log3) /3-(log3) /3-(log3) /3-(log3)/3" The index based on the pseudo mutual information obtained by subtraction is log3-2 / 3log2. That is, the index based on the pseudo mutual information becomes a value smaller than logN (= log3) corresponding to the number of teams N (= 3) when the two clustering results are not the same.

訓練部120は、このようにして決定された類似度を利用して、クラスタリングモデルによるクラスタリング結果と訓練用クラスタリング結果との間の類似度の期待値を算出し、算出した類似度の期待値に基づき誤差逆伝播法などのパラメータ更新アルゴリズムに従ってクラスタリングモデルのパラメータを更新する。 The training unit 120 calculates an expected value of the similarity between the clustering result by the clustering model and the clustering result for training by using the similarity determined in this way, and uses the calculated similarity as the expected value. Based on this, the parameters of the clustering model are updated according to the parameter update algorithm such as the backpropagation method.

なお、上述した実施例では、類似度の具体例として、ランド指数及び擬似相互情報量を説明したが、本開示による類似度は、これらに限定されず、例えば、F尺度、ジャガード指数、ダイス指数であってもよい。すなわち、クラスタリング結果が完全に一致するときに限って、最小値又は最大値をとること、完全一致から乖離するに従って値が増加又は減少すること、を充足する任意のクラスタリング指標が利用されうる。 In the above-described embodiment, the land index and the pseudo mutual information have been described as specific examples of the degree of similarity, but the degree of similarity according to the present disclosure is not limited to these, and for example, the F scale, the jacquard index, and the dice index. It may be. That is, any clustering index that satisfies the minimum or maximum value and the increase or decrease of the value as the deviation from the exact match can be used only when the clustering results completely match can be used.

上述した具体例では、6個のデータをクラスタリングしているが、説明の簡単化のため、3個のデータ“佐藤”、“鈴木”、“加藤”をクラスタリングする具体例を参照して、類似度の期待値の一例となる算出手法を説明する。ここで、(佐藤,鈴木),(加藤)のクラスタリング結果が正解であるとする。 In the above-mentioned specific example, 6 data are clustered, but for the sake of simplification of explanation, the specific example of clustering 3 data "Sato", "Suzuki", and "Kato" is referred to and similar. A calculation method that serves as an example of the expected value of degree will be described. Here, it is assumed that the clustering results of (Sato, Suzuki) and (Kato) are correct.

“佐藤”、“鈴木”及び“加藤”の3個のデータを入力として取得したクラスタリングモデルが図9(A)に示されるような確率的な予測をしたと仮定する。すなわち、“佐藤”がチーム1,2に属する確率がそれぞれ“0.9”及び“0.1”であり、“鈴木”がチーム1,2に属する確率がそれぞれ“0.8”及び“0.2”であり、“加藤”がチーム1,2に属する確率がそれぞれ“0.3”及び“0.7”であると仮定する。 It is assumed that the clustering model acquired by inputting the three data of "Sato", "Suzuki" and "Kato" made a probabilistic prediction as shown in FIG. 9 (A). That is, the probabilities that "Sato" belongs to teams 1 and 2 are "0.9" and "0.1", respectively, and the probabilities that "Suzuki" belongs to teams 1 and 2, are "0.8" and "0", respectively. It is assumed that the probability that "Kato" belongs to teams 1 and 2 is "0.3" and "0.7", respectively.

また、正解のクラスタリング結果とクラスタリングモデルからの各クラスタリング結果との間のランド指数は、クラスタリングモデルの各クラスタリング結果について図9(B)に示されるような値になる。正解のクラスタリング結果が(佐藤,鈴木),(加藤)であるため、図9(B)に示されるクラスタリングモデルによるチーム1(佐藤,鈴木)及びチーム2(加藤)のクラスタリング結果と、チーム1(加藤)及びチーム2(佐藤,鈴木)のクラスタリング結果とがそれぞれ正解のクラスタリング結果との完全一致を示す“1”になっていることに留意されたい。 Further, the land index between the correct clustering result and each clustering result from the clustering model has a value as shown in FIG. 9B for each clustering result of the clustering model. Since the correct clustering results are (Sato, Suzuki) and (Kato), the clustering results of Team 1 (Sato, Suzuki) and Team 2 (Kato) by the clustering model shown in Fig. 9 (B) and Team 1 (Kato) It should be noted that the clustering results of Kato) and Team 2 (Sato, Suzuki) are "1", which indicates an exact match with the correct clustering result.

このとき、パラメータ更新部120は、ランド指数の期待値として、0.216×1/3+0.504×1+0.054×1/3+0.024×1/3+0.126×1/3+0.056×1/3+0.006×1+0.014×1/3=0.6733を算出する。訓練部120は、算出した期待値を符号反転した値、逆数などを損失関数の損失値として利用して、損失値が小さくなるようにクラスタリングモデルのパラメータを更新する。例えば、クラスタリングモデルがニューラルネットワークとして実現されている場合、訓練部120は、誤差逆伝播法に従って損失値が小さくなるようにクラスタリングモデルのパラメータを更新する。 At this time, the parameter update unit 120 sets the expected value of the land index as 0.216 × 1/3 + 0.504 × 1 + 0.054 × 1/3 + 0.024 × 1/3 + 0.126 × 1/3 + 0.056 × 1 /. Calculate 3 + 0.006 × 1 + 0.014 × 1/3 = 0.6733. The training unit 120 uses the calculated expected value as a sign-inverted value, the reciprocal, and the like as the loss value of the loss function, and updates the parameters of the clustering model so that the loss value becomes small. For example, when the clustering model is realized as a neural network, the training unit 120 updates the parameters of the clustering model so that the loss value becomes small according to the backpropagation method.

また、類似度が擬似相互情報量に基づく指数である場合、正解のクラスタリング結果とクラスタリングモデルからの各クラスタリング結果との間の擬似相互情報量に基づく指数は、クラスタリングモデルの各クラスタリング結果について図10に示されるような値になる。正解のクラスタリング結果が(佐藤,鈴木),(加藤)であるため、図10に示されるクラスタリングモデルによるチーム1(佐藤,鈴木)及びチーム2(加藤)のクラスタリング結果と、チーム1(加藤)及びチーム2(佐藤,鈴木)のクラスタリング結果とがそれぞれ正解のクラスタリング結果との完全一致を示す“log2”になっていることに留意されたい。 Further, when the similarity is an index based on the pseudo mutual information amount, the index based on the pseudo mutual information amount between the correct clustering result and each clustering result from the clustering model is obtained with respect to each clustering result of the clustering model. The value is as shown in. Since the correct clustering results are (Sato, Suzuki) and (Kato), the clustering results of Team 1 (Sato, Suzuki) and Team 2 (Kato) by the clustering model shown in FIG. 10 and Team 1 (Kato) and Note that the clustering results of Team 2 (Sato, Suzuki) are "log2", which indicates an exact match with the correct clustering results.

このとき、訓練部120は、擬似相互情報量に基づく指数の期待値として、0.216×0+0.504×(log3−2/3log2)+0.054×(log3−4/3log2)+0.024×(log3−4/3log2)+0.126×(log3−4/3log2)+0.056×(log3−4/3log2)+0.006×(log3−2/3log2)+0.014×0〜0.3706を算出する。訓練部120は、算出した期待値を符号反転した値、逆数などを損失関数の損失値として利用して、損失値が小さくなるようにクラスタリングモデルを訓練する。例えば、クラスタリングモデルがニューラルネットワークとして実現されている場合、訓練部120は、誤差逆伝播法に従って損失値が小さくなるようにクラスタリングモデルのパラメータを更新する。 At this time, the training unit 120 sets the expected value of the index based on the pseudo mutual information as 0.216 × 0 + 0.504 × (log3-2 / 3log2) +0.054 × (log3-4 / 3log2) +0.024 ×. (Log3-4 / 3log2) +0.126 × (log3-4 / 3log2) +0.056 × (log3-4 / 3log2) +0.006 × (log3-2 / 3log2) +0.014 × 0 to 0.3706 calculate. The training unit 120 trains the clustering model so that the loss value becomes small by using the calculated expected value as a sign-inverted value, the reciprocal, and the like as the loss value of the loss function. For example, when the clustering model is realized as a neural network, the training unit 120 updates the parameters of the clustering model so that the loss value becomes small according to the backpropagation method.

また、擬似相互情報量に基づく損失関数は次のように定義してもよい。クラスタリングの擬似相互情報量を利用した損失関数として、他の例では、個々のデータに対しそのデータがクラスタに属するべき確率が割り当てられているときをクラスタリングは確率的であると仮に呼ぶ。2つのクラスタリングAとBのいずれかあるいは両方が確率的であるとき、行をクラスタリングAにおけるクラスタ、列をクラスタリングBにおけるクラスタとした頻度表に、それぞれのデータ点がそれぞれのセルに落ちる確率を加えていき、この頻度表をデータ点の総数で除すれば、総和が1の表になる。これを擬似的に確率と見做して相互情報量の公式を適用した擬似相互情報量のマイナスないし逆数などを損失関数として使ってよい。 Further, the loss function based on the pseudo mutual information may be defined as follows. As a loss function using the pseudo-mutual information of clustering, in another example, clustering is tentatively called stochastic when the probability that the data should belong to the cluster is assigned to each data. When either or both of the two clustering A and B are stochastic, add the probability that each data point will fall into each cell to the frequency table where the row is the cluster in clustering A and the column is the cluster in clustering B. If this frequency table is divided by the total number of data points, the total sum becomes a table of 1. This may be regarded as a probability, and the minus or reciprocal of the pseudo mutual information amount to which the mutual information amount formula is applied may be used as the loss function.

図11(A)に示されるように列に正解、行にモデルの予測を確率つきで表す。次に、図11(B)に示されるように人数の期待値を計算し、表に行ごと総和と列ごとの総和を加える。さらに人数3で割ってから各セルにplogpの演算を実行して、図11(C)を作る。図11(C)に対して上記と同様に、表の右と下の列はマイナス符号を与えて表の総和をとり、1.7/3×log(1.7/3)+0.1×log(0.1)+0.1×log(0.1)+0.7/3×log(0.7/3)−2/3×log(2/3)−1/3×log(1/3)−2/3×log(2/3)−1/3×log(1/3)〜0.151を算出する。 As shown in FIG. 11A, the correct answer is shown in the column and the model prediction is shown in the row with probability. Next, the expected value of the number of people is calculated as shown in FIG. 11B, and the sum of each row and the sum of each column are added to the table. Further, after dividing by the number of people 3, the operation of program is executed for each cell to make FIG. 11 (C). In the same manner as above for FIG. 11 (C), the right and bottom columns of the table are given a minus sign to sum the table, 1.7 / 3 × log (1.7 / 3) + 0.1 ×. log (0.1) +0.1 × log (0.1) +0.7 / 3 × log (0.7 / 3) -2/3 × log (2/3) -1/3 × log (1 / 3) Calculate -2/3 x log (2/3) -1/3 x log (1/3) to 0.151.

[訓練処理]
次に、図12を参照して、本開示の一実施例による訓練処理を説明する。図12は、本開示の一実施例による訓練処理を示すフローチャートである。本実施例による訓練処理は、訓練用入力データであるクラスタリング対象のデータと、訓練用出力データである正解のクラスタリング結果とのペアから構成される訓練データを利用した教師有り学習に基づき、訓練装置100、特に訓練装置100のプロセッサによって実行されうる。
[Training process]
Next, the training process according to the embodiment of the present disclosure will be described with reference to FIG. FIG. 12 is a flowchart showing a training process according to an embodiment of the present disclosure. The training process according to this embodiment is based on supervised learning using training data composed of a pair of data to be clustered, which is input data for training, and clustering results of correct answers, which is output data for training. It can be performed by the processor of 100, especially the training device 100.

図12に示されるように、ステップS101において、訓練装置100は、クラスタリングモデルにクラスタリング対象のデータを入力する。例えば、クラスタリングモデルはニューラルネットワークとして実現され、クラスタリング対象のデータは点群データであってもよい。 As shown in FIG. 12, in step S101, the training device 100 inputs the data to be clustered into the clustering model. For example, the clustering model is realized as a neural network, and the data to be clustered may be point cloud data.

ステップS102において、訓練装置100は、クラスタリングモデルからクラスタリング結果及び関連する確率を出力として取得する。クラスタリング結果に関連する確率とは、当該クラスタリング結果の尤もらしさを示すものであってもよい。 In step S102, the training device 100 acquires the clustering result and the associated probability as an output from the clustering model. The probability associated with the clustering result may indicate the plausibility of the clustering result.

ステップS103において、訓練装置100は、クラスタリングモデルから取得したクラスタリング結果と、訓練用出力データである正解のクラスタリング結果とを比較し、2つのクラスタリング結果の間の類似度を算出する。例えば、類似度は、ランド指数であってもよいし、あるいは、擬似相互情報量に基づく指数であってもよい。 In step S103, the training device 100 compares the clustering result acquired from the clustering model with the correct clustering result which is the training output data, and calculates the similarity between the two clustering results. For example, the similarity may be a land index or an index based on pseudo-mutual information.

ステップS104において、訓練装置100は、算出した類似度及び取得した確率に基づき損失値を算出する。具体的には、損失値は、類似度の期待値を符号反転したものであってもよいし、あるいは、逆数であってもよい。 In step S104, the training device 100 calculates the loss value based on the calculated similarity and the acquired probability. Specifically, the loss value may be a sign-inverted version of the expected value of similarity, or may be a reciprocal.

ステップS105において、訓練装置100は、算出した損失値に基づきクラスタリングモデルのパラメータを更新する。例えば、クラスタリングモデルがニューラルネットワークとして実現される場合、訓練装置100は、誤差逆伝播法に従って算出した損失値に基づきクラスタリングモデルのパラメータを更新する。 In step S105, the training device 100 updates the parameters of the clustering model based on the calculated loss value. For example, when the clustering model is realized as a neural network, the training device 100 updates the parameters of the clustering model based on the loss value calculated according to the backpropagation method.

例えば、訓練装置100は、上述したステップS101〜S105を所定数の訓練データに対して実行し、実行後に取得されたクラスタリングモデルを訓練済みクラスタリングモデルとしてクラスタリング装置200に提供してもよい。 For example, the training device 100 may execute the above-mentioned steps S101 to S105 on a predetermined number of training data, and provide the clustering device 200 as a trained clustering model with the clustering model acquired after the execution.

このようにして、訓練装置100は、上述した訓練処理を利用したクラスタリングモデル生成処理によって、クラスタリングモデルを生成することが可能である。すなわち、訓練装置100は、クラスタリングモデルによるクラスタリング結果と訓練用クラスタリング結果との間の類似度の期待値に従ってクラスタリングモデルを生成することが可能である。 In this way, the training device 100 can generate a clustering model by a clustering model generation process using the above-mentioned training process. That is, the training device 100 can generate a clustering model according to the expected value of the degree of similarity between the clustering result by the clustering model and the training clustering result.

[クラスタリング装置]
次に、図13を参照して、本開示の一実施例によるクラスタリング装置200を説明する。本実施例によるクラスタリング装置200は、訓練装置100による訓練済みクラスタリングモデルを利用して、クラスタリング対象のデータをクラスタリングする。図13は、本開示の一実施例によるクラスタリング装置200の機能構成を示すブロック図である。
[Clustering device]
Next, the clustering apparatus 200 according to the embodiment of the present disclosure will be described with reference to FIG. The clustering device 200 according to this embodiment clusters the data to be clustered by using the trained clustering model by the training device 100. FIG. 13 is a block diagram showing a functional configuration of the clustering apparatus 200 according to the embodiment of the present disclosure.

図13に示されるように、クラスタリング装置200は、データ取得部210及びクラスタリング部220を有する。 As shown in FIG. 13, the clustering apparatus 200 has a data acquisition unit 210 and a clustering unit 220.

データ取得部210は、クラスタリング対象のデータを取得する。具体的には、データ取得部210は、訓練済みクラスタリングモデルによる点群データなどのクラスタリング対象のデータを取得し、クラスタリング対象のデータをクラスタリング部220にわたす。このとき、データ取得部210は、必要に応じて取得したデータに対して前処理等を実行することによって、訓練済みクラスタリングモデルへの入力に適したデータ形式に変換してもよい。 The data acquisition unit 210 acquires data to be clustered. Specifically, the data acquisition unit 210 acquires data to be clustered such as point cloud data by the trained clustering model, and passes the data to be clustered to the clustering unit 220. At this time, the data acquisition unit 210 may convert the acquired data into a data format suitable for input to the trained clustering model by executing preprocessing or the like on the acquired data as necessary.

クラスタリング部220は、クラスタリングモデルによって、取得したデータをクラスタリングする。具体的には、クラスタリング部220は、データ取得部210から提供されたクラスタリング対象のデータを、訓練装置100によって予め訓練されたクラスタリングモデルに入力し、訓練済みクラスタリングモデルからクラスタリング結果を取得する。そして、クラスタリング部220は、取得したクラスタリング結果を格納、編集、表示等の適切な出力形式に変換してもよい。 The clustering unit 220 clusters the acquired data by the clustering model. Specifically, the clustering unit 220 inputs the data of the clustering target provided by the data acquisition unit 210 into the clustering model trained in advance by the training device 100, and acquires the clustering result from the trained clustering model. Then, the clustering unit 220 may convert the acquired clustering result into an appropriate output format such as storage, editing, and display.

なお、クラスタリングモデルは、訓練用入力データに対するクラスタリング結果と訓練用クラスタリング結果との間の類似度の期待値に従って訓練されたモデルである。ここで、訓練用クラスタリング結果は、訓練データとして与えられる正解のクラスタリング結果である。訓練済みクラスタリングモデルは、クラスタリング装置200内に備えられてもよいし、あるいは、クラスタリング装置200と通信接続された他の外部装置に備えられてもよい。後者の場合、クラスタリング部220は、データ取得部210から取得したクラスタリング対象のデータを当該外部装置(例えば、サーバなど)に送信し、当該外部装置によって計算されたクラスタリングモデルによるクラスタリング結果を受信するようにしてもよい。 The clustering model is a model trained according to the expected value of the degree of similarity between the clustering result for the training input data and the training clustering result. Here, the training clustering result is a correct clustering result given as training data. The trained clustering model may be provided in the clustering device 200, or may be provided in another external device communicatively connected to the clustering device 200. In the latter case, the clustering unit 220 transmits the data to be clustered acquired from the data acquisition unit 210 to the external device (for example, a server), and receives the clustering result by the clustering model calculated by the external device. It may be.

一実施例では、類似度は、訓練装置100に関して上述したように、第1のクラスタリング結果と第2のクラスタリング結果とのデータ対の合計に対する同一のクラスタに割り当てられたデータ対の和の比率を示すランド指数であってもよいし、あるいは、擬似相互情報量に基づく指数であってもよい。 In one embodiment, the similarity is the ratio of the sum of the data pairs assigned to the same cluster to the sum of the data pairs of the first and second clustering results, as described above for the training device 100. It may be a land index to be shown, or it may be an index based on a pseudo mutual information amount.

また、一実施例では、クラスタリングモデルは、クラスタリング結果と当該クラスタリング結果に関連する確率とを出力してもよい。例えば、関連する確率は、クラスタリング結果の尤もらしさを示すものであってもよい。 Further, in one embodiment, the clustering model may output the clustering result and the probability associated with the clustering result. For example, the associated probabilities may indicate the plausibility of the clustering results.

また、一実施例では、クラスタリングモデルは、ニューラルネットワークとして実現されてもよく、類似度の期待値から算出された損失値に基づきニューラルネットワークのパラメータを更新することによって取得されてもよい。 Further, in one embodiment, the clustering model may be realized as a neural network, or may be acquired by updating the parameters of the neural network based on the loss value calculated from the expected value of the similarity.

[クラスタリング処理]
次に、図14を参照して、本開示の一実施例によるクラスタリング処理を説明する。図14は、本開示の一実施例によるクラスタリング処理を示すフローチャートである。本実施例によるクラスタリング処理は、訓練装置100による訓練済みクラスタリングモデルを利用したクラスタリング装置200、特にクラスタリング装置200のプロセッサによって実行されうる。
[Clustering process]
Next, the clustering process according to the embodiment of the present disclosure will be described with reference to FIG. FIG. 14 is a flowchart showing a clustering process according to an embodiment of the present disclosure. The clustering process according to this embodiment can be executed by the processor of the clustering device 200, particularly the clustering device 200, which utilizes the trained clustering model by the training device 100.

図14に示されるように、ステップS201において、クラスタリング装置200は、クラスタリング対象のデータを取得し、クラスタリングモデルに入力する。 As shown in FIG. 14, in step S201, the clustering apparatus 200 acquires the data to be clustered and inputs it to the clustering model.

ステップS202において、クラスタリング装置200は、クラスタリングモデルからクラスタリング結果及び関連する確率を取得する。 In step S202, the clustering apparatus 200 acquires the clustering result and the associated probability from the clustering model.

[実験結果]
次に、図15〜19を参照して、本開示の一実施例による訓練済みクラスタリングモデルによるクラスタリング結果を説明する。
[Experimental result]
Next, the clustering result by the trained clustering model according to the embodiment of the present disclosure will be described with reference to FIGS. 15 to 19.

この実験例においてはニューラルネットとしてはPointNet [Qi, Su, Mo, and Guibas, CVPR 2017]を採用し、それぞれの点に対してソフトマックス層を介してクラスタ番号と確率の組を出力させている。推論時にはソフトマックスが出力する確率が最も高いクラスタ番号をその点が属するクラスタとして描画している。データは乱数を使って人工的に生成した。ネットワークの訓練は確率的勾配降下法によって行った。 In this experimental example, PointNet [Qi, Su, Mo, and Guibas, CVPR 2017] is used as the neural network, and the cluster number and probability pair are output for each point via the softmax layer. .. At the time of inference, the cluster number with the highest probability of being output by Softmax is drawn as the cluster to which that point belongs. The data was artificially generated using random numbers. Network training was performed by stochastic gradient descent.

図15A〜Fは、訓練装置100に提供された各種訓練データの例を示す。図示された各種訓練データは、訓練用入力データとして提供された点群データに対応するクラスタリング結果を示す。図示されるように、点群データは内側の円周と外側の円周との2つのクラスタにクラスタリングされる。 15A to 15F show examples of various training data provided to the training device 100. The various training data shown show the clustering results corresponding to the point cloud data provided as the training input data. As shown, the point cloud data is clustered into two clusters, an inner circumference and an outer circumference.

図16A〜Dは、従来のk−meansアルゴリズムによる各種クラスタリング結果を示す。k−meansアルゴリズムによると、入力されたクラスタリング対象の点群データは、図示されるようにクラスタリングされ、訓練データのような内側の円周と外側の円周との2つのクラスタにクラスタリングすることができなかった。 16A to 16D show various clustering results by the conventional k-means algorithm. According to the k-means algorithm, the input point group data to be clustered can be clustered as shown and clustered into two clusters, an inner circumference and an outer circumference, such as training data. could not.

他方、図17A〜Dは、本開示の一実施例によるランド指数を損失関数として利用した訓練処理により訓練されたクラスタリングモデルによるクラスタリング結果を示す。図16A〜Dのクラスタリング結果と比較して、図17A〜Dに示される点群データは内側の円周と外側の円周との2つのクラスタに良好にクラスタリングされている。 On the other hand, FIGS. 17A to 17D show the clustering results by the clustering model trained by the training process using the land index according to the embodiment of the present disclosure as a loss function. Compared with the clustering results of FIGS. 16A to 16D, the point cloud data shown in FIGS. 17A to 17D are well clustered into two clusters, an inner circumference and an outer circumference.

次に、図18A〜Dは、従来のk−meansアルゴリズムによる各種クラスタリング結果を示す。k−meansアルゴリズムによると、入力されたクラスタリング対象の点群データは、図示されるようにクラスタリングされ、訓練データのような内側の円周と外側の円周との2つのクラスタにクラスタリングすることができなかった。 Next, FIGS. 18A to 18D show various clustering results by the conventional k-means algorithm. According to the k-means algorithm, the input point group data to be clustered can be clustered as shown and clustered into two clusters, an inner circumference and an outer circumference, such as training data. could not.

他方、図19A〜Dは、本開示の一実施例による擬似相互情報量を損失関数として利用した訓練処理により訓練されたクラスタリングモデルによるクラスタリング結果を示す。図18A〜Dのクラスタリング結果と比較して、図19A〜Dに示される点群データは内側の円周と外側の円周との2つのクラスタに良好にクラスタリングされている。 On the other hand, FIGS. 19A to 19D show the clustering results by the clustering model trained by the training process using the pseudo mutual information amount according to the embodiment of the present disclosure as a loss function. Compared with the clustering results of FIGS. 18A to 18D, the point cloud data shown in FIGS. 19A to 19D are well clustered into two clusters, an inner circumference and an outer circumference.

[適用例]
本開示の上述した実施例による訓練装置100によって訓練されたクラスタリングモデルは、各種技術分野に適用されうる。
[Application example]
The clustering model trained by the training apparatus 100 according to the above-described embodiment of the present disclosure can be applied to various technical fields.

一適用例として、本開示によるクラスタリングモデルは、セキュリティ分野に適用されうる。具体的には、本開示によるクラスタリングモデルは、撮像されたビデオ画像内における群衆中の個人の追跡に適用可能である。例えば、当該クラスタリングモデルは、ビデオ画像中の各個人の頭部の位置及び時刻を点群中の各点とする入力データに対して、各個人の移動の軌跡を各クラスタとするクラスタリング結果を生成する。このようなクラスタリングモデルは、例えば、ビデオ画像において検出された各個人の頭部の位置及び時刻を示す入力データと、各個人を識別することによって生成された各個人の移動の軌跡を示すクラスタリング結果とから構成される訓練データを利用した教師有り学習によって訓練されうる。ここで、各個人の移動の軌跡は、人手によって特定されてもよいし、コンピュータビジョンの従来技術を利用して特定されてもよいし、あるいは、シミュレーションによって特定されてもよい。 As an application example, the clustering model according to the present disclosure can be applied to the security field. Specifically, the clustering model according to the present disclosure is applicable for tracking individuals in a crowd within captured video images. For example, the clustering model generates a clustering result in which the locus of movement of each individual is set as each cluster for the input data in which the position and time of the head of each individual in the video image are set as each point in the point cloud. To do. Such a clustering model is, for example, a clustering result showing input data indicating the position and time of the head of each individual detected in a video image and a locus of movement of each individual generated by identifying each individual. It can be trained by supervised learning using training data composed of. Here, the locus of movement of each individual may be specified manually, may be specified by using the prior art of computer vision, or may be specified by simulation.

また、他の適用例として、本開示によるクラスタリングモデルは、物理実験に適用されうる。具体的には、本開示によるクラスタリングモデルは、粒子飛程追跡に適用可能である。例えば、当該クラスタリングモデルは、検出器によって検出された各粒子の位置を点群中の各点とする入力データに対して、各粒子を各クラスタとするクラスタリング結果を生成する。このようなクラスタリングモデルは、例えば、粒子の飛行シミュレーションから作成された検出点群を示す入力データと、人手によって同定された粒子を示すクラスタリング結果とから構成される訓練データを利用した教師有り学習によって訓練されうる。 In addition, as another application example, the clustering model according to the present disclosure can be applied to physics experiments. Specifically, the clustering model according to the present disclosure is applicable to particle range tracking. For example, the clustering model generates a clustering result in which each particle is a cluster for input data in which the position of each particle detected by the detector is each point in the point cloud. Such a clustering model is, for example, by supervised learning using training data composed of input data indicating a detection point cloud created from a particle flight simulation and clustering results indicating manually identified particles. Can be trained.

また、他の適用例として、本開示によるクラスタリングモデルは、医療分野に適用されうる。具体的には、本開示によるクラスタリングモデルは、血球画像のセグメンテーションに適用可能である。例えば、当該クラスタリングモデルは、血球画像内の各画素を点群中の各点とする入力データに対して、各血球の画像における領域を示すクラスタリング結果を生成する。このようなクラスタリングモデルは、例えば、血球画像を示す入力データと、人手により判別された血球のセグメンテーション結果を示すクラスタリング結果とから構成される訓練データを利用した教師有り学習によって訓練されうる。 In addition, as another application example, the clustering model according to the present disclosure can be applied to the medical field. Specifically, the clustering model according to the present disclosure is applicable to the segmentation of blood cell images. For example, the clustering model generates a clustering result indicating a region in the image of each blood cell for input data in which each pixel in the blood cell image is a point in the point cloud. Such a clustering model can be trained by, for example, supervised learning using training data composed of input data showing a blood cell image and clustering results showing a segmentation result of blood cells discriminated manually.

また、他の適用例として、本開示によるクラスタリングモデルは、乱雑に交錯する足跡から何人いるかの判定に適用可能である。例えば、当該クラスタリングモデルは、複数の足跡を含む画像内における各足跡を点群中の各点とする入力データにして、各人が残した足跡を示すクラスタリング結果を生成する。このようなクラスタリングモデルは、例えば、複数の足跡を含む画像を示す入力データと、人手により判別された各人の足跡を示すクラスタリング結果とから構成される訓練データを利用した教師有り学習によって訓練されうる。 Further, as another application example, the clustering model according to the present disclosure can be applied to determine the number of people from the randomly interlaced footprints. For example, the clustering model uses each footprint in an image including a plurality of footprints as input data as each point in a point cloud, and generates a clustering result showing the footprints left by each person. Such a clustering model is trained by, for example, supervised learning using training data composed of input data showing an image containing a plurality of footprints and clustering results showing the footprints of each person determined manually. sell.

また、他の適用例として、本開示によるクラスタリングモデルは、友達グループの同定に適用可能である。これは、例えば、広い店舗に散らばる人々の中でグループは俯瞰画像から判別できることに依るものである。例えば、当該クラスタリングモデルは、複数の人々を含む画像内における各人を点群中の各点とする入力データにして、友達グループ又は家族を示すクラスタリング結果を生成する。このようなクラスタリングモデルは、例えば、複数の人々を含む画像を示す入力データと、人手により判別されたグループを示すクラスタリング結果とから構成される訓練データを利用した教師有り学習によって訓練されうる。これは、マーケティング分析や店舗デザインなどに利用可能である。 In addition, as another application example, the clustering model according to the present disclosure can be applied to the identification of friend groups. This is because, for example, a group can be identified from a bird's-eye view image among people scattered in a large store. For example, the clustering model generates a clustering result indicating a friend group or a family by using input data in which each person is set as each point in the point cloud in an image including a plurality of people. Such a clustering model can be trained by, for example, supervised learning using training data composed of input data showing an image containing a plurality of people and clustering results showing a group determined manually. It can be used for marketing analysis, store design, etc.

[訓練装置及びクラスタリング装置のハードウェア構成]
実施形態における訓練装置100及びクラスタリング装置200において、各機能は、アナログ回路、デジタル回路又はアナログ・デジタル混合回路で構成された回路であってもよい。また、各機能の制御を行う制御回路を備えていてもよい。各回路の実装は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等によるものであってもよい。
[Hardware configuration of training device and clustering device]
In the training device 100 and the clustering device 200 according to the embodiment, each function may be a circuit composed of an analog circuit, a digital circuit, or an analog / digital mixed circuit. Further, a control circuit for controlling each function may be provided. The mounting of each circuit may be by ASIC (Application Specific Integrated Circuit), FPGA (Field Programmable Gate Array) or the like.

上記の全ての記載において、訓練装置100及びクラスタリング装置200の少なくとも一部はハードウェアで構成されていてもよいし、ソフトウェアで構成され、ソフトウェアの情報処理によりCPU(Central Processing Unit)等が実施をしてもよい。ソフトウェアで構成される場合には、訓練装置100、クラスタリング装置200及びその少なくとも一部の機能を実現するプログラムを非一時的なコンピュータ可読記憶媒体に収納し、コンピュータに読み込ませて実行させるものであってもよい。記憶媒体は、磁気ディスク(例えばフレキシブルディスク)や光ディスク(例えばCD−ROMやDVD−ROM)等の着脱可能なものに限定されず、ハードディスク装置やメモリを利用するSSD(Solid State Drive)などの固定型の記憶媒体であってもよい。すなわち、ソフトウェアによる情報処理がハードウェア資源を用いて具体的に実装されるものであってもよい。さらに、ソフトウェアによる処理は、FPGA等の回路に実装され、ハードウェアが実行するものであってもよい。ジョブの実行は、例えば、GPU(Graphics Processing Unit)等のアクセラレータを使用して行ってもよい。 In all the above descriptions, at least a part of the training device 100 and the clustering device 200 may be configured by hardware, or may be configured by software, and the CPU (Central Processing Unit) or the like implements the information processing by the software. You may. When composed of software, the training device 100, the clustering device 200, and a program that realizes at least a part of the functions are stored in a non-temporary computer-readable storage medium, read by a computer, and executed. You may. The storage medium is not limited to removable ones such as magnetic disks (for example, flexible disks) and optical disks (for example, CD-ROMs and DVD-ROMs), and fixed such as SSDs (Solid State Drives) that use hard disk devices and memories. It may be a type storage medium. That is, information processing by software may be concretely implemented using hardware resources. Further, the processing by software may be implemented in a circuit such as FPGA and executed by hardware. The job may be executed by using an accelerator such as a GPU (Graphics Processing Unit), for example.

例えば、コンピュータが読み取り可能な記憶媒体に記憶された専用のソフトウェアをコンピュータが読み出すことにより、コンピュータを上記の実施形態の装置とすることができる。記憶媒体の種類は特に限定されるものではない。また、通信ネットワークを介してダウンロードされた専用のソフトウェアをコンピュータがインストールすることにより、コンピュータを上記の実施形態の装置とすることができる。こうして、ソフトウェアによる情報処理が、ハードウェア資源を用いて、具体的に実装される。 For example, the computer can be made into the device of the above-described embodiment by reading the dedicated software stored in the storage medium readable by the computer. The type of storage medium is not particularly limited. Further, by installing the dedicated software downloaded via the communication network on the computer, the computer can be used as the device of the above embodiment. In this way, information processing by software is concretely implemented using hardware resources.

図20は、本開示の一実施形態におけるハードウェア構成の一例を示すブロック図である。訓練装置100及びクラスタリング装置200は、プロセッサ101と、主記憶装置102と、補助記憶装置103と、ネットワークインタフェース104と、デバイスインタフェース105と、を備え、これらがバス106を介して接続されたコンピュータ装置として実現できる。 FIG. 20 is a block diagram showing an example of a hardware configuration according to an embodiment of the present disclosure. The training device 100 and the clustering device 200 include a processor 101, a main storage device 102, an auxiliary storage device 103, a network interface 104, and a device interface 105, and these are computer devices connected via a bus 106. Can be realized as.

なお、図20の訓練装置100及びクラスタリング装置200は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、1台の訓練装置100及びクラスタリング装置200が示されているが、ソフトウェアが複数のコンピュータ装置にインストールされて、当該複数の訓練装置100及びクラスタリング装置200それぞれがソフトウェアの異なる一部の処理を実行してもよい。この場合、複数の訓練装置100及びクラスタリング装置200それぞれがネットワークインタフェース104等を介して、通信してもよい。 Although the training device 100 and the clustering device 200 of FIG. 20 include one component, a plurality of the same components may be provided. Further, although one training device 100 and a clustering device 200 are shown, software is installed in a plurality of computer devices, and the plurality of training devices 100 and the clustering device 200 each perform a part of processing different in the software. You may do it. In this case, the plurality of training devices 100 and the clustering devices 200 may each communicate with each other via the network interface 104 or the like.

プロセッサ101は、訓練装置100及びクラスタリング装置200の制御部および演算装置を含む電子回路(処理回路、Processing circuit、Processing circuitry)である。プロセッサ101は、訓練装置100及びクラスタリング装置200の内部構成の各装置などから入力されたデータやプログラムに基づいて演算処理を行い、演算結果や制御信号を各装置などに出力する。具体的には、プロセッサ101は、訓練装置100及びクラスタリング装置200のOS(Operating System)や、アプリケーションなどを実行することにより、訓練装置100及びクラスタリング装置200を構成する各構成要素を制御する。プロセッサ101は、上記の処理を行うことができれば特に限られるものではない。訓練装置100、クラスタリング装置200及びそれらの各構成要素は、プロセッサ101により実現される。ここで、処理回路とは、1チップ上に配置された1又は複数の電気回路を指してもよいし、2つ以上のチップあるいはデバイス上に配置された1又は複数の電気回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線又は無線により通信してもよい。 The processor 101 is an electronic circuit (processing circuit, processing circuits) including a control unit and an arithmetic unit of the training device 100 and the clustering device 200. The processor 101 performs arithmetic processing based on data and programs input from the internal configuration devices of the training device 100 and the clustering device 200, and outputs the calculation results and control signals to the devices and the like. Specifically, the processor 101 controls each component constituting the training device 100 and the clustering device 200 by executing the OS (Operating System) of the training device 100 and the clustering device 200, an application, and the like. The processor 101 is not particularly limited as long as it can perform the above processing. The training device 100, the clustering device 200, and their respective components are realized by the processor 101. Here, the processing circuit may refer to one or more electric circuits arranged on one chip, or may refer to one or more electric circuits arranged on two or more chips or devices. Good. When a plurality of electronic circuits are used, each electronic circuit may communicate by wire or wirelessly.

主記憶装置102は、プロセッサ101が実行する命令および各種データなどを記憶する記憶装置であり、主記憶装置102に記憶された情報がプロセッサ101により直接読み出される。補助記憶装置103は、主記憶装置102以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、メモリでもストレージでもよい。また、メモリには、揮発性メモリと、不揮発性メモリがあるが、いずれでもよい。訓練装置100及びクラスタリング装置200内において各種データを保存するためのメモリ、例えば、メモリは、主記憶装置102又は補助記憶装置103により実現されてもよい。例えば、メモリの少なくとも一部は、この主記憶装置102又は補助記憶装置103に実装されていてもよい。別の例として、アクセラレータが備えられている場合には、前述したメモリの少なくとも一部は、当該アクセラレータに備えられているメモリ内に実装されていてもよい。 The main storage device 102 is a storage device that stores instructions executed by the processor 101, various data, and the like, and the information stored in the main storage device 102 is directly read by the processor 101. The auxiliary storage device 103 is a storage device other than the main storage device 102. Note that these storage devices mean arbitrary electronic components capable of storing electronic information, and may be memory or storage. Further, the memory includes a volatile memory and a non-volatile memory, but any of them may be used. The memory for storing various data in the training device 100 and the clustering device 200, for example, the memory may be realized by the main storage device 102 or the auxiliary storage device 103. For example, at least a part of the memory may be mounted on the main storage device 102 or the auxiliary storage device 103. As another example, when an accelerator is provided, at least a part of the above-mentioned memory may be implemented in the memory provided in the accelerator.

ネットワークインタフェース104は、無線又は有線により、通信ネットワーク108に接続するためのインタフェースである。ネットワークインタフェース104は、既存の通信規格に適合したものを用いればよい。ネットワークインタフェース104により、通信ネットワーク108を介して通信接続された外部装置109Aと情報のやり取りが行われてもよい。 The network interface 104 is an interface for connecting to the communication network 108 wirelessly or by wire. As the network interface 104, one conforming to the existing communication standard may be used. Information may be exchanged by the network interface 104 with the external device 109A which is communicated and connected via the communication network 108.

外部装置109Aは、例えば、カメラ、モーションキャプチャ、出力先デバイス、外部のセンサ、入力元デバイスなどが含まれる。また、外部装置109Aは、訓練装置100及びクラスタリング装置200の構成要素の一部の機能を有する装置でもよい。そして、訓練装置100及びクラスタリング装置200は、訓練装置100及びクラスタリング装置200の処理結果の一部を、クラウドサービスのように通信ネットワーク108を介して受け取ってもよい。 The external device 109A includes, for example, a camera, motion capture, an output destination device, an external sensor, an input source device, and the like. Further, the external device 109A may be a device having some functions of the components of the training device 100 and the clustering device 200. Then, the training device 100 and the clustering device 200 may receive a part of the processing results of the training device 100 and the clustering device 200 via the communication network 108 like a cloud service.

デバイスインタフェース105は、外部装置109Bと直接接続するUSB(Universal Serial Bus)などのインタフェースである。外部装置109Bは、外部記憶媒体でもよいし、ストレージ装置でもよい。メモリは、外部装置109Bにより実現されてもよい。 The device interface 105 is an interface such as a USB (Universal Serial Bus) that directly connects to the external device 109B. The external device 109B may be an external storage medium or a storage device. The memory may be realized by the external device 109B.

外部装置109Bは出力装置でもよい。出力装置は、例えば、画像を表示するための表示装置でもよいし、音声などを出力する装置などでもよい。例えば、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)、PDP(Plasma Display Panel)、有機EL(ElectroLuminescence)ディスプレイ、スピーカなどがあるが、これらに限られるものではない。 The external device 109B may be an output device. The output device may be, for example, a display device for displaying an image, a device for outputting audio, or the like. For example, there are LCD (Liquid Crystal Display), CRT (Cathode Ray Tube), PDP (Plasma Display Panel), organic EL (ElectroLuminescence) display, speaker and the like, but the present invention is not limited thereto.

なお、外部装置109Bは入力装置でもよい。入力装置は、キーボード、マウス、タッチパネル、マイクロフォンなどのデバイスを備え、これらのデバイスにより入力された情報を訓練装置100及びクラスタリング装置200に与える。入力装置からの信号はプロセッサ101に出力される。 The external device 109B may be an input device. The input device includes devices such as a keyboard, a mouse, a touch panel, and a microphone, and gives the information input by these devices to the training device 100 and the clustering device 200. The signal from the input device is output to the processor 101.

例えば、本実施形態における訓練装置100のクラスタリング部110及び訓練部120、クラスタリング装置200のデータ取得部210及びクラスタリング部220等は、プロセッサ101により実現されてもよい。また、訓練装置100及びクラスタリング装置200のメモリは、主記憶装置102又は補助記憶装置103により実現されてもよい。また、制御装置100は、1又は複数のメモリを搭載してもよい。 For example, the clustering unit 110 and the training unit 120 of the training device 100, the data acquisition unit 210 and the clustering unit 220 of the clustering device 200, and the like in the present embodiment may be realized by the processor 101. Further, the memories of the training device 100 and the clustering device 200 may be realized by the main storage device 102 or the auxiliary storage device 103. Further, the control device 100 may be equipped with one or more memories.

本明細書において、“a,b及びcの少なくとも1つ”又は“a,b又はcの少なくとも1つ”の表現は、a,b,c,a−b,a−c,b−c,a−b−cの何れかの組み合わせを含む。それはまた、a−a,a−b−b,a−a−b−b−c−cなどの何れかの要素の複数のインスタンスとの組み合わせをカバーする。それは更に、a−b−c−dを有するなどa,b及び/又はc以外の他の要素を加えることをカバーする。 In the present specification, the expression "at least one of a, b and c" or "at least one of a, b or c" is a, b, c, ab, ac, bc, Includes any combination of abc. It also covers combinations with multiple instances of any element, such as aa, abb, aa-b-b-c-c. It further covers the addition of other elements other than a, b and / or c, such as having a-b-cd.

以上、本開示の実施例について詳述したが、本開示は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本開示の要旨の範囲内において、種々の変形・変更が可能である。 Although the examples of the present disclosure have been described in detail above, the present disclosure is not limited to the specific embodiment described above, and various modifications are made within the scope of the gist of the present disclosure described in the claims.・ Can be changed.

50 データベース
100 訓練装置
101 プロセッサ
102 主記憶装置
103 補助記憶装置
104 ネットワークインタフェース
105 デバイスインタフェース
106 バス
108 通信ネットワーク
109A,B 外部装置
110 クラスタリング部
120 訓練部
200 クラスタリング装置
210 データ取得部
220 クラスタリング部
50 Database 100 Training device 101 Processor 102 Main memory 103 Auxiliary storage 104 Network interface 105 Device interface 106 Bus 108 Communication network 109A, B External device 110 Clustering unit 120 Training unit 200 Clustering device 210 Data acquisition unit 220 Clustering unit

Claims (25)

1つ以上のプロセッサが、クラスタリングモデルによってデータをクラスタリングすることと、
前記1つ以上のプロセッサが、前記クラスタリングモデルによるクラスタリング結果と訓練用クラスタリング結果との間の類似度の期待値に従って前記クラスタリングモデルを訓練することと、
を有する訓練方法。
One or more processors clustering data with a clustering model,
That one or more processors train the clustering model according to the expected value of similarity between the clustering result by the clustering model and the training clustering result.
Training method with.
前記類似度は、前記クラスタリングモデルによるクラスタリング結果と前記訓練用クラスタリング結果とのデータ対の合計に対する同一のクラスタに割り当てられたデータ対の和の比率に基づく、請求項1記載の訓練方法。 The training method according to claim 1, wherein the similarity is based on the ratio of the sum of the data pairs assigned to the same cluster to the total of the data pairs of the clustering result by the clustering model and the training clustering result. 前記類似度は、擬似相互情報量に基づく、請求項1記載の訓練方法。 The training method according to claim 1, wherein the similarity is based on a pseudo mutual information amount. 前記クラスタリングモデルは、前記クラスタリング結果と前記クラスタリング結果に関連する確率とを出力する、請求項1乃至3何れか一項記載の訓練方法。 The training method according to any one of claims 1 to 3, wherein the clustering model outputs the clustering result and the probability associated with the clustering result. 前記クラスタリングモデルは、ニューラルネットワークとして実現され、
前記訓練することは、前記類似度の期待値から算出された損失値に基づき前記ニューラルネットワークのパラメータを更新する、請求項1乃至4何れか一項記載の訓練方法。
The clustering model is realized as a neural network.
The training method according to any one of claims 1 to 4, wherein the training is to update the parameters of the neural network based on the loss value calculated from the expected value of the similarity.
請求項1乃至5何れか一項記載の訓練方法を用いて前記クラスタリングモデルを生成するクラスタリングモデル生成方法。 A clustering model generation method for generating the clustering model by using the training method according to any one of claims 1 to 5. クラスタリングモデルによってデータをクラスタリングし、
前記クラスタリングモデルによるクラスタリング結果と訓練用クラスタリング結果との間の類似度の期待値に従って前記クラスタリングモデルを訓練する、
ように構成される1つ以上のコンピュータを有する訓練装置。
Cluster data with a clustering model
The clustering model is trained according to the expected value of the similarity between the clustering result by the clustering model and the training clustering result.
A training device having one or more computers configured as such.
前記類似度は、第1のクラスタリング結果と第2のクラスタリング結果とのデータ対の合計に対する同一のクラスタに割り当てられたデータ対の和の比率である、請求項7記載の訓練装置。 The training device according to claim 7, wherein the similarity is the ratio of the sum of the data pairs assigned to the same cluster to the total of the data pairs of the first clustering result and the second clustering result. 前記類似度は、擬似相互情報量に基づく、請求項7記載の訓練装置。 The training device according to claim 7, wherein the similarity is based on a pseudo mutual information amount. 前記クラスタリングモデルは、前記クラスタリング結果と前記クラスタリング結果に関連する確率とを出力する、請求項7乃至9何れか一項記載の訓練装置。 The training device according to any one of claims 7 to 9, wherein the clustering model outputs the clustering result and the probability associated with the clustering result. 前記クラスタリングモデルは、ニューラルネットワークとして実現され、
前記1つ以上のコンピュータは、前記類似度の期待値から算出された損失値に基づき前記ニューラルネットワークのパラメータを更新する、請求項7乃至10何れか一項記載の訓練装置。
The clustering model is realized as a neural network.
The training device according to any one of claims 7 to 10, wherein the one or more computers update the parameters of the neural network based on the loss value calculated from the expected value of the similarity.
クラスタリングモデルによってデータをクラスタリングする処理と、
前記クラスタリングモデルによるクラスタリング結果と訓練用クラスタリング結果との間の類似度の期待値に従って前記クラスタリングモデルを訓練する処理と、
をプロセッサに実行させるプログラム。
The process of clustering data with a clustering model and
The process of training the clustering model according to the expected value of the similarity between the clustering result of the clustering model and the training clustering result, and
A program that causes the processor to execute.
クラスタリングモデルによってデータをクラスタリングする処理と、
前記クラスタリングモデルによるクラスタリング結果と訓練用クラスタリング結果との間の類似度の期待値に従って前記クラスタリングモデルを訓練する処理と、
をプロセッサに実行させるプログラムを格納する非一時的なコンピュータ可読記憶媒体。
The process of clustering data with a clustering model and
The process of training the clustering model according to the expected value of the similarity between the clustering result of the clustering model and the training clustering result, and
A non-temporary computer-readable storage medium that stores programs that cause the processor to run.
1つ以上のプロセッサが、クラスタリング対象のデータを取得することと、
前記1つ以上のプロセッサが、クラスタリングモデルによって前記取得したデータをクラスタリングすることと、
を有し、
前記クラスタリングモデルは、訓練用入力データに対するクラスタリング結果と訓練用クラスタリング結果との間の類似度の期待値に従って訓練されたモデルである、
クラスタリング方法。
When one or more processors acquire the data to be clustered,
When the one or more processors cluster the data acquired by the clustering model,
Have,
The clustering model is a model trained according to the expected value of the similarity between the clustering result for the training input data and the training clustering result.
Clustering method.
前記類似度は、第1のクラスタリング結果と第2のクラスタリング結果とのデータ対の合計に対する同一のクラスタに割り当てられたデータ対の和の比率である、請求項14記載のクラスタリング方法。 The clustering method according to claim 14, wherein the similarity is the ratio of the sum of the data pairs assigned to the same cluster to the total of the data pairs of the first clustering result and the second clustering result. 前記類似度は、擬似相互情報量に基づく、請求項14記載のクラスタリング方法。 The clustering method according to claim 14, wherein the similarity is based on a pseudo mutual information amount. 前記クラスタリングモデルは、前記クラスタリング結果と前記クラスタリング結果に関連する確率とを出力する、請求項14乃至16何れか一項記載のクラスタリング方法。 The clustering method according to any one of claims 14 to 16, wherein the clustering model outputs the clustering result and the probability associated with the clustering result. 前記クラスタリングモデルは、ニューラルネットワークとして実現され、
前記クラスタリングモデルは、前記類似度の期待値から算出された損失値に基づき前記ニューラルネットワークのパラメータを更新することによって取得される、請求項14乃至17何れか一項記載のクラスタリング方法。
The clustering model is realized as a neural network.
The clustering method according to any one of claims 14 to 17, wherein the clustering model is acquired by updating the parameters of the neural network based on the loss value calculated from the expected value of the similarity.
クラスタリング対象のデータを取得し、
クラスタリングモデルによって前記取得したデータをクラスタリングする、
ように構成される1つ以上のコンピュータを有し、
前記クラスタリングモデルは、訓練用入力データに対するクラスタリング結果と訓練用クラスタリング結果との間の類似度の期待値に従って訓練されたモデルであるクラスタリング装置。
Get the data to be clustered and
Clustering the acquired data by a clustering model,
Have one or more computers configured as
The clustering model is a clustering device that is a model trained according to an expected value of similarity between a clustering result for training input data and a training clustering result.
前記類似度は、第1のクラスタリング結果と第2のクラスタリング結果とのデータ対の合計に対する同一のクラスタに割り当てられたデータ対の和の比率である、請求項19記載のクラスタリング装置。 The clustering apparatus according to claim 19, wherein the similarity is the ratio of the sum of the data pairs assigned to the same cluster to the total of the data pairs of the first clustering result and the second clustering result. 前記類似度は、擬似相互情報量に基づく、請求項19記載のクラスタリング装置。 The clustering apparatus according to claim 19, wherein the similarity is based on a pseudo mutual information amount. 前記クラスタリングモデルは、前記クラスタリング結果と前記クラスタリング結果に関連する確率とを出力する、請求項19乃至21何れか一項記載のクラスタリング装置。 The clustering apparatus according to any one of claims 19 to 21, wherein the clustering model outputs the clustering result and the probability associated with the clustering result. 前記クラスタリングモデルは、ニューラルネットワークとして実現され、
前記クラスタリングモデルは、前記類似度の期待値から算出された損失値に基づき前記ニューラルネットワークのパラメータを更新することによって取得される、請求項19乃至22何れか一項記載のクラスタリング装置。
The clustering model is realized as a neural network.
The clustering apparatus according to any one of claims 19 to 22, wherein the clustering model is acquired by updating the parameters of the neural network based on the loss value calculated from the expected value of the similarity.
クラスタリング対象のデータを取得する処理と、
クラスタリングモデルによって前記取得したデータをクラスタリングする処理と、
をプロセッサに実行させ、
前記クラスタリングモデルは、訓練用入力データに対するクラスタリング結果と訓練用クラスタリング結果との間の類似度の期待値に従って訓練されたモデルであるプログラム。
The process of acquiring the data to be clustered and
The process of clustering the acquired data by the clustering model and
To the processor
The clustering model is a model trained according to an expected value of similarity between the clustering result for the training input data and the training clustering result.
クラスタリング対象のデータを取得する処理と、
クラスタリングモデルによって前記取得したデータをクラスタリングする処理と、
をプロセッサに実行させ、
前記クラスタリングモデルは、訓練用入力データに対するクラスタリング結果と訓練用クラスタリング結果との間の類似度の期待値に従って訓練されたモデルであるプログラムを格納する非一時的なコンピュータ可読記憶媒体。
The process of acquiring the data to be clustered and
The process of clustering the acquired data by the clustering model and
To the processor
The clustering model is a non-temporary computer-readable storage medium that stores a program that is a model trained according to an expected value of similarity between a clustering result for training input data and a training clustering result.
JP2019134811A 2019-07-22 2019-07-22 Training method, training device, clustering method, clustering device, clustering model generation method, program and computer readable storage medium Pending JP2021018678A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019134811A JP2021018678A (en) 2019-07-22 2019-07-22 Training method, training device, clustering method, clustering device, clustering model generation method, program and computer readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019134811A JP2021018678A (en) 2019-07-22 2019-07-22 Training method, training device, clustering method, clustering device, clustering model generation method, program and computer readable storage medium

Publications (1)

Publication Number Publication Date
JP2021018678A true JP2021018678A (en) 2021-02-15

Family

ID=74563168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019134811A Pending JP2021018678A (en) 2019-07-22 2019-07-22 Training method, training device, clustering method, clustering device, clustering model generation method, program and computer readable storage medium

Country Status (1)

Country Link
JP (1) JP2021018678A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019078A (en) * 2022-08-09 2022-09-06 阿里巴巴(中国)有限公司 Data clustering method and device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019078A (en) * 2022-08-09 2022-09-06 阿里巴巴(中国)有限公司 Data clustering method and device
CN115019078B (en) * 2022-08-09 2023-01-24 阿里巴巴(中国)有限公司 Vehicle image processing method, computing device and storage medium

Similar Documents

Publication Publication Date Title
US9767419B2 (en) Crowdsourcing system with community learning
Yang et al. Cluster ensemble selection with constraints
WO2021151016A1 (en) System and method with federated learning model for medical research applications
WO2018093935A1 (en) Training neural networks using a clustering loss
US11797890B2 (en) Performance manager to autonomously evaluate replacement algorithms
Mönks et al. Information fusion of conflicting input data
CN113823396A (en) Medical equipment management method and device, computer equipment and storage medium
Matsuzaka et al. AI-based computer vision techniques and expert systems
DE112020005257T5 (en) FAULT CAUSE ANALYSIS USING GRANGER CAUSALITY
JP2020091756A (en) Learning method, learning program, and learning device
JP2020126510A (en) Computer system and information presentation method
Zhu et al. Knowledge representation and reasoning with an extended dynamic uncertain causality graph under the Pythagorean uncertain linguistic environment
Chou et al. Metaheuristic optimized multi-level classification learning system for engineering management
Sun et al. End-to-end deep graph convolutional neural network approach for intentional Islanding in power systems considering load-generation balance
Alshathri et al. Quantum chaotic honey badger algorithm for feature selection
JP2021018678A (en) Training method, training device, clustering method, clustering device, clustering model generation method, program and computer readable storage medium
Du et al. Network security situation prediction based on optimized clock-cycle recurrent neural network for sensor-enabled networks
Nobre et al. Anomaly Detection in Microservice-Based Systems
Ayub et al. Predictive data analytics for electricity fraud detection using tuned CNN ensembler in smart grid
Nazari Cheraghlou et al. A new hybrid fault tolerance approach for Internet of Things
Yang et al. An improved CS-LSSVM algorithm-based fault pattern recognition of ship power equipments
JP6981428B2 (en) Information processing equipment and information processing method
Marhasova et al. Modelling and prognostication of macroeconomic dynamics of providing the economic sustainability to the economic security threats
Li et al. Robust aggregation for federated learning by minimum γ-divergence estimation
Ossai Prognosis and remaining useful life estimation of lithium-ion battery with optimal multi-level particle filter and genetic algorithm