WO2024069729A1 - クラスタリング支援システム、方法およびプログラム - Google Patents

クラスタリング支援システム、方法およびプログラム Download PDF

Info

Publication number
WO2024069729A1
WO2024069729A1 PCT/JP2022/035834 JP2022035834W WO2024069729A1 WO 2024069729 A1 WO2024069729 A1 WO 2024069729A1 JP 2022035834 W JP2022035834 W JP 2022035834W WO 2024069729 A1 WO2024069729 A1 WO 2024069729A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
target data
graph
feature
display
Prior art date
Application number
PCT/JP2022/035834
Other languages
English (en)
French (fr)
Inventor
哲孝 山下
康博 水越
憲人 大井
秋紗子 藤井
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/035834 priority Critical patent/WO2024069729A1/ja
Publication of WO2024069729A1 publication Critical patent/WO2024069729A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a clustering support system, a clustering support method, and a clustering support program that support data clustering.
  • Patent Document 1 describes a teacher data generation system that makes the generation of teacher data more efficient.
  • the system described in Patent Document 1 clusters behavioral histories, and presents the contents of some of the behavioral histories that belong to a cluster to an analyst, allowing the analyst to specify a label.
  • the system then assigns the specified label to the data in the cluster to generate teacher data.
  • Patent Document 1 For example, by using the method described in Patent Document 1, it is possible to cluster data with similar characteristics and understand the collection. However, when data has many types of characteristics (data items), it is generally difficult to understand which data items contributed to the clustering.
  • the present invention aims to provide a clustering support system, a clustering support method, and a clustering support program that support understanding of the features that contributed to the clustering of target data.
  • the clustering support system comprises a classification means for generating a plurality of clusters by classifying target data using machine learning, and a display means for displaying the target data included in the generated clusters in a predetermined manner at a position on a graph corresponding to the feature of the target data, and is characterized in that the display means changes the manner in which the target data is displayed on the graph according to the numerical information for each feature.
  • the clustering support method is characterized in that it generates multiple clusters by classifying target data using machine learning, displays the target data contained in the generated clusters in a predetermined manner at a position on a graph corresponding to the feature of the target data, and changes the manner in which the target data is displayed on the graph according to the numerical information for each feature.
  • the clustering support program causes a computer to execute a classification process that generates multiple clusters by classifying target data using machine learning, and a display process that displays the target data included in the generated clusters in a predetermined manner at a position on a graph that corresponds to the feature of the target data, and is characterized in that the display process changes the manner in which the target data is displayed on the graph depending on the numerical information for each feature.
  • the present invention can assist in identifying the data items that contributed to clustering.
  • FIG. 1 is a block diagram showing an example of the configuration of an embodiment of a clustering support system according to the present invention
  • FIG. 2 is an explanatory diagram showing an example of data used in the clustering support system.
  • FIG. 11 is an explanatory diagram showing an example of feature amounts.
  • FIG. 11 is an explanatory diagram showing an example of graph visualization of dimensionally reduced data.
  • FIG. 13 is an explanatory diagram showing another example of graph visualization of dimensionally reduced data. 13 is an explanatory diagram showing an example in which the manner of display on a graph is changed according to numerical information for each feature amount.
  • FIG. FIG. 11 is an explanatory diagram showing an example in which correlations between feature amounts are displayed.
  • FIG. 11 is an explanatory diagram showing an example of a process for specifying data to be classified on a graph and recalculating statistics;
  • FIG. 1 is a flowchart showing an example of the operation of the clustering support system.
  • 1 is a block diagram showing an overview of a clustering support system according to the present invention;
  • FIG. 1 is a schematic block diagram illustrating a configuration of a computer according to at least one embodiment.
  • moving images video data
  • data to be classified is not limited to moving images, and may be, for example, still images, music data, text data, etc.
  • the data to be classified may or may not be labeled.
  • FIG. 1 is a block diagram showing an example of the configuration of one embodiment of a clustering support system according to the present invention.
  • the clustering support system 1 of this embodiment includes a data acquisition unit 10, a related information acquisition unit 20, an object identification unit 30, a data processing unit 40, a text information input unit 50, a feature extraction unit 60, a feature storage unit 70, a visualization processing unit 80, and an input/output device 90.
  • the data acquisition unit 10 acquires data to be classified, i.e., data to be subjected to clustering. For example, when an animal is photographed by a camera (not shown), the data acquisition unit 10 may acquire a video of the animal captured by the camera as data to be classified. Note that the data acquired by the data acquisition unit 10 is not limited to data acquired in real time.
  • the data acquisition unit 10 may acquire data to be classified, for example, from a storage server (not shown) in which the data to be classified is stored.
  • the related information acquisition unit 20 acquires information related to the data to be classified (hereinafter referred to as related information).
  • the related information is information indicating the circumstances under which the data to be classified was generated, such as information indicating the location (location where the image was captured) and time at which the data was generated, and data acquired by a sensor (hereinafter referred to as sensor data).
  • examples of sensor data include fuel flow rate, pressure, temperature, rotation speed, and power generation.
  • examples of sensor data include time, temperature, humidity, pH, soil moisture, solar radiation, wind direction/speed, and water level.
  • relevant information may include GPS (Global Positioning System) information indicating the vehicle position and information acquired based on a CAN (Controller Area Network). Examples of sensor data acquired in this case include speed, acceleration, and position (latitude, longitude, altitude, etc.).
  • GPS Global Positioning System
  • CAN Controller Area Network
  • the object identification unit 30 identifies objects contained in the acquired data and generates information (hereinafter referred to as an object list) that identifies the identified objects. For example, if the object to be identified is a vehicle, the object identification unit 30 may identify the vehicle from the data acquired by the data acquisition unit 10 and generate information that identifies the vehicle (for example, coordinates indicating its position in the image) as an object list. Note that methods for identifying objects from images and videos are widely known, and detailed explanations will be omitted here.
  • the data processing unit 40 processes the data (more specifically, the object list) into a form that can be used when the feature extraction unit 60 described below performs processing. Specifically, the data processing unit 40 processes the data so as to improve the accuracy of feature extraction and clustering. For example, the data processing unit 40 thins out the data, interpolates missing values, removes outliers, and deletes unnecessary data items. Also, for example, if the data to be classified is video data, the data processing unit 40 may convert the video data into numerical time series data.
  • the data processing unit 40 may also process data based on multiple pieces of data. For example, in the case of the video data described above, data may be processed from multiple pieces of sampling data. In the following description, data or data items processed based on multiple pieces of data may be referred to as statistics.
  • the data processing unit 40 may calculate statistics using five seconds worth of data.
  • the content of the calculated statistics is arbitrary.
  • the data processing unit 40 may calculate the average value of five points of data, or may identify the maximum value, minimum value, median value, value of the first (first second) data, and value of the last (fifth second) data from the five points of data. Additionally, the data processing unit 40 may calculate the difference between the maximum and minimum values, or the difference between the first (first second) data and the last (fifth second) data.
  • the data processing unit 40 may calculate statistics based on known conversion formulas. Examples of conversion formulas include a conversion formula between vehicle direction data and yaw rate, and a conversion formula between speed and acceleration for automobile-related data.
  • the data processing unit 40 performs the process of calculating the statistics, but the visualization processing unit 80, which will be described later, may calculate the statistics before the visualization process.
  • the text information input unit 50 accepts input of text data including information to be added to each data to be classified (hereinafter referred to as additional information).
  • Additional information is information indicating the contents of the data to be classified that can be obtained other than related information.
  • categories indicating additional information include weather, type of plant, and subject.
  • weather category values include sunny, cloudy, rainy, and snowy
  • plant type category values include rice, wheat, and barley
  • subjects include dogs, cats, people, cars, and bicycles.
  • FIG. 2 is an explanatory diagram showing an example of data used in the clustering support system 1 of this embodiment.
  • the example shown in FIG. 2 shows that the data acquisition unit 10 has acquired video 11 as data to be classified, and the related information acquisition unit 20 has acquired related information 21 related to the location where the video 11 was taken, etc.
  • the example shown in FIG. 2 also shows that the data processing unit 40 has processed the video 11 and related information 21 (more specifically, the object list generated by the object identification unit 30) to generate numerical time series data 41.
  • the text information input unit 50 has accepted the input of text data 51 including information on the weather, scene, time period, and objects as additional information.
  • the feature extraction unit 60 extracts features from each data to be classified.
  • the feature extraction unit 60 automatically classifies each data to be classified, including additional information, using machine learning to generate multiple clusters. Any method can be used to generate clusters using machine learning, and it may be supervised learning or unsupervised learning. Examples of unsupervised learning include the k-means method and a Gaussian mixture model.
  • the feature extraction unit 60 extracts features of each data included in the generated cluster.
  • the feature extraction unit 60 may extract, for example, additional information included in the text data, each data item, or calculated statistics as features.
  • the feature extraction unit 60 may extract features indicated by the numerical time series data.
  • the feature extraction unit 60 may extract features based on information (specifically, sensor values, etc.) included in the data to be classified (more specifically, numerical time series data).
  • the method for extracting features from the numerical time series data is arbitrary.
  • the feature extraction unit 60 may extract a feature that is the distance from the center of gravity of the numerical time series data contained in the cluster to each piece of data (cluster distance feature).
  • the feature extraction unit 60 can also be called a classification means, since it performs processing to classify data to be classified by unsupervised learning or the like.
  • the object identification unit 30 identifies an object from information acquired by the data acquisition unit 10 and the related information acquisition unit 20, and the data processing unit 40 processes the data of the identification result into a format used by the feature extraction unit 60.
  • the data acquisition unit 10 may directly acquire data in a format used by the feature extraction unit 60, and input the acquired data to the feature extraction unit 60.
  • the clustering support system 1 does not need to include the related information acquisition unit 20, the object identification unit 30, and the data processing unit 40.
  • the feature storage unit 70 stores the feature amounts of each data item to be classified that are extracted by the feature extraction unit 60.
  • the feature storage unit 70 may store the feature amounts for each data item to be classified in any manner.
  • FIG. 3 is an explanatory diagram showing an example of feature amounts stored in the feature storage unit 70.
  • the vertical direction represents one feature point
  • the horizontal direction represents the feature amounts (category values) of each category (e.g., weather, subject, type of plant, etc.).
  • the feature storage unit 70 is realized, for example, by a magnetic disk, etc.
  • the visualization processing unit 80 performs a process of visualizing the data to be classified on a graph.
  • the data to be classified generally contains multiple feature amounts. Therefore, the visualization processing unit 80 reduces the dimensionality of the data to be classified, and displays it by drawing a graph on the input/output device 90 so that a human can observe how the data to be classified has been clustered.
  • dimensionality reduction of the data to be classified refers to the process of converting high-dimensional data, where each dimension is a feature contained in the data to be classified, into low-dimensional data while retaining as much important information as possible.
  • Dimensionality reduction methods include PCA (principal component analysis), t-SNE (t-distributed Stochastic Neighbor Embedding), and UMAP (Uniform Manifold Approximation and Projection).
  • the visualization processing unit 80 may, for example, reduce the dimensionality of the data to be classified into two or three dimensions using the UMAP described above, and visualize the reduced dimensionality data as a graph such as a distribution map.
  • Figure 4 is an explanatory diagram showing an example of dimensionally reduced data visualized in a graph.
  • the graph shown in Figure 4 shows an example of data to be classified that has been reduced to two dimensions by UMAP and displayed as a set of points.
  • Figure 5 is an explanatory diagram showing another example of dimensionally reduced data visualized in a graph.
  • the graph shown in Figure 5 shows an example of data to be classified that has been reduced to three dimensions by UMAP and displayed as a set of points.
  • the visualization processing unit 80 may display the features and statistics of the data to be classified that is specified by the user via the input/output device 90, separately from the graph. Furthermore, when multiple pieces of data to be classified are specified, the visualization processing unit 80 may display the features and statistics of all of the specified pieces of data to be classified.
  • the display method in this case is arbitrary, and the visualization processing unit 80 may display each piece of information side by side, or may display them in a switchable manner.
  • the visualization processing unit 80 displays the data to be analyzed that is included in the generated clusters on the input/output device 90 in a predetermined manner at a corresponding position on the graph according to the feature amounts of the data to be classified. Examples of the predetermined manner include points and symbols.
  • the visualization processing unit 80 changes the manner in which the graph is displayed according to the numerical information for each feature.
  • the feature amount to be classified is selected by the user or the like via the input/output device 90.
  • the numerical information of the feature amount in this embodiment includes not only values that are directly obtained as feature amounts, such as "speed” and “acceleration,” but also values obtained according to the feature amount, such as "vehicle orientation” (e.g., angle, etc.).
  • the numerical information of the feature amount includes each data from which the feature amount was extracted (i.e., each data to be classified input to the feature extraction unit 60), the feature amount obtained from the feature extraction unit 60 before visualization processing, and statistics calculated using each data to be classified.
  • examples of methods for changing the appearance according to the numerical information of the feature include a method for changing the shade of color according to the numerical value, a method for changing the brightness, and the like.
  • the method for change is not limited to a method for changing the concentration or brightness.
  • the visualization processing unit 80 may change the size of the displayed appearance (e.g., the size of the dot) or change the appearance itself (e.g., change the symbol itself) according to the numerical information of the feature.
  • FIG. 6 is an explanatory diagram showing an example in which the manner in which the graph is displayed is changed according to the numerical information for each feature.
  • the example shown in FIG. 6 is an example in which the density of the shading is changed according to the numerical information of a specified feature (for example, the average vehicle speed, etc.) for the graph shown in FIG. 4.
  • a specified feature for example, the average vehicle speed, etc.
  • the graph shown in FIG. 6 is an enlarged display of a sample of several points on the graph shown in FIG. 4.
  • the bar shown on the right side of the graph shown in FIG. 6 has the density of the shading changed by dividing it into ranges, but it is preferable to display it in a gradation according to the value.
  • a graph is displayed according to a feature (for example, the average vehicle speed), so the graph shown in FIG. 6 can also be said to be a graph showing the distribution of average vehicle speeds.
  • a feature for example, the average vehicle speed
  • the graph shown in FIG. 6 can also be said to be a graph showing the distribution of average vehicle speeds.
  • the magnitude of the numerical information of a feature is expressed by shading, and if the shading of the color can be distinguished by the cluster, it can be determined that the feature has a large impact on the clustering, and conversely, if the shading cannot be distinguished, it can be determined that the feature has a small impact on the clustering.
  • the visualization processing unit 80 may automatically perform such a judgment. For example, the visualization processing unit 80 may identify a set of classification target data that constitutes a cluster from the displayed graph, and calculate statistics such as the average value and variance for the pixel values (shades) of the pixels that indicate the identified classification target data. In this case, for example, if the average value is smaller than a predetermined value and the variance is also smaller than a predetermined value, the visualization processing unit 80 may determine that many values with small pixel values are gathered together, and determine that this feature contributes to the clustering.
  • the input/output device 90 accepts the designation of one feature from the user, and the visualization processing unit 80 changes the manner in which it is displayed on the graph according to the numerical information of that feature.
  • the designation of the feature is not limited to one, and multiple features may be used.
  • the visualization means 80 may change the display manner so that the numerical information of two or more feature quantities is displayed simultaneously.
  • the visualization processing unit 80 may display a graph in which the appearance is changed for each piece of numerical information on the received feature quantity.
  • the visualization processing unit 80 may display each graph in parallel or in a switchable manner.
  • the visualization processing unit 80 may display numerical information of two or more feature quantities simultaneously on one graph. For example, the visualization processing unit 80 may determine a color to be displayed for each feature quantity, determine the shade of each color for each piece of numerical information of the feature quantity, and overlay the determined colors to display a mixed color.
  • the types of colors used for mixed color display may be determined in advance. For example, assuming that about three types of colors are to be mixed and displayed, independent color lights (e.g., red, green, and blue) may be determined for each, and the visualization processing unit 80 may display a mixture of these colors (e.g., cyan, magenta, and yellow).
  • independent color lights e.g., red, green, and blue
  • the visualization processing unit 80 may display a mixture of these colors (e.g., cyan, magenta, and yellow).
  • the method of simultaneously showing numerical information for two or more features on one graph is not limited to the mixed color display method.
  • the visualization processing unit 80 may also display the data to be classified based on, for example, a combination of the size of the symbol and the shade or shading of the color.
  • the visualization processing unit 80 may change the display mode of the feature quantities based on the correlation or similarity between the specified feature quantities. For example, when one feature quantity is selected from the two or more specified feature quantities, the visualization processing unit 80 may change the display mode of the other remaining feature quantities depending on the strength of the correlation between the selected feature quantity and the other remaining feature quantities.
  • FIG. 7 is an explanatory diagram showing an example of displaying the correlation between feature quantities.
  • the visualization processing unit 80 changes the shading of the remaining feature quantities B to D according to the strength of the correlation with feature quantity A.
  • the method of displaying correlations is not limited to the shading shown in FIG. 7.
  • the visualization processing unit 80 may display the features by changing the color to a specified color (e.g., red for items with a strong correlation, blue for items with a weak correlation, etc.).
  • the visualization processing unit 80 may recalculate statistics for the classification target data in a specified range on the displayed graph, and change the manner in which the classification target data in the specified range is displayed on the graph according to the recalculated statistics.
  • the visualization processing unit 80 may, for example, recalculate the average value for the feature values of the classification target data in the specified range, and change the manner in which it is displayed according to the recalculated average value.
  • the visualization processing unit 80 may redraw a graph that targets only the classification target data in the specified range, or may change and display the manner in which the classification target data in the specified range is displayed only.
  • Figure 8 is an explanatory diagram showing an example of the process of specifying data to be classified on a graph and recalculating statistics.
  • the example shown in Figure 8 shows an example in which data to be classified within the range shown by the dashed line in the graph shown in Figure 6 is specified, and the results of recalculating statistics within the specified range are displayed.
  • the visualization processing unit 80 may also recalculate multiple statistics for the data to be classified within a specified range. The visualization processing unit 80 may then accept the designation of multiple statistics and simultaneously display the accepted multiple statistics on one graph, or may change and display the state of the features based on the correlation or similarity of the designated statistics.
  • the input/output device 90 displays the results of processing by the visualization processing unit 80.
  • the input/output device 90 also accepts input from the user regarding the displayed results as described above, and causes the visualization processing unit 80 to execute processing according to the input.
  • the input/output device 90 may be realized, for example, by a tablet terminal. Alternatively, the input/output device 90 may be realized by a device having a display device and a pointing device.
  • the data acquisition unit 10, related information acquisition unit 20, object identification unit 30, data processing unit 40, text information input unit 50, feature extraction unit 60, and visualization processing unit 80 are realized by a computer processor (e.g., a CPU (Central Processing Unit)) that operates according to a program (clustering support program).
  • a computer processor e.g., a CPU (Central Processing Unit)
  • CPU Central Processing Unit
  • program clustering support program
  • the program may be stored in a memory unit (not shown) of the clustering support system 1, and the processor may read the program and operate as the data acquisition unit 10, the related information acquisition unit 20, the object identification unit 30, the data processing unit 40, the text information input unit 50, the feature extraction unit 60, and the visualization processing unit 80 in accordance with the program.
  • the functions of the clustering support system 1 may be provided in a SaaS (Software as a Service) format.
  • the data acquisition unit 10, related information acquisition unit 20, object identification unit 30, data processing unit 40, text information input unit 50, feature extraction unit 60, and visualization processing unit 80 may each be realized by dedicated hardware.
  • some or all of the components of each device may be realized by general-purpose or dedicated circuits, processors, etc., or combinations of these. These may be configured by a single chip, or by multiple chips connected via a bus.
  • Some or all of the components of each device may be realized by a combination of the above-mentioned circuits, etc., and programs.
  • the multiple information processing devices, circuits, etc. may be arranged in a centralized or distributed manner.
  • the information processing devices, circuits, etc. may be realized as a client-server system, cloud computing system, etc., in a form in which each is connected via a communication network.
  • FIG. 9 is a flowchart showing an example of the operation of the clustering support system 1.
  • the example of operation shown in FIG. 9 is an example of operation in which the data acquisition unit 10 directly acquires data in a format used by the feature extraction unit 60, and inputs the acquired data to the feature extraction unit 60.
  • the feature extraction unit 60 generates multiple clusters by classifying the data to be classified using machine learning (step S11).
  • the visualization processing unit 80 then displays the data to be classified, which are included in the generated clusters, at the corresponding positions on the graph in a manner that is changed according to the numerical information for each feature (step S12).
  • the feature extraction unit 60 generates multiple clusters by classifying the data to be classified using machine learning, and the visualization processing unit 80 displays the data to be classified included in the generated clusters in a predetermined manner at a corresponding position on the graph according to the feature amount of the data to be classified. At that time, the visualization processing unit 80 changes the manner in which the data to be classified is displayed on the graph according to the numerical information for each feature amount.
  • Such a configuration can assist in understanding the data items that contributed to the clustering.
  • the visualization processing unit 80 displays a list of the classification target data included in the generated clusters in a graph in a form that changes according to the numerical information for each feature. This makes it possible to check the distribution of data at a high level for each feature, making it easier to understand the data items that contributed to the clustering.
  • FIG. 10 is a block diagram showing an overview of a clustering support system according to the present invention.
  • a clustering support system 180 (e.g., clustering support system 1) according to the present invention includes classification means 181 (e.g., feature extraction unit 60) that generates multiple clusters by classifying target data (e.g., data to be classified) using machine learning, and display means 182 (e.g., visualization processing unit 80) that displays the target data included in the generated clusters in a predetermined manner (e.g., points, symbols, etc.) at a position on a corresponding graph according to the feature amount of the target data.
  • classification means 181 e.g., feature extraction unit 60
  • display means 182 e.g., visualization processing unit 80
  • the display means 182 changes the manner in which the target data is displayed on the graph according to the numerical information for each feature.
  • Such a configuration can help understand which data items contributed to the clustering.
  • the display means 182 may also change the display mode to simultaneously show numerical information for two or more features.
  • the display means 182 may display a mixed color by overlapping the colors indicated by the numerical information of each characteristic amount.
  • the display means 182 may also change the shading or brightness of the display depending on the numerical information.
  • the display means 182 may also recalculate statistics for the target data in a range specified on the displayed graph, and change the manner in which the classified target data in the specified range is displayed on the graph according to the recalculated statistics.
  • the display means 182 may also change and display the state of the features based on the correlation between the specified features.
  • the display means 182 may also reduce the dimensions of the target data (e.g., compress the dimensions to two or three dimensions) and display it on a graph.
  • FIG. 11 is a schematic block diagram showing the configuration of a computer according to at least one embodiment.
  • the computer 1000 includes a processor 1001, a main memory device 1002, an auxiliary memory device 1003, and an interface 1004.
  • the above-mentioned clustering support system 80 is implemented in a computer 1000.
  • the operations of each of the above-mentioned processing units are stored in the auxiliary storage device 1003 in the form of a program (clustering support program).
  • the processor 1001 reads the program from the auxiliary storage device 1003, expands it in the main storage device 1002, and executes the above-mentioned processing in accordance with the program.
  • the auxiliary storage device 1003 is an example of a non-transient tangible medium.
  • non-transient tangible media include a magnetic disk, a magneto-optical disk, a CD-ROM (Compact Disc Read-only memory), a DVD-ROM (Read-only memory), and a semiconductor memory connected via the interface 1004.
  • this program when this program is distributed to the computer 1000 via a communication line, the computer 1000 that receives the program may expand the program into the main storage device 1002 and execute the above-mentioned processing.
  • the program may also be one that realizes part of the functions described above. Furthermore, the program may be one that realizes the functions described above in combination with another program already stored in the auxiliary storage device 1003, that is, a so-called differential file (differential program).
  • the display means recalculates statistics for the target data in a range specified on the displayed graph, and changes the manner in which the classification target data in the specified range is displayed on the graph according to the recalculated statistics.
  • a clustering support system according to any one of Supplementary Note 1 to Supplementary Note 4.
  • the target data is classified by machine learning to generate multiple clusters, displaying the target data included in the generated clusters in a predetermined manner at a position on the graph corresponding to the feature amount of the target data; and changing the manner in which the target data is displayed on the graph in accordance with the numerical information for each of the feature amounts when displaying the target data.
  • a computer includes: A classification process that generates multiple clusters by classifying the target data using machine learning; and Executing a display process for displaying the target data included in the generated cluster in a predetermined manner at a position on a corresponding graph according to a feature amount of the target data; A program storage medium storing a clustering support program for changing the manner in which the target data is displayed on the graph in accordance with the numerical information for each of the feature amounts in the display process.
  • a computer includes: The program storage medium according to claim 10, further storing a clustering support program for changing the display mode so as to simultaneously display numerical information of two or more feature quantities in the display process.
  • a computer includes: A classification process that generates multiple clusters by classifying the target data using machine learning; and Executing a display process for displaying the target data included in the generated cluster in a predetermined manner at a position on a corresponding graph according to a feature amount of the target data; A clustering support program for changing the manner in which the target data is displayed on the graph in accordance with the numerical information for each of the feature amounts in the display process.
  • a computer includes: The clustering support program according to claim 12, wherein the display process changes the display mode so that the numerical information of two or more feature quantities is displayed simultaneously.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

分類手段181は、対象データを機械学習により分類することで複数のクラスタを生成する。表示手段182は、生成されたクラスタに含まれる対象データを、その対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示する。その際、表示手段182は、特徴量ごとの数値情報に応じて、対象データをグラフ上に表示する前記態様を変化させる。

Description

クラスタリング支援システム、方法およびプログラム
 本発明は、データのクラスタリングを支援するクラスタリング支援システム、クラスタリング支援方法およびクラスタリング支援プログラムに関する。
 IoT(Internet of Things)社会において、様々な機器からデータを収集することが可能になっている。そして、収集される大量のデータを用いて行われるデータの検索やAI(Artificial Intelligence )の学習には、データの分類が重要になる。
 このような状況において、データの分類を支援する方法が各種提案されている。例えば、特許文献1には、教師データの生成を効率化する教師データ生成システムが記載されている。特許文献1に記載されたシステムは、行動履歴をクラスタリングし、クラスタに属する一部の行動履歴の内容を解析者に提示してラベルを指定させる。そして、上記システムは、指定されたラベルをクラスタ内のデータに付与して、教師データを生成する。
特開2021-56591号公報
 例えば、特許文献1に記載された方法を用いることで、近い特徴を有するデータをクラスタ化して、その集合を理解することは可能である。しかし、データが有する特徴(データ項目)の種類が多い場合、どのデータ項目がクラスタ化に寄与したのか把握することは一般的に難しい。
 特許文献1に記載されたシステムでは、クラスタに属する一部の行動履歴の内容を解析者に提示してラベルを指定させるが、行動履歴に含まれるデータ項目の種類が多い場合、その内容から指定すべきラベルを判断することは困難である。そのため、このような状況で仮に何らかのラベルが付与されたとしても、どのような意味を有するクラスタなのか(すなわち、なぜそのように分類されたのか)が不明になってしまうおそれもある。
 そこで、本発明は、対象データのクラスタリングに寄与した特徴量の把握を支援するクラスタリング支援システム、クラスタリング支援方法およびクラスタリング支援プログラムを提供することを目的とする。
 本発明によるクラスタリング支援システムは、対象データを機械学習により分類することで複数のクラスタを生成する分類手段と、生成されたクラスタに含まれる対象データを、その対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示する表示手段とを備え、表示手段が、特徴量ごとの数値情報に応じて、対象データをグラフ上に表示する態様を変化させることを特徴とする。
 本発明によるクラスタリング支援方法は、対象データを機械学習により分類することで複数のクラスタを生成し、生成されたクラスタに含まれる対象データを、その対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示し、その表示の際、特徴量ごとの数値情報に応じて、対象データをグラフ上に表示する態様を変化させることを特徴とする。
 本発明によるクラスタリング支援プログラムは、コンピュータに、対象データを機械学習により分類することで複数のクラスタを生成する分類処理、および、生成されたクラスタに含まれる対象データを、その対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示する表示処理を実行させ、表示処理で、特徴量ごとの数値情報に応じて、対象データをグラフ上に表示する態様を変化させることを特徴とする。
 本発明によれば、クラスタリングに寄与したデータ項目の把握を支援できる。
本発明によるクラスタリング支援システムの一実施形態の構成例を示すブロック図である。 クラスタリング支援システムで利用されるデータの例を示す説明図である。 特徴量の例を示す説明図である。 次元削減されたデータをグラフで可視化した例を示す説明図である。 次元削減されたデータをグラフで可視化した他の例を示す説明図である。 特徴量ごとの数値情報に応じてグラフ上に表示する態様を変化させた例を示す説明図である。 特徴量間の相関を表示した例を示す説明図である。 グラフ上の分類対象データを指定して統計量を再計算する処理の例を示す説明図である。 クラスタリング支援システムの動作例を示すフローチャートである。 本発明によるクラスタリング支援システムの概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
 以下、本発明の実施形態を図面を参照して説明する。以下の説明では、分類対象のデータの一例として、動画(映像データ)を例示する。ただし、分類対象のデータは、動画に限られず、例えば、静止画や、音楽データ、テキストデータなどであってもよい。また、分類対象のデータは、ラベル付けされていてもよく、ラベル付けされていなくてもよい。
 図1は、本発明によるクラスタリング支援システムの一実施形態の構成例を示すブロック図である。本実施形態のクラスタリング支援システム1は、データ取得部10と、関連情報取得部20と、物体識別部30と、データ加工部40と、テキスト情報入力部50と、特徴抽出部60と、特徴記憶部70と、可視化処理部80と、入出力装置90とを備えている。
 データ取得部10は、分類対象のデータ、すなわち、クラスタリングの対象とするデータを取得する。例えば、カメラ(図示せず)によって動物が撮像されている場合、データ取得部10は、分類対象のデータとして、そのカメラが撮影した動物の動画を取得してもよい。なお、データ取得部10が取得するデータは、リアルタイムで取得されるデータに限られない。データ取得部10は、例えば、分類対象のデータが記憶されたストレージサーバ(図示せず)から、分類対象のデータを取得してもよい。
 関連情報取得部20は、分類対象のデータに関連する情報(以下、関連情報と記す。)を取得する。本実施形態では、関連情報は、分類対象のデータの生成された状況を示す情報であり、例えば、データが生成された場所(撮像された場所)や時間を表わす情報、センサにより取得されたデータ(以下、センサデータと記す。)である。
 例えば、分類対象のデータとして火力発電所の稼働状況を示す映像が用いられる場合、センサデータとして、例えば、燃料の流量、圧力、温度、回転数、発電量などが挙げられる。他にも、分類対象のデータとして農場の状況を示す映像が用いられる場合、センサデータとして、時間や温度、湿度、pH、土壌水分量、日射量、風向・風速、水位などが挙げられる。
 また、分類対象のデータが、車載カメラ(ドライブレコーダ)で撮像された映像データである場合、関連情報として車両位置を表わすGPS(Global Positioning System )情報や、CAN(Controller Area Network )に基づいて取得される情報などが挙げられる。この場合に取得されるセンサデータの例が、速度や加速度、位置(緯度、経度、高度など)である。
 物体識別部30は、取得されたデータに含まれる物体を識別し、識別した物体を特定する情報(以下、オブジェクトリストと記す。)を生成する。例えば、識別対象の物体が車両の場合、物体識別部30は、データ取得部10が取得したデータから、車両を識別し、その車両を特定する情報(例えば、画像中の位置を示す座標等)をオブジェクトリストとして生成してもよい。なお、画像や映像から物体を識別する方法は広く知られており、ここでは詳細な説明は省略する。
 データ加工部40は、後述する特徴抽出部60が処理を行う際に用いることができる態様にデータ(より具体的には、オブジェクトリスト)を加工する。具体的には、データ加工部40は、特徴抽出やクラスタリングの精度を向上させられるようにデータを加工する。データ加工部40は、例えば、データの間引きや、欠損値の補間、外れ値の除外、不要なデータ項目の削除などを行う。また、例えば、分類対象のデータが映像データの場合、データ加工部40は、映像データを数値時系列データへ変換してもよい。
 また、データ加工部40は、複数のデータに基づいてデータを加工してもよい。例えば、上述する動画データの場合、複数のサンプリングデータからデータを加工してもよい。以下の説明では、複数のデータに基づいて加工されたデータまたはデータ項目を、統計量と記すこともある。
 例えば、1秒サンプリングのデータに基づいて、データ加工部40は、5秒分のデータを用いた統計量を算出してもよい。なお、算出される統計量の内容は任意である。データ加工部40は、例えば、5点分のデータの平均値を算出してもよく、5点分のデータの中から最大値や最小値、中央値、最初(1秒目)のデータの値、最後(5秒目)のデータの値を特定してもよい。他にも、データ加工部40は、最大値と最小値の差分や、最初(1秒目)のデータと最後(5秒目)のデータの差分を算出してもよい。
 また、データ加工部40は、統計量を算出する予め設定された計算式を用いて統計量を算出してもよい。例えば、分類対象のデータに、速度および加速度が含まれている場合、データ加工部40は、「統計量=速度*5+加速度*2-100」のような計算式に基づいて統計量を算出してもよい。
 他にも、データ加工部40は、既知の変換式に基づいて統計量を算出してもよい。変換式として、例えば、自動車関連のデータについて、車方向データとヨーレートとの変換式、速度と加速度との変換式、などが挙げられる。
 なお、本実施形態では、統計量の算出処理をデータ加工部40が行う場合について例示しているが、後述する可視化処理部80が、可視化処理の前に統計量を算出してもよい。
 テキスト情報入力部50は、分類対象の各データに付加する情報(以下、付加情報と記す。)を含むテキストデータの入力を受け付ける。付加情報は、関連情報以外で取得し得る分類対象のデータの内容を示す情報である。付加情報を示すカテゴリとして、例えば、天気や植物の種類、被写体などが挙げられる。天気のカテゴリ値の例として、晴れ・曇り・雨・雪などが挙げられ、植物の種類のカテゴリ値の例として、米・小麦・大麦などが挙げられ、被写体の例として、犬・猫・人・自動車・自転車などが挙げられる。
 なお、テキストデータの入力は任意である。すなわち、分類対象のデータに対する付加情報が入力されていなくてもよい。ただし、分類対象のデータに付加情報が増えるほど、分類の精度を向上できるため、入力されることが好ましい。以下の説明では、付加情報が対応付けられた分類対象のデータも、単に分類対象のデータと記す。
 図2は、本実施形態のクラスタリング支援システム1で利用されるデータの例を示す説明図である。図2に示す例では、データ取得部10が分類対象のデータとして映像11を取得し、関連情報取得部20は、映像11が撮影された場所等に関する関連情報21を取得したことを示す。また、図2に示す例では、データ加工部40が、映像11および関連情報21(より具体的には、物体識別部30により生成されたオブジェクトリスト)を加工して数値時系列データ41を生成したことを示す。さらに、図2に示す例では、テキスト情報入力部50が、付加情報として、天気、シーン、時間帯および物体に関する情報を含むテキストデータ51の入力を受け付けたことを示す。
 特徴抽出部60は、分類対象の各データから特徴を抽出する。本実施形態の特徴抽出部60は、付加情報を含む分類対象の各データを機械学習により自動的に分類することで複数のクラスタを生成する。機械学習によりクラスタを生成する方法は任意であり、教師あり学習であってもよく、教師なし学習であってもよい。教師なし学習の例として、例えば、k-means法や、混合ガウスモデルなどが挙げられる。
 そして、特徴抽出部60は、生成したクラスタに含まれる各データの特徴量を抽出する。特徴抽出部60は、例えば、テキストデータに含まれている付加情報や、各データ項目、算出した統計量を特徴量として抽出してもよい。他にも、特徴抽出部60は、数値時系列データが示す特徴量を抽出してもよい。具体的には、特徴抽出部60は、分類対象のデータ(より具体的には、数値時系列データ)に含まれる情報(具体的には、センサ値など)に基づいて特徴量を抽出してもよい。
 なお、数値時系列データから特徴量を抽出する方法は任意である。例えば、k-means法により生成された各クラスタについて、特徴抽出部60は、クラスタに含まれる数値時系列データの重心点から各データまでの距離(cluster distance feature)という特徴量を抽出してもよい。   
 このように、特徴抽出部60は、分類対象のデータを教師なし学習などにより分類する処理を行うことから、分類手段ということもできる。また、本実施形態では、データ取得部10と関連情報取得部20により取得された情報から物体識別部30が物体を識別し、識別結果に対してデータ加工部40が、特徴抽出部60が用いる形式にデータを加工する場合について説明した。ただし、データ取得部10が、直接、特徴抽出部60が用いる形式のデータを取得し、取得したデータを特徴抽出部60に入力してもよい。この場合、クラスタリング支援システム1は、関連情報取得部20、物体識別部30およびデータ加工部40を備えていなくてもよい。
 特徴記憶部70は、特徴抽出部60が抽出した各分類対象のデータの特徴量を記憶する。特徴記憶部70が分類対象のデータごとの特徴量を記憶する態様は任意である。図3は、特徴記憶部70が記憶する特徴量の例を示す説明図である。図3に示す例では、縦方向が1つの特徴点を表わし、横方向が各カテゴリ(例えば、天気、被写体、植物の種類など)の特徴量(カテゴリ値)を表わしている。特徴記憶部70は、例えば、磁気ディスク等により実現される。
 可視化処理部80は、分類対象のデータをグラフ上に可視化する処理を行う。ここで、分類対象のデータには、複数の特徴量が含まれることが一般的である。そこで、可視化処理部80は、分類対象のデータをクラスタ化した様子を人間が観察できるように、分類対象のデータを次元削減(低次元化)したものを、入出力装置90にグラフ描画することで表示する。
 ここで、分類対象のデータの次元削減とは、分類対象データに含まれる特徴量を各次元とする高次元データを、できる限り重要な情報を保持したまま低次元データに変換する処理を示す。次元削減の方法として、PCA(主成分分析:principal component analysis)や、t-SNE(t-distributed Stochastic Neighbor Embedding )、UMAP(Uniform Manifold Approximation and Projection )などが挙げられる。
 可視化処理部80は、例えば、上述するUMAPにより、2次元または3次元に分類対象のデータを次元削減し、次元削減されたデータを、分布図などのグラフとして可視化してもよい。
 図4は、次元削減されたデータをグラフで可視化した例を示す説明図である。図4に例示するグラフは、UMAPにより2次元に次元削減した分類対象のデータを、点の集合で表示した例を示す。また、図5は、次元削減されたデータをグラフで可視化した他の例を示す説明図である。図5に例示するグラフは、UMAPにより3次元に次元削減した分類対象のデータを、点の集合で表示した例を示す。
 なお、可視化処理部80は、入出力装置90を介してユーザに指定された分類対象データについて、その分類対象データの特徴量や統計量をグラフとは別に表示してもよい。さらに、複数の分類対象データが指定された場合、可視化処理部80は、指定された全ての分類対象データについて、特徴量や統計量を表示してもよい。なお、このときの表示方法は任意であり、可視化処理部80は、それぞれの情報を並べて表示してもよく、切り替え可能に表示してもよい。
 このような複数の情報を表示することで、例えば、同一クラスタ内の異なるデータ間(例えば、クラスタの左側と右側)や、別クラスタのデータ間で特徴量にどのような違いがあるのかを確認することが可能になる。
 一方、次元削減により可視化されたグラフは、分類対象のデータをクラスタ化した様子を容易に把握できる一方、そのクラスタがどのような意味を有するクラスタなのか(すなわち、なぜそのように分類されたのか)把握することが困難な場合がある。そこで、本実施形態では、可視化処理部80は、生成されたクラスタに含まれる分析対象のデータを、その分類対象のデータの特徴量に応じて、対応するグラフ上の位置に所定の態様で入出力装置90に表示する。所定の態様として、点や記号などが挙げられる。
 さらに、本実施形態では、可視化処理部80は、特徴量ごとの数値情報に応じてグラフ上に表示する態様を変化させる。なお、分類対象のデータには複数の特徴量が含まれるため、対象とする特徴量は入出力装置90を介してユーザ等により選択される。ここで、本実施形態における特徴量の数値情報には、「速度」や「加速度」など、特徴量として直接的に得られる値だけでなく、「車体の向き」のように、その特徴量に応じて得られる値(例えば、角度など)が含まれる。さらに、特徴量の数値情報には、特徴量の抽出元の各データ(すなわち、特徴抽出部60に入力された分類対象の各データ)や、可視化処理前に特徴抽出部60から得られた特徴量、分類対象の各データを使って算出された統計量なども含まれる。
 また、特徴量の数値情報に応じて態様を変化させる方法として、数値に応じて色の濃淡を変化させる方法や、輝度を変化させる方法などが挙げられる。なお、変化させる方法は、濃度や輝度を変化させる方法に限定されない。可視化処理部80は、例えば、特徴量の数値情報に応じて、表示する態様の大きさ(例えば、点の大きさ)を変化させたり、態様そのものを変化させたり(例えば、記号自体を変化させる)してもよい。
 図6は、特徴量ごとの数値情報に応じてグラフ上に表示する態様を変化させた例を示す説明図である。図6に示す例は、図4に例示するグラフに対し、指定された特徴量(例えば、自車速度の平均値、など)の数値情報に応じて、網掛けの濃さを変化させたものである。なお、図6に例示するグラフは、表示の関係上、図4に例示するグラフにおけるいくつかの点をサンプリングして拡大表示したものである。また、図6に例示するグラフの右側に示すバーは、表示の関係上、範囲を区切って網掛けの濃さが変化しているが、値に応じたグラデーション表示されることが好ましい。
 なお、図6に例示するように、特徴量(例えば、自車速度の平均)に応じてグラフが表示されることから、図6に例示するグラフは、自車速度の平均値の分布を示すグラフであるとも言える。例えば、濃淡で特徴量の数値情報の大小が表わされている場合、クラスタによって色の濃淡が区別できる場合には、その特徴量がクラスタ化に大きな影響を与えていると判断でき、逆に、濃淡の区別ができない場合には、その特徴量がクラスタ化に与える影響は小さいと判断できる。
 このような判断を可視化処理部80が自動で行ってもよい。可視化処理部80は、例えば、表示したグラフから、クラスタを構成している分類対象データの集合を特定し、特定した分類対象データを示す画素の画素値(濃淡)について平均値および分散などの統計量を算出してもよい。この場合、例えば、平均値が所定の値より小さく、かつ、分散が所定の値より小さい場合、可視化処理部80は、画素値が小さい値が多く集まっていると判断し、その特徴量がクラスタ化に寄与していると判断してもよい。
 また、上記説明では、入出力装置90がユーザから1つの特徴量の指定を受け付け、可視化処理部80が、その特徴量の数値情報に応じてグラフ上に表示する態様を変化させる場合について説明した。ただし、特徴量の指定は1つに限られず、複数であってもよい。特徴量が複数指定された場合、可視化手段80は、2以上の特徴量の数値情報を同時に示すように態様を変化させて表示してもよい。
 具体的には、可視化処理部80は、受け付けた特徴量の数値情報ごとに態様を変化させたグラフを、それぞれ表示してもよい。この場合、可視化処理部80は、それぞれのグラフを並列表示、または、切替表示してもよい。
 他にも、可視化処理部80は、2以上の特徴量の数値情報を1つのグラフ上に同時に示すようにしてもよい。例えば、可視化処理部80は、特徴量ごとに表示する色を決定し、特徴量の数値情報ごとに各色の濃淡を決定し、決定した各色を重ね合わせて混色表示してもよい。
 なお、混色表示する際に用いる色の種類は、予め定めておけばよい。例えば、3種類ほどの色を混色表示することを想定し、互いに独立な色光(例えば、赤・緑・青)がそれぞれ定められ、可視化処理部80は、これらの混色(例えば、シアン・マゼンダ・イエロー)を表示してもよい。
 なお、2以上の特徴量の数値情報を1つのグラフ上に同時に示す方法は、混色表示する方法に限定されない。可視化処理部80は、他にも、例えば、記号の大きさと、色の濃淡または網掛けの組み合わせに基づいて分類対象のデータを表示してもよい。
 また、2以上の特徴量が指定された場合、可視化処理部80は、指定された特徴量間の相関や類似性に基づいて、特徴量の態様を変化させて表示してもよい。例えば、指定された2以上の特徴量のうち一の特徴量が選択された場合、可視化処理部80は、選択された一の特徴量と他の残りの特徴量との相関の強さに応じて、他の残りの特徴量の表示態様を変化させてもよい。
 図7は、特徴量間の相関を表示した例を示す説明図である。図7に示す例では、特徴量A、特徴量B、特徴量Cおよび特徴量Dが指定された場合に、特徴量Aが選択されると、可視化処理部80が、特徴量Aとの相関の強さに応じて、他の残りの特徴量B~Dの網掛け表示を変化させた例を示す。
 なお、相関を表示する方法は、図7に例示するような網掛けに限定されない。可視化処理部80は、例えば、網掛け表示の代わりに、指定された色に変更(相関の強い項目を赤色、相関の弱い項目を青色、など)して特徴量を表示してもよい。
 さらに、可視化処理部80は、表示したグラフ上で指定された範囲の分類対象データについて統計量を再計算し、再計算された統計量に応じて、指定された範囲の分類対象データをグラフ上に表示する態様を変化させてもよい。可視化処理部80は、例えば、指定された範囲内の分類対象データの特徴量について平均値を再計算し、再計算された平均値に応じて表示する態様を変化させてもよい。このとき、可視化処理部80は、指定された範囲の分類対象データのみを対象としたグラフを再描画してもよく、指定された範囲内のみ分類対象データの態様を変化させて表示してもよい。
 図8は、グラフ上の分類対象データを指定して統計量を再計算する処理の例を示す説明図である。図8に示す例は、図6に例示するグラフの中から破線で示す範囲の分類対象データを指定し、その指定した範囲内で統計量を再計算した結果を表示した例を示す。図8に例示するように、範囲を指定して再計算することで、例えばクラスタ内のデータに限定した詳細な分布を把握することが可能になる。
 また、可視化処理部80は、指定された範囲の分類対象データに対して複数の統計量を再計算してもよい。そして、可視化処理部80は、複数の統計量の指定を受け付け、受け付けた複数の統計量を1つのグラフ上に同時に示すようにしてもよく、指定された統計量の相関や類似性に基づいて、特徴量の態様を変化させて表示してもよい。
 このように指定された範囲内の分類対象データを対象として表示を行うことで、クラスタ内や近傍のクラスタにおけるデータ分布を詳細に確認することや、指定した範囲内の統計量やデータ間の相関を表示することも可能になる。
 入出力装置90は、可視化処理部80による処理結果を表示する。また、入出力装置90は、上述するような、表示した結果に対するユーザからの入力を受け付け、入力に応じた処理を可視化処理部80に実行させる。入出力装置90は、例えば、タブレット端末などにより実現されてもよい。他にも、入出力装置90は、ディスプレイ装置とポインティングデバイスを有する装置等により実現されてもよい。
 データ取得部10と、関連情報取得部20と、物体識別部30と、データ加工部40と、テキスト情報入力部50と、特徴抽出部60と、可視化処理部80とは、プログラム(クラスタリング支援プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit ))によって実現される。
 例えば、プログラムは、クラスタリング支援システム1の記憶部(図示せず)に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、データ取得部10、関連情報取得部20、物体識別部30、データ加工部40、テキスト情報入力部50、特徴抽出部60、および、可視化処理部80として動作してもよい。また、クラスタリング支援システム1の機能がSaaS(Software as a Service )形式で提供されてもよい。
 データ取得部10と、関連情報取得部20と、物体識別部30と、データ加工部40と、テキスト情報入力部50と、特徴抽出部60と、可視化処理部80とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
 また、クラスタリング支援システム1の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
 次に、本実施形態のクラスタリング支援システム1の動作を説明する。図9は、クラスタリング支援システム1の動作例を示すフローチャートである。図9に例示する動作例は、データ取得部10が、直接、特徴抽出部60が用いる形式のデータを取得し、取得したデータを特徴抽出部60に入力した場合の動作例である。
 特徴抽出部60は、分類対象のデータを機械学習により分類することで複数のクラスタを生成する(ステップS11)。そして、可視化処理部80は、特徴量ごとの数値情報に応じて変化させた態様で、生成されたクラスタに含まれる分類対象のデータを対応するグラフ上の位置に表示する(ステップS12)。
 以上のように、本実施形態では、特徴抽出部60が、分類対象のデータを機械学習により分類することで複数のクラスタを生成し、可視化処理部80が、生成されたクラスタに含まれる分類対象のデータを、その分類対象のデータの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示する。その際、可視化処理部80が、特徴量ごとの数値情報に応じて、分類対象のデータを上記グラフ上に表示する態様を変化させる。そのような構成により、クラスタリングに寄与したデータ項目の把握を支援できる。
 例えば、AIを単純に用いてデータをクラスタに分類しただけでは、その分類した理由が不明確な場合が多い。このような場合、一般的な方法では、目視でデータや動画を確認して、主観的に共通点を見出すことが行われる。しかし、全データを目視や表計算ソフトなどで確認することは現実的ではないため、サンプリングしたデータを対象に理由が判断される。しかし、このような方法では、サンプリングするデータに大きく依存してしまうため、クラスタ化された理由を適切に判断することは難しい。
 一方、本実施形態では、可視化処理部80が、特徴量ごとの数値情報に応じて変化させた態様で、生成されたクラスタに含まれる分類対象のデータをグラフに一覧表示する。そのため、データの分布を特徴量ごとに俯瞰して確認できるため、クラスタリングに寄与したデータ項目の把握が容易になる。
 次に、本発明の概要を説明する。図10は、本発明によるクラスタリング支援システムの概要を示すブロック図である。本発明によるクラスタリング支援システム180(例えば、クラスタリング支援システム1)は、対象データ(例えば、分類対象のデータ)を機械学習により分類することで複数のクラスタを生成する分類手段181(例えば、特徴抽出部60)と、生成されたクラスタに含まれる対象データを、その対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様(例えば、点や記号など)で表示する表示手段182(例えば、可視化処理部80)とを備えている。
 そして、表示手段182は、特徴量ごとの数値情報に応じて、対象データをグラフ上に表示する前記態様を変化させる。
 そのような構成により、クラスタリングに寄与したデータ項目の把握を支援できる。
 また、表示手段182は、2以上の特徴量の数値情報を同時に示すように態様を変化させて表示してもよい。
 具体的には、表示手段182は、各特徴量の数値情報が示す色を重ね合わせて混色表示してもよい。
 また、表示手段182は、数値情報に応じて態様の濃淡または輝度を変化させてもよい。
 また、表示手段182は、表示したグラフ上で指定された範囲の対象データについて統計量を再計算し、再計算された統計量に応じて、その指定された範囲の分類対象データをグラフ上に表示する態様を変化させてもよい。
 また、表示手段182は、指定された特徴量間の相関に基づいて、特徴量の態様を変化させて表示してもよい。
 また、表示手段182は、対象データを次元削減(例えば、2次元や3次元に次元を圧縮)してグラフ上に表示してもよい。
 図11は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
 上述のクラスタリング支援システム80は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(クラスタリング支援プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
 なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
 また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)対象データを機械学習により分類することで複数のクラスタを生成する分類手段と、
 生成されたクラスタに含まれる前記対象データを、当該対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示する表示手段とを備え、
 前記表示手段は、前記特徴量ごとの数値情報に応じて、前記対象データを前記グラフ上に表示する前記態様を変化させる
 ことを特徴とするクラスタリング支援システム。
(付記2)表示手段は、2以上の特徴量の数値情報を同時に示すように態様を変化させて表示する
 付記1記載のクラスタリング支援システム。
(付記3)表示手段は、各特徴量の数値情報が示す色を重ね合わせて混色表示する
 付記2記載のクラスタリング支援システム。
(付記4)表示手段は、数値情報に応じて態様の濃淡または輝度を変化させる
 付記1から付記3のうちのいずれか1つに記載のクラスタリング支援システム。
(付記5)表示手段は、表示したグラフ上で指定された範囲の対象データについて統計量を再計算し、再計算された統計量に応じて、当該指定された範囲の分類対象データをグラフ上に表示する態様を変化させる
 付記1から付記4のうちのいずれか1つに記載のクラスタリング支援システム。
(付記6)表示手段は、指定された特徴量間の相関に基づいて、特徴量の態様を変化させて表示する
 付記1から付記5のうちのいずれか1つに記載のクラスタリング支援システム。
(付記7)表示手段は、対象データを次元削減してグラフ上に表示する
 付記1から付記6のうちのいずれか1つに記載のクラスタリング支援システム。
(付記8)対象データを機械学習により分類することで複数のクラスタを生成し、
 生成されたクラスタに含まれる前記対象データを、当該対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示し、
 前記表示の際、前記特徴量ごとの数値情報に応じて、前記対象データを前記グラフ上に表示する前記態様を変化させる
 ことを特徴とするクラスタリング支援方法。
(付記9)2以上の特徴量の数値情報を同時に示すように態様を変化させて表示する
 付記8記載のクラスタリング支援方法。
(付記10)コンピュータに、
 対象データを機械学習により分類することで複数のクラスタを生成する分類処理、および、
 生成されたクラスタに含まれる前記対象データを、当該対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示する表示処理を実行させ、
 前記表示処理で、前記特徴量ごとの数値情報に応じて、前記対象データを前記グラフ上に表示する前記態様を変化させる
 ためのクラスタリング支援プログラムを記憶するプログラム記憶媒体。
(付記11)コンピュータに、
 表示処理で、2以上の特徴量の数値情報を同時に示すように態様を変化させて表示させるためのクラスタリング支援プログラムを記憶する
 付記10記載のプログラム記憶媒体。
(付記12)コンピュータに、
 対象データを機械学習により分類することで複数のクラスタを生成する分類処理、および、
 生成されたクラスタに含まれる前記対象データを、当該対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示する表示処理を実行させ、
 前記表示処理で、前記特徴量ごとの数値情報に応じて、前記対象データを前記グラフ上に表示する前記態様を変化させる
 ためのクラスタリング支援プログラム。
(付記13)コンピュータに、
 表示処理で、2以上の特徴量の数値情報を同時に示すように態様を変化させて表示させる
 付記12記載のクラスタリング支援プログラム。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 1 クラスタリング支援システム
 10 データ取得部
 20 関連情報取得部
 30 物体識別部
 40 データ加工部
 50 テキスト情報入力部
 60 特徴抽出部
 70 特徴記憶部
 80 可視化処理部
 90 入出力装置

Claims (11)

  1.  対象データを機械学習により分類することで複数のクラスタを生成する分類手段と、
     生成されたクラスタに含まれる前記対象データを、当該対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示する表示手段とを備え、
     前記表示手段は、前記特徴量ごとの数値情報に応じて、前記対象データを前記グラフ上に表示する前記態様を変化させる
     ことを特徴とするクラスタリング支援システム。
  2.  表示手段は、2以上の特徴量の数値情報を同時に示すように態様を変化させて表示する
     請求項1記載のクラスタリング支援システム。
  3.  表示手段は、各特徴量の数値情報が示す色を重ね合わせて混色表示する
     請求項2記載のクラスタリング支援システム。
  4.  表示手段は、数値情報に応じて態様の濃淡または輝度を変化させる
     請求項1から請求項3のうちのいずれか1項に記載のクラスタリング支援システム。
  5.  表示手段は、表示したグラフ上で指定された範囲の対象データについて統計量を再計算し、再計算された統計量に応じて、当該指定された範囲の分類対象データをグラフ上に表示する態様を変化させる
     請求項1から請求項4のうちのいずれか1項に記載のクラスタリング支援システム。
  6.  表示手段は、指定された特徴量間の相関に基づいて、特徴量の態様を変化させて表示する
     請求項1から請求項5のうちのいずれか1項に記載のクラスタリング支援システム。
  7.  表示手段は、対象データを次元削減してグラフ上に表示する
     請求項1から請求項6のうちのいずれか1項に記載のクラスタリング支援システム。
  8.  対象データを機械学習により分類することで複数のクラスタを生成し、
     生成されたクラスタに含まれる前記対象データを、当該対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示し、
     前記表示の際、前記特徴量ごとの数値情報に応じて、前記対象データを前記グラフ上に表示する前記態様を変化させる
     ことを特徴とするクラスタリング支援方法。
  9.  2以上の特徴量の数値情報を同時に示すように態様を変化させて表示する
     請求項8記載のクラスタリング支援方法。
  10.  コンピュータに、
     対象データを機械学習により分類することで複数のクラスタを生成する分類処理、および、
     生成されたクラスタに含まれる前記対象データを、当該対象データの特徴量に応じて、対応するグラフ上の位置に所定の態様で表示する表示処理を実行させ、
     前記表示処理で、前記特徴量ごとの数値情報に応じて、前記対象データを前記グラフ上に表示する前記態様を変化させる
     ためのクラスタリング支援プログラムを記憶するプログラム記憶媒体。
  11.  コンピュータに、
     表示処理で、2以上の特徴量の数値情報を同時に示すように態様を変化させて表示させるためのクラスタリング支援プログラムを記憶する
     請求項10記載のプログラム記憶媒体。
PCT/JP2022/035834 2022-09-27 2022-09-27 クラスタリング支援システム、方法およびプログラム WO2024069729A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/035834 WO2024069729A1 (ja) 2022-09-27 2022-09-27 クラスタリング支援システム、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/035834 WO2024069729A1 (ja) 2022-09-27 2022-09-27 クラスタリング支援システム、方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2024069729A1 true WO2024069729A1 (ja) 2024-04-04

Family

ID=90476603

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/035834 WO2024069729A1 (ja) 2022-09-27 2022-09-27 クラスタリング支援システム、方法およびプログラム

Country Status (1)

Country Link
WO (1) WO2024069729A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08255173A (ja) * 1995-03-16 1996-10-01 Fuji Xerox Co Ltd クラスタリング装置
JP2006309390A (ja) * 2005-04-27 2006-11-09 Hitachi Ltd 品目分類支援システムおよび品目分類支援プログラム
JP2016167323A (ja) * 2016-06-23 2016-09-15 日本電信電話株式会社 情報提示装置、方法、及びプログラム
JP2019066993A (ja) * 2017-09-29 2019-04-25 株式会社Screenホールディングス 教師データ作成支援装置、分類装置および教師データ作成支援方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08255173A (ja) * 1995-03-16 1996-10-01 Fuji Xerox Co Ltd クラスタリング装置
JP2006309390A (ja) * 2005-04-27 2006-11-09 Hitachi Ltd 品目分類支援システムおよび品目分類支援プログラム
JP2016167323A (ja) * 2016-06-23 2016-09-15 日本電信電話株式会社 情報提示装置、方法、及びプログラム
JP2019066993A (ja) * 2017-09-29 2019-04-25 株式会社Screenホールディングス 教師データ作成支援装置、分類装置および教師データ作成支援方法

Similar Documents

Publication Publication Date Title
CN109977812B (zh) 一种基于深度学习的车载视频目标检测方法
US10699167B1 (en) Perception visualization tool
JP7038744B2 (ja) 顔画像検索方法およびシステム、撮影装置、ならびにコンピュータ記憶媒体
Xu et al. Wheat ear counting using K-means clustering segmentation and convolutional neural network
Qiu et al. RGB-DI images and full convolution neural network-based outdoor scene understanding for mobile robots
US10963734B1 (en) Perception visualization tool
CN111881730A (zh) 一种火电厂现场安全帽佩戴检测方法
CN111767878B (zh) 嵌入式设备中基于深度学习的交通标志检测方法及***
CN111680556B (zh) 交通卡口车辆类型的识别方法、装置、设备及存储介质
WO2012139228A1 (en) Video-based detection of multiple object types under varying poses
CN111274926B (zh) 图像数据筛选方法、装置、计算机设备和存储介质
CN105809146A (zh) 一种图像场景识别方法和装置
CN115294150A (zh) 一种图像处理方法和终端设备
Xiao et al. Treetop detection using convolutional neural networks trained through automatically generated pseudo labels
Li et al. Robust vehicle detection in high-resolution aerial images with imbalanced data
CN115830399B (zh) 分类模型训练方法、装置、设备、存储介质和程序产品
CN111899515A (zh) 一种基于智慧道路边缘计算网关的车辆检测***
CN113378675A (zh) 一种同时检测和特征提取的人脸识别方法
CN112883926A (zh) 表格类医疗影像的识别方法及装置
CN113942521B (zh) 一种智能车路***下驾驶员风格辨识方法
CN112528058A (zh) 基于图像属性主动学习的细粒度图像分类方法
Yasruddin et al. Feasibility study of fish disease detection using computer vision and deep convolutional neural network (dcnn) algorithm
CN114842240A (zh) 融合ghost模块和注意力机制的MobileNetV2农作物叶片图像分类方法
Ali et al. IRUVD: a new still-image based dataset for automatic vehicle detection
CN116872961B (zh) 用于智能驾驶车辆的控制***

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22960793

Country of ref document: EP

Kind code of ref document: A1