WO2009107412A1 - Graph structure estimation apparatus, graph structure estimation method, and program - Google Patents

Graph structure estimation apparatus, graph structure estimation method, and program Download PDF

Info

Publication number
WO2009107412A1
WO2009107412A1 PCT/JP2009/050358 JP2009050358W WO2009107412A1 WO 2009107412 A1 WO2009107412 A1 WO 2009107412A1 JP 2009050358 W JP2009050358 W JP 2009050358W WO 2009107412 A1 WO2009107412 A1 WO 2009107412A1
Authority
WO
WIPO (PCT)
Prior art keywords
division
node
graph
importance
nodes
Prior art date
Application number
PCT/JP2009/050358
Other languages
French (fr)
Japanese (ja)
Inventor
遼平 藤巻
健司 山西
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2009107412A1 publication Critical patent/WO2009107412A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Definitions

  • the present invention relates to a graph structure estimation device, a graph structure estimation method, and a program.
  • a graph structure estimation that characterizes the structure of a graph composed of points (nodes) and edges (links) based on the importance of each node.
  • the present invention relates to a device, a graph structure estimation method, and a program.
  • Graph data is data represented by a node set and a link expressing a relationship between nodes.
  • Graph data includes, for example, data representing Web pages and hyperlinks, data representing SNS (social networking site) users and friendships, data representing network devices and traffic, and bases in protein structures. Data representing the interaction (interaction) between them can be mentioned.
  • each of the Web page, the user, the network device, and the base corresponds to a “node set”, and each of the hyperlink, friendship, traffic, and base interaction corresponds to a “link”.
  • Non-Patent Document 7 This property has been observed with regard to the importance of various nodes such as the number of links and page rank (Non-Patent Document 7) of the nodes.
  • the number of links of a node has a property that follows a ⁇ distribution (see FIG. 1)
  • the page rank has a property that follows a ⁇ distribution or a lognormal distribution.
  • Non-Patent Document 2 describes a technique for estimating a community structure by dividing a graph based on a description length when encoding a graph or a graph obtained in time.
  • Non-Patent Document 3 there is a technique for expressing and estimating the network structure by direct product of matrices, paying attention to the self-similarity of general networks including scale-free networks.
  • Non-Patent Document 4 describes a method according to the principle of minimum description length regarding an approximation method using a histogram.
  • Non-Patent Document 5 describes a method according to the Akaike information criterion for an approximation method using a histogram.
  • Non-Patent Document 6 describes a technique related to a framework for dynamic model selection.
  • the graph structure estimation technique described above has a problem that the graph structure cannot be specified according to the importance of the node.
  • Securing the graph according to the importance of the node can be regarded as classifying the node according to the activity of each node in the graph (network).
  • An object of the present invention is to provide a graph structure estimation device, a graph structure estimation method, and a program capable of solving the above-described problems.
  • the graph structure estimation apparatus of the present invention receives graph data represented by a plurality of nodes and links indicating the degree of relationship between the nodes among the plurality of nodes.
  • calculation means for calculating importance information indicating the degree of importance of the node, and each of the nodes based on the importance information of the node A dividing unit that divides the node into any of a plurality of groups; and an output unit that outputs a result of grouping the nodes as graph structure information of the graph data.
  • the graph structure estimation method of the present invention is a graph structure estimation method performed by a graph structure estimation device, and is represented by a plurality of nodes and links indicating the degree of relationship between the nodes among the plurality of nodes.
  • the program of the present invention is based on graph data when the computer receives graph data represented by a plurality of nodes and a link indicating the degree of relationship between each of the plurality of nodes. And calculating means for calculating importance information indicating the degree of importance of the node for each of the nodes, dividing each of the nodes into one of a plurality of groups based on the importance information of the node And a function of outputting the grouping result of the nodes as graph structure information of the graph data.
  • the present invention it becomes possible to classify the nodes based on the activity of the nodes, that is, the importance.
  • FIG. 2 is a block diagram showing the graph structure estimation apparatus 100 according to the first embodiment of the present invention.
  • the graph structure estimation device 100 includes a node importance calculation device 110, a graph partition calculation device 120, and an estimation structure output device 130.
  • the graph structure estimation apparatus 100 is a computer including a CPU, a memory, and an input / output device, for example.
  • the graph structure estimation apparatus 100 operates according to a program recorded on a hard disk or a memory.
  • a hard disk or memory can be generally called a computer-readable recording medium.
  • the graph structure estimation apparatus 100 functions as a node importance calculation apparatus 110, a graph division calculation apparatus 120, and an estimation structure output apparatus 130 by reading and executing a program from a recording medium.
  • the graph structure estimation apparatus 100 receives the graph data 140, estimates the structure of the graph formed by the graph data 140, and outputs the estimation result (graph structure estimation result) 150.
  • the graph data 140 is represented by a plurality of nodes and links indicating the degree (degree) of the relationship between the nodes among the plurality of nodes.
  • the link indicates the degree (degree) of the relationship between the nodes by numerical values.
  • the graph data 140 may be input as a single data. It is also possible to sequentially input graph data that changes with time in time series.
  • the node importance calculation device 110 can be generally called a calculation means.
  • the node importance calculation device 110 Upon receiving the graph data 140, the node importance calculation device 110 indicates the degree (degree) of the relationship between the node and all other nodes for each node indicated in the graph data 140 based on the graph data 140. Calculate node importance.
  • the node importance is an example of importance information.
  • the node importance calculation device 110 may store a rule for calculating the node importance of each node in advance, and calculate the node importance of each node according to the rule.
  • the node importance it is possible to use any index for calculating the importance or the degree (degree) of activity in the node graph.
  • the node importance calculation apparatus 110 calculates, for each node, the sum of the numerical values related to the same node among the numerical values indicated by the links. calculate.
  • the node importance calculation device 110 uses the sum calculated for each node as the node importance of each node.
  • the node importance calculation apparatus 110 calculates the page rank for each node by the page rank algorithm shown in Non-Patent Document 7.
  • the node importance calculation device 110 uses the page rank calculated for each node as the node importance of each node.
  • the node importance calculation apparatus 110 is configured by HITS (Hyperlink-Induced Topic) shown in Non-Patent Document 8.
  • the Hub index or authority index for each node is calculated by the Search algorithm.
  • the node importance calculation device 110 uses the hub index or authority index calculated for each node as the node importance of each node.
  • the node importance calculation device 110 provides importance information indicating the node importance of each node and the graph data 140 to the graph partition calculation device 120.
  • the graph partitioning calculation device 120 can generally be referred to as a partitioning means.
  • the graph partitioning calculation device 120 divides each node into one of a plurality of groups based on importance information (node importance of each node).
  • Node grouping means that a graph composed of graph data 140 is divided into groups.
  • the graph partitioning calculation device 120 uses the node importance value range (from the minimum value to the maximum value that can be taken by the node importance value) using one or more dividing node importance values (dividing node importance values). By dividing, a plurality of groups (in this case, each divided area of node importance) and nodes included in the divided area are determined. It should be noted that determining the nodes included in the divided area means dividing each node into a plurality of groups.
  • the graph partitioning calculation device 120 stores the rules for partitioning in advance, and divides each node into a plurality of groups based on the node importance and the graph data 140 according to the rules for partitioning. Also good.
  • the graph partitioning calculation device 120 includes information related to a graph partitioning result (for example, information indicating the number of partitioning of the graph, a partitioning method, and a partition region to which each node belongs), and importance information, and an estimated structure output device 130.
  • the estimated structure output device 130 can be generally referred to as output means.
  • the estimated structure output device 130 outputs, for example, a node grouping result as a graph structure estimation result (graph structure information) 150 of graph data. Note that the estimated structure output device 130 may output the result of node grouping and importance information as graph structure information of graph data.
  • the graph data 140 generally includes undirected graph data and directed graph data.
  • FIG. 3 is a diagram showing an example of undirected graph data.
  • the invalid graph data includes a plurality of nodes 2a and links 2b.
  • the numerical value “1” in the link 2b indicates that there is a link between corresponding nodes in the table shown in FIG.
  • the numerical value between the node 1 and the node 2 is “1”, which means that there is a link between the node 1 and the node 2.
  • the numerical value “0” in the link 2b indicates that there is no link between corresponding nodes in the table shown in FIG. For example, since the numerical value between the node 1 and the node n is “0”, it indicates that there is no link between the node 1 and the node n.
  • the link takes a binary value of “1” or “0”, but a real value representing the strength of the link may be used as a numerical value indicated by the link.
  • FIG. 4 is a diagram showing an example of directed graph data.
  • FIG. 4 shows that, for example, the strength of the link from the row node 1 to the column node 2 is “0.5”. Accompanying this, the number of rows (nr) and the number of columns (nc) need not be equal.
  • the node is each user, and the link may be a friend registration between users.
  • the node is each network device, and the link may be the traffic volume between the devices.
  • the graph data is denoted as G
  • the link from the (row) node i to the (column) node j is denoted as g ij .
  • G is a quantity representing the degree of density of the graph, and can be defined by, for example, the expression (1).
  • FIG. 5 is a block diagram illustrating an example of the graph structure estimation apparatus 100. 5, the same components as those shown in FIG. 2 are denoted by the same reference numerals.
  • the node importance calculation device 110 includes an importance calculation data storage unit 110a and an importance calculation unit 110b.
  • the importance calculation data storage unit 110a can be generally referred to as importance calculation data storage means.
  • the importance calculation data storage unit 110 a stores rules (for example, calculation formulas) for calculating the node importance of each node using the graph data 140.
  • the importance level calculation unit 110b can be generally called importance level calculation means.
  • the importance calculation unit 110b calculates the node importance of each node using the rules in the importance calculation data storage unit 110a and the graph data 140.
  • Any method can be used as the node importance calculation method.
  • the importance calculating unit 110b when describing the case of using the frequency of the link with the respective node as a node importance, the importance calculating unit 110b, the node importance x r for row node i, a i, absolute obtained according (2) It is possible to calculate the link frequency or the relative link frequency obtained according to the equation (3).
  • the importance calculation data storage unit 110a stores, for example, Expressions (1), (2), and (3).
  • the page rank shown in Non-Patent Document 7 the hub index and authority index shown in Non-Patent Document 8, or the like can be used.
  • the importance calculation data storage unit 110a stores a page rank calculation formula, a hub index, and an authority index calculation formula.
  • the importance calculation unit 110b provides importance information indicating the node importance of each node and the graph data 140 to the graph partition calculation device 120.
  • the graph division calculation device 120 includes a division data storage unit 120a and a graph division calculation unit 120b.
  • the division data storage unit 120a can be generally referred to as division data storage means.
  • the division data storage unit 120a stores rules (for example, node classification conditions) for dividing the graph formed by the graph data 140 using the node importance calculated by the node importance calculation device 100. To do.
  • the graph division calculation unit 120b divides the graph formed by the graph data 140 using the rules in the division data storage unit 120a, the node importance, and the graph data 140.
  • the graph division calculation unit 120b sets one or more division node importance levels according to the rules in the division data storage unit 120a, and divides the node importance levels using the division node importance levels.
  • the node importance indicates the number of links of the node
  • the number of links 100 or more ⁇ area 1
  • the number of links is 50 or more and less than 100 ⁇ area 2
  • the number of links is A rule is also conceivable in which the node classification destination (area; group) is absolutely determined according to the number of links, such as “less than 50 ⁇ area 3”.
  • the node importance indicates the number of links of the node
  • “the number of links is in the upper 30% ⁇ area 1 the number of links is less than the upper 50% ⁇ area
  • the number of links corresponding to the top 30% and the number of links corresponding to the top 50% are the node importance for division.
  • FIG. 6 is a diagram schematically showing an example of dividing the node importance into three parts using the two node importance levels for division.
  • the vertical axis represents the number of nodes corresponding to the node importance on the horizontal axis.
  • the node belonging to region 1 is interpreted as a normal node having only a few links
  • the node belonging to region 3 is interpreted as a hub node having a large number of links
  • the node belonging to region 2 is interpreted as an intermediate node. Is possible.
  • FIG. 7 is a diagram showing how the graph is divided when the row direction and the column direction of the directed graph are divided using the node importance for division.
  • the graph division calculation unit 120b provides the estimated structure output device 130 with the importance level information and information about the graph division result (hereinafter referred to as “graph structure information”).
  • the estimated structure output device 130 outputs, for example, one or both of graph structure information representing the structure of the graph estimated by the graph partitioning calculation device 120 and importance information calculated by the node importance calculation device 110. .
  • the output destination may be an output device such as a display connected to the graph structure estimation device 100, or may be an output device or a terminal device connected via a network.
  • the estimated graph structure is information such as which region each node belongs to, information such as the number of row and column divisions and the division width.
  • FIG. 8 is a flowchart for explaining the operation of the graph structure estimation apparatus 100.
  • the node importance calculation device 110 inputs undirected graph data or directed graph data (S100).
  • the node importance calculation device 110 calculates the node importance of each node indicated by the input graph data (S101).
  • the graph partition calculation device 120 calculates the node division (node grouping) of the graph using the calculated node importance (S102).
  • the estimated structure output device 130 selects either the graph structure information representing the structure of the graph (grouping result) estimated by the graph partitioning calculation device 120 or the importance information calculated by the node importance calculation device 110. Or both are output (S103).
  • the graph structure estimation apparatus 100 can estimate the graph structure by repeating this process.
  • the node importance calculation device 110 calculates importance information for each node.
  • the graph partitioning calculation device 120 divides each node into one of a plurality of groups based on the importance level information of the node.
  • the estimated structure output device 130 outputs the result of node grouping as graph structure information of graph data.
  • each node can be grouped according to the importance of the node. For example, a network having a hub structure is known to be vulnerable to attacks against the hub, but if nodes are classified according to importance according to this embodiment, the degree of necessity of defense against attacks for each node. Can be divided into levels.
  • the graph partitioning calculation device 120 divides the node importance value range representing the minimum value to the maximum value that can be taken by the node importance information by using one or more dividing node importance values.
  • the obtained plurality of divided regions are set as a plurality of groups.
  • FIG. 9 is a block diagram showing a graph structure estimation apparatus 200 according to the second embodiment of the present invention.
  • the graph structure estimation apparatus 200 is a computer including a CPU, a memory, and an input / output device, for example.
  • the graph structure estimation apparatus 200 operates according to a program recorded on a hard disk or a memory.
  • the graph structure estimation apparatus 200 functions as a node importance calculation apparatus 110, a node importance division optimization apparatus 210, and an estimation structure output apparatus 130 by reading and executing a program from a recording medium.
  • the graph structure estimation apparatus 200 replaces the graph partition calculation apparatus 120 in comparison with the graph structure estimation apparatus 100 according to the first embodiment illustrated in FIG. It differs in that it has the conversion device 210.
  • the node importance division optimization device 210 can be generally called a division unit, a division code length calculation unit, and a division control unit.
  • the node importance division optimization apparatus 210 includes a division optimization data storage unit 210a and a node importance division optimization unit 210b.
  • the division optimization data storage unit 210a can be generally referred to as division optimization data storage means.
  • the division optimization data storage unit 210a stores not a simple rule for dividing a graph but a calculation procedure for optimizing the division of the graph with respect to the input data (graph data).
  • the node importance division optimization device 210 calculates the optimal division model of the graph according to the calculation procedure in the division optimization data storage unit 210a.
  • Optimized parameters include, for example, the number of divisions and the size of each area. Based on this parameter, the node importance for division is determined.
  • the node importance division optimization apparatus 210 converts a node importance value range division model (setting of node importance for division) into an arbitrary optimization method (optimization criterion), for example, as shown in FIG. It is possible to calculate based on graph data using the minimum description length principle, Akaike information criterion, or Bayesian information criterion.
  • the node importance distribution (node importance distribution) in the node importance value range is approximated by a histogram, and a graph divided area is divided into each area of the histogram.
  • a method of making (group) correspond can be considered.
  • Non-Patent Document 3 a method according to the minimum description length principle (for example, Non-Patent Document 3) or a method according to the Akaike information criterion (for example, Non-Patent Document 4) is used. It is possible to use.
  • the node importance degree division optimization device 210 uses the number of node importance levels for division and the value of each node importance level (the result of dividing the range of node importance levels) as a division model, and for each different division model, The node description and the division description length necessary for encoding the division model are calculated.
  • the divided description length includes the description length of the divided model itself.
  • the node importance division optimization device 210 identifies an optimized division model having a minimum division description length from among different division models, and converts each of the nodes into an optimized division model based on importance information. Divided into one of a plurality of groups.
  • the node importance division optimization device 210 may optimize the division by approximating each of the node importance distributions in the row direction and the column direction by a histogram. Is possible.
  • the operation of the graph structure estimation apparatus 200 according to the present embodiment is calculated in step S101 instead of dividing according to a pre-stored rule when the graph division is calculated in step S102 of FIG.
  • the operation is the same as the operation of the graph structure estimation apparatus 100 according to the first embodiment shown in FIG. 2 except that the division information is optimized.
  • the node importance degree division optimization apparatus 210 calculates a node importance degree and a division description length necessary for encoding the division model for each different division model.
  • the node importance division optimization device 210 identifies an optimized division model that minimizes the division description length from among different division models, and optimizes each of the nodes based on node importance information. Divide into one of multiple groups specified in the model.
  • the division model can be optimized.
  • node importance division optimization apparatus 210 specifies an optimized division model using dynamic programming.
  • the node importance division optimization device 210 may identify the optimized division model by repeatedly updating the division result in the direction of reducing the division description length.
  • the node importance degree division optimization apparatus 210 sets the division result calculated by using dynamic programming as an initial value, and repeatedly updates the division result from the initial value in a direction of reducing the division description length.
  • the optimized division model may be specified.
  • FIG. 11 is a block diagram showing a graph structure estimation apparatus 300 according to the third embodiment of the present invention.
  • the graph structure estimation apparatus 300 is a computer including a CPU, a memory, and an input / output device, for example.
  • the graph structure estimation apparatus 300 operates according to a program recorded in a hard disk or memory.
  • the graph structure estimation apparatus 300 functions as a node importance calculation apparatus 110, a node importance division optimization apparatus 310, and an estimation structure output apparatus 130 by reading and executing a program from a recording medium.
  • the graph structure estimation apparatus 300 is different from the graph structure estimation apparatus 200 according to the second embodiment illustrated in FIG. The difference is that the degree division optimization device 310 is provided.
  • the node importance division optimization device 310 can be generally called a division means.
  • the node importance division optimization device 310 includes a code length calculation unit storage device 311 and an optimum parameter calculation device 314 as shown in FIG.
  • the code length calculation unit storage device 311 stores a graph code length calculation unit 312 and a node importance degree division code length calculation unit 313.
  • the node importance division optimization device 310 receives the graph data 140 and the node importance information 315 calculated by the node importance calculation device 110, and outputs a graph structure estimation result 150.
  • the code length calculation unit storage device 311 can be generally called code length calculation means.
  • the node importance division code length calculation unit 313 can be generally called division code length calculation means.
  • Graph code length calculation unit 312 can be generally called graph code length calculation means.
  • node importance division code length calculation unit 313 and the graph code length calculation unit 312 are programs that execute predetermined calculations when executed by a computer, for example.
  • the node importance division code length calculation unit 313 and the graph code length calculation unit 312 use the description length necessary for encoding the node importance information and the node importance division model in a certain parameter, and the source of the division. A procedure for calculating a description length for encoding a graph is shown.
  • the node importance division code length calculation unit 313 uses the division result of the node importance value range using the node importance for division as a division model, and codes the node importance information and the division model for each different division model.
  • the graph code length calculation unit 312 divides each of the nodes by grouping the nodes when dividing each of the nodes into any of a plurality of groups specified by the division model based on the node importance information.
  • the graph description length for encoding the graph is calculated for each division model.
  • the description length required for encoding the node importance division result can be calculated by the same method as that performed by the node importance division optimization apparatus 210.
  • graph G is split into several subgraphs (in FIG. 13, from G 1,1 to G 2,3 ), as shown in FIG.
  • the node importance division optimization device 310 assigns a probability distribution in which a link is generated to each subgraph (from p 1,1 to p 2,3 in FIG. 13).
  • the probability distribution that the link is generated can be a Bernoulli distribution.
  • the probability distribution that the link is generated can be a beta distribution.
  • the link when it takes a value of “0” or more, it can be an exponential distribution or a gamma distribution.
  • the node importance division optimization device 310 can assign an appropriate probability distribution according to the definition of the link.
  • the graph code length refers to the code length when the link of each subgraph is generated with the assigned probability (distribution).
  • each divided area has a different property as a node, it is natural to represent the interaction within each area and between each area using different models.
  • the optimum parameter calculation device 314 can be generally called a division control means.
  • the optimal parameter calculation device 314 When the optimal parameter calculation device 314 reads the graph data 140 and the node importance level information 315, the optimal parameter calculation device 314 reads the calculation units 312 and 313 stored in the code length calculation unit storage device 311 and uses the calculation units 312 and 313 to read the graph. A parameter (division model) that minimizes the sum of the code length and the code length of node importance division is calculated.
  • nodes are sorted according to the node importance, that is, x 1 ⁇ ... ⁇ x n.
  • n represents the number of nodes.
  • x n x 1 ,..., X n and the value range of x i is [0, R].
  • R i a i ⁇ a i ⁇ 1
  • the number of data belonging to each region is n i
  • log * d is an amount obtained by adding positive loglog ... logd as log d + loglog d + ... and is known to give the minimum description length when the distribution of d is unknown. Yes.
  • Expression (5) represents a description length for encoding xn
  • Expressions (8) and (9) represent a description length necessary for describing a model.
  • the model here refers to the number of divisions (m) and the division method (k, r, d, ⁇ ).
  • the graph code length can be defined by equations (10) and (11).
  • G i, j is the total number of links included in subgraph G i, j , ⁇ i, j is the probability of 1 for Bernoulli distribution p i, j assigned to subgraph G i, j.
  • n i and n j must also be encoded, since the code length of n i and n j are included in equation (5), included in the L G Not.
  • the optimum parameter calculation device 314 determines the optimum division parameter (division model) by solving the optimization problem of the equation (12).
  • the optimization method of the expression (12) specifies the parameter ranges as m min ⁇ m ⁇ m max , d min ⁇ d ⁇ d max , ⁇ min ⁇ ⁇ ⁇ ⁇ max, and comprehensively covers the parameter combinations.
  • a method of calculating the optimum parameter by calculating equation (12) is conceivable.
  • k p min ⁇ k p-1 q +, k p-1 q- ⁇ to calculate the k p as.
  • k p q + (k p 1 , k p 2 ,..., k p q + 1,..., k p m-1 )
  • k p q- (k p 1 , k p 2 ,..., k p q ⁇ 1,..., k p m ⁇ 1 )
  • the optimum parameter calculation device 314 identifies the optimized division model by repeatedly updating the division result in a direction to reduce the sum of the division description length and the graph description length.
  • n (R) is the number of nodes included in the interval [0, R] with node importance.
  • Equation (13) and (14) can be minimized by solving the dynamic programming problem of equation (16).
  • G m + 1, j depends on a ′
  • Equations (13) and (14) cannot be strictly minimized, but an approximate solution can be obtained. It is.
  • Equation (12) The object of minimization of equation (12) is the sum of equations (13) and (14) plus L (k) and L (m, r, d, ⁇ ). It is possible to narrow down the search space for the minimization problem of equation (12).
  • the optimum parameter calculation device 314 sets the division result calculated using dynamic programming as an initial value, and updates the division result from the initial value in a direction of reducing the sum of the division description length and the graph description length.
  • the first term and the second term on the right side of equation (17) are the row frequency and column node frequency distribution code lengths calculated in the same manner as equation (5), and the second term is the graph given by equation (18).
  • the fourth term to the seventh term represent the code length of the model calculated in the same manner as the equations (8) and (9).
  • the optimum parameter calculation device 314 calculates the parameters m r , r r , d r , ⁇ r , m c , r c , d c , ⁇ c , which minimize L in the equation (17).
  • Graph partitioning can be calculated.
  • the problem of minimizing the expression (17) can be reduced to a dynamic programming problem, and the optimum parameter calculation device 314 uses the dynamic programming method to obtain the optimum parameter. Can also be calculated.
  • the optimum parameter calculation device 314 calculates the sum of the description length necessary for encoding the division of the node importance range and the description length for encoding the graph under the division. Optimize the division parameters to be minimized (number of divisions, size of each area, etc.).
  • the operation of the graph structure estimation apparatus 300 according to the present embodiment is not calculated according to a pre-stored rule but calculated in step S101 when the graph is calculated in the process of step S102 of FIG.
  • the operation is the same as that of the graph structure estimation apparatus 100 according to the first embodiment shown in FIG. 2 except that the optimization of the division is performed on the node importance information.
  • an example using the minimum description length principle is described as an optimization criterion, but other similar criteria such as Akaike information criterion and Bayesian information criterion are used as optimization criteria. It is also possible to use it.
  • the node importance division code length calculation unit 313 uses the division result of the range of node importance as a division model, and encodes the node importance information and the division model for each different division model. Calculate the required division description length.
  • the graph code length calculation unit 312 When the graph code length calculation unit 312 divides each of the nodes into any of a plurality of groups specified by the division model based on the node importance information, the graph code length calculation unit 312 displays the graph divided by the node grouping. The graph description length for encoding is calculated for each division model.
  • the optimum parameter calculation device 314 specifies an optimized division model that minimizes the sum of the division description length and the graph description length from among different division models, and optimizes each of the nodes based on the node importance information. It is divided into one of a plurality of groups specified by the generalized division model.
  • FIG. 14 is a block diagram showing a graph structure estimation apparatus 400 according to the fourth embodiment of the present invention.
  • the graph structure estimation device 400 is a computer including a CPU, a memory, and an input / output device, for example.
  • the graph structure estimation apparatus 400 operates according to a program recorded on a hard disk or a memory.
  • the graph structure estimation device 400 functions as a node importance calculation device 110, a node importance division optimization device 410, and an estimation structure output device 130 by reading and executing a program from a recording medium.
  • the graph structure estimation apparatus 400 is different from the graph structure estimation apparatus 300 according to the third embodiment shown in FIG. The difference is that the degree-dividing optimization device 410 is provided.
  • the node importance division optimization device 410 can be generally called a division means.
  • the node importance division optimization device 410 includes a code length calculation unit storage device 411 and an optimum parameter calculation device 413, as shown in FIG.
  • the code length calculation unit storage device 411 stores a node importance division code length calculation unit 313 and a subgraph division code length calculation unit 412.
  • the node importance degree division optimization apparatus 410 receives the graph data 140 and the node importance degree information 315 calculated by the node importance degree calculation apparatus 110, and outputs a graph structure estimation result 150.
  • the functional difference from the graph structure estimation apparatus 300 according to the third embodiment is that, in this embodiment, a subgraph obtained by dividing a graph according to node importance is further converted into a subgraph. It is a point to divide.
  • the node importance division optimization device 410 uses a node importance value range division model (setting of node importance for division) as an arbitrary optimization method (optimization criterion), for example, the minimum description length principle, Akaike information amount It is possible to calculate based on graph data using a standard or a Bayesian information criterion.
  • FIG. 16 shows an example of graph division according to the present embodiment.
  • the left figure of FIG. 16 is an example of dividing the input graph according to the node importance, and the right figure shows that the partial graphs G 2 and 2 are further divided inside.
  • the code length calculation unit storage device 411 can be generally called code length calculation unit storage means.
  • the subgraph division code length calculation unit 412 can be generally called a subgraph division code length calculation means.
  • the node importance division code length calculation unit 313 and the subgraph division code length calculation unit 412 may be programs that execute predetermined calculations when executed by a computer, for example.
  • the node importance division code length calculation unit 313 and the subgraph division code length calculation unit 412 each have a description length necessary for encoding the division of the node importance value range in a certain parameter, and each part based on the division. The procedure for further dividing the graph and calculating the description length for encoding it is shown.
  • the subgraph division code length calculation unit 412 assigns each group generated when dividing each of the nodes into one of a plurality of groups specified by the division model based on the importance information of the node.
  • the subdivision code length necessary for encoding the subdivision state in each group is calculated for each division model.
  • the description length necessary for encoding the division of the node importance value range can be calculated by a method similar to the method performed by the node importance division optimization apparatus 210.
  • Subgraph division and its encoding method are, for example, the division method proposed in Non-Patent Document 1 and its description length calculation means, the well-known division method using a tree structure and its description length calculation means, etc. Can be used.
  • the optimum parameter calculation device 413 can be generally called a division control means.
  • the optimal parameter calculation device 413 reads the graph data 140 and the node importance information 315
  • the optimum parameter calculation device 413 reads the calculation units 313 and 412 stored in the code length calculation unit storage device 411, and uses the calculation units 313 and 412 to A parameter that minimizes the sum of the code length of the graph division and the code length of the division of the node importance value range is calculated.
  • the optimum parameter calculation device 413 identifies an optimized division model that minimizes the sum of the division description length and the subdivision code length from among different division models, and sets each of the nodes as node importance information. Based on the plurality of groups specified by the optimized division model.
  • the node importance division code length calculation unit 313 uses the division result of the node importance value range using the node importance for division as a division model, and sets the node importance and difference for each different division model. A division description length necessary for encoding the division model is calculated.
  • the subgraph division code length calculation unit 412 divides each group generated when each node is divided into any of a plurality of groups specified by the division model based on the node importance information of the node. When the subdivision is performed based on the relationship between the nodes, the subdivision code length necessary for encoding the subdivision state in each group is calculated for each division model.
  • the optimal parameter calculation device 413 identifies an optimized division model that minimizes the sum of the division description length and the re-division code length from among different division models, and determines each of the nodes based on the node importance information, It is divided into one of a plurality of groups specified by the optimized division model.
  • FIG. 17 is a block diagram showing a graph structure estimation apparatus 500 according to the fifth embodiment of the present invention.
  • the graph structure estimation apparatus 500 is a computer including a CPU, a memory, and an input / output device, for example.
  • the graph structure estimation apparatus 500 operates according to a program recorded on a hard disk or a memory.
  • the graph structure estimation apparatus 500 functions as a node importance calculation apparatus 510, a dynamic node importance division optimization apparatus 520, and an estimation structure output apparatus 130 by reading and executing a program from a recording medium.
  • the graph structure estimation apparatus 500 is replaced with the node importance calculation apparatus 110 in comparison with the graph structure estimation apparatus 200 according to the second embodiment illustrated in FIG. 9.
  • the graph structure estimation result 540 is a graph structure column at each time corresponding to the graph data 530.
  • the node importance calculation device 510 can be generally called a calculation means.
  • the node importance calculation device 510 receives graph data in time series, and calculates the node importance for each node represented in the graph data based on the graph data every time the graph data is received.
  • the node importance calculation device 510 has an arbitrary index (for example, the link frequency, page rank, hub index, or authority index of each node) as the node importance calculation device 110 as the node importance. Can be used.
  • the dynamic node importance division optimization apparatus 520 can be generally called division means.
  • the dynamic node importance division optimization device 520 divides the range of the node importance values by any optimization criterion (for example, the minimum description length principle, the Akaike information criterion, or Bayesian each time graph data is received. Optimized based on the node importance of each graph data according to the information amount standard).
  • optimization criterion for example, the minimum description length principle, the Akaike information criterion, or Bayesian each time graph data is received. Optimized based on the node importance of each graph data according to the information amount standard).
  • the dynamic node importance division optimization device 520 includes a graph sequence code length calculation unit storage device 511, a model sequence code length calculation unit storage device 512, and an optimal parameter calculation device 513. ing.
  • the dynamic node importance division optimization device 520 receives the graph data 530 and the node importance information 514 calculated by the node importance calculation device 510, and outputs a graph structure estimation result 540.
  • the optimum parameter calculation device 513 can be generally called a division control means.
  • the optimum parameter calculation device 513 uses calculation means read from the graph sequence code length calculation unit storage device 511 and the model sequence code length calculation unit storage device 512 for the input graph data 530 and node importance level information 514.
  • the model (division model) that minimizes the sum of the code lengths of the graph sequence and the model sequence calculated in this way is selected.
  • the optimal parameter calculation device 513 can be realized by using a dynamic model selection framework proposed in Non-Patent Document 6, for example.
  • the optimum parameter calculation device 513 represents a code length for encoding the data sequence (in this embodiment, the graph sequence G t and the node importance sequence x t, n ) and the model sequence M t. (19) Select a model that minimizes the equation.
  • the code length of the graph sequence calculated by the graph sequence code length calculation unit 511 is the first term on the right side of the equation (19), and is stored in the code length calculation unit storage device 311 or the code length calculation unit storage device 411, for example.
  • the code length can be calculated by the calculation unit.
  • the graph string code length calculation unit 511 can use the expressions (5) and (10) as the code length of the graph string.
  • the graph sequence code length calculation unit 511 can also define and calculate the first term on the right side of Equation (19) using predictive probabilistic complexity. is there.
  • the code length of the model sequence calculated by the model sequence code length calculation unit storage device 512 is the second term on the right side of the equation (19).
  • the code length calculation unit storage device 311 or the code length calculation unit storage device 411 The code length calculated by the stored calculation unit can be used.
  • the expressions (8) and (9) correspond to the description length of the model.
  • the second term on the right side of the equation (19) is defined and calculated using a predictive stochastic complexity for the model in consideration of the time transition model of the model. Is also possible.
  • the optimal parameter calculation device 513 sets a combination of candidate model sequences and parameters in advance as a method for calculating the model sequence and parameters for minimizing the formula (19), and calculates the formula (19) for each. Then, a method of selecting a model string and a parameter that are minimized can be considered.
  • Non-Patent Document 6 it is also possible to calculate a model sequence for minimizing the equation (19) using dynamic programming.
  • the dynamic node importance division optimization device 520 optimizes the division result of the node importance value range based on the node importance of each graph data according to an arbitrary optimization criterion. .
  • the structure can be specified.
  • the structure can be estimated with high accuracy.
  • FIG. 19 is a block diagram showing a graph structure estimation apparatus 600 according to the sixth embodiment of the present invention.
  • the graph structure estimation apparatus 600 is a computer including a CPU, a memory, and an input / output device, for example.
  • the graph structure estimation apparatus 600 operates according to a program recorded in a hard disk or memory.
  • the graph structure estimation apparatus 600 reads out and executes a program from a recording medium, thereby forming a node importance calculation apparatus 110, a dynamic node importance division optimization apparatus 610, a model parameter storage apparatus 620, and an estimated structure output apparatus 130. Function.
  • the graph structure estimation apparatus 600 is replaced with the node importance degree division optimization apparatus 210 as compared with the graph structure estimation apparatus 200 according to the second embodiment illustrated in FIG. 9.
  • the difference is that a graph structure estimation result 640 is output.
  • Graph data 630 when a series obtainable graph, the graph data input at time t and G t.
  • the graph structure estimation result 640 is a graph structure at each time corresponding to the graph data 630.
  • the model parameter storage device 620 can be generally referred to as storage means.
  • the parameter of the time transition model calculated up to the previous time (this parameter indicates the division result of the past optimized node distribution (node importance value range)). Is remembered.
  • the parameters of the time transition model correspond to, for example, M t , ⁇ Mt t , ⁇ t, etc., as described in the fifth embodiment.
  • the dynamic node importance division optimization device 610 can be generally called division control means.
  • the dynamic node importance division optimization device 610 reads the graph data 630, the node importance information calculated by the node importance calculation device 110, and the parameters stored in the model parameter storage device 620, and at that time Calculate the division according to the node importance information of the graph. For this calculation, for example, a sequential dynamic selection algorithm proposed in Non-Patent Document 3 can be applied.
  • the dynamic node importance division optimization device 610 For example, each time the graph data is received, the dynamic node importance division optimization device 610, the division result of the past optimized node importance value range stored in the model parameter storage device 620, the Based on the node importance information, the node importance value range division model is optimized according to any optimization criterion (for example, the minimum description length principle, Akaike information criterion, or Bayesian information criterion). .
  • any optimization criterion for example, the minimum description length principle, Akaike information criterion, or Bayesian information criterion.
  • the dynamic node importance division optimization apparatus 610 predictively expressed by equation (20) for all candidate models. Calculate probabilistic complexity. Then, the dynamic node importance division optimization apparatus 610 selects and outputs the model corresponding to the minimum value as the optimum model for each time.
  • the dynamic node importance division optimization device 610 performs the past optimized node distribution (range of node importance values stored in the model parameter storage device 620) each time graph data is received. ) And the node importance value information for each node, the division of the node importance value range is optimized according to an arbitrary optimization criterion. For this reason, a division
  • the upper area of the node importance distribution corresponds to a node having many links. By analyzing the nodes that enter this area, it is possible to discover opinion leaders and analyze relationships among opinion leaders. In particular, in the case of a directed graph, it is possible to analyze a node having a high transmission and a node having a high reception.
  • words with many links are phrases related to the topic that is currently popular, and it is possible to analyze such relationships and structures It becomes.

Abstract

Provided are a graph structure estimation apparatus, a graph structure estimation method, and a program by which nodes can be classified according to the activity degree, that is the importance degree, of the nodes. The graph structure estimation apparatus (100) comprises a calculation means (110) which when receiving graph data expressed by the nodes and links showing the degrees of relations between the respective nodes, calculates information on the importance degree showing the importance degree of each node according to the graph data, a division means (120) which divides respective nodes into any one of a plurality of groups according to the information on the importance degree of the node, and an output means (130) which outputs the result of group-dividing of the nodes as information on the graph structure of the graph data.

Description

グラフ構造推定装置、グラフ構造推定方法およびプログラムGraph structure estimation apparatus, graph structure estimation method, and program
 本発明は、グラフ構造推定装置、グラフ構造推定方法およびプログラムに関し、例えば、点(ノード)と辺(リンク)によって構成されるグラフの構造を、各ノードの重要度に基づいて特徴づけるグラフ構造推定装置、グラフ構造推定方法およびプログラムに関する。 The present invention relates to a graph structure estimation device, a graph structure estimation method, and a program. For example, a graph structure estimation that characterizes the structure of a graph composed of points (nodes) and edges (links) based on the importance of each node. The present invention relates to a device, a graph structure estimation method, and a program.
 グラフデータとは、ノード集合、および、ノード間の関係を表現するリンク、によって表されるデータである。 Graph data is data represented by a node set and a link expressing a relationship between nodes.
 グラフデータとしては、例えば、Web(ウェブ)ページとハイパーリンクとを表すデータ、SNS(ソーシャルネットワーキングサイト)のユーザーと友人関係とを表すデータ、ネットワーク機器とトラフィックとを表すデータ、タンパク質構造における塩基とその間のインタラクション(相互作用)とを表すデータなどが挙げられる。 Graph data includes, for example, data representing Web pages and hyperlinks, data representing SNS (social networking site) users and friendships, data representing network devices and traffic, and bases in protein structures. Data representing the interaction (interaction) between them can be mentioned.
 上記の例では、Webページとユーザーとネットワーク機器と塩基のそれぞれが「ノード集合」に該当し、ハイパーリンクと友人関係とトラフィックと塩基間のインタラクションのそれぞれが「リンク」に該当する。 In the above example, each of the Web page, the user, the network device, and the base corresponds to a “node set”, and each of the hyperlink, friendship, traffic, and base interaction corresponds to a “link”.
 近年の研究から、グラフデータにて構成される多くのグラフ(ネットワーク)の構造には、スケールフリー性と呼ばれる性質が存在する事が確認されている(非特許文献1参照)。 From recent research, it has been confirmed that many graphs (networks) composed of graph data have a property called scale-free (see Non-Patent Document 1).
 スケールフリー性を持つグラフの性質の1つとして、大多数のノードの重要度は低いが、グラフ中で「ハブ」として機能する重要度の高いノードが、少数(低い確率で)存在するという性質がある。これは、ノードに対する重要度に関する確率分布が裾の長い分布をしていると言い換える事が可能である(分布の裾はつまり重要度が高いノードに相当し、裾が長いため重要度の高いノードも低い確率で存在しうる)。 One of the characteristics of a graph with scale-free property is that the majority of nodes are low in importance, but there are a small number (high probability) of high importance nodes that function as “hubs” in the graph. There is. This can be rephrased as the probability distribution related to the importance for the node has a long tail (the bottom of the distribution is equivalent to the node with high importance, and the node with high importance because the tail is long) Can exist with a low probability).
 このような性質は、ノードの持つリンク数やページランク(非特許文献7)などさまざまなノードの重要度に関して観測されている。例えば、スケールフリー性を持つグラフにおいて、ノードの持つリンク数は冪分布に従うという性質があり(図1参照)、ページランクは冪分布あるいは対数正規分布に従う性質がある。 This property has been observed with regard to the importance of various nodes such as the number of links and page rank (Non-Patent Document 7) of the nodes. For example, in a graph having a scale-free property, the number of links of a node has a property that follows a 冪 distribution (see FIG. 1), and the page rank has a property that follows a 冪 distribution or a lognormal distribution.
 これらのグラフデータをノードの部分集合(クラスタ)に分割する事でグラフデータを特徴付ける方法が、近年幾つか提案されている。グラフデータの特徴付けは、例えば、Webコミュニティの発見、または、ネットワークの部分システムの同定など、種々の利用分野で幅広く応用する事が可能である。 Several methods for characterizing graph data by dividing these graph data into node subsets (clusters) have been proposed in recent years. The characterization of graph data can be widely applied in various fields of use, such as discovery of a Web community or identification of a partial system of a network.
 グラフデータを特徴付ける方法としては、まず、コミュニティとは相互にインタラクションをしあうノードの集合とみなし、リンクが密な部分とリンクが疎な部分に分かれるようにグラフを分割する技術がある。 As a method of characterizing graph data, first, there is a technology that considers a community as a set of nodes that interact with each other, and divides the graph so that the link is divided into the dense part and the link is sparse.
 例えば、非特許文献2には、グラフまたは時間的に得られるグラフを符号化する場合の記述長を基準としてグラフの分割を行なうことで、コミュニティ構造を推定する技術が記載されている。 For example, Non-Patent Document 2 describes a technique for estimating a community structure by dividing a graph based on a description length when encoding a graph or a graph obtained in time.
 この技術では、グラフを分割した場合に各部分グラフの記述長と分割方法の記述長を足したものが最小となるように、グラフの分割が行われる(GraphScope:グラフスコープ)。 In this technology, when a graph is divided, the graph is divided so that the sum of the description length of each subgraph and the description length of the division method is minimized (GraphScope).
 また、スケールフリーネットワークを含む一般のネットワークが持つ、自己相似性に着目し、行列の直積によってネットワーク構造を表現し、それを推定するための技術がある(非特許文献3参照)。 Also, there is a technique for expressing and estimating the network structure by direct product of matrices, paying attention to the self-similarity of general networks including scale-free networks (see Non-Patent Document 3).
 また、以下のような技術も知られている。 The following technologies are also known.
 非特許文献4には、ヒストグラムによる近似方法に関して、最小記述長原理に従った方法が記載されている。非特許文献5には、ヒストグラムによる近似方法に関して、赤池情報量基準に従った方法が記載されている。非特許文献6には、動的モデル選択の枠組みに関する技術が記載されている。
A. L. Barabasi and R. Albert. Emergence of scaling in random networks. Science, 286:509-512, 1999. J. Sun, P. S. Yu, S. Papadimitriou, and C. Faloutsos. Graphscope: Parameter-free mining of large time-evolving graphs. In Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, 2007. Jure Leskovec and Christos Faloutsos, ‘Scalable Modeling of Real Graphs using Kronecker Multiplication’, ICML2007 J. Rissanen, T. P. Speed, and B. Yu. Density estimation by stochastic complexity. IEEE Transactions on Information Theory, 38(2):315-323, 1992. C. C. Taylor. Akaike's information criterion and the histogram. Biometrika 74(3):636-639, 1987 K. Yamanishi and Y. Maruyama. Dynamic model selection with its applications to novelty detection. IEEE Transactions on Information Theory, 53(6):2180-2189, 2007. L. Page, S. Brin, R. Motwanim and T. Winograd. The PageRank Citation Ranking: Bringing Order to the Web. Technical Report, Stanford Digital Library Technologies Project, 1998. J. M. Kleinberg. Authoritative sources in a hyperlinked environment. Journal of the ACM, 46:604-632, 2003.
Non-Patent Document 4 describes a method according to the principle of minimum description length regarding an approximation method using a histogram. Non-Patent Document 5 describes a method according to the Akaike information criterion for an approximation method using a histogram. Non-Patent Document 6 describes a technique related to a framework for dynamic model selection.
A. L. Barabasi and R. Albert. Emergence of scaling in random networks. Science, 286: 509-512, 1999. J. Sun, P. S. Yu, S. Papadimitriou, and C. Faloutsos.Graphscope: Parameter-free mining of large time-evolving graphs.In Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, 2007. Jure Leskovec and Christos Faloutsos, 'Scalable Modeling of Real Graphs using Kronecker Multiplication', ICML2007 J. Rissanen, T. P. Speed, and B. Yu. Density estimation by stochastic complexity.IEEE Transactions on Information Theory, 38 (2): 315-323, 1992. C. C. Taylor.Akaike's information criterion and the histogram.Biometrika 74 (3): 636-639, 1987 K. Yamanishi and Y. Maruyama.Dynamic model selection with its applications to novelty detection.IEEE Transactions on Information Theory, 53 (6): 2180-2189, 2007. L. Page, S. Brin, R. Motwanim and T. Winograd. The PageRank Citation Ranking: Bringing Order to the Web. Technical Report, Stanford Digital Library Technologies Project, 1998. J. M. Kleinberg. Authoritative sources in a hyperlinked environment. Journal of the ACM, 46: 604-632, 2003.
 上述したグラフ構造の推定技術は、ノードの重要度に従ってグラフの構造を特定する事ができないという課題がある。 The graph structure estimation technique described above has a problem that the graph structure cannot be specified according to the importance of the node.
 その理由は、上述した技術には、ノードの重要度によってグラフの構造を特徴付けるという思想が無く、グラフの分割を計算する際に、ノードの重要度の情報が考慮されていないためである。 The reason is that the above-described technique does not have the idea of characterizing the structure of the graph by the importance of the node, and does not consider the importance information of the node when calculating the division of the graph.
 ノードの重要度に従って、グラフを区分する事は、そのグラフ(ネットワーク)における各ノードの活性度に従ってノードを分類する事と捕らえる事もできる。 Securing the graph according to the importance of the node can be regarded as classifying the node according to the activity of each node in the graph (network).
 このため、上述した技術では、例えば、ノードの活性度つまりノードの重要度に基づいてノードを分類することが困難であった。 For this reason, with the above-described technique, it is difficult to classify the nodes based on, for example, the activity of the nodes, that is, the importance of the nodes.
 本発明の目的は、上述した課題を解決することが可能なグラフ構造推定装置、グラフ構造推定方法及びプログラムを提供することにある。 An object of the present invention is to provide a graph structure estimation device, a graph structure estimation method, and a program capable of solving the above-described problems.
 上記目的を達成するために、本発明のグラフ構造推定装置は、複数のノードと、当該複数のノードのうちの各ノード間の関係の程度を示すリンクと、によって表されるグラフデータを受け付けた場合に、当該グラフデータに基づいて、前記ノードごとに、当該ノードの重要性の程度を示す重要度情報を計算する計算手段と、前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、複数のグループのいずれかに分ける分割手段と、前記ノードのグループ分けの結果を、前記グラフデータのグラフ構造情報として出力する出力手段と、を含む。 In order to achieve the above object, the graph structure estimation apparatus of the present invention receives graph data represented by a plurality of nodes and links indicating the degree of relationship between the nodes among the plurality of nodes. In this case, for each of the nodes based on the graph data, calculation means for calculating importance information indicating the degree of importance of the node, and each of the nodes based on the importance information of the node, A dividing unit that divides the node into any of a plurality of groups; and an output unit that outputs a result of grouping the nodes as graph structure information of the graph data.
 本発明のグラフ構造推定方法は、グラフ構造推定装置が行うグラフ構造推定方法であって、複数のノードと、当該複数のノードのうちの各ノード間の関係の程度を示すリンクと、によって表されるグラフデータを受け付けた場合に、当該グラフデータに基づいて、前記ノードごとに、当該ノードの重要性の程度を示す重要度情報を計算する計算ステップと、前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、複数のグループのいずれかに分ける分割ステップと、前記ノードのグループ分けの結果を、前記グラフデータのグラフ構造情報として出力する出力ステップと、を含む。 The graph structure estimation method of the present invention is a graph structure estimation method performed by a graph structure estimation device, and is represented by a plurality of nodes and links indicating the degree of relationship between the nodes among the plurality of nodes. A calculation step for calculating importance information indicating the degree of importance of the node for each of the nodes based on the graph data; and A division step of dividing the group into one of a plurality of groups based on the degree information; and an output step of outputting the result of grouping the nodes as graph structure information of the graph data.
 本発明のプログラムは、コンピュータを、複数のノードと、当該複数のノードのうちの各ノード間の関係の程度を示すリンクと、によって表されるグラフデータを受け付けた場合に、当該グラフデータに基づいて、前記ノードごとに、当該ノードの重要性の程度を示す重要度情報を計算する計算手段、前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、複数のグループのいずれかに分ける分割手段、および、前記ノードのグループ分けの結果を、前記グラフデータのグラフ構造情報として出力する出力手段として機能させる。 The program of the present invention is based on graph data when the computer receives graph data represented by a plurality of nodes and a link indicating the degree of relationship between each of the plurality of nodes. And calculating means for calculating importance information indicating the degree of importance of the node for each of the nodes, dividing each of the nodes into one of a plurality of groups based on the importance information of the node And a function of outputting the grouping result of the nodes as graph structure information of the graph data.
 本発明によれば、ノードの活性度つまり重要度に基づいてノードを分類することが可能になる。 According to the present invention, it becomes possible to classify the nodes based on the activity of the nodes, that is, the importance.
入力データ関する、リンク数に対するノード頻度の冪分布の一例を示した図である。It is the figure which showed an example of wrinkle distribution of the node frequency with respect to the number of links regarding input data. 本発明の第1の実施の形態に関わるグラフ構造推定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the graph structure estimation apparatus in connection with the 1st Embodiment of this invention. 無向グラフデータの一例を示す図である。It is a figure which shows an example of undirected graph data. 有向グラフデータの一例を示す図である。It is a figure which shows an example of directed graph data. 図2に示したグラフ分割推定装置の一例を示すブロック図である。It is a block diagram which shows an example of the graph division | segmentation estimation apparatus shown in FIG. ノード重要度に対するノード重要度の冪分布の領域分割の一例を示す図である。It is a figure which shows an example of the area | region division | segmentation of the wrinkle distribution of node importance with respect to node importance. 分割ルールに従って冪分布を分割した場合の、冪分布の分割に従ってグラフがどのように分割されるかを表す一例を示す図である。It is a figure which shows an example showing how a graph is divided | segmented according to the division | segmentation of a wrinkle distribution at the time of dividing a wrinkle distribution according to a division | segmentation rule. 本発明の第1の実施の形態に関わるグラフ構造推定装置の処理例を示すフローチャートである。It is a flowchart which shows the process example of the graph structure estimation apparatus in connection with the 1st Embodiment of this invention. 本発明の第2の実施の形態に関わるグラフ構造推定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the graph structure estimation apparatus in connection with the 2nd Embodiment of this invention. ノード重要度分布をヒストグラム近似によって分割する一例を示す図である。It is a figure which shows an example which divides | segments node importance distribution by histogram approximation. 本発明の第3の実施の形態に関わるグラフ構造推定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the graph structure estimation apparatus in connection with the 3rd Embodiment of this invention. 本発明の第3の実施の形態に関わるノード重要度分割最適化装置の構成を示すブロック図である。It is a block diagram which shows the structure of the node importance division | segmentation optimization apparatus in connection with the 3rd Embodiment of this invention. グラフの分割と各部分グラフに対する確率分布の割り当ての一例を示す図である。It is a figure which shows an example of the division | segmentation of a graph, and allocation of probability distribution with respect to each subgraph. 本発明の第4の実施の形態に関わるグラフ構造推定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the graph structure estimation apparatus in connection with the 4th Embodiment of this invention. 本発明の第4の実施の形態に関わるノード重要度分割最適化装置の構成を示すブロック図である。It is a block diagram which shows the structure of the node importance division | segmentation optimization apparatus in connection with the 4th Embodiment of this invention. ノード重要度分布に従った分割と、各部分グラフの分割の一例を示す図である。It is a figure which shows an example of the division | segmentation according to node importance distribution, and the division | segmentation of each subgraph. 本発明の第5の実施の形態に関わるグラフ構造推定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the graph structure estimation apparatus in connection with the 5th Embodiment of this invention. 本発明の第5の実施の形態に関わる動的ノード重要度分割最適化装置の構成を示すブロック図である。It is a block diagram which shows the structure of the dynamic node importance division | segmentation optimization apparatus in connection with the 5th Embodiment of this invention. 本発明の第6の実施の形態に関わるグラフ構造推定装置の構成を示すブロック図である。It is a block diagram which shows the structure of the graph structure estimation apparatus in connection with the 6th Embodiment of this invention.
符号の説明Explanation of symbols
   100、200、300、400、500、600 グラフ構造推定装置
   110、510 ノード重要度計算装置
   110a  重要度計算部
   110b  重要度計算用データ記憶部
   120   グラフ分割計算装置
   120a  グラフ分割計算部
   120b  分割用データ記憶部
   130   推定構造出力装置
   210、310、410 ノード重要度分割最適化装置
   210a  分割用最適化用データ記憶部
   210b  ノード重要度分割最適化部
   311、411 符号長計算部記憶装置
   312   グラフ符号長計算部
   313   ノード重要度分割符号長計算部
   314、413、513 最適パラメータ計算装置
   412   部分グラフ分割符号長計算部
   511   グラフ列符号長計算部記憶装置
   512   モデル列符号長計算部記憶装置
   520、610 動的ノード重要度分割最適化装置
   620   モデルパラメータ記憶装置
100, 200, 300, 400, 500, 600 Graph structure estimation device 110, 510 Node importance calculation device 110a Importance calculation unit 110b Importance calculation data storage unit 120 Graph division calculation device 120a Graph division calculation unit 120b Data for division Storage unit 130 Estimated structure output device 210, 310, 410 Node importance division optimization device 210a Optimization data storage unit 210b Node importance division optimization unit 311, 411 Code length calculation unit Storage device 312 Graph code length calculation Unit 313 node importance division code length calculation unit 314, 413, 513 optimal parameter calculation device 412 subgraph division code length calculation unit 511 graph sequence code length calculation unit storage device 512 model sequence code length calculation unit storage device 520, 10 Dynamic Node importance dividing the optimizing device 620 model parameter storage device
 次に、本発明の実施の形態について、図面を参照して詳細に説明する。 Next, embodiments of the present invention will be described in detail with reference to the drawings.
 [第1の実施の形態]
 図2は、本発明の第1の実施の形態に関わるグラフ構造推定装置100を示したブロック図である。
[First Embodiment]
FIG. 2 is a block diagram showing the graph structure estimation apparatus 100 according to the first embodiment of the present invention.
 図2を参照すると、グラフ構造推定装置100は、ノード重要度計算装置110と、グラフ分割計算装置120と、推定構造出力装置130とを備えている。 2, the graph structure estimation device 100 includes a node importance calculation device 110, a graph partition calculation device 120, and an estimation structure output device 130.
 グラフ構造推定装置100は、例えば、CPU、メモリおよび入出力装置を含むコンピュータである。グラフ構造推定装置100は、ハードディスクまたはメモリに記録されたプログラムに従って動作する。ハードディスクまたはメモリは、一般的に、コンピュータにて読み取り可能な記録媒体と呼ぶことができる。 The graph structure estimation apparatus 100 is a computer including a CPU, a memory, and an input / output device, for example. The graph structure estimation apparatus 100 operates according to a program recorded on a hard disk or a memory. A hard disk or memory can be generally called a computer-readable recording medium.
 グラフ構造推定装置100は、プログラムを記録媒体から読み取り実行することによって、ノード重要度計算装置110、グラフ分割計算装置120、および、推定構造出力装置130として機能する。 The graph structure estimation apparatus 100 functions as a node importance calculation apparatus 110, a graph division calculation apparatus 120, and an estimation structure output apparatus 130 by reading and executing a program from a recording medium.
 グラフ構造推定装置100は、グラフデータ140を受け付け、グラフデータ140にて形成されるグラフの構造を推定し、その推定結果(グラフ構造推定結果)150を出力する。 The graph structure estimation apparatus 100 receives the graph data 140, estimates the structure of the graph formed by the graph data 140, and outputs the estimation result (graph structure estimation result) 150.
 グラフデータ140は、複数のノードと、複数のノードのうちの各ノード間の関係の程度(度合い)を示すリンクと、によって表される。以下では、リンクは、各ノード間の関係の程度(度合い)を数値で示すこととする。 The graph data 140 is represented by a plurality of nodes and links indicating the degree (degree) of the relationship between the nodes among the plurality of nodes. Hereinafter, the link indicates the degree (degree) of the relationship between the nodes by numerical values.
 なお、グラフデータ140は、単一のデータとして入力されてもよい。また、時間と共に変化するグラフデータが時系列的に順次入力される事も可能である。 The graph data 140 may be input as a single data. It is also possible to sequentially input graph data that changes with time in time series.
 ノード重要度計算装置110は、一般的に計算手段と呼ぶことができる。 The node importance calculation device 110 can be generally called a calculation means.
 ノード重要度計算装置110は、グラフデータ140を受け付けると、グラフデータ140に基づいて、グラフデータ140に示されたノードごとに、ノードと他の全てのノードとの関係の程度(度合い)を示すノード重要度を計算する。なお、ノード重要度は、重要度情報の一例である。 Upon receiving the graph data 140, the node importance calculation device 110 indicates the degree (degree) of the relationship between the node and all other nodes for each node indicated in the graph data 140 based on the graph data 140. Calculate node importance. The node importance is an example of importance information.
 なお、ノード重要度計算装置110は、予め、各ノードのノード重要度を計算するためのルールを記憶し、そのルールにしたがって、各ノードのノード重要度を計算してもよい。 Note that the node importance calculation device 110 may store a rule for calculating the node importance of each node in advance, and calculate the node importance of each node according to the rule.
 ノード重要度としては、ノードのグラフにおける重要性あるいは活性の程度(度合い)を計算するための任意の指標を利用することが可能である。 As the node importance, it is possible to use any index for calculating the importance or the degree (degree) of activity in the node graph.
 例えば、ノード重要度として各ノードの持つリンクの頻度を利用する場合を説明すると、ノード重要度計算装置110は、リンクが示す数値のうち、同一のノードに関連する数値の総和を、ノードごとに計算する。ノード重要度計算装置110は、ノードごとに計算された総和を、各ノードのノード重要度として用いる。 For example, the case where the link frequency of each node is used as the node importance will be described. The node importance calculation apparatus 110 calculates, for each node, the sum of the numerical values related to the same node among the numerical values indicated by the links. calculate. The node importance calculation device 110 uses the sum calculated for each node as the node importance of each node.
 また例えば、ノード重要度として各ノードに対するページランクを利用する場合を説明すると、ノード重要度計算装置110は、非特許文献7に示されるページランクアルゴリズムによって、各ノードに対するページランクを計算する。ノード重要度計算装置110は、ノードごとに計算されたページランクを、各ノードのノード重要度として用いる。 Further, for example, a case where the page rank for each node is used as the node importance will be described. The node importance calculation apparatus 110 calculates the page rank for each node by the page rank algorithm shown in Non-Patent Document 7. The node importance calculation device 110 uses the page rank calculated for each node as the node importance of each node.
 また例えば、ノード重要度として各ノードに対するハブ指標およびオーソリィテ指標(非特許文献8)を利用する場合を説明すると、ノード重要度計算装置110は、非特許文献8に示されるHITS(Hyperlink-Induced Topic Search)アルゴリズムによって、各ノードに対するハブ指標またはオーソリティ指標を計算する。ノード重要度計算装置110は、ノードごとに計算されたハブ指標またはオーソリティ指標を、各ノードのノード重要度として用いる。 Further, for example, when a hub index and an authority index (Non-patent Document 8) for each node is used as the node importance, the node importance calculation apparatus 110 is configured by HITS (Hyperlink-Induced Topic) shown in Non-Patent Document 8. The Hub index or authority index for each node is calculated by the Search algorithm. The node importance calculation device 110 uses the hub index or authority index calculated for each node as the node importance of each node.
 ノード重要度計算装置110は、各ノードのノード重要度を示す重要度情報と、グラフデータ140とを、グラフ分割計算装置120に提供する。 The node importance calculation device 110 provides importance information indicating the node importance of each node and the graph data 140 to the graph partition calculation device 120.
 グラフ分割計算装置120は、一般的に分割手段と呼ぶことができる。 The graph partitioning calculation device 120 can generally be referred to as a partitioning means.
 グラフ分割計算装置120は、重要度情報(各ノードのノード重要度)に基づいて、各ノードを複数のグループのいずれかに分ける。ノードのグループ分けは、グラフデータ140にて構成されるグラフを、各グループに分割することを意味する。 The graph partitioning calculation device 120 divides each node into one of a plurality of groups based on importance information (node importance of each node). Node grouping means that a graph composed of graph data 140 is divided into groups.
 例えば、グラフ分割計算装置120は、ノード重要度の値域(ノード重要度の取りうる最小値から最大値まで)を、1つまたは複数の分割用ノード重要度(分割用ノード重要度)を用いて分割することによって、複数のグループ(この場合、ノード重要度の各分割領域)、および、分割領域に含まれるノードを決定する。なお、分割領域に含まれるノードを決定することは、各ノードを複数のグループに分けることを意味する。 For example, the graph partitioning calculation device 120 uses the node importance value range (from the minimum value to the maximum value that can be taken by the node importance value) using one or more dividing node importance values (dividing node importance values). By dividing, a plurality of groups (in this case, each divided area of node importance) and nodes included in the divided area are determined. It should be noted that determining the nodes included in the divided area means dividing each node into a plurality of groups.
 なお、グラフ分割計算装置120は、予め、分割用のルールを記憶し、その分割用のルールにしたがって、ノード重要度と、グラフデータ140と、に基づいて、各ノードを複数のグループに分けてもよい。 The graph partitioning calculation device 120 stores the rules for partitioning in advance, and divides each node into a plurality of groups based on the node importance and the graph data 140 according to the rules for partitioning. Also good.
 グラフ分割計算装置120は、グラフの分割結果に関する情報(例えば、グラフの分割数、分割方法、および、各ノードが属している分割領域を示す情報)と、重要度情報とを、推定構造出力装置130に提供する。 The graph partitioning calculation device 120 includes information related to a graph partitioning result (for example, information indicating the number of partitioning of the graph, a partitioning method, and a partition region to which each node belongs), and importance information, and an estimated structure output device 130.
 推定構造出力装置130は、一般的に出力手段と呼ぶことができる。 The estimated structure output device 130 can be generally referred to as output means.
 推定構造出力装置130は、例えば、ノードのグループ分けの結果を、グラフデータのグラフ構造推定結果(グラフ構造情報)150として出力する。なお、推定構造出力装置130は、ノードのグループ分けの結果と重要度情報を、グラフデータのグラフ構造情報として出力してもよい。 The estimated structure output device 130 outputs, for example, a node grouping result as a graph structure estimation result (graph structure information) 150 of graph data. Note that the estimated structure output device 130 may output the result of node grouping and importance information as graph structure information of graph data.
 ここで、グラフデータ140について説明する。 Here, the graph data 140 will be described.
 グラフデータ140としては、一般に、無向グラフデータと有向グラフデータが存在する。 The graph data 140 generally includes undirected graph data and directed graph data.
 図3は、無向グラフデータの一例を示した図である。 FIG. 3 is a diagram showing an example of undirected graph data.
 図3において、無効グラフデータは、複数のノード2aと、リンク2bと、を含む。 3, the invalid graph data includes a plurality of nodes 2a and links 2b.
 リンク2b内の数値「1」は、図3に示した表中で対応するノード間にリンクがある事を表す。例えば、ノード1とノード2の間の数値は「1」なので、ノード1とノード2の間にリンクがあることが表される。 The numerical value “1” in the link 2b indicates that there is a link between corresponding nodes in the table shown in FIG. For example, the numerical value between the node 1 and the node 2 is “1”, which means that there is a link between the node 1 and the node 2.
 リンク2b内の数値「0」は、図3に示した表中で対応するノード間にリンクがない事を表す。例えば、ノード1とノードnの間の数値は「0」なので、ノード1とノードnの間にリンクがないことが表される。 The numerical value “0” in the link 2b indicates that there is no link between corresponding nodes in the table shown in FIG. For example, since the numerical value between the node 1 and the node n is “0”, it indicates that there is no link between the node 1 and the node n.
 無向グラフでは、ノード1からノード2へのリンクと、ノード2からノード1へのリンクの間に、区別はない。このため、無向グラフデータの表内(図3)のリンクにて表現される値は、ノード間のインデックス(ノード番号)が入れ替わっても同じ値となり、行の数(n)と列の数(n)は等しい。 In the undirected graph, there is no distinction between the link from node 1 to node 2 and the link from node 2 to node 1. For this reason, the value expressed by the link in the table of undirected graph data (FIG. 3) becomes the same value even if the index (node number) between nodes is changed, and the number of rows (n) and the number of columns (N) is equal.
 この例では、リンクは「1」または「0」の2値をとるが、リンクが示す数値として、リンクの強さを表す実数値が用いられてもよい。 In this example, the link takes a binary value of “1” or “0”, but a real value representing the strength of the link may be used as a numerical value indicated by the link.
 図4は、有向グラフデータの一例を示した図である。 FIG. 4 is a diagram showing an example of directed graph data.
 有向グラフでは、行と列が同じノードを表す必要はない。図4は、例えば、行ノード1から列ノード2へのリンクの強さが「0.5」である事を表している。これに付随し、行の数(nr)と列の数(nc)も等しい必要はない。 In a directed graph, rows and columns need not represent the same node. FIG. 4 shows that, for example, the strength of the link from the row node 1 to the column node 2 is “0.5”. Accompanying this, the number of rows (nr) and the number of columns (nc) need not be equal.
 グラフデータの具体的な例を挙げると、Webページのハイパーリンクを分析する場合、ノードは各Webページであり、リンクはWebページ間のハイパーリンクの有無とする事が考えられる。 As a specific example of graph data, when analyzing a hyperlink of a web page, it is conceivable that the node is each web page and the link is the presence or absence of a hyperlink between web pages.
 また、SNSネットワークの分析をする場合には、ノードは各ユーザーであり、リンクはユーザー間の友人登録の有無とする事が考えられる。 Also, when analyzing the SNS network, the node is each user, and the link may be a friend registration between users.
 また、LANの解析をする場合には、ノードは各ネットワーク機器であり、リンクは機器間のトラフィック量などとする事が考えられる。 Also, when analyzing the LAN, the node is each network device, and the link may be the traffic volume between the devices.
 以降では、グラフデータはGと表記し、(行)ノードiから(列)ノードjへのリンクをgijと表記する。 Hereinafter, the graph data is denoted as G, and the link from the (row) node i to the (column) node j is denoted as g ij .
 また、|G|は、グラフの疎密の度合いを表す量で、例えば(1)式で定義可能である。 Also, | G | is a quantity representing the degree of density of the graph, and can be defined by, for example, the expression (1).
 (1)式では、gijが「1」または「0」をとる場合には、|G|は、グラフ中のリンクの総数を意味する。 In the formula (1), when g ij takes “1” or “0”, | G | means the total number of links in the graph.
Figure JPOXMLDOC01-appb-M000001
 図5は、グラフ構造推定装置100の一例を示したブロック図である。図5において、図2に示したものと同一のものには同一符号を付してある。
Figure JPOXMLDOC01-appb-M000001
FIG. 5 is a block diagram illustrating an example of the graph structure estimation apparatus 100. 5, the same components as those shown in FIG. 2 are denoted by the same reference numerals.
 図5において、ノード重要度計算装置110は、重要度計算用データ記憶部110aと、重要度計算部110bとを含む。 In FIG. 5, the node importance calculation device 110 includes an importance calculation data storage unit 110a and an importance calculation unit 110b.
 重要度計算用データ記憶部110aは、一般的に重要度計算用データ記憶手段と呼ぶことができる。重要度計算用データ記憶部110aは、グラフデータ140を用いて各ノードのノード重要度を計算するためのルール(例えば、計算式)を記憶している。 The importance calculation data storage unit 110a can be generally referred to as importance calculation data storage means. The importance calculation data storage unit 110 a stores rules (for example, calculation formulas) for calculating the node importance of each node using the graph data 140.
 重要度計算部110bは、一般的に重要度計算手段と呼ぶことができる。重要度計算部110bは、重要度計算用データ記憶部110a内のルールと、グラフデータ140と、を用いて、各ノードのノード重要度を計算する。 The importance level calculation unit 110b can be generally called importance level calculation means. The importance calculation unit 110b calculates the node importance of each node using the rules in the importance calculation data storage unit 110a and the graph data 140.
 ノード重要度の計算方法として、任意の方法を利用する事が可能である。 Any method can be used as the node importance calculation method.
 例えば、ノード重要度として各ノードの持つリンクの頻度を利用する場合を説明すると、重要度計算部110bは、行ノードiに対するノード重要度xr,iを、(2)式にしたがって求められる絶対リンク頻度、または、(3)式にしたがって求められる相対リンク頻度として計算する事が可能である。 For example, when describing the case of using the frequency of the link with the respective node as a node importance, the importance calculating unit 110b, the node importance x r for row node i, a i, absolute obtained according (2) It is possible to calculate the link frequency or the relative link frequency obtained according to the equation (3).
 なお、重要度計算用データ記憶部110aは、例えば、(1)式と(2)式と(3)式を記憶している。 Note that the importance calculation data storage unit 110a stores, for example, Expressions (1), (2), and (3).
 また例えば、ノード重要度としては、非特許文献7に示されるページランクや非特許文献8に示されるハブ指標およびオーソリティ指標などを利用することが可能である。その場合には、重要度計算用データ記憶部110aは、ページランクの計算式やハブ指標およびオーソリティ指標の計算式を記憶している。 For example, as the node importance, the page rank shown in Non-Patent Document 7, the hub index and authority index shown in Non-Patent Document 8, or the like can be used. In that case, the importance calculation data storage unit 110a stores a page rank calculation formula, a hub index, and an authority index calculation formula.
 同様の手順で計算される列ノードjに対するノード重要度をxc,jと表記する事にする。無向グラフの場合には、行と列の区別がないため、ノードiのリンク頻度を単にxと表記する。 The node importance for the column node j calculated in the same procedure is expressed as xc, j . In the case of an undirected graph, there is no distinction between rows and columns, simply referred to as x i link frequency of node i.
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
 重要度計算部110bは、各ノードのノード重要度を示す重要度情報と、グラフデータ140とを、グラフ分割計算装置120に提供する。
Figure JPOXMLDOC01-appb-M000003
The importance calculation unit 110b provides importance information indicating the node importance of each node and the graph data 140 to the graph partition calculation device 120.
 グラフ分割計算装置120は、分割用データ記憶部120aと、グラフ分割計算部120bとを含む。 The graph division calculation device 120 includes a division data storage unit 120a and a graph division calculation unit 120b.
 分割用データ記憶部120aは、一般的に分割用データ記憶手段と呼ぶことができる。分割用データ記憶部120aは、ノード重要度計算装置100で計算されたノード重要度を用いて、グラフデータ140にて形成されるグラフを分割するためのルール(例えば、ノードの分類条件)を記憶する。 The division data storage unit 120a can be generally referred to as division data storage means. The division data storage unit 120a stores rules (for example, node classification conditions) for dividing the graph formed by the graph data 140 using the node importance calculated by the node importance calculation device 100. To do.
 グラフ分割計算部120bは、分割用データ記憶部120a内のルールと、ノード重要度と、グラフデータ140とを用いて、グラフデータ140にて形成されるグラフを分割する。 The graph division calculation unit 120b divides the graph formed by the graph data 140 using the rules in the division data storage unit 120a, the node importance, and the graph data 140.
 グラフ分割計算部120bは、分割用データ記憶部120a内のルールにしたがって、1つまたは複数の分割用ノード重要度を設定し、ノード重要度を、分割用ノード重要度を用いて分割する。 The graph division calculation unit 120b sets one or more division node importance levels according to the rules in the division data storage unit 120a, and divides the node importance levels using the division node importance levels.
 グラフを分割するためのルールとしては、例えば、ノード重要度が、ノードの持つリンク数を表す場合、「リンク数が100以上→領域1、リンク数が50以上100未満→領域2、リンク数が50未満→領域3」などのように、ノードの分類先(領域;グループ)をリンク数に応じて絶対的に決めるルールも考えられる。この場合、リンク数=100、および、リンク数=50が、分割用ノード重要度となる。 As a rule for dividing the graph, for example, when the node importance indicates the number of links of the node, “the number of links is 100 or more → area 1, the number of links is 50 or more and less than 100 → area 2, the number of links is A rule is also conceivable in which the node classification destination (area; group) is absolutely determined according to the number of links, such as “less than 50 → area 3”. In this case, the number of links = 100 and the number of links = 50 are division node importance levels.
 また、グラフを分割するためのルールとしては、例えば、ノード重要度が、ノードの持つリンク数を表す場合、「リンク数が上位30%に入る→領域1、リンク数が上位50%未満→領域2」などと、ノードの分類先(領域;グループ)をリンク数に応じて相対的に決めるルールも考えられる。この場合、上位30%に相当するリンク数、および、上位50%に相当するリンク数が、分割用ノード重要度となる。 Further, as a rule for dividing the graph, for example, when the node importance indicates the number of links of the node, “the number of links is in the upper 30% → area 1, the number of links is less than the upper 50% → area A rule that relatively determines the node classification destination (area; group) according to the number of links, such as “2”, is also conceivable. In this case, the number of links corresponding to the top 30% and the number of links corresponding to the top 50% are the node importance for division.
 図6は、ノード重要度を2つの分割用ノード重要度を用いて、3分割する一例を模式的に示した図である。縦軸は、横軸のノード重要度に対応するノードの数を表している。 FIG. 6 is a diagram schematically showing an example of dividing the node importance into three parts using the two node importance levels for division. The vertical axis represents the number of nodes corresponding to the node importance on the horizontal axis.
 この場合には、領域1に属するノードは、リンクを少数のみ持つ通常のノード、領域3に属するノードは、リンクを多数持つハブ的なノード、領域2に属するノードは、その中間のノードと解釈可能である。 In this case, the node belonging to region 1 is interpreted as a normal node having only a few links, the node belonging to region 3 is interpreted as a hub node having a large number of links, and the node belonging to region 2 is interpreted as an intermediate node. Is possible.
 また、図7は、有向グラフの行方向と列方向のそれぞれを、分割用ノード重要度を用いて分割した場合に、グラフがどのように分割されるのかを表した図である。 FIG. 7 is a diagram showing how the graph is divided when the row direction and the column direction of the directed graph are divided using the node importance for division.
 図7では、便宜的に、各行および列がノード重要度に従って整列されている事に注意する。 Note that in FIG. 7, for convenience, each row and column is aligned according to node importance.
 グラフ分割計算部120bは、重要度情報と、グラフの分割結果に関する情報(以下「グラフ構造情報」と称する。)を、推定構造出力装置130に提供する。 The graph division calculation unit 120b provides the estimated structure output device 130 with the importance level information and information about the graph division result (hereinafter referred to as “graph structure information”).
 推定構造出力装置130は、例えば、グラフ分割計算装置120で推定されたグラフの構造を表すグラフ構造情報と、ノード重要度計算装置110で計算された重要度情報とのいずれかまたは両方を出力する。 The estimated structure output device 130 outputs, for example, one or both of graph structure information representing the structure of the graph estimated by the graph partitioning calculation device 120 and importance information calculated by the node importance calculation device 110. .
 出力先は、グラフ構造推定装置100に接続されたディスプレイなどの出力装置であってもよいし、ネットワークを介して接続された出力装置または端末装置であってもよい。 The output destination may be an output device such as a display connected to the graph structure estimation device 100, or may be an output device or a terminal device connected via a network.
 ここで言う推定されたグラフの構造とは、各ノードがどの領域に属するかという情報、行および列の分割数と分割の幅などの情報の事である。 Here, the estimated graph structure is information such as which region each node belongs to, information such as the number of row and column divisions and the division width.
 図8は、グラフ構造推定装置100の動作を説明するためのフローチャートである。 FIG. 8 is a flowchart for explaining the operation of the graph structure estimation apparatus 100.
 図8を参照すると、ノード重要度計算装置110は、無向グラフデータまたは有向グラフデータを入力する(S100)。 Referring to FIG. 8, the node importance calculation device 110 inputs undirected graph data or directed graph data (S100).
 続いて、ノード重要度計算装置110は、入力されたグラフデータが示す各ノードのノード重要度を計算する(S101)。 Subsequently, the node importance calculation device 110 calculates the node importance of each node indicated by the input graph data (S101).
 次に、グラフ分割計算装置120は、計算されたノード重要度を利用して、グラフのノードの分割(ノードのグループ分け)を計算する(S102)。 Next, the graph partition calculation device 120 calculates the node division (node grouping) of the graph using the calculated node importance (S102).
 次に、推定構造出力装置130は、グラフ分割計算装置120で推定されたグラフの構造(グループ分け結果)を表すグラフ構造情報と、ノード重要度計算装置110で計算された重要度情報とのいずれかまたは両方を出力する(S103)。 Next, the estimated structure output device 130 selects either the graph structure information representing the structure of the graph (grouping result) estimated by the graph partitioning calculation device 120 or the importance information calculated by the node importance calculation device 110. Or both are output (S103).
 グラフが時間的に順次得られる場合には、グラフ構造推定装置100は、この処理を繰り返す事によって、グラフ構造を推定する事が可能である。 When the graphs are obtained sequentially in time, the graph structure estimation apparatus 100 can estimate the graph structure by repeating this process.
 本実施形態によれば、ノード重要度計算装置110は、ノードごとに重要度情報を計算する。グラフ分割計算装置120は、ノードのそれぞれを、そのノードの重要度情報に基づいて、複数のグループのいずれかに分ける。推定構造出力装置130は、ノードのグループ分けの結果を、グラフデータのグラフ構造情報として出力する。 According to this embodiment, the node importance calculation device 110 calculates importance information for each node. The graph partitioning calculation device 120 divides each node into one of a plurality of groups based on the importance level information of the node. The estimated structure output device 130 outputs the result of node grouping as graph structure information of graph data.
 このため、各ノードを、ノードの重要度にしたがってグループ分けすることが可能になる。例えば、ハブ構造を持ったネットワークは、ハブに対する攻撃に対して脆弱である事が知られているが、本実施形態によってノードを重要度で分類すれば、各ノードについて、攻撃に対する防御の必要度合いをレベル分けすることが可能となる。 For this reason, each node can be grouped according to the importance of the node. For example, a network having a hub structure is known to be vulnerable to attacks against the hub, but if nodes are classified according to importance according to this embodiment, the degree of necessity of defense against attacks for each node. Can be divided into levels.
 本実施形態では、グラフ分割計算装置120は、ノード重要度情報の取りうる最小値から最大値までを表すノード重要度の値域を、1つまたは複数の分割用ノード重要度を用いて分割して得られた複数の分割領域を、複数のグループとする。 In the present embodiment, the graph partitioning calculation device 120 divides the node importance value range representing the minimum value to the maximum value that can be taken by the node importance information by using one or more dividing node importance values. The obtained plurality of divided regions are set as a plurality of groups.
 [第2の実施の形態]
 図9は、本発明の第2の実施の形態に関わるグラフ構造推定装置200を示したブロック図である。
[Second Embodiment]
FIG. 9 is a block diagram showing a graph structure estimation apparatus 200 according to the second embodiment of the present invention.
 グラフ構造推定装置200は、例えば、CPU、メモリおよび入出力装置を含むコンピュータである。グラフ構造推定装置200は、ハードディスクまたはメモリに記録されたプログラムに従って動作する。 The graph structure estimation apparatus 200 is a computer including a CPU, a memory, and an input / output device, for example. The graph structure estimation apparatus 200 operates according to a program recorded on a hard disk or a memory.
 グラフ構造推定装置200は、プログラムを記録媒体から読み取り実行することによって、ノード重要度計算装置110、ノード重要度分割最適化装置210、および、推定構造出力装置130として機能する。 The graph structure estimation apparatus 200 functions as a node importance calculation apparatus 110, a node importance division optimization apparatus 210, and an estimation structure output apparatus 130 by reading and executing a program from a recording medium.
 図9を参照すると、グラフ構造推定装置200は、図2に示した第1の実施の形態に関わるグラフ構造推定装置100と比較して、グラフ分割計算装置120に代えて、ノード重要度分割最適化装置210を有する点で相違する。 Referring to FIG. 9, the graph structure estimation apparatus 200 replaces the graph partition calculation apparatus 120 in comparison with the graph structure estimation apparatus 100 according to the first embodiment illustrated in FIG. It differs in that it has the conversion device 210.
 以下、グラフ構造推定装置200について、グラフ構造推定装置100との相違点を中心に説明する。 Hereinafter, the graph structure estimation apparatus 200 will be described focusing on differences from the graph structure estimation apparatus 100.
 ノード重要度分割最適化装置210は、一般的に分割手段、分割符号長計算手段および分割制御手段と呼ぶことができる。 The node importance division optimization device 210 can be generally called a division unit, a division code length calculation unit, and a division control unit.
 ノード重要度分割最適化装置210は、分割最適化用データ記憶部210aと、ノード重要度分割最適化部210bとを含む。 The node importance division optimization apparatus 210 includes a division optimization data storage unit 210a and a node importance division optimization unit 210b.
 分割最適化用データ記憶部210aは、一般的に分割最適化用データ記憶手段と呼ぶことができる。分割最適化用データ記憶部210aは、グラフを分割するための単純なルールではなく、入力データ(グラフデータ)に対してグラフの分割を最適化するための計算手順を記憶している。 The division optimization data storage unit 210a can be generally referred to as division optimization data storage means. The division optimization data storage unit 210a stores not a simple rule for dividing a graph but a calculation procedure for optimizing the division of the graph with respect to the input data (graph data).
 ノード重要度分割最適化装置210(具体的には、ノード重要度分割最適化部210b)は、分割最適化用データ記憶部210a内の計算手順に従って、グラフの最適な分割モデルを計算する。 The node importance division optimization device 210 (specifically, the node importance division optimization unit 210b) calculates the optimal division model of the graph according to the calculation procedure in the division optimization data storage unit 210a.
 最適化の対象となるパラメータとしては、例えば、分割数、および、各領域の大きさなどがある。このパラメータによって、分割用ノード重要度が決定される。 Optimized parameters include, for example, the number of divisions and the size of each area. Based on this parameter, the node importance for division is determined.
 ノード重要度分割最適化装置210は、図6であらわされるような、ノード重要度の値域の分割モデル(分割用ノード重要度の設定)を、任意の最適化方法(最適化基準)、例えば、最小記述長原理、赤池情報量基準、または、ベイズ情報量基準を利用して、グラフデータに基づき計算する事が可能である。 The node importance division optimization apparatus 210 converts a node importance value range division model (setting of node importance for division) into an arbitrary optimization method (optimization criterion), for example, as shown in FIG. It is possible to calculate based on graph data using the minimum description length principle, Akaike information criterion, or Bayesian information criterion.
 分割モデルを決める方法としては、例えば、図10に示されるように、ノード重要度の値域におけるノード重要度の分布(ノード重要度分布)をヒストグラムによって近似し、ヒストグラムの各領域にグラフの分割領域(グループ)を対応させる方法が考えられる。 As a method for determining the division model, for example, as shown in FIG. 10, the node importance distribution (node importance distribution) in the node importance value range is approximated by a histogram, and a graph divided area is divided into each area of the histogram. A method of making (group) correspond can be considered.
 ノード重要度分布をヒストグラムによって近似する方法に関しては、例えば、最小記述長原理に従った方法(例えば非特許文献3)、または、赤池情報量基準に従った方法(例えば非特許文献4)などを利用する事が可能である。 As a method of approximating the node importance distribution by a histogram, for example, a method according to the minimum description length principle (for example, Non-Patent Document 3) or a method according to the Akaike information criterion (for example, Non-Patent Document 4) is used. It is possible to use.
 例えば、ノード重要度分割最適化装置210は、分割用ノード重要度の個数および各分割用ノード重要度の値(ノード重要度の値域の分割結果)を分割モデルとし、互いに異なる分割モデルごとに、ノード重要度および分割モデルを符号化するために必要な分割記述長を算出する。この際、分割記述長の中には、分割モデル自身の記述長も含まれていることに注意が必要である。 For example, the node importance degree division optimization device 210 uses the number of node importance levels for division and the value of each node importance level (the result of dividing the range of node importance levels) as a division model, and for each different division model, The node description and the division description length necessary for encoding the division model are calculated. At this time, it should be noted that the divided description length includes the description length of the divided model itself.
 ノード重要度分割最適化装置210は、互いに異なる分割モデルの中から、分割記述長が最小になる最適化分割モデルを特定し、ノードのそれぞれを、重要度情報に基づいて、最適化分割モデルにて特定される複数のグループのいずれかに分ける。 The node importance division optimization device 210 identifies an optimized division model having a minimum division description length from among different division models, and converts each of the nodes into an optimized division model based on importance information. Divided into one of a plurality of groups.
 入力されたグラフデータ140が有向グラフデータの場合には、ノード重要度分割最適化装置210は、行方向と列方向のノード重要度の分布のそれぞれをヒストグラムによって近似して分割を最適化する事が可能である。 When the input graph data 140 is directed graph data, the node importance division optimization device 210 may optimize the division by approximating each of the node importance distributions in the row direction and the column direction by a histogram. Is possible.
 本実施の形態のグラフ構造推定装置200の動作は、図8のステップS102の処理で、グラフの分割が計算される際、予め記憶されているルールによって分割するのではなく、ステップS101で計算された重要度情報に対して分割の最適化を実施する点を除き、図2に示した第1の実施の形態に関わるグラフ構造推定装置100の動作と同じである。 The operation of the graph structure estimation apparatus 200 according to the present embodiment is calculated in step S101 instead of dividing according to a pre-stored rule when the graph division is calculated in step S102 of FIG. The operation is the same as the operation of the graph structure estimation apparatus 100 according to the first embodiment shown in FIG. 2 except that the division information is optimized.
 本実施形態によれば、ノード重要度分割最適化装置210は、互いに異なる分割モデルごとに、ノード重要度および分割モデルを符号化するために必要な分割記述長を算出する。ノード重要度分割最適化装置210は、互いに異なる分割モデルの中から、分割記述長が最小になる最適化分割モデルを特定し、ノードのそれぞれを、ノードの重要度情報に基づいて、最適化分割モデルにて特定される複数のグループのいずれかに分ける。 According to the present embodiment, the node importance degree division optimization apparatus 210 calculates a node importance degree and a division description length necessary for encoding the division model for each different division model. The node importance division optimization device 210 identifies an optimized division model that minimizes the division description length from among different division models, and optimizes each of the nodes based on node importance information. Divide into one of multiple groups specified in the model.
 この場合、分割モデルの最適化が可能になる。 In this case, the division model can be optimized.
 なお、ノード重要度分割最適化装置210は、動的計画法を用いて、最適化分割モデルを特定することが望ましい。 Note that it is desirable that the node importance division optimization apparatus 210 specifies an optimized division model using dynamic programming.
 また、ノード重要度分割最適化装置210は、分割記述長を小さくする方向へ、分割結果を更新することを繰り返すことによって、最適化分割モデルを特定してもよい。 Further, the node importance division optimization device 210 may identify the optimized division model by repeatedly updating the division result in the direction of reducing the division description length.
 また、ノード重要度分割最適化装置210は、動的計画法を用いて計算された分割結果を初期値とし、初期値から分割記述長を小さくする方向へ分割結果を更新することを繰り返すことによって、最適化分割モデルを特定してもよい。 Further, the node importance degree division optimization apparatus 210 sets the division result calculated by using dynamic programming as an initial value, and repeatedly updates the division result from the initial value in a direction of reducing the division description length. The optimized division model may be specified.
 なお、これらの特定方法については、後述する第3の実施の形態での説明内の「グラフ符号長とノード重要度分割の符号長の和」を「ノード重要度分割の符号長(分割記述長)」と読み代えることにより説明可能である。 As for these specifying methods, “the sum of the graph code length and the code length of the node importance division” in the description of the third embodiment to be described later is referred to as “the code length of the node importance division (division description length). ) ".
 [第3の実施の形態]
 図11は、本発明の第3の実施の形態に関わるグラフ構造推定装置300を示したブロック図である。
[Third Embodiment]
FIG. 11 is a block diagram showing a graph structure estimation apparatus 300 according to the third embodiment of the present invention.
 グラフ構造推定装置300は、例えば、CPU、メモリおよび入出力装置を含むコンピュータである。グラフ構造推定装置300は、ハードディスクまたはメモリに記録されたプログラムに従って動作する。 The graph structure estimation apparatus 300 is a computer including a CPU, a memory, and an input / output device, for example. The graph structure estimation apparatus 300 operates according to a program recorded in a hard disk or memory.
 グラフ構造推定装置300は、プログラムを記録媒体から読み取り実行することによって、ノード重要度計算装置110、ノード重要度分割最適化装置310、および、推定構造出力装置130として機能する。 The graph structure estimation apparatus 300 functions as a node importance calculation apparatus 110, a node importance division optimization apparatus 310, and an estimation structure output apparatus 130 by reading and executing a program from a recording medium.
 図11を参照すると、グラフ構造推定装置300は、図9に示した第2の実施の形態に関わるグラフ構造推定装置200と比較して、ノード重要度分割最適化装置210に代えて、ノード重要度分割最適化装置310を有する点で相違する。 Referring to FIG. 11, the graph structure estimation apparatus 300 is different from the graph structure estimation apparatus 200 according to the second embodiment illustrated in FIG. The difference is that the degree division optimization device 310 is provided.
 以下、グラフ構造推定装置300について、グラフ構造推定装置200との相違点を中心に説明する。 Hereinafter, the graph structure estimation apparatus 300 will be described focusing on differences from the graph structure estimation apparatus 200.
 ノード重要度分割最適化装置310は、一般的に分割手段と呼ぶことができる。 The node importance division optimization device 310 can be generally called a division means.
 ノード重要度分割最適化装置310は、図12に示されるように、符号長計算部記憶装置311と、最適パラメータ計算装置314とを備えている。符号長計算部記憶装置311は、グラフ符号長計算部312およびノード重要度分割符号長計算部313を記憶している。 The node importance division optimization device 310 includes a code length calculation unit storage device 311 and an optimum parameter calculation device 314 as shown in FIG. The code length calculation unit storage device 311 stores a graph code length calculation unit 312 and a node importance degree division code length calculation unit 313.
 ノード重要度分割最適化装置310は、グラフデータ140と、ノード重要度計算装置110で計算されたノード重要度情報315とを入力とし、グラフ構造推定結果150を出力する。 The node importance division optimization device 310 receives the graph data 140 and the node importance information 315 calculated by the node importance calculation device 110, and outputs a graph structure estimation result 150.
 符号長計算部記憶装置311は、一般的に符号長計算手段と呼ぶことができる。 The code length calculation unit storage device 311 can be generally called code length calculation means.
 ノード重要度分割符号長計算部313は、一般的に分割符号長計算手段と呼ぶことができる。また、グラフ符号長計算部312は、一般的にグラフ符号長計算手段と呼ぶことができる。 The node importance division code length calculation unit 313 can be generally called division code length calculation means. Graph code length calculation unit 312 can be generally called graph code length calculation means.
 なお、ノード重要度分割符号長計算部313とグラフ符号長計算部312は、例えば、コンピュータにて実行されたときに所定の計算を実行するプログラムである。 Note that the node importance division code length calculation unit 313 and the graph code length calculation unit 312 are programs that execute predetermined calculations when executed by a computer, for example.
 ノード重要度分割符号長計算部313とグラフ符号長計算部312は、あるパラメータにおける、ノード重要度情報およびノード重要度の分割モデルを符号化するために必要な記述長と、その分割の元でグラフを符号化するための記述長を計算するための手順を示す。 The node importance division code length calculation unit 313 and the graph code length calculation unit 312 use the description length necessary for encoding the node importance information and the node importance division model in a certain parameter, and the source of the division. A procedure for calculating a description length for encoding a graph is shown.
 例えば、ノード重要度分割符号長計算部313は、分割用ノード重要度を用いたノード重要度の値域の分割結果を分割モデルとし、互いに異なる分割モデルごとに、ノード重要度情報および分割モデルを符号化するために必要な分割記述長を算出する。この際、分割記述長の中には、分割モデル自身の記述長も含まれていることに注意が必要である。 For example, the node importance division code length calculation unit 313 uses the division result of the node importance value range using the node importance for division as a division model, and codes the node importance information and the division model for each different division model. The division description length necessary for conversion to At this time, it should be noted that the divided description length includes the description length of the divided model itself.
 また、グラフ符号長計算部312は、ノードのそれぞれを、ノード重要度情報に基づいて、分割モデルにて特定される複数のグループのいずれかに分けた際に、ノードのグループ分けによって分割されたグラフを符号化するためのグラフ記述長を、分割モデルごとに算出する。 Also, the graph code length calculation unit 312 divides each of the nodes by grouping the nodes when dividing each of the nodes into any of a plurality of groups specified by the division model based on the node importance information. The graph description length for encoding the graph is calculated for each division model.
 ノード重要度の分割結果を符号化するために必要な記述長は、ノード重要度分割最適化装置210が行う方法と同様の方法で計算可能である。 The description length required for encoding the node importance division result can be calculated by the same method as that performed by the node importance division optimization apparatus 210.
 分割モデルが与えられると、グラフGは、図13で示されるように、幾つかの部分グラフへ分割される(図13では、G1,1からG2,3まで)。 Given a split model, graph G is split into several subgraphs (in FIG. 13, from G 1,1 to G 2,3 ), as shown in FIG.
 このとき、ノード重要度分割最適化装置310は、各部分グラフに対して、リンクの発生する確率分布をそれぞれ割り当てる(図13ではp1,1からp2,3まで)。 At this time, the node importance division optimization device 310 assigns a probability distribution in which a link is generated to each subgraph (from p 1,1 to p 2,3 in FIG. 13).
 リンクが「1」または「0」の2値の場合には、リンクの発生する確率分布は、ベルヌーイ分布とする事ができる。 When the link is a binary value of “1” or “0”, the probability distribution that the link is generated can be a Bernoulli distribution.
 また、リンクが「0」から「1」の間の値をとる場合には、リンクの発生する確率分布は、ベータ分布とする事が可能である。 Also, when the link takes a value between “0” and “1”, the probability distribution that the link is generated can be a beta distribution.
 また、リンクが「0」以上の値をとる場合には、指数分布やガンマ分布とする事が可能である。 Also, when the link takes a value of “0” or more, it can be an exponential distribution or a gamma distribution.
 このように、ノード重要度分割最適化装置310は、リンクの定義によって、それぞれ適切な確率分布を割り当てる事ができる。 Thus, the node importance division optimization device 310 can assign an appropriate probability distribution according to the definition of the link.
 グラフ符号長とは、各部分グラフのリンクを、割り当てられた確率(分布)によって生成した場合の符号長を指す。 The graph code length refers to the code length when the link of each subgraph is generated with the assigned probability (distribution).
 各分割領域はノードとしての性質が異なるため、各領域内および各領域間のインタラクションは異なるモデルで表現する事が自然である。 Since each divided area has a different property as a node, it is natural to represent the interaction within each area and between each area using different models.
 ノード重要度情報だけでなく、グラフの符号化を考える事によって、それらのインタラクションを考慮した領域の分割を行なう事が可能となる。  By considering not only the node importance information but also the encoding of the graph, it becomes possible to divide the area in consideration of those interactions.
 最適パラメータ計算装置314は、一般的に分割制御手段と呼ぶことができる。 The optimum parameter calculation device 314 can be generally called a division control means.
 最適パラメータ計算装置314は、グラフデータ140とノード重要度情報315を読み込むと、符号長計算部記憶装置311に記憶されている計算部312および313を読み込み、計算部312および313を用いて、グラフ符号長とノード重要度分割の符号長の和を最小とするパラメータ(分割モデル)を計算する。 When the optimal parameter calculation device 314 reads the graph data 140 and the node importance level information 315, the optimal parameter calculation device 314 reads the calculation units 312 and 313 stored in the code length calculation unit storage device 311 and uses the calculation units 312 and 313 to read the graph. A parameter (division model) that minimizes the sum of the code length and the code length of node importance division is calculated.
 以下で、具体的な計算手順に関する一例を無向グラフと有向グラフの場合に関してそれぞれ説明する。
[無向グラフの場合の一例] 
 本実施形態では、無向グラフに関し、リンクが「1」または「0」の2値をとり、分割数および各領域の大きさ(分割モデル)を最適化する場合を説明する。
Hereinafter, an example regarding a specific calculation procedure will be described for the case of an undirected graph and a directed graph, respectively.
[Example of undirected graph]
In the present embodiment, a description will be given of a case where a link takes a binary value of “1” or “0” and the number of divisions and the size of each region (division model) are optimized for an undirected graph.
 今、ノードはノード重要度に従ってソートされている、すなわちx≦…≦xとする。ただし、nはノード数をあらわす。 Now, nodes are sorted according to the node importance, that is, x 1 ≦ ... ≦ x n. Here, n represents the number of nodes.
 また、x=x,…,xとし、xの値域は[0,R]とする。 Further, x n = x 1 ,..., X n and the value range of x i is [0, R].
 ノード重要度の分布をヒストグラムによって近似する場合には(第2の実施の形態にも対応)、横軸(ノード重要度)を離散化する必要がある。このため、その最小刻み幅をdとする。この時、各領域の切れ目をa=kdと表す。ただし、a=(a,…,am-1)とし、k=(k,…,km-1)。 When the distribution of node importance is approximated by a histogram (also corresponding to the second embodiment), the horizontal axis (node importance) needs to be discretized. Therefore, let d be the minimum step size. At this time, the break of each region is expressed as a = kd. However, a = (a 1 ,..., A m−1 ) and k = (k 1 ,..., K m−1 ).
 この時、各領域は[0,a],(a,a],…,(am-1,R]と指定される。いま、a=0、a=Rと定義し、R=a-ai-1とする。また、各領域に属するデータの個数をnとする。また、領域の大きさの最小値をdκとし、r=R/dと定義する。 At this time, each area is designated as [0, a 1 ], (a 1 , a 2 ], ..., (a m−1 , R], where a 0 = 0 and a m = R are defined. , R i = a i −a i−1 , the number of data belonging to each region is n i, and the minimum size of the region is defined as dκ and defined as r = R / d .
 ノード重要度の分割に必要な記述長は、(4)式から(9)式で定義する事が可能である。ただし、log*dは、log d+loglog d+・・・として正のloglog・・・log dを足した量で、dの分布が未知の場合に最小の記述長を与える量であることが知られている。 The description length necessary for dividing node importance can be defined by equations (4) to (9). However, log * d is an amount obtained by adding positive loglog ... logd as log d + loglog d + ... and is known to give the minimum description length when the distribution of d is unknown. Yes.
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000008
Figure JPOXMLDOC01-appb-M000008
Figure JPOXMLDOC01-appb-M000009
(5)式は、xを符合化するための記述長を表し、(8)式および(9)式がモデルを記述するために必要な記述長を表している。ここで言うモデルとは、分割の数(m)および分割方法(k,r,d,κ)を指す。
Figure JPOXMLDOC01-appb-M000009
Expression (5) represents a description length for encoding xn , and Expressions (8) and (9) represent a description length necessary for describing a model. The model here refers to the number of divisions (m) and the division method (k, r, d, κ).
 m,r,d,κが与えられると,グラフ符号長は(10)式、(11)式で定義する事が可能である。ただし、|Gi,j|は、部分グラフGi,jに含まれるリンクの総数、θi,jは、部分グラフGi,jに割り当てられたベルヌーイ分布pi,jに関する1の確率を表す。 Given m, r, d, and κ, the graph code length can be defined by equations (10) and (11). Where | G i, j | is the total number of links included in subgraph G i, j , θ i, j is the probability of 1 for Bernoulli distribution p i, j assigned to subgraph G i, j. To express.
 また、グラフを符合化するためには、nおよびnも符合化する必要があるが、nおよびnの符号長は(5)式に含まれているため、Lには含めていない。 Further, in order to encode the graph is n i and n j must also be encoded, since the code length of n i and n j are included in equation (5), included in the L G Not.
Figure JPOXMLDOC01-appb-M000010
Figure JPOXMLDOC01-appb-M000010
Figure JPOXMLDOC01-appb-M000011
 最適パラメータ計算装置314は、(12)式の最適化問題を解く事によって最適な分割パラメータ(分割モデル)を決定する。
Figure JPOXMLDOC01-appb-M000011
The optimum parameter calculation device 314 determines the optimum division parameter (division model) by solving the optimization problem of the equation (12).
Figure JPOXMLDOC01-appb-M000012
 (12)式の最適化方法は、mmin≦m≦mmax、dmin≦d≦dmax、κmin≦κ≦κmaxとパラメータの範囲を指定し、パラメータの組み合わせに対して網羅的に(12)式を計算して最適なパラメータを計算する方法が考えられる。
Figure JPOXMLDOC01-appb-M000012
The optimization method of the expression (12) specifies the parameter ranges as m min ≦ m ≦ m max , d min ≦ d ≦ d max , κ min ≦ κ ≦ κ max, and comprehensively covers the parameter combinations. A method of calculating the optimum parameter by calculating equation (12) is conceivable.
 また例えば、効率的な局所最小化解を探索するために、以下の勾配法による手順に従って、Lh+LGを小さくする方向へパラメータを動かしながら解を探索する方法が考えられる。 Further, for example, to search for efficient local minimization solutions, according to the procedure according to the following gradient method, a method of searching a solution while moving the parameter in the direction of reducing the L h + L G are considered.
 まず、分割ノード重要度kをk=k0と初期化する。 First, the split node importance k is initialized to k = k 0 .
 次に、p回目の繰り返しにおける分割ノード重要度をkpとすると、kp=min{kp-1 q+, kp-1 q-} としてkpを計算する。ただし、kp q+=(kp 1, kp 2, …, kp q + 1, …, kp m-1) およびkp q-=(kp 1, kp 2, …, kp q - 1, …, kp m-1)であり、これはp回目の繰り返しにおけるq番目の分割ノード重要度を正または負の方向へ一つずらした分割ノード重要度を表す。このように探索を行なうと、(8)式から計算されるkの符号長はL(kp) <= L(kp-1)である。 Then, when the split node importance in p th iteration and k p, k p = min { k p-1 q +, k p-1 q-} to calculate the k p as. Where k p q + = (k p 1 , k p 2 ,…, k p q + 1,…, k p m-1 ) and k p q- = (k p 1 , k p 2 ,…, k p q −1,..., k p m−1 ), which represents the importance level of the divided node obtained by shifting the q-th divided node importance level in the p-th iteration by one in the positive or negative direction. When searching is performed in this manner, the code length of k calculated from the equation (8) is L (k p ) <= L (k p−1 ).
 以上の繰り返しを、L(kp) = L(kp-1)が満たされるまで探索を行う事で、Lh+LGを局所的に最小する解を効率よく計算する事が可能である。 By repeating the above iteration until L (k p ) = L (k p-1 ) is satisfied, it is possible to efficiently calculate a solution that locally minimizes L h + L G .
 以上の探索を、mmin≦m≦mmax、dmin≦d≦dmax、κmin≦κ≦κmaxで指定された範囲のパラメータの組み合わせに対して行い、(12)式を近似的に計算する。 The above search is performed for a combination of parameters in the ranges specified by m min ≦ m ≦ m max , d min ≦ d ≦ d max , and κ min ≦ κ ≦ κ max , and the expression (12) is approximated. calculate.
 この場合、最適パラメータ計算装置314は、分割記述長とグラフ記述長の和を小さくする方向へ分割結果を更新することを繰り返すことによって、最適化分割モデルを特定することになる。 In this case, the optimum parameter calculation device 314 identifies the optimized division model by repeatedly updating the division result in a direction to reduce the sum of the division description length and the graph description length.
 また例えば、以下の手順に従って動的計画問題として再帰的に最適パラメータを近似計算する方法が考えられる。 Also, for example, a method of approximating optimal parameters recursively as a dynamic programming problem according to the following procedure is conceivable.
 まず、a’=(a,τ)とすると、(5)式および(10)式は、(13)式および(14)式のように分解できる。ただし、n(R)はノード重要度が[0,R]区間に含まれるノードの数とする。 First, if a ′ = (a, τ), the expressions (5) and (10) can be decomposed as the expressions (13) and (14). However, n (R) is the number of nodes included in the interval [0, R] with node importance.
Figure JPOXMLDOC01-appb-M000013
Figure JPOXMLDOC01-appb-M000013
Figure JPOXMLDOC01-appb-M000014
 この時、L(R)を(15)式によって定義すると、(13)式と(14)式の和は(16)式の動的計画問題を解く事によって最小化可能である。この動的計画問題は、Gm+1,jがa’に依存するため、(13)式と(14)式の和を厳密に最小化する事はできないが、近似解を得る事が可能である。
Figure JPOXMLDOC01-appb-M000014
At this time, if L m (R) is defined by equation (15), the sum of equations (13) and (14) can be minimized by solving the dynamic programming problem of equation (16). In this dynamic programming problem, since G m + 1, j depends on a ′, the sum of Equations (13) and (14) cannot be strictly minimized, but an approximate solution can be obtained. It is.
Figure JPOXMLDOC01-appb-M000015
Figure JPOXMLDOC01-appb-M000015
Figure JPOXMLDOC01-appb-M000016
 (12)式の最小化の対象は、(13)式と(14)式の和に、L(k)とL(m,r,d,κ)を加えたものなので、動的計画法によって(12)式の最小化問題の探索空間を狭める事が可能である。
Figure JPOXMLDOC01-appb-M000016
The object of minimization of equation (12) is the sum of equations (13) and (14) plus L (k) and L (m, r, d, κ). It is possible to narrow down the search space for the minimization problem of equation (12).
 さらに、前記勾配法による探索と動的計画法による探索を組み合わせる事も考えられる。これは、前述の動的計画問題を解いて得られた解を、勾配法による探索の初期値として利用する。これによって、初期値をランダムに決定するよりもよい初期値が得られ、よりよい局所解を得る事が可能となる。 Furthermore, it is possible to combine the search by the gradient method and the search by the dynamic programming method. This uses the solution obtained by solving the above-mentioned dynamic programming problem as the initial value of the search by the gradient method. As a result, a better initial value can be obtained than when the initial value is determined randomly, and a better local solution can be obtained.
 この場合、最適パラメータ計算装置314は、動的計画法を用いて計算された分割結果を初期値とし、初期値から分割記述長とグラフ記述長の和を小さくする方向へ分割結果を更新することを繰り返すことによって、最適化分割モデルを特定することになる。 In this case, the optimum parameter calculation device 314 sets the division result calculated using dynamic programming as an initial value, and updates the division result from the initial value in a direction of reducing the sum of the division description length and the graph description length. By repeating the above, an optimized division model is specified.
[有向グラフの場合の一例] 
 本実施形態では、有向グラフに関し、リンクが「1」または「0」の2値をとり、分割数および各領域の大きさを最適化する場合を説明する。
[Example of directed graph]
In the present embodiment, a description will be given of a case where a link takes a binary value of “1” or “0” and the number of divisions and the size of each region are optimized for a directed graph.
 この例の説明では、無向グラフの場合の例と同様の表記を用い、rおよびcは、行および列に対する変数である事を表すとする。 In the explanation of this example, the same notation as in the case of the undirected graph is used, and it is assumed that r and c are variables for rows and columns.
 有向グラフの場合、ノード重要度、グラフ、モデルの符号長の総和は、(17)式で与えられる。 In the case of a directed graph, the node importance, the sum of the code lengths of the graph and the model are given by equation (17).
 (17)式の右辺の初項および第2項は、(5)式と同様に計算される行及び列のノード頻度分布符号長であり、第2項は(18)式で与えられるグラフの符号長であり、第4項から第7項は(8)式および(9)式と同様に計算されるモデルの符号長を表している。 The first term and the second term on the right side of equation (17) are the row frequency and column node frequency distribution code lengths calculated in the same manner as equation (5), and the second term is the graph given by equation (18). The fourth term to the seventh term represent the code length of the model calculated in the same manner as the equations (8) and (9).
Figure JPOXMLDOC01-appb-M000017
Figure JPOXMLDOC01-appb-M000017
Figure JPOXMLDOC01-appb-M000018
 最適パラメータ計算装置314は、(17)式のLを最小化するパラメータmr,rr,drr, mc,rc,dcc,を計算する事で、最適なグラフ分割を計算可能である。
Figure JPOXMLDOC01-appb-M000018
The optimum parameter calculation device 314 calculates the parameters m r , r r , d r , κ r , m c , r c , d c , κ c , which minimize L in the equation (17). Graph partitioning can be calculated.
 最適化の方法は,パラメータの組み合わせに対して網羅的に(17)式を計算して、Lを最小とするパラメータの組み合わせを選択する方法が考えられる。 As an optimization method, it is conceivable to comprehensively calculate equation (17) for a combination of parameters and select a combination of parameters that minimizes L.
 また例えば、無向グラフと同様にして、列方向および行方向の分割に対して勾配法による探索を繰り返す事によって局所的な解を計算する事も可能である。 Also, for example, as in the case of an undirected graph, it is also possible to calculate a local solution by repeating the search by the gradient method for the division in the column direction and the row direction.
 また例えば、無向グラフと同様にして、(17)式を最小化する問題は動的計画問題に帰着させる事が可能であり、最適パラメータ計算装置314は、動的計画法を用いて最適パラメータを計算する事も可能である。 Further, for example, similarly to the undirected graph, the problem of minimizing the expression (17) can be reduced to a dynamic programming problem, and the optimum parameter calculation device 314 uses the dynamic programming method to obtain the optimum parameter. Can also be calculated.
 最適パラメータ計算装置314は、最小記述長原理に基づき、ノード重要度の値域の分割を符号化するために必要な記述長と、その分割の元でグラフを符号化するための記述長の和を最小とする分割パラメータ(分割数や各領域の大きさなど)を最適化する。 Based on the minimum description length principle, the optimum parameter calculation device 314 calculates the sum of the description length necessary for encoding the division of the node importance range and the description length for encoding the graph under the division. Optimize the division parameters to be minimized (number of divisions, size of each area, etc.).
 本実施の形態のグラフ構造推定装置300の動作は、図8のステップS102の処理で、グラフの分割が計算される際、予め記憶されているルールによって分割するのではなく、ステップS101で計算されたノード重要度情報に対して分割の最適化を実施する点を除き、図2に示した第1の実施の形態に関わるグラフ構造推定装置100の動作と同じである。 The operation of the graph structure estimation apparatus 300 according to the present embodiment is not calculated according to a pre-stored rule but calculated in step S101 when the graph is calculated in the process of step S102 of FIG. The operation is the same as that of the graph structure estimation apparatus 100 according to the first embodiment shown in FIG. 2 except that the optimization of the division is performed on the node importance information.
 本実施の形態では、最適化の基準として、最小記述長原理を用いた例を説明しているが、最適化の基準として、赤池情報量基準やベイズ情報量基準など、その他の類似の基準を用いる事も可能である。 In this embodiment, an example using the minimum description length principle is described as an optimization criterion, but other similar criteria such as Akaike information criterion and Bayesian information criterion are used as optimization criteria. It is also possible to use it.
 本実施形態によれば、ノード重要度分割符号長計算部313は、ノード重要度の値域の分割結果を分割モデルとし、互いに異なる分割モデルごとに、ノード重要度情報および分割モデルを符号化するために必要な分割記述長を算出する。 According to the present embodiment, the node importance division code length calculation unit 313 uses the division result of the range of node importance as a division model, and encodes the node importance information and the division model for each different division model. Calculate the required division description length.
 グラフ符号長計算部312は、ノードのそれぞれを、ノード重要度情報に基づいて、分割モデルにて特定される複数のグループのいずれかに分けた際に、ノードのグループ分けによって分割されたグラフを符号化するためのグラフ記述長を、分割モデルごとに算出する。 When the graph code length calculation unit 312 divides each of the nodes into any of a plurality of groups specified by the division model based on the node importance information, the graph code length calculation unit 312 displays the graph divided by the node grouping. The graph description length for encoding is calculated for each division model.
 最適パラメータ計算装置314は、互いに異なる分割モデルの中から、分割記述長とグラフ記述長の和が最小になる最適化分割モデルを特定し、ノードのそれぞれを、ノード重要度情報に基づいて、最適化分割モデルにて特定される複数のグループのいずれかに分ける。 The optimum parameter calculation device 314 specifies an optimized division model that minimizes the sum of the division description length and the graph description length from among different division models, and optimizes each of the nodes based on the node importance information. It is divided into one of a plurality of groups specified by the generalized division model.
 このため、グラフ符号長を考慮しながら、最適な分割モデルを特定することが可能になる。 For this reason, it is possible to specify an optimal division model in consideration of the graph code length.
[第4の実施の形態]
 図14は、本発明の第4の実施の形態に関わるグラフ構造推定装置400を示したブロック図である。
[Fourth Embodiment]
FIG. 14 is a block diagram showing a graph structure estimation apparatus 400 according to the fourth embodiment of the present invention.
 グラフ構造推定装置400は、例えば、CPU、メモリおよび入出力装置を含むコンピュータである。グラフ構造推定装置400は、ハードディスクまたはメモリに記録されたプログラムに従って動作する。 The graph structure estimation device 400 is a computer including a CPU, a memory, and an input / output device, for example. The graph structure estimation apparatus 400 operates according to a program recorded on a hard disk or a memory.
 グラフ構造推定装置400は、プログラムを記録媒体から読み取り実行することによって、ノード重要度計算装置110、ノード重要度分割最適化装置410、および、推定構造出力装置130として機能する。 The graph structure estimation device 400 functions as a node importance calculation device 110, a node importance division optimization device 410, and an estimation structure output device 130 by reading and executing a program from a recording medium.
 図14を参照すると、グラフ構造推定装置400は、図11に示した第3の実施の形態に関わるグラフ構造推定装置300と比較して、ノード重要度分割最適化装置310に代えて、ノード重要度分割最適化装置410を有する点で相違する。 Referring to FIG. 14, the graph structure estimation apparatus 400 is different from the graph structure estimation apparatus 300 according to the third embodiment shown in FIG. The difference is that the degree-dividing optimization device 410 is provided.
 以下、グラフ構造推定装置400について、グラフ構造推定装置300との相違点を中心に説明する。 Hereinafter, the graph structure estimation apparatus 400 will be described focusing on differences from the graph structure estimation apparatus 300.
 ノード重要度分割最適化装置410は、一般的に分割手段と呼ぶことができる。 The node importance division optimization device 410 can be generally called a division means.
 ノード重要度分割最適化装置410は、図15に示されるように、符号長計算部記憶装置411と、最適パラメータ計算装置413とを備えている。符号長計算部記憶装置411は、ノード重要度分割符号長計算部313および部分グラフ分割符号長計算部412を記憶している。 The node importance division optimization device 410 includes a code length calculation unit storage device 411 and an optimum parameter calculation device 413, as shown in FIG. The code length calculation unit storage device 411 stores a node importance division code length calculation unit 313 and a subgraph division code length calculation unit 412.
 また、ノード重要度分割最適化装置410は、グラフデータ140と、ノード重要度計算装置110で計算されたノード重要度情報315とを入力とし、グラフ構造推定結果150を出力する。 Further, the node importance degree division optimization apparatus 410 receives the graph data 140 and the node importance degree information 315 calculated by the node importance degree calculation apparatus 110, and outputs a graph structure estimation result 150.
 第3の実施の形態に関わるグラフ構造推定装置300との機能的な相違点は、本実施の形態では、グラフをノード重要度に従った分割をして得られる部分グラフを、さらに部分グラフへ分割する点である。 The functional difference from the graph structure estimation apparatus 300 according to the third embodiment is that, in this embodiment, a subgraph obtained by dividing a graph according to node importance is further converted into a subgraph. It is a point to divide.
 ノード重要度分割最適化装置410は、ノード重要度の値域の分割モデル(分割用ノード重要度の設定)を、任意の最適化方法(最適化基準)、例えば、最小記述長原理、赤池情報量基準、または、ベイズ情報量基準を利用して、グラフデータに基づき計算する事が可能である。 The node importance division optimization device 410 uses a node importance value range division model (setting of node importance for division) as an arbitrary optimization method (optimization criterion), for example, the minimum description length principle, Akaike information amount It is possible to calculate based on graph data using a standard or a Bayesian information criterion.
 図16は、本実施の形態のグラフ分割の一例を示している。図16の左図は、入力されたグラフをノード重要度に従って分割する例であり、右図は、部分グラフG2,2がさらにその内部で分割されている事を示している。 FIG. 16 shows an example of graph division according to the present embodiment. The left figure of FIG. 16 is an example of dividing the input graph according to the node importance, and the right figure shows that the partial graphs G 2 and 2 are further divided inside.
 符号長計算部記憶装置411は、一般的に符号長計算部記憶手段と呼ぶことができる。 The code length calculation unit storage device 411 can be generally called code length calculation unit storage means.
 部分グラフ分割符号長計算部412は、一般的に部分グラフ分割符号長計算手段と呼ぶことができる。 The subgraph division code length calculation unit 412 can be generally called a subgraph division code length calculation means.
 なお、ノード重要度分割符号長計算部313と部分グラフ分割符号長計算部412は、例えば、コンピュータにて実行されたときに所定の計算を実行するプログラムでもよい。 The node importance division code length calculation unit 313 and the subgraph division code length calculation unit 412 may be programs that execute predetermined calculations when executed by a computer, for example.
 ノード重要度分割符号長計算部313と部分グラフ分割符号長計算部412は、あるパラメータにおける、ノード重要度の値域の分割を符号化するために必要な記述長と、その分割の元で各部分グラフをさらに分割し、それを符号化するための記述長を計算するための手順を示す。 The node importance division code length calculation unit 313 and the subgraph division code length calculation unit 412 each have a description length necessary for encoding the division of the node importance value range in a certain parameter, and each part based on the division. The procedure for further dividing the graph and calculating the description length for encoding it is shown.
 例えば、部分グラフ分割符号長計算部412は、ノードのそれぞれを、ノードの重要度情報に基づいて、分割モデルにて特定される複数のグループのいずれかに分けた際に生じる各グループを、グループ内のノード間の関係に基づいて再分割した際に、各グループでの再分割の状態を符号化するために必要な再分割符号長を、分割モデルごとに算出する。 For example, the subgraph division code length calculation unit 412 assigns each group generated when dividing each of the nodes into one of a plurality of groups specified by the division model based on the importance information of the node. When the subdivision is performed based on the relationship between the nodes, the subdivision code length necessary for encoding the subdivision state in each group is calculated for each division model.
 ノード重要度の値域の分割を符号化するために必要な記述長は、ノード重要度分割最適化装置210が行う方法と同様の方法で計算可能である。 The description length necessary for encoding the division of the node importance value range can be calculated by a method similar to the method performed by the node importance division optimization apparatus 210.
 部分グラフの分割とその符合化方法は、例えば非特許文献1で提案された分割手法とその記述長の計算手段や、公知技術である木構造を用いた分割手法とその記述長の計算手段などを利用する事が可能である。 Subgraph division and its encoding method are, for example, the division method proposed in Non-Patent Document 1 and its description length calculation means, the well-known division method using a tree structure and its description length calculation means, etc. Can be used.
 最適パラメータ計算装置413は、一般的に分割制御手段と呼ぶことができる。 The optimum parameter calculation device 413 can be generally called a division control means.
 最適パラメータ計算装置413は、グラフデータ140とノード重要度情報315を読み込むと、符号長計算部記憶装置411に記憶されている計算部313および412を読み込み、計算部313および412を用いて、部分グラフ分割の符号長とノード重要度の値域の分割の符号長の和を最小とするパラメータを計算する。 When the optimal parameter calculation device 413 reads the graph data 140 and the node importance information 315, the optimum parameter calculation device 413 reads the calculation units 313 and 412 stored in the code length calculation unit storage device 411, and uses the calculation units 313 and 412 to A parameter that minimizes the sum of the code length of the graph division and the code length of the division of the node importance value range is calculated.
 例えば、最適パラメータ計算装置413は、互いに異なる分割モデルの中から、分割記述長と再分割符号長の和が最小になる最適化分割モデルを特定し、ノードのそれぞれを、ノードの重要度情報に基づいて、最適化分割モデルにて特定される複数のグループのいずれかに分ける。 For example, the optimum parameter calculation device 413 identifies an optimized division model that minimizes the sum of the division description length and the subdivision code length from among different division models, and sets each of the nodes as node importance information. Based on the plurality of groups specified by the optimized division model.
 本実施形態によれば、ノード重要度分割符号長計算部313は、分割用ノード重要度を用いたノード重要度の値域の分割結果を分割モデルとし、互いに異なる分割モデルごとに、ノード重要性および分割モデルを符号化するために必要な分割記述長を算出する。 According to the present embodiment, the node importance division code length calculation unit 313 uses the division result of the node importance value range using the node importance for division as a division model, and sets the node importance and difference for each different division model. A division description length necessary for encoding the division model is calculated.
 部分グラフ分割符号長計算部412は、ノードのそれぞれを、ノードのノード重要度情報に基づいて、分割モデルにて特定される複数のグループのいずれかに分けた際に生じる各グループを、グループ内のノード間の関係に基づいて再分割した際に、各グループでの再分割の状態を符号化するために必要な再分割符号長を、分割モデルごとに算出する。 The subgraph division code length calculation unit 412 divides each group generated when each node is divided into any of a plurality of groups specified by the division model based on the node importance information of the node. When the subdivision is performed based on the relationship between the nodes, the subdivision code length necessary for encoding the subdivision state in each group is calculated for each division model.
 最適パラメータ計算装置413は、互いに異なる分割モデルの中から、分割記述長と再分割符号長の和が最小になる最適化分割モデルを特定し、ノードのそれぞれを、ノード重要度情報に基づいて、最適化分割モデルにて特定される複数のグループのいずれかに分ける。 The optimal parameter calculation device 413 identifies an optimized division model that minimizes the sum of the division description length and the re-division code length from among different division models, and determines each of the nodes based on the node importance information, It is divided into one of a plurality of groups specified by the optimized division model.
 このため、部分グラフの再分割を考慮しながら、最適な分割モデルを特定することが可能になる。 For this reason, it becomes possible to identify the optimal division model while taking into account the subdivision of the subgraph.
 [第5の実施の形態]
 図17は、本発明の第5の実施の形態に関わるグラフ構造推定装置500を示したブロック図である。
[Fifth Embodiment]
FIG. 17 is a block diagram showing a graph structure estimation apparatus 500 according to the fifth embodiment of the present invention.
 グラフ構造推定装置500は、例えば、CPU、メモリおよび入出力装置を含むコンピュータである。グラフ構造推定装置500は、ハードディスクまたはメモリに記録されたプログラムに従って動作する。 The graph structure estimation apparatus 500 is a computer including a CPU, a memory, and an input / output device, for example. The graph structure estimation apparatus 500 operates according to a program recorded on a hard disk or a memory.
 グラフ構造推定装置500は、プログラムを記録媒体から読み取り実行することによって、ノード重要度計算装置510、動的ノード重要度分割最適化装置520、および、推定構造出力装置130として機能する。 The graph structure estimation apparatus 500 functions as a node importance calculation apparatus 510, a dynamic node importance division optimization apparatus 520, and an estimation structure output apparatus 130 by reading and executing a program from a recording medium.
 図17を参照すると、グラフ構造推定装置500は、図9に示した第2の実施の形態に関わるグラフ構造推定装置200と比較して、ノード重要度計算装置110に代えてノード重要度計算装置510を有する点、ノード重要度分割最適化装置210に代えて、動的ノード重要度分割最適化装置520を有する点、グラフデータ140に代えてグラフデータ530を入力する点、グラフ構造推定結果150に代えてグラフ構造推定結果540を出力する点で相違する。 Referring to FIG. 17, the graph structure estimation apparatus 500 is replaced with the node importance calculation apparatus 110 in comparison with the graph structure estimation apparatus 200 according to the second embodiment illustrated in FIG. 9. A point having 510, a point having a dynamic node importance division optimization device 520 instead of the node importance division optimization device 210, a point inputting graph data 530 instead of the graph data 140, and a graph structure estimation result 150 Instead, the graph structure estimation result 540 is output.
 グラフデータ530は、時系列的に得られたグラフ列であり、G=G,G,・・・,Gとする。グラフ構造推定結果540は、グラフデータ530に対応する各時刻におけるグラフ構造の列である。 The graph data 530 is a graph sequence obtained in time series, and G t = G 1 , G 2 ,..., G t . The graph structure estimation result 540 is a graph structure column at each time corresponding to the graph data 530.
 ノード重要度計算装置510は、一般的に計算手段と呼ぶことができる。 The node importance calculation device 510 can be generally called a calculation means.
 ノード重要度計算装置510は、入力されたグラフ列Gに対して、各時刻におけるノード重要度の列xt,n=x ,x ,・・・,x を計算する。例えば、ノード重要度計算装置510は、グラフデータを時系列で受け付け、グラフデータを受け付けるたびに、グラフデータに基づいて、グラフデータに表されたノードごとにノード重要度を計算する。 The node importance calculation device 510 calculates a node importance sequence x t, n = x 1 n , x 2 n ,..., X t n at each time for the input graph sequence G t . . For example, the node importance calculation device 510 receives graph data in time series, and calculates the node importance for each node represented in the graph data based on the graph data every time the graph data is received.
 なお、ノード重要度計算装置510は、ノード重要度として、ノード重要度計算装置110のように、任意の指標(例えば、各ノードの持つリンクの頻度、ページランク、ハブ指標、または、オーソリィテ指標)を利用することが可能である。 The node importance calculation device 510 has an arbitrary index (for example, the link frequency, page rank, hub index, or authority index of each node) as the node importance calculation device 110 as the node importance. Can be used.
 動的ノード重要度分割最適化装置520は、一般的に分割手段と呼ぶことができる。 The dynamic node importance division optimization apparatus 520 can be generally called division means.
 動的ノード重要度分割最適化装置520は、グラフデータが受け付けられるたびに、ノード重要度の値域の分割を、任意の最適化基準(例えば、最小記述長原理、赤池情報量基準、または、ベイズ情報量基準)にしたがって、各グラフデータのノード重要度に基づいて最適化する。 The dynamic node importance division optimization device 520 divides the range of the node importance values by any optimization criterion (for example, the minimum description length principle, the Akaike information criterion, or Bayesian each time graph data is received. Optimized based on the node importance of each graph data according to the information amount standard).
 動的ノード重要度分割最適化装置520は、図18に示されるように、グラフ列符号長計算部記憶装置511と、モデル列符号長計算部記憶装置512と、最適パラメータ計算装置513とを備えている。 As illustrated in FIG. 18, the dynamic node importance division optimization device 520 includes a graph sequence code length calculation unit storage device 511, a model sequence code length calculation unit storage device 512, and an optimal parameter calculation device 513. ing.
 また、動的ノード重要度分割最適化装置520は、グラフデータ530と、ノード重要度計算装置510で計算されたノード重要度情報514とを入力とし、グラフ構造推定結果540を出力する。 Also, the dynamic node importance division optimization device 520 receives the graph data 530 and the node importance information 514 calculated by the node importance calculation device 510, and outputs a graph structure estimation result 540.
 最適パラメータ計算装置513は、一般的に分割制御手段と呼ぶことができる。 The optimum parameter calculation device 513 can be generally called a division control means.
 最適パラメータ計算装置513は、入力されたグラフデータ530およびノード重要度情報514に対して、グラフ列符号長計算部記憶装置511およびモデル列符号長計算部記憶装置512から読み込まれた計算手段を利用して計算されるグラフ列およびモデル列の符号長の和を最小とするモデル(分割モデル)を選択する。 The optimum parameter calculation device 513 uses calculation means read from the graph sequence code length calculation unit storage device 511 and the model sequence code length calculation unit storage device 512 for the input graph data 530 and node importance level information 514. The model (division model) that minimizes the sum of the code lengths of the graph sequence and the model sequence calculated in this way is selected.
 最適パラメータ計算装置513は、例えば非特許文献6で提案されている動的モデル選択の枠組みを利用する事によって実現可能である。 The optimal parameter calculation device 513 can be realized by using a dynamic model selection framework proposed in Non-Patent Document 6, for example.
 今、時刻tにおけるモデルをMとし、モデルの列をM=M,M,・・・,Mとする。 Now, let the model at time t be M t , and the model row be M t = M 1 , M 2 ,..., M t .
 動的モデル選択では、最適パラメータ計算装置513は、データ列(本実施形態では、グラフシーケンスGおよびノード重要度列xt,n)とモデル列Mを符号化するための符号長を表す(19)式を最小化するモデルを選択する。 In the dynamic model selection, the optimum parameter calculation device 513 represents a code length for encoding the data sequence (in this embodiment, the graph sequence G t and the node importance sequence x t, n ) and the model sequence M t. (19) Select a model that minimizes the equation.
Figure JPOXMLDOC01-appb-M000019
 グラフ列符号長計算部511で計算されるグラフ列の符号長とは、(19)式の右辺第1項であり、例えば符号長計算部記憶装置311や符号長計算部記憶装置411に記憶されている計算部によって計算される符号長とする事が可能である。
Figure JPOXMLDOC01-appb-M000019
The code length of the graph sequence calculated by the graph sequence code length calculation unit 511 is the first term on the right side of the equation (19), and is stored in the code length calculation unit storage device 311 or the code length calculation unit storage device 411, for example. The code length can be calculated by the calculation unit.
 例として符号長計算部記憶装置311を利用する場合には、グラフ列符号長計算部511は、(5)式および(10)式をグラフ列の符号長とすることができる。 As an example, when the code length calculation unit storage device 311 is used, the graph string code length calculation unit 511 can use the expressions (5) and (10) as the code length of the graph string.
 また、グラフ列符号長計算部511は、非特許文献6に示されるように、予測的確率的コンプレキシティを利用して(19)式の右辺第1項を定義し計算する事も可能である。 In addition, as shown in Non-Patent Document 6, the graph sequence code length calculation unit 511 can also define and calculate the first term on the right side of Equation (19) using predictive probabilistic complexity. is there.
 その場合には、θMtを、時刻tにおいてモデルMを仮定した場合のデータの分布のパラメータとし、θMt t-1=θM1,θM2,…,θMt-1とすると、(19)式の右辺第1項は(20)式で与えられる。 In this case, if θ Mt is a parameter of data distribution when the model M t is assumed at time t, and θ Mt t−1 = θ M1 , θ M2 ,..., Θ Mt−1 , (19 ) The first term on the right side of the equation is given by equation (20).
Figure JPOXMLDOC01-appb-M000020
 モデル列符号長計算部記憶装置512で計算されるモデル列の符号長とは、(19)式の右辺第2項であり、例えば符号長計算部記憶装置311や符号長計算部記憶装置411に記憶されている計算部によって計算される符号長とする事が可能である。
Figure JPOXMLDOC01-appb-M000020
The code length of the model sequence calculated by the model sequence code length calculation unit storage device 512 is the second term on the right side of the equation (19). For example, the code length calculation unit storage device 311 or the code length calculation unit storage device 411 The code length calculated by the stored calculation unit can be used.
 例として符号長計算部記憶装置311を利用する場合には、(8)式および(9)式がモデルの記述長に相当する。 For example, when the code length calculation unit storage device 311 is used, the expressions (8) and (9) correspond to the description length of the model.
 また例えば、非特許文献6に示されるように、モデルの時間遷移モデルを考慮し、モデルに対する予測的確率的コンプレキシティを利用して(19)式の右辺第2項を定義し計算する事も可能である。 In addition, for example, as shown in Non-Patent Document 6, the second term on the right side of the equation (19) is defined and calculated using a predictive stochastic complexity for the model in consideration of the time transition model of the model. Is also possible.
 その場合には、時刻tにおけるモデル遷移のパラメータをαとし、α,α,…,αとすると、(19)式の右辺第2項は、(21)式で与えられる。 In that case, if the parameter of the model transition at time t is α t and α t = α 1 , α 2 ,..., Α t , the second term on the right side of equation (19) is given by equation (21) It is done.
Figure JPOXMLDOC01-appb-M000021
 最適パラメータ計算装置513は、(19)式を最小化するモデル列およびパラメータを計算する方法として、候補となるモデル列およびパラメータの組み合わせを事前に設定し、それぞれに対して(19)式を計算し、最小となるモデル列およびパラメータを選択する方法が考えられる。
Figure JPOXMLDOC01-appb-M000021
The optimal parameter calculation device 513 sets a combination of candidate model sequences and parameters in advance as a method for calculating the model sequence and parameters for minimizing the formula (19), and calculates the formula (19) for each. Then, a method of selecting a model string and a parameter that are minimized can be considered.
 また、非特許文献6に示されるように、(19)式を最小化するためのモデル列を、動的計画法を利用して計算する事も可能である。 Further, as shown in Non-Patent Document 6, it is also possible to calculate a model sequence for minimizing the equation (19) using dynamic programming.
 本実施形態によれば、動的ノード重要度分割最適化装置520は、ノード重要度の値域の分割結果を、任意の最適化基準にしたがって、各グラフデータのノード重要度に基づいて最適化する。 According to the present embodiment, the dynamic node importance division optimization device 520 optimizes the division result of the node importance value range based on the node importance of each graph data according to an arbitrary optimization criterion. .
 このため、ノード重要度分布に従ったノードの構造が、時間的に変化する場合に、その構造を特定する事が可能になる。 Therefore, when the node structure according to the node importance distribution changes with time, the structure can be specified.
 本実施形態では、グループ(クラスタ)の数の遷移を明示的にモデル化しているため、ノードの構造が時間的に変化する場合に、その構造を高い精度で推定することが可能になる。 In this embodiment, since the transition of the number of groups (clusters) is explicitly modeled, when the node structure changes with time, the structure can be estimated with high accuracy.
 [第6の実施の形態]
 図19は、本発明の第6の実施の形態に関わるグラフ構造推定装置600を示したブロック図である。
[Sixth Embodiment]
FIG. 19 is a block diagram showing a graph structure estimation apparatus 600 according to the sixth embodiment of the present invention.
 グラフ構造推定装置600は、例えば、CPU、メモリおよび入出力装置を含むコンピュータである。グラフ構造推定装置600は、ハードディスクまたはメモリに記録されたプログラムに従って動作する。 The graph structure estimation apparatus 600 is a computer including a CPU, a memory, and an input / output device, for example. The graph structure estimation apparatus 600 operates according to a program recorded in a hard disk or memory.
 グラフ構造推定装置600は、プログラムを記録媒体から読み取り実行することによって、ノード重要度計算装置110、動的ノード重要度分割最適化装置610、モデルパラメータ記憶装置620、および、推定構造出力装置130として機能する。 The graph structure estimation apparatus 600 reads out and executes a program from a recording medium, thereby forming a node importance calculation apparatus 110, a dynamic node importance division optimization apparatus 610, a model parameter storage apparatus 620, and an estimated structure output apparatus 130. Function.
 図19を参照すると、グラフ構造推定装置600は、図9に示した第2の実施の形態に関わるグラフ構造推定装置200と比較して、ノード重要度分割最適化装置210に代えて、動的ノード重要度分割最適化装置610を有する点、および、モデルパラメータ記憶装置620を有する点、および、グラフデータ140に代えてグラフデータ630が入力される点、および、グラフ構造推定結果150に代えてグラフ構造推定結果640が出力される点で相違する。 Referring to FIG. 19, the graph structure estimation apparatus 600 is replaced with the node importance degree division optimization apparatus 210 as compared with the graph structure estimation apparatus 200 according to the second embodiment illustrated in FIG. 9. The point having the node importance division optimization device 610, the point having the model parameter storage device 620, the point where the graph data 630 is input instead of the graph data 140, and the graph structure estimation result 150 instead The difference is that a graph structure estimation result 640 is output.
 グラフデータ630は、時系列的に得られるグラフであり、時刻tに入力されるグラフデータをGとする。 Graph data 630, when a series obtainable graph, the graph data input at time t and G t.
 グラフ構造推定結果640は、グラフデータ630に対応する各時刻におけるグラフ構造である。 The graph structure estimation result 640 is a graph structure at each time corresponding to the graph data 630.
 モデルパラメータ記憶装置620は、一般的に格納手段と呼ぶことができる。 The model parameter storage device 620 can be generally referred to as storage means.
 モデルパラメータ記憶装置620には、前の時刻までに計算された時間遷移モデルのパラメータ(このパラメータは、過去の最適化されたノード分布(ノード重要度の値域)の分割結果を示すことになる)が記憶されている。ここで言う、時間遷移モデルのパラメータとは、例えば第5の実施の形態で言うところの、M,θMt ,αなどが相当する。 In the model parameter storage device 620, the parameter of the time transition model calculated up to the previous time (this parameter indicates the division result of the past optimized node distribution (node importance value range)). Is remembered. Here, the parameters of the time transition model correspond to, for example, M t , θ Mt t , α t, etc., as described in the fifth embodiment.
 動的ノード重要度分割最適化装置610は、一般的に分割制御手段と呼ぶことができる。 The dynamic node importance division optimization device 610 can be generally called division control means.
 動的ノード重要度分割最適化装置610は、グラフデータ630、ノード重要度計算装置110で計算されたノード重要度情報、および、モデルパラメータ記憶装置620に記憶されているパラメータを読み込み、その時刻におけるグラフのノード重要度情報に従った分割を計算する。この計算には、例えば非特許文献3で提案されている逐次的動的選択アルゴリズムを適用する事が可能である。 The dynamic node importance division optimization device 610 reads the graph data 630, the node importance information calculated by the node importance calculation device 110, and the parameters stored in the model parameter storage device 620, and at that time Calculate the division according to the node importance information of the graph. For this calculation, for example, a sequential dynamic selection algorithm proposed in Non-Patent Document 3 can be applied.
 例えば、動的ノード重要度分割最適化装置610は、グラフデータが受け付けられるたびに、モデルパラメータ記憶装置620に格納された過去の最適化されたノード重要度の値域の分割結果と、ノードごとのノード重要度情報と、に基づいて、ノード重要度の値域の分割モデルを、任意の最適化基準(例えば、最小記述長原理、赤池情報量基準、または、ベイズ情報量基準)にしたがって最適化する。 For example, each time the graph data is received, the dynamic node importance division optimization device 610, the division result of the past optimized node importance value range stored in the model parameter storage device 620, the Based on the node importance information, the node importance value range division model is optimized according to any optimization criterion (for example, the minimum description length principle, Akaike information criterion, or Bayesian information criterion). .
 この例では、各時刻においてグラフデータおよびノード重要度情報が入力されるごとに、動的ノード重要度分割最適化装置610は、候補となる全てのモデルに関して(20)式で表される予測的確率的コンプレキシティを計算する。そして、動的ノード重要度分割最適化装置610は、その最小値に対応するモデルを、各時刻に対する最適なモデルとして選択し出力する。 In this example, every time graph data and node importance information are input at each time, the dynamic node importance division optimization apparatus 610 predictively expressed by equation (20) for all candidate models. Calculate probabilistic complexity. Then, the dynamic node importance division optimization apparatus 610 selects and outputs the model corresponding to the minimum value as the optimum model for each time.
 本実施形態によれば、動的ノード重要度分割最適化装置610は、グラフデータが受け付けられるたびに、モデルパラメータ記憶装置620に格納された過去の最適化されたノード分布(ノード重要度の値域)の分割結果と、ノードごとのノード重要度情報と、に基づいて、ノード重要度の値域の分割を、任意の最適化基準にしたがって最適化する。このため、逐次的に、分割モデルを最適化できる。 According to the present embodiment, the dynamic node importance division optimization device 610 performs the past optimized node distribution (range of node importance values stored in the model parameter storage device 620) each time graph data is received. ) And the node importance value information for each node, the division of the node importance value range is optimized according to an arbitrary optimization criterion. For this reason, a division | segmentation model can be optimized sequentially.
 なお、上記各実施形態は、ブログやウェブページにおけるオピニオンリーダーやネットワーク構造の分析に適用可能である。 Note that each of the above embodiments is applicable to analysis of opinion leaders and network structures in blogs and web pages.
 ノード重要度分布(ノード重要度の値域)の分割の上位の領域は、リンクを多く保有するノードに相当する。この領域に入るノードを分析する事でオピニオンリーダーを発見したり、オピニオンリーダー同士の関係などを分析する事が可能である。特に有向グラフの場合には、送信の多いノードと受信の多いノードの分析をする事ができる。 The upper area of the node importance distribution (node importance value range) corresponds to a node having many links. By analyzing the nodes that enter this area, it is possible to discover opinion leaders and analyze relationships among opinion leaders. In particular, in the case of a directed graph, it is possible to analyze a node having a high transmission and a node having a high reception.
 論文、ニュース記事、ブログ記事の単語の共起をグラフで表現すると、リンクを多く持つ単語は、現在流行している話題に関連する語句であり、そのような関係や構造を分析する事が可能となる。 When the co-occurrence of words in papers, news articles, and blog articles is expressed in a graph, words with many links are phrases related to the topic that is currently popular, and it is possible to analyze such relationships and structures It becomes.
 以上、各実施形態を参照して本願発明を説明したが、本願発明は上記各実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 As mentioned above, although this invention was demonstrated with reference to each embodiment, this invention is not limited to said each embodiment. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
 この出願は、2008年2月27日に出願された日本出願特願2008-46097を基礎とする優先権を主張し、その開示の全てをここに取り込む。 This application claims priority based on Japanese Patent Application No. 2008-46097 filed on Feb. 27, 2008, the entire disclosure of which is incorporated herein.

Claims (38)

  1.  複数のノードと、当該複数のノードのうちの各ノード間の関係の程度を示すリンクと、によって表されるグラフデータを受け付けた場合に、当該グラフデータに基づいて、前記ノードごとに、当該ノードの重要性の程度を示す重要度情報を計算する計算手段と、
     前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、複数のグループのいずれかに分ける分割手段と、
     前記ノードのグループ分けの結果を、前記グラフデータのグラフ構造情報として出力する出力手段と、を含むグラフ構造推定装置。
    When graph data represented by a plurality of nodes and a link indicating the degree of relationship between each of the plurality of nodes is received, for each node based on the graph data, A calculation means for calculating importance information indicating the degree of importance of
    Dividing means for dividing each of the nodes into one of a plurality of groups based on importance information of the node;
    An output unit that outputs a result of grouping the nodes as graph structure information of the graph data.
  2.  前記リンクは、前記各ノード間の関係の程度を数値で示し、
     前記計算手段は、前記リンクが示す数値のうち同一のノードに関係する数値の総和を、前記ノードごとに計算し、当該総和を、当該ノードの重要度情報として用いる、請求の範囲第1項に記載のグラフ構造推定装置。
    The link indicates the degree of relationship between the nodes as a numerical value,
    The calculation means according to claim 1, wherein the calculation means calculates a sum of numerical values related to the same node among the numerical values indicated by the link, and uses the total as the importance level information of the node. The graph structure estimation apparatus described.
  3.  前記計算手段は、ページランクアルゴリズムにしたがって、前記グラフデータに基づいて、前記ノードごとに、当該ノードのページランクを計算し、当該ページランクを、当該ノードの重要度情報として用いる、請求の範囲第1項に記載のグラフ構造推定装置。 The calculation means calculates a page rank of the node for each node based on the graph data according to a page rank algorithm, and uses the page rank as importance level information of the node. The graph structure estimation apparatus according to item 1.
  4.  前記計算手段は、HITSアルゴリズムにしたがって、前記グラフデータに基づいて、前記ノードごとに、当該ノードのハブ指標を計算し、当該ハブ指標を、当該ノードの重要度情報として用いる、請求の範囲第1項に記載のグラフ構造推定装置。 The calculation means calculates a hub index of the node for each node based on the graph data according to a HITS algorithm, and uses the hub index as importance level information of the node. The graph structure estimation apparatus according to item.
  5.  前記計算手段は、HITSアルゴリズムにしたがって、前記グラフデータに基づいて、前記ノードごとに、当該ノードのオーソリティ指標を計算し、当該オーソリティ指標を、当該ノードの重要度情報として用いる、請求の範囲第1項に記載のグラフ構造推定装置。 The calculation means calculates an authority index of the node for each of the nodes based on the graph data according to a HITS algorithm, and uses the authority index as importance level information of the node. The graph structure estimation apparatus according to item.
  6.  前記分割手段は、さらに、前記ノード重要度情報の取りうる最小値から最大値までを表すノード重要度の値域を、1つまたは複数の分割用ノード重要度を用いて分割して得られた複数の分割領域を、前記複数のグループとする、請求の範囲第1項から第5項のいずれか1項に記載のグラフ構造推定装置。 The dividing means further includes a plurality of node importance values obtained by dividing a node importance value range representing a minimum value to a maximum value that can be taken by the node importance information by using one or a plurality of dividing node importance values. The graph structure estimation apparatus according to any one of claims 1 to 5, wherein the divided areas are the plurality of groups.
  7.  前記分割手段は、前記ノード重要度の値域の分割結果を、任意の最適化基準にしたがって、前記グラフデータに基づき最適化する、請求の範囲第6項に記載のグラフ構造推定装置。 The graph structure estimation device according to claim 6, wherein the dividing means optimizes a result of dividing the range of node importance based on the graph data according to an arbitrary optimization criterion.
  8.  前記分割手段は、前記任意の最適化基準として、最小記述長原理、赤池情報量基準、または、ベイズ情報量基準を用いる、請求の範囲第7項に記載のグラフ構造推定装置。 The graph structure estimation apparatus according to claim 7, wherein the dividing unit uses a minimum description length principle, an Akaike information criterion, or a Bayes information criterion as the arbitrary optimization criterion.
  9.  前記分割手段は、
     前記ノード重要度の値域の分割結果を分割モデルとし、互いに異なる分割モデルごとに、前記ノード重要度情報および前記分割モデルを符号化するために必要な分割記述長を算出する分割符号長計算手段と、
     前記互いに異なる分割モデルの中から、前記分割記述長が最小になる最適化分割モデルを特定し、前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、当該最適化分割モデルにて特定される前記複数のグループのいずれかに分ける分割制御手段と、を含む、請求の範囲第7項または第8項に記載のグラフ構造推定装置。
    The dividing means includes
    A division code length calculation means for calculating a division description length necessary for encoding the node importance information and the division model for each of different division models, using a division result of the node importance value range as a division model; ,
    An optimized partition model that minimizes the partition description length is identified from the different partition models, and each of the nodes is identified by the optimized partition model based on importance information of the node. The graph structure estimation apparatus according to claim 7, further comprising: a division control unit that divides the plurality of groups into any of the plurality of groups.
  10.  前記分割手段は、
     前記ノード重要度の値域の分割結果を分割モデルとし、互いに異なる分割モデルごとに、前記ノード重要度情報および前記分割モデルを符号化するために必要な分割記述長を算出する分割符号長計算手段と、
     前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、前記分割モデルにて特定される前記複数のグループのいずれかに分けた際に、前記ノードのグループ分けによって分割されたグラフを符号化するためのグラフ記述長を、前記分割モデルごとに算出するグラフ符号長計算手段と、
     前記互いに異なる分割モデルの中から、前記分割記述長と前記グラフ記述長の和が最小になる最適化分割モデルを特定し、前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、当該最適化分割モデルにて特定される前記複数のグループのいずれかに分ける分割制御手段と、を含む、請求の範囲第7項または第8項に記載のグラフ構造推定装置。
    The dividing means includes
    A division code length calculation means for calculating a division description length necessary for encoding the node importance information and the division model for each of different division models, using a division result of the node importance value range as a division model; ,
    When each of the nodes is divided into any of the plurality of groups specified by the division model based on importance information of the node, the graph divided by the grouping of the nodes is encoded. Graph code length calculating means for calculating a graph description length for each of the division models;
    From among the different partition models, an optimized partition model that minimizes the sum of the partition description length and the graph description length is specified, and each of the nodes is determined based on importance information of the node. The graph structure estimation apparatus according to claim 7, further comprising: a division control unit that divides the group into any of the plurality of groups specified by the generalized division model.
  11.  前記分割制御手段は、動的計画法を用いて、前記最適化分割モデルを特定する、請求の範囲第9項または第10項に記載のグラフ構造推定装置。 The graph structure estimation device according to claim 9 or 10, wherein the partition control means specifies the optimized partition model using dynamic programming.
  12.  前記分割制御手段は、前記分割記述長を小さくする方向へ前記分割結果を更新することを繰り返すことによって、前記最適化分割モデルを特定する、請求の範囲第9項に記載のグラフ構造推定装置。 10. The graph structure estimation apparatus according to claim 9, wherein the division control unit identifies the optimized division model by repeatedly updating the division result in a direction to reduce the division description length.
  13.  前記分割制御手段は、動的計画法を用いて計算された前記分割結果を初期値とし、前記初期値から前記分割記述長を小さくする方向へ前記分割結果を更新することを繰り返すことによって、前記最適化分割モデルを特定する、請求の範囲第9項に記載のグラフ構造推定装置。 The partition control means sets the partition result calculated using dynamic programming as an initial value, and repeats updating the partition result from the initial value in a direction to reduce the partition description length, thereby The graph structure estimation device according to claim 9, wherein an optimized division model is specified.
  14.  前記分割制御手段は、前記分割記述長と前記グラフ記述長の和を小さくする方向へ前記分割結果を更新することを繰り返すことによって、前記最適化分割モデルを特定する、請求の範囲第10項に記載のグラフ構造推定装置。 The said division | segmentation control means specifies the said optimal division | segmentation model by repeating updating the said division | segmentation result in the direction which makes the sum of the said division | segmentation description length and the said graph description length small. The graph structure estimation apparatus described.
  15.  前記分割制御手段は、動的計画法を用いて計算された前記分割結果を初期値とし、前記初期値から前記分割記述長と前記グラフ記述長の和を小さくする方向へ前記分割結果を更新することを繰り返すことによって、前記最適化分割モデルを特定する、請求の範囲第10項に記載のグラフ構造推定装置。 The partition control means sets the partition result calculated using dynamic programming as an initial value, and updates the partition result from the initial value in a direction of decreasing the sum of the partition description length and the graph description length. The graph structure estimation device according to claim 10, wherein the optimization division model is specified by repeating the above.
  16.  前記分割手段は、
     前記ノード重要度の値域の分割結果を分割モデルとし、互いに異なる分割モデルごとに、前記ノード重要度情報および前記分割モデルを符号化するために必要な分割記述長を算出する分割符号長計算手段と、
     前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、前記分割モデルにて特定される前記複数のグループのいずれかに分けた際に生じる各グループを、当該グループ内のノード間の関係に基づいて再分割した際に、前記各グループでの再分割の状態を符号化するために必要な再分割符号長を、前記分割モデルごとに算出する部分グラフ分割符号長計算手段と、
     前記互いに異なる分割モデルの中から、前記分割記述長と前記再分割符号長の和が最小になる最適化分割モデルを特定し、前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、当該最適化分割モデルにて特定される前記複数のグループのいずれかに分ける分割制御手段と、を含む請求の範囲第7項または第8項に記載のグラフ構造推定装置。
    The dividing means includes
    A division code length calculation means for calculating a division description length necessary for encoding the node importance information and the division model for each of different division models, using a division result of the node importance value range as a division model; ,
    Each group generated when each of the nodes is divided into any of the plurality of groups specified by the division model based on importance information of the node is set as a relationship between the nodes in the group. A subgraph division code length calculation means for calculating a re-division code length necessary for encoding the re-division state in each group when re-division based on each division model;
    From among the different division models, an optimized division model that minimizes the sum of the division description length and the subdivision code length is identified, and each of the nodes is determined based on importance information of the node. The graph structure estimation apparatus according to claim 7, further comprising: a division control unit that divides into any of the plurality of groups specified by the optimized division model.
  17.  前記計算手段は、前記グラフデータを時系列で受け付け、当該グラフデータを受け付けるたびに、当該グラフデータに基づいて、当該グラフデータに表されたノードごとに前記重要度情報を計算し、
     前記分割手段は、前記グラフデータが受け付けられるたびに、前記ノード重要度の値域の分割結果を、前記任意の最適化基準にしたがって、時系列で受け付けられた各グラフデータのノード重要度情報に基づいて最適化する、請求の範囲第7項または第8項に記載のグラフ構造推定装置。
    The calculation means receives the graph data in time series, and each time the graph data is received, based on the graph data, calculates the importance information for each node represented in the graph data,
    Each time the graph data is received, the dividing unit determines the result of dividing the node importance value range based on the node importance information of each graph data received in time series according to the arbitrary optimization criterion. The graph structure estimation device according to claim 7 or 8, wherein the graph structure estimation device is optimized.
  18.  前記計算手段は、前記グラフデータを時系列で受け付け、当該グラフデータを受け付けるたびに、当該グラフデータに基づいて、当該グラフデータに表されたノードごとに前記重要度情報を計算し、
     前記分割手段は、
     過去の最適化された前記ノード重要度の値域の分割結果を格納する格納手段と、
     前記グラフデータが受け付けられるたびに、前記ノード重要度の値域の分割結果を、前記格納手段に格納された前記過去の最適化されたノード重要度の値域の分割結果と、前記ノードごとの重要度情報と、に基づいて、前記任意の最適化基準にしたがって最適化する、分割制御手段と、を含む、請求の範囲第7項または第8項に記載のグラフ構造推定装置。
    The calculation means receives the graph data in time series, and each time the graph data is received, based on the graph data, calculates the importance information for each node represented in the graph data,
    The dividing means includes
    Storage means for storing the result of dividing the range of the node importance values optimized in the past;
    Each time the graph data is received, the division result of the node importance value range is divided into the past optimized node importance value range division result stored in the storage unit and the importance level for each node. The graph structure estimation apparatus according to claim 7, further comprising: a division control unit that optimizes based on the information according to the arbitrary optimization criterion.
  19.  グラフ構造推定装置が行うグラフ構造推定方法であって、
     複数のノードと、当該複数のノードのうちの各ノード間の関係の程度を示すリンクと、によって表されるグラフデータを受け付けた場合に、当該グラフデータに基づいて、前記ノードごとに、当該ノードの重要性の程度を示す重要度情報を計算し、
     前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、複数のグループのいずれかに分け、
     前記ノードのグループ分けの結果を、前記グラフデータのグラフ構造情報として出力する、グラフ構造推定方法。
    A graph structure estimation method performed by a graph structure estimation device,
    When graph data represented by a plurality of nodes and a link indicating the degree of relationship between each of the plurality of nodes is received, for each node based on the graph data, Calculate importance information indicating the degree of importance of
    Each of the nodes is divided into one of a plurality of groups based on importance information of the node,
    A graph structure estimation method for outputting a result of grouping the nodes as graph structure information of the graph data.
  20.  前記リンクは、前記各ノード間の関係の程度を数値で示し、
     前記計算することでは、前記リンクが示す数値のうち同一のノードに関係する数値の総和を、前記ノードごとに計算し、当該総和を、当該ノードの重要度情報として用いる、請求の範囲第19項に記載のグラフ構造推定方法。
    The link indicates the degree of relationship between the nodes as a numerical value,
    The calculation according to claim 19, wherein in the calculation, a sum of numerical values related to the same node among the numerical values indicated by the link is calculated for each of the nodes, and the sum is used as importance information of the node. The graph structure estimation method described in 1.
  21.  前記計算することでは、ページランクアルゴリズムにしたがって、前記グラフデータに基づいて、前記ノードごとに、当該ノードのページランクを計算し、当該ページランクを、当該ノードの重要度情報として用いる、請求の範囲第19項に記載のグラフ構造推定方法。 In the calculation, the page rank of the node is calculated for each node based on the graph data according to a page rank algorithm, and the page rank is used as importance information of the node. 20. The graph structure estimation method according to item 19.
  22.  前記計算することでは、HITSアルゴリズムにしたがって、前記グラフデータに基づいて、前記ノードごとに、当該ノードのハブ指標を計算し、当該ハブ指標を、当該ノードの重要度情報として用いる、請求の範囲第19項に記載のグラフ構造推定方法。 In the calculating, a hub index of the node is calculated for each of the nodes based on the graph data according to the HITS algorithm, and the hub index is used as importance information of the node. 20. The graph structure estimation method according to item 19.
  23.  前記計算することでは、HITSアルゴリズムにしたがって、前記グラフデータに基づいて、前記ノードごとに、当該ノードのオーソリティ指標を計算し、当該オーソリティ指標を、当該ノードの重要度情報として用いる、請求の範囲第19項に記載のグラフ構造推定方法。 In the calculation, the authority index of the node is calculated for each of the nodes based on the graph data according to the HITS algorithm, and the authority index is used as importance information of the node. 20. The graph structure estimation method according to item 19.
  24.  前記分けることでは、さらに、前記ノード重要度情報の取りうる最小値から最大値までを表すノード重要度の値域を、1つまたは複数の分割用ノード重要度を用いて分割して得られた複数の分割領域を、前記複数のグループとする、請求の範囲第19項から第23項のいずれか1項に記載のグラフ構造推定方法。 In the dividing, a plurality of values obtained by dividing a node importance value range representing a minimum value to a maximum value that can be taken by the node importance information by using one or a plurality of dividing node importance values. The graph structure estimation method according to any one of claims 19 to 23, wherein the divided regions are the plurality of groups.
  25.  前記分けることでは、前記ノード重要度の値域の分割結果を、任意の最適化基準にしたがって、前記グラフデータに基づき最適化する、請求の範囲第24項に記載のグラフ構造推定方法。 25. The graph structure estimation method according to claim 24, wherein in the division, the division result of the node importance value range is optimized based on the graph data in accordance with an arbitrary optimization criterion.
  26.  前記分けることでは、前記任意の最適化基準として、最小記述長原理、赤池情報量基準、または、ベイズ情報量基準を用いる、請求の範囲第25項に記載のグラフ構造推定方法。 26. The graph structure estimation method according to claim 25, wherein said dividing uses the minimum description length principle, the Akaike information criterion, or the Bayes information criterion as the arbitrary optimization criterion.
  27.  前記分けることは、
     前記ノード重要度の値域の分割結果を分割モデルとし、互いに異なる分割モデルごとに、前記ノード重要度情報および前記分割モデルを符号化するために必要な分割記述長を算出することと、
     前記互いに異なる分割モデルの中から、前記分割記述長が最小になる最適化分割モデルを特定し、前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、当該最適化分割モデルにて特定される前記複数のグループのいずれかに分けることと、を含む、請求の範囲第25項または第26項に記載のグラフ構造推定方法。
    Said dividing is
    The node importance value range division result is a division model, and for each of the different division models, calculating the node importance information and the division description length necessary for encoding the division model;
    An optimized partition model that minimizes the partition description length is identified from the different partition models, and each of the nodes is identified by the optimized partition model based on importance information of the node. 27. The graph structure estimation method according to claim 25 or claim 26, comprising dividing into any of the plurality of groups.
  28.  前記分けることは、
     前記ノード重要度の値域の分割結果を分割モデルとし、互いに異なる分割モデルごとに、前記ノード重要度情報および前記分割モデルを符号化するために必要な分割記述長を算出することと、
     前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、前記分割モデルにて特定される前記複数のグループのいずれかに分けた際に、前記ノードのグループ分けによって分割されたグラフを符号化するためのグラフ記述長を、前記分割モデルごとに算出することと、
     前記互いに異なる分割モデルの中から、前記分割記述長と前記グラフ記述長の和が最小になる最適化分割モデルを特定し、前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、当該最適化分割モデルにて特定される前記複数のグループのいずれかに分けることと、を含む、請求の範囲第25項または第26項に記載のグラフ構造推定方法。
    Said dividing is
    The node importance value range division result is a division model, and for each of the different division models, calculating the node importance information and the division description length necessary for encoding the division model;
    When each of the nodes is divided into any of the plurality of groups specified by the division model based on importance information of the node, the graph divided by the grouping of the nodes is encoded. Calculating a graph description length for each of the division models;
    From among the different partition models, an optimized partition model that minimizes the sum of the partition description length and the graph description length is specified, and each of the nodes is determined based on importance information of the node. 27. The graph structure estimation method according to claim 25 or 26, comprising: dividing into any of the plurality of groups specified by the generalized division model.
  29.  前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、前記最適化分割モデルにて特定される前記複数のグループのいずれかに分けることでは、動的計画法を用いて、前記最適化分割モデルを特定する、請求の範囲第27項または第28項に記載のグラフ構造推定方法。 By dividing each of the nodes into one of the plurality of groups specified by the optimized division model based on importance information of the node, the optimization division is performed using dynamic programming. 29. The graph structure estimation method according to claim 27 or 28, wherein a model is specified.
  30.  前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、前記最適化分割モデルにて特定される前記複数のグループのいずれかに分けることでは、前記分割記述長を小さくする方向へ前記分割結果を更新することを繰り返すことによって、前記最適化分割モデルを特定する、請求の範囲第27項に記載のグラフ構造推定方法。 By dividing each of the nodes into one of the plurality of groups specified by the optimized division model based on importance information of the node, the division result is reduced in the direction of reducing the division description length. 28. The graph structure estimation method according to claim 27, wherein the optimized division model is specified by repeating updating.
  31.  前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、前記最適化分割モデルにて特定される前記複数のグループのいずれかに分けることでは、動的計画法を用いて計算された前記分割結果を初期値とし、前記初期値から前記分割記述長を小さくする方向へ前記分割結果を更新することを繰り返すことによって、前記最適化分割モデルを特定する、請求の範囲第27項に記載のグラフ構造推定方法。 By dividing each of the nodes into one of the plurality of groups specified by the optimized division model based on importance information of the node, the division calculated using dynamic programming is used. 28. The graph according to claim 27, wherein the optimized division model is identified by repeatedly setting the result as an initial value and updating the division result in a direction of decreasing the division description length from the initial value. Structure estimation method.
  32.  前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、前記最適化分割モデルにて特定される前記複数のグループのいずれかに分けることでは、前記分割記述長と前記グラフ記述長の和を小さくする方向へ前記分割結果を更新することを繰り返すことによって、前記最適化分割モデルを特定する、請求の範囲第28項に記載のグラフ構造推定方法。 By dividing each of the nodes into one of the plurality of groups specified by the optimized division model based on importance information of the node, a sum of the division description length and the graph description length is obtained. 29. The graph structure estimation method according to claim 28, wherein the optimized division model is specified by repeatedly updating the division result in a direction of decreasing.
  33.  前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、前記最適化分割モデルにて特定される前記複数のグループのいずれかに分けることでは、動的計画法を用いて計算された前記分割結果を初期値とし、前記初期値から前記分割記述長と前記グラフ記述長の和を小さくする方向へ前記分割結果を更新することを繰り返すことによって、前記最適化分割モデルを特定する、請求の範囲第28項に記載のグラフ構造推定方法。 By dividing each of the nodes into one of the plurality of groups specified by the optimized division model based on importance information of the node, the division calculated using dynamic programming is used. The optimized partition model is specified by repeatedly setting the result as an initial value and updating the partition result in a direction to reduce the sum of the partition description length and the graph description length from the initial value. 29. The graph structure estimation method according to item 28.
  34.  前記分けること、
     前記ノード重要度の値域の分割結果を分割モデルとし、互いに異なる分割モデルごとに、前記ノード重要度情報および前記分割モデルを符号化するために必要な分割記述長を算出することと、
     前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、前記分割モデルにて特定される前記複数のグループのいずれかに分けた際に生じる各グループを、当該グループ内のノード間の関係に基づいて再分割した際に、前記各グループでの再分割の状態を符号化するために必要な再分割符号長を、前記分割モデルごとに算出することと、
     前記互いに異なる分割モデルの中から、前記分割記述長と前記再分割符号長の和が最小になる最適化分割モデルを特定し、前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、当該最適化分割モデルにて特定される前記複数のグループのいずれかに分けることと、を含む、請求の範囲第25項または第26項に記載のグラフ構造推定方法。
    Said dividing,
    The node importance value range division result is a division model, and for each of the different division models, calculating the node importance information and the division description length necessary for encoding the division model;
    Each group generated when each of the nodes is divided into any of the plurality of groups specified by the division model based on importance information of the node is set as a relationship between the nodes in the group. A re-division code length necessary for encoding the re-division state in each group when re-division based on each division model;
    From among the different division models, an optimized division model that minimizes the sum of the division description length and the subdivision code length is identified, and each of the nodes is determined based on importance information of the node. 27. The graph structure estimation method according to claim 25 or 26, comprising: dividing into any of the plurality of groups specified by the optimized division model.
  35.  前記計算することでは、前記グラフデータを時系列で受け付け、当該グラフデータを受け付けるたびに、当該グラフデータに基づいて、当該グラフデータに表されたノードごとに前記重要度情報を計算し、
     前記分けることでは、前記グラフデータが受け付けられるたびに、前記ノード重要度の値域の分割結果を、前記任意の最適化基準にしたがって、時系列で受け付けられた各グラフデータのノード重要度情報に基づいて最適化する、請求の範囲第25項または第26項に記載のグラフ構造推定方法。
    In the calculation, the graph data is received in time series, and each time the graph data is received, the importance information is calculated for each node represented in the graph data based on the graph data.
    In the dividing, every time the graph data is received, the division result of the node importance value range is based on the node importance information of each graph data received in time series according to the arbitrary optimization criterion. 27. The graph structure estimation method according to claim 25 or 26, wherein the graph structure estimation method is optimized.
  36.  前記計算することでは、前記グラフデータを時系列で受け付け、当該グラフデータを受け付けるたびに、当該グラフデータに基づいて、当該グラフデータに表されたノードごとに前記重要度情報を計算し、
     前記分けることは、
     過去の最適化された前記ノード重要度の値域の分割結果を格納手段に格納することと、
     前記グラフデータが受け付けられるたびに、前記ノード重要度の値域の分割結果を、前記格納手段に格納された前記過去の最適化されたノード重要度の値域の分割結果と、前記ノードごとの重要度情報と、に基づいて、前記任意の最適化基準にしたがって最適化することと、を含む、請求の範囲第25項または第26項に記載のグラフ構造推定方法。
    In the calculation, the graph data is received in time series, and each time the graph data is received, the importance information is calculated for each node represented in the graph data based on the graph data.
    Said dividing is
    Storing in the storage means the result of the past optimization of the node importance value range;
    Each time the graph data is received, the division result of the node importance value range is divided into the past optimized node importance value range division result stored in the storage unit and the importance level for each node. 27. The graph structure estimation method according to claim 25, further comprising: performing optimization according to the arbitrary optimization criterion based on the information.
  37.  コンピュータを、
     複数のノードと、当該複数のノードのうちの各ノード間の関係の程度を示すリンクと、によって表されるグラフデータを受け付けた場合に、当該グラフデータに基づいて、前記ノードごとに、当該ノードの重要性の程度を示す重要度情報を計算する計算手段、
     前記ノードのそれぞれを、当該ノードの重要度情報に基づいて、複数のグループのいずれかに分ける分割手段、および、
     前記ノードのグループ分けの結果を、前記グラフデータのグラフ構造情報として出力する出力手段、として機能させるためのプログラム。
    Computer
    When graph data represented by a plurality of nodes and a link indicating the degree of relationship between each of the plurality of nodes is received, for each node based on the graph data, A calculation means for calculating importance information indicating the degree of importance of
    A dividing unit that divides each of the nodes into any of a plurality of groups based on importance information of the nodes; and
    A program for causing a result of grouping the nodes to function as output means for outputting graph structure information of the graph data.
  38.  前記リンクは、前記各ノード間の関係の程度を数値で示し、
     前記計算手段は、前記リンクが示す数値のうち同一のノードに関係する数値の総和を、前記ノードごとに計算し、当該総和を、当該ノードの重要度情報として用いる、請求の範囲第37項に記載のプログラム。
     
    The link indicates the degree of relationship between the nodes as a numerical value,
    The calculation means according to claim 37, wherein the calculation means calculates a sum of numerical values related to the same node among the numerical values indicated by the link, and uses the total as the importance level information of the node. The listed program.
PCT/JP2009/050358 2008-02-27 2009-01-14 Graph structure estimation apparatus, graph structure estimation method, and program WO2009107412A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008046097 2008-02-27
JP2008-046097 2008-02-27

Publications (1)

Publication Number Publication Date
WO2009107412A1 true WO2009107412A1 (en) 2009-09-03

Family

ID=41015818

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/050358 WO2009107412A1 (en) 2008-02-27 2009-01-14 Graph structure estimation apparatus, graph structure estimation method, and program

Country Status (1)

Country Link
WO (1) WO2009107412A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010250377A (en) * 2009-04-10 2010-11-04 Internatl Business Mach Corp <Ibm> Link prediction system, method, and program
WO2012176863A1 (en) * 2011-06-24 2012-12-27 日本電気株式会社 Information processing system, network structure learning device, link strength prediction device, link strength prediction method and program
CN116309002A (en) * 2022-05-19 2023-06-23 北京百度网讯科技有限公司 Graph data storage, access and processing methods, training methods, equipment and media

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005069158A2 (en) * 2004-01-16 2005-07-28 Nec Corp Text-processing method, program, program recording medium, and device thereof
JP2005327293A (en) * 2004-05-14 2005-11-24 Microsoft Corp Method and system which grade object based on relation between insides of model and relation between models
JP2006091971A (en) * 2004-09-21 2006-04-06 Hewlett-Packard Development Co Lp Network data display method/device/program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005069158A2 (en) * 2004-01-16 2005-07-28 Nec Corp Text-processing method, program, program recording medium, and device thereof
JP2005327293A (en) * 2004-05-14 2005-11-24 Microsoft Corp Method and system which grade object based on relation between insides of model and relation between models
JP2006091971A (en) * 2004-09-21 2006-04-06 Hewlett-Packard Development Co Lp Network data display method/device/program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KENJI YAMANISHI ET AL.: "Saishin! Data mining Shuho Tokeiteki Ijo Kenshutsu 3 Shuho", JOHO SHORI, vol. 46, no. 1, 15 January 2005 (2005-01-15), pages 34 - 40 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010250377A (en) * 2009-04-10 2010-11-04 Internatl Business Mach Corp <Ibm> Link prediction system, method, and program
WO2012176863A1 (en) * 2011-06-24 2012-12-27 日本電気株式会社 Information processing system, network structure learning device, link strength prediction device, link strength prediction method and program
JPWO2012176863A1 (en) * 2011-06-24 2015-02-23 日本電気株式会社 Information processing system, network structure learning device, link strength prediction device, link strength prediction method, and program
US9424527B2 (en) 2011-06-24 2016-08-23 Nec Corporation Information processing system, network structure learning device, link strength prediction device, link strength prediction method and program
CN116309002A (en) * 2022-05-19 2023-06-23 北京百度网讯科技有限公司 Graph data storage, access and processing methods, training methods, equipment and media
CN116309002B (en) * 2022-05-19 2024-03-01 北京百度网讯科技有限公司 Graph data storage, access and processing methods, training methods, equipment and media

Similar Documents

Publication Publication Date Title
CN112529168B (en) GCN-based attribute multilayer network representation learning method
Yun et al. Incremental mining of weighted maximal frequent itemsets from dynamic databases
Faez et al. Deep graph generators: A survey
Lee et al. Sliding window based weighted maximal frequent pattern mining over data streams
Yun et al. Mining maximal frequent patterns by considering weight conditions over data streams
US7801924B2 (en) Decision tree construction via frequent predictive itemsets and best attribute splits
Choudhury et al. Time-aware link prediction to explore network effects on temporal knowledge evolution
Yun et al. Sliding window based weighted erasable stream pattern mining for stream data applications
US7580813B2 (en) Systems and methods for new time series model probabilistic ARMA
Bedru et al. Big networks: A survey
Corander et al. Learning chordal Markov networks by constraint satisfaction
CN110719106B (en) Social network graph compression method and system based on node classification and sorting
EP3053311B1 (en) Systems and methods for distance approximation in graphs
CN112765477A (en) Information processing method and device, information recommendation method and device, electronic equipment and storage medium
Xu et al. Graph partitioning and graph neural network based hierarchical graph matching for graph similarity computation
CN112162860A (en) CPU load trend prediction method based on IF-EMD-LSTM
CN110162711A (en) A kind of resource intelligent recommended method and system based on internet startup disk method
Trivodaliev et al. Exploring function prediction in protein interaction networks via clustering methods
Aghdam et al. IPCA-CMI: an algorithm for inferring gene regulatory networks based on a combination of PCA-CMI and MIT score
Yoo et al. Sampling subgraphs with guaranteed treewidth for accurate and efficient graphical inference
WO2009107416A1 (en) Graph structure variation detection apparatus, graph structure variation detection method, and program
WO2009107412A1 (en) Graph structure estimation apparatus, graph structure estimation method, and program
Gao et al. Clustering algorithms for detecting functional modules in protein interaction networks
CN104484365A (en) Method and system for predicting social relation in multi-source heterogeneous networks
Anderson et al. Oxfold: kinetic folding of RNA using stochastic context-free grammars and evolutionary information

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09715669

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09715669

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP