WO2023132029A1 - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
WO2023132029A1
WO2023132029A1 PCT/JP2022/000215 JP2022000215W WO2023132029A1 WO 2023132029 A1 WO2023132029 A1 WO 2023132029A1 JP 2022000215 W JP2022000215 W JP 2022000215W WO 2023132029 A1 WO2023132029 A1 WO 2023132029A1
Authority
WO
WIPO (PCT)
Prior art keywords
record
prediction
record pair
importance
pair
Prior art date
Application number
PCT/JP2022/000215
Other languages
English (en)
French (fr)
Inventor
勝悟 林
元紀 草野
昌史 小山田
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to PCT/JP2022/000215 priority Critical patent/WO2023132029A1/ja
Publication of WO2023132029A1 publication Critical patent/WO2023132029A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to technology for predicting the identity of record pairs.
  • a process of identifying and correlating combinations of identical or similar records from records stored in different tables is performed. Such processing is also called name identification processing.
  • Name identification processing enables unified management of tables and expansion of data.
  • Techniques for matching by machine learning or rule base exist as techniques for name identification processing.
  • Patent Literature 1 and Non-Patent Literature 1 describe techniques for performing name identification processing by machine learning.
  • the name identification processing device described in Patent Document 1 includes an information processing device, a storage unit, and an operation terminal. This name identification processing apparatus calculates the similarity of record pairs using a plurality of similarity functions for calculating the similarity of record pairs, and learns the similarity weights by machine learning using training data.
  • One aspect of the present invention has been made in view of the above problems, and an example of its purpose is to provide a technique that can more preferably predict the identity of a record pair.
  • An information processing apparatus includes acquisition means for acquiring a record pair, similarity calculation means for calculating a plurality of degrees of similarity for the record pair using a plurality of similarity functions, and and a prediction means for predicting the identity of the record pair using the importance determined according to the record pair by referring to the plurality of similarities; and an output means for outputting a prediction result of the prediction means.
  • an information processing apparatus includes acquisition means for acquiring training data including a plurality of pairs of record pairs and labels relating to the identity of the record pairs, and a plurality of similarity pairs for prediction target record pairs.
  • acquisition means for acquiring training data including a plurality of pairs of record pairs and labels relating to the identity of the record pairs, and a plurality of similarity pairs for prediction target record pairs.
  • Prediction means for predicting the identity of a record pair to be predicted using the determined importance, at least one of the one or more parameters included in the importance calculation model used to calculate the importance, and parameter generation means for generating with reference to the training data.
  • an information processing method includes acquiring a record pair, calculating a plurality of degrees of similarity for the record pair using a plurality of similarity functions, the record pair, referring to the plurality of degrees of similarity and performing identity prediction of the record pair using an importance determined according to the record pair; and outputting a prediction result of the identity prediction of the record pair. ,including.
  • an information processing method includes acquiring training data including a plurality of sets of record pairs and labels relating to the identity of the record pairs, and obtaining a plurality of similarities for the record pairs to be predicted. Determined according to the prediction target record pair by referring to one or more parameters of each of a plurality of similarity functions for calculating the prediction target record pair and the plurality of similarities The prediction means for predicting the identity of the record pair to be predicted using the importance, at least one of the one or more parameters of the importance calculation model used to calculate the importance, and generating with reference to training data.
  • a manufacturing method includes obtaining training data including a plurality of sets of record pairs and labels relating to the identity of the record pairs, and calculating a plurality of similarities for the record pairs to be predicted.
  • the prediction target using the importance determined according to the prediction target record pair generating at least one of the importance calculation models used for calculating the importance by the prediction means for performing identity prediction of the record pair with reference to the training data.
  • a program provides a computer with an acquisition process of acquiring a record pair, a similarity calculation process of calculating a plurality of similarities for the record pair using a plurality of similarity functions, Prediction processing for predicting the identity of the record pair by referring to the record pair and the plurality of degrees of similarity, using an importance level determined according to the record pair, and outputting a prediction result of the prediction processing. Execute output processing.
  • a program provides a computer with an acquisition process for acquiring training data including a plurality of sets of record pairs and labels relating to the identity of the record pairs, and a plurality of prediction target record pairs.
  • the identity of record pairs can be predicted more favorably.
  • FIG. 1 is a block diagram showing the configuration of an information processing apparatus according to Exemplary Embodiment 1;
  • FIG. FIG. 3 is a flow diagram showing the flow of an information processing method according to exemplary embodiment 1;
  • 1 is a block diagram showing the configuration of an information processing apparatus according to Exemplary Embodiment 1;
  • FIG. 3 is a flow diagram showing the flow of an information processing method according to exemplary embodiment 1;
  • FIG. 9 is a block diagram showing the configuration of an information processing apparatus according to Exemplary Embodiment 2;
  • FIG. 10 is a diagram showing specific examples of first data and second data according to exemplary embodiment 2;
  • FIG. 10 is a flow diagram showing the flow of an information processing method according to exemplary embodiment 2;
  • FIG. 10 is a diagram showing a specific example of integrated data according to exemplary embodiment 2;
  • FIG. 12 is a block diagram showing the configuration of an information processing apparatus according to exemplary embodiment 3;
  • FIG. 11 is a flow diagram showing the flow of an information processing method according to exemplary embodiment 3;
  • FIG. 12 is a block diagram showing the configuration of an information processing apparatus according to Exemplary Embodiment 4;
  • FIG. 12 is a diagram showing a screen display example according to exemplary embodiment 4;
  • 1 is a block diagram showing the configuration of a computer functioning as an information processing device according to each exemplary embodiment;
  • FIG. 1 is a block diagram showing the configuration of an information processing device 1.
  • the information processing device 1 is a device that performs identity prediction of record pairs.
  • the information processing device 1 includes an acquisition unit 11 , a similarity calculation unit 12 , a prediction unit 13 and an output unit 14 .
  • Acquisition unit 11 acquires a record pair.
  • a record pair is a set of multiple records.
  • a record is, for example, a row of a table and includes a set of one or more attribute names and attribute values corresponding to columns of the table.
  • the number of records included in a record pair may be two, or three or more.
  • a record pair is, for example, a set of records included in the first table and records included in the second table.
  • the first table and the second table are, for example, tables that store customer information of businesses or tables that store product information.
  • the first table and the second table are not limited to the examples described above, and may be other tables. Also, the first table and the second table may be the same or different.
  • the similarity calculation unit 12 calculates a plurality of degrees of similarity for the record pair acquired by the acquisition unit 11 using a plurality of similarity functions. In other words, the similarity calculation unit 12 calculates k similarities for one record pair using k (where k is an integer of 2 or more) similarity functions ⁇ i (1 ⁇ i ⁇ k). .
  • the similarity function ⁇ i is a function for calculating the similarity between records included in a record pair.
  • the similarity function ⁇ i is also called a “similarity calculation model”.
  • the input of the similarity function ⁇ i is a record pair
  • the output of the similarity function ⁇ i is the similarity between records included in the record pair.
  • a plurality of similarity functions ⁇ i may be objects of learning by the information processing device 2, which will be described later.
  • the method of machine learning of the similarity function ⁇ i is not limited, and as an example, a decision tree-based, linear regression, or neural network method may be used. , or two or more of these techniques may be used.
  • Decision tree bases include, for example, LightGBM (Light Gradient Boosting Machine), Random Forest, and XGBoost.
  • Linear regression includes, for example, Bayesian regression, support vector regression, Ridge regression, Lasso regression, and ElasticNet.
  • Neural networks include, for example, deep learning.
  • the similarity function ⁇ i outputs a numerical value between 0 and 1 as similarity.
  • the Jaccard coefficient can be used as the similarity function ⁇ i .
  • the Jaccard coefficients compute
  • the similarity function ⁇ i for example, the method described in Non-Patent Document 1 may be used.
  • the similarity function ⁇ i for example, 2016” (hereinafter referred to as “Non-Patent Document 2”) may be used.
  • the similarity function ⁇ i is not limited to the example described above, and other methods may be used to calculate the similarity between record pairs.
  • the prediction unit 13 refers to the record pair and a plurality of degrees of similarity, and performs identity prediction of the record pair using the importance determined according to the record pair.
  • the importance is calculated by referring to record pairs, for example. More specifically, as an example, the prediction unit 13 calculates the importance using an importance calculation model for calculating the importance. In this case, the input of the importance calculation model is a record pair. Also, the output of the importance calculation model is the importance.
  • the importance calculation model can be a target of learning by the information processing device 2, which will be described later.
  • the machine learning method of the importance calculation model is not limited, and as an example, a decision tree-based, linear regression, or neural network method may be used, and , two or more of these techniques may be used.
  • the importance calculation model is generated using, for example, language models such as BERT (Bidirectional encoder representations from Transformers), fastText, word2vec, tf-idf, BM25, and the like.
  • the importance calculation model may include a language model.
  • a specific example of importance calculation processing when using a language model will be described.
  • the prediction unit 13 converts the record pair into a vector using a language model, and further converts this vector into a vector on another feature amount space. Further, the prediction unit 13 inputs this vector to a k-class classifier (softmax function, etc.) to calculate k importances. Each of the k calculated degrees of importance corresponds to each of the k similarity functions ⁇ i .
  • the method of calculating the degree of importance is not limited to the example described above, and the prediction unit 13 may calculate the degree of importance using another method.
  • the prediction unit 13 may calculate the importance by rule-based processing.
  • the prediction unit 13 may calculate the degree of importance by referring to a table that associates the degree of importance with information about record pairs.
  • the information about the record pair may include, for example, the feature amount of the records included in the record pair, the classification result of the record, the name of the record, or the like.
  • the prediction unit 13 predicts the identity of a record pair using a linear sum of a plurality of degrees of similarity calculated by the similarity calculation unit 12, with each degree of importance as a weighting factor.
  • the method by which the prediction unit 13 performs identity prediction is not limited to the method using the linear sum, and the prediction unit 13 may perform identity prediction for record pairs by other methods.
  • the prediction unit 13 may perform identity prediction of record pairs by inputting record pairs and similarities into a prediction model generated by machine learning.
  • the input of the prediction model includes k similarity sets and record pairs, as an example.
  • the output of the predictive model includes, as an example, a predictive result of identity.
  • the prediction unit 13 calculates the parameter of the prediction model as the degree of importance.
  • the method of machine learning of the prediction model is not limited, and as an example, a decision tree-based, linear regression, or neural network method may be used, or two or more of these methods may be used. .
  • the output unit 14 outputs the result of prediction by the prediction unit 13 .
  • the prediction result includes, for example, information indicating whether the records included in the record pair are the same or information indicating the degree of similarity of the records included in the record pair.
  • the prediction result by the prediction unit 13 is used, for example, for table integration processing or information search processing.
  • the prediction unit 13 performs identity prediction for a record pair of a record as a search key (for example, a record specified by a user) and any other record registered in a predetermined table. good too.
  • the information processing apparatus 1 may output records included in the record pair predicted to be identical by the prediction unit 13 as the search result. This enables search processing in a table that is not associated with a record that is a search key.
  • ⁇ Effects of information processing device 1> As described above, in the information processing apparatus 1 according to this exemplary embodiment, a plurality of similarities are calculated using a plurality of similarity functions for a record pair, and the record pair and the plurality of similarities are referred to. Therefore, a configuration is adopted in which identity prediction of a record pair is performed using an importance determined according to the record pair.
  • identity prediction of a record pair is performed using an importance determined according to the record pair.
  • the result of identity prediction based on multiple similarities is not based on a uniform method, but reflects the importance of each record pair. . Therefore, according to the information processing apparatus 1 according to the present exemplary embodiment, it is possible to more preferably predict the identity of a record pair.
  • FIG. 2 is a flow diagram showing the flow of the information processing method S1.
  • the acquisition unit 11 acquires a record pair.
  • the similarity calculator 12 calculates a plurality of degrees of similarity for a pair of records using a plurality of similarity functions.
  • the prediction unit 13 refers to the record pair and a plurality of degrees of similarity, and performs identity prediction of the record pair using the importance determined according to the record pair.
  • the output unit 14 outputs the result of prediction by the prediction unit 13 .
  • ⁇ Effect of information processing method S1> As described above, in the information processing method S1 according to the present exemplary embodiment, a plurality of similarities are calculated using a plurality of similarity functions for a record pair, and the record pair and the plurality of similarities are referred to. Therefore, a configuration is adopted in which identity prediction of a record pair is performed using an importance determined according to the record pair. Therefore, according to the information processing method S1 according to the present exemplary embodiment, it is possible to more preferably predict the identity of a record pair.
  • FIG. 3 is a block diagram showing the configuration of the information processing device 2.
  • the information processing device 2 is a device that generates parameters used for predicting the identity of a record pair.
  • the information processing device 2 includes an acquisition unit 21 and a parameter generation unit 22 .
  • the acquisition unit 21 acquires training data that includes a plurality of sets of record pairs and labels relating to the identity of the record pairs.
  • the identity label indicates, for example, whether or not the records included in the record pair are the same.
  • the parameter generation unit 22 generates (i) one or more parameters of each of a plurality of similarity functions ⁇ i for calculating a plurality of similarities for the record pair to be predicted, and (ii) the record pair to be predicted. and a plurality of similarities, and the prediction unit 13 that performs identity prediction of the prediction target record pair using the importance determined according to the prediction target record pair uses to calculate the importance At least one of the one or more parameters included in the importance calculation model is generated with reference to the training data.
  • training data including a plurality of pairs of record pairs and labels relating to the identity of the record pairs is acquired, and a plurality of pairs of records to be predicted are acquired.
  • Prediction means for predicting the identity of a record pair to be predicted using importance, at least one of one or more parameters of an importance calculation model used for calculating importance, and training data.
  • a configuration that refers to and generates is adopted. Therefore, according to the information processing apparatus 2 according to the present exemplary embodiment, it is possible to generate a parameter that can more preferably predict the identity of a record pair.
  • FIG. 4 is a flow diagram showing the flow of the information processing method S2.
  • the acquisition unit 21 acquires training data including a plurality of sets of record pairs and labels relating to the identity of the record pairs.
  • the parameter generation unit 22 generates (i) one or more parameters of each of a plurality of similarity functions for calculating a plurality of similarities for the record pair to be predicted, and (ii) the prediction target A prediction means that refers to a record pair and a plurality of similarities and performs identity prediction of a record pair to be predicted using an importance determined according to the record pair to be predicted to calculate the importance At least one of the one or more parameters of the importance calculation model to be used is generated by referring to the training data.
  • training data including a plurality of sets of record pairs and labels relating to the identity of the record pairs is acquired, and a plurality of pairs of records to be predicted are acquired.
  • Prediction means for predicting the identity of a record pair to be predicted using importance, at least one of one or more parameters of an importance calculation model used for calculating importance, and training data.
  • a configuration that refers to and generates is adopted. For this reason, according to the information processing method S2 according to the present exemplary embodiment, it is possible to obtain the effect of being able to generate a parameter that can more preferably predict the identity of a record pair.
  • the information processing device 2 can also be specified as a device that executes the method of manufacturing a trained model.
  • the method for producing a trained model includes acquiring training data including a plurality of pairs of record pairs and labels relating to the identity of the record pairs, generating any model with reference to the training data.
  • FIG. 5 is a block diagram showing the configuration of the information processing device 1A according to this exemplary embodiment.
  • the information processing apparatus 1A includes a control section 10A, a storage section 20A, a communication section 30A and an input/output section 40A.
  • the communication unit 30A communicates with an external device of the information processing device 1A via a communication line.
  • a communication line includes wireless LAN (Local Area Network), wired LAN, WAN (Wide Area Network), public line network, mobile data communication network, or a combination thereof.
  • the communication unit 30A transmits data supplied from the control unit 10A to other devices, and supplies data received from other devices to the control unit 10A.
  • Input/output unit 40A Input/output devices such as a keyboard, mouse, display, printer, and touch panel are connected to the input/output unit 40A.
  • the input/output unit 40A receives input of various kinds of information from the connected input device to the information processing apparatus 1A. Also, the input/output unit 40A outputs various kinds of information to the connected output device under the control of the control unit 10A.
  • an interface such as a USB (Universal Serial Bus) can be used as the input/output unit 40A.
  • control unit 10A includes an acquisition unit 11, a similarity calculation unit 12, a prediction unit 13, an output unit 14, and an integration unit 15A.
  • the acquisition unit 11 acquires first data x including the first record e included in the record pair and second data x' including the second record e' included in the record pair.
  • the first data x and the second data x' are, for example, tables containing a plurality of records.
  • e' ( a1 : v1 , a2 : v2 ,..., ad' : v'd' )
  • v l ⁇ V l and v′ m ⁇ V′ m are attribute values, and V l and V′ m are, for example, a string space or a real number space.
  • d is the number of attributes that record e has
  • d' is the number of attributes that record e' has.
  • the first record e and the second record e' each include multiple sets of attribute names and attribute values.
  • FIG. 6 shows tables T1 and T2, which are specific examples of the first data x and the second data x'.
  • Tables T1 and T2 are composed of rows and columns, with rows corresponding to records and columns corresponding to attributes.
  • table T1 includes a plurality of first records e 1 , e 2 , .
  • the table T2 also includes a plurality of second records e'1 , e'2 , . . .
  • the attribute value of the attribute whose attribute name is "product name” is "potato chips”
  • the attribute value of the attribute whose attribute name is "price” is "198".
  • the attribute name and attribute value of table T1 and the attribute name and attribute value of table T2 may be the same or different.
  • the record pair (e, e') acquired by the acquisition unit 11 is any of the first records e 1 , e 2 , . It is a pair with any one of records e'1 , e'2 , . . .
  • the similarity calculator 12 calculates k similarities for one record pair (e, e′) using k (k is an integer of 2 or more) similarity functions ⁇ i (1 ⁇ i ⁇ k). Calculate si .
  • k similarities s i The details of the process of calculating k similarities s i by the similarity calculator 12 will be described later.
  • the prediction unit 13 refers to the record pair (e, e') and a plurality of similarities si , and uses the importance determined according to the record pair (e, e') to predict the identity of the record pair. I do.
  • the prediction unit 13 includes an importance calculation unit 131A that calculates the importance by referring to the record pair (e, e'). Details of the identity prediction processing performed by the prediction unit 13 and the importance calculation processing performed by the importance calculation unit 131A will be described later.
  • the output unit 14 outputs the result of prediction by the prediction unit 13 .
  • the prediction result includes, for example, information indicating whether or not the records included in the record pair are the same. Also, the prediction result may include information indicating the degree of similarity between records included in a record pair.
  • the output unit 14 may output the prediction result by writing it in the storage unit 20A or an external storage device, or output it to an output device (display device, printer, etc.) connected to the input/output unit 40A. good too. Moreover, the output unit 14 may output the prediction result by transmitting the prediction result to another device via the communication unit 30A.
  • the integration unit 15A refers to the prediction result output by the output unit 14 and generates integrated data from the first data and the second data. The details of the integrated data generation processing performed by the integration unit 15A will be described later.
  • the storage unit 20 ⁇ /b>A stores the first data x and the second data x′ acquired by the acquisition unit 11 and also stores the prediction result PR of the prediction unit 13 .
  • a plurality of similarity functions ⁇ i , importance calculation models g, and parameters P are stored in the storage unit 20A.
  • the similarity function ⁇ 1 is a function to calculate.
  • the similarity function ⁇ i is input by, for example, the user of the information processing device 1A.
  • the similarity function ⁇ i outputs a numerical value from 0 to 1 as similarity to the record pair (e, e′). In this case, for example, the closer the output value is to 1, the higher the similarity, and the closer to 0, the lower the similarity.
  • the similarity function ⁇ i is, for example, a function with learnable parameters.
  • the importance calculation model g is a model used by the importance calculation unit 131A to calculate the importance.
  • the importance calculation model g is generated using language models such as BERT, fastText, word2vec, tf-idf, BM25, etc., as shown in the first exemplary embodiment.
  • the importance calculation model g may include a language model.
  • the parameter P stored in the storage unit 20A is at least one of one or a plurality of parameters ⁇ i possessed by each of the k similarity functions ⁇ i and one or a plurality of parameters w possessed by the importance calculation model g. parameters.
  • FIG. 7 is a flowchart showing the flow of an information processing method S1A, which is an example of the information processing method executed by the information processing apparatus 1A. Note that some steps may be performed in parallel or out of order. Also, the description of the already described contents will not be repeated.
  • Step S101 the acquisition unit 11 acquires first data and second data.
  • the acquisition unit 11 acquires first data and second data input by a user or the like of the information processing device 1A using an input device connected to the input/output unit 40A.
  • the acquisition unit 11 may acquire the first data and the second data by receiving the first data and the second data from another device via the communication unit 30A.
  • the acquisition unit 11 may acquire the first data and the second data by reading the first data and the second data from an externally connected storage device.
  • the acquisition unit 11 stores the acquired first data and second data in the storage unit 20A.
  • step S102 the acquisition unit 11 acquires the parameter P stored in the storage unit 20A.
  • step S103 the acquisition unit 11 acquires the record pair (e, e') to be predicted.
  • Step S104 the similarity calculator 12 calculates k similarities s i for the record pair (e, e′) using k similarity functions ⁇ i . Since the k similarity functions ⁇ i are different from each other, the calculated k similarities s i can also have different values. For example, in the case of a record pair of “ice” and “ice”, the similarity si calculated by changing the notation is a value indicating high similarity, while it is calculated by extracting a partial character string. The degree of similarity s i that is used is a value indicating that the similarity is low.
  • the similarity si calculated by changing the notation is a value indicating that the similarity is low, while it is calculated by extracting the partial character string.
  • the degree of similarity s i obtained is a value indicating that the similarity is high.
  • step S105 the importance calculation unit 131A refers to the record pair (e, e') and calculates the importance g i for each of the plurality of similarities si. As an example, the importance calculation unit 131A calculates the importance g i using the importance calculation model g.
  • the importance calculation model g is a model for calculating the importance g i for each of a plurality of similarities s i .
  • the importance calculation model g is is represented.
  • the sum of k importances ⁇ g(e, e′) ⁇ i calculated by the importance calculation model g is one.
  • the importance calculation unit 131A converts the character strings of the attribute values of the first record e and the second record e' into vectors in the language model.
  • the function serialize (e, e') that converts e, e') to a character string converts "[CLS] [COL] product name [VAL] potato chips [COL] price [VAL] 198 [SEP] [COL] product Name [VAL] Potato [COL] Rating [VAL] 5 [SEP]”.
  • [CLS], [COL], [VAL], and [SEP] are symbols indicating the beginning of a sentence, attribute name, attribute value, and record delimiters, respectively.
  • the importance calculation unit 131A converts the generated character string into a vector using a language model (eg, BERT). Subsequently, the importance calculation unit 131A converts the vector obtained by the language model into a new L-dimensional vector z by applying concatenation, summation, deep learning, or the like.
  • a language model eg, BERT
  • the importance calculation unit 131A converts the vector obtained by the language model into a new L-dimensional vector z by applying concatenation, summation, deep learning, or the like.
  • the importance calculation unit 131A calculates k importances ⁇ g(e, e') ⁇ i by inputting the converted L-dimensional vector z to the k class classifier.
  • the k-class classifier for example, techniques such as a linear classifier and deep learning are used.
  • a k-class classifier for example, the technique described in the document "Robert A.
  • the L-dimensional vector wi is an example of a learnable parameter w of the importance calculation model g.
  • wi ⁇ T ⁇ z is the inner product of the L-dimensional vector wi and the L-dimensional vector z.
  • Step S106 the prediction unit 13 predicts the identity of the record pair (e, e') using the similarity si calculated by the similarity calculation unit 12 and the record pair (e, e').
  • the probability calculated by the prediction unit 13 indicates the result of prediction by integrating k similarities s i for the record pair (e, e′), and is a numerical value of 0 to 1, for example.
  • the prediction unit 13 calculates the probability using a probability function h that receives the record pair (e, e') and the similarity si .
  • the importance ⁇ g(e, e′) ⁇ i is the importance calculated by the importance calculation unit 131A
  • the similarity s i ⁇ i (e, e′) is the similarity It is the similarity calculated for the record pair (e, e') by the degree function ⁇ i .
  • the prediction unit 13 calculates a linear sum of a plurality of similarities s i with each importance ⁇ g(e, e′) ⁇ i as a weighting factor. are used to make identity predictions.
  • the prediction result of the prediction unit 13 reflects not only the similarity s i but also the importance g i determined by the record pair. In this way, the method by which the prediction unit 13 predicts identity may differ depending on the record pair.
  • step S107 In step S ⁇ b>107 , the output unit 14 outputs the prediction result of the prediction unit 13 . As an example, the output unit 14 stores the prediction result in the storage unit 20A.
  • step S108 the prediction unit 13 determines whether identity prediction has been performed for all record pairs (e, e') to be predicted.
  • the prediction unit 13 proceeds to the process of step S109.
  • the prediction unit 13 returns to the process of step S103 and performs the same calculation for the next record pair (e, e'). make gender predictions. That is, the information processing device 1A executes the processes of steps S103 to S107 for all record pairs (e, e') to be predicted.
  • step S109 the integration unit 15A refers to the prediction result output by the output unit 14 and generates integrated data from the first data and the second data.
  • the integrated data includes, for example, a record obtained by integrating records included in a record pair predicted by the prediction unit 13 to be the same by the integration unit 15A.
  • FIG. 8 is a diagram showing a table T3, which is an example of integrated data.
  • Table T3 includes a plurality of records f 1 , f 2 , .
  • a record f1 is a record obtained by integrating the first record e1 and the second record e'2 in FIG.
  • a record f2 is a record obtained by integrating the first record e2 and the second record e'3 in FIG.
  • Record f3 is a record obtained by integrating the first record e3 and the second record e'1 in FIG.
  • the similarity functions ⁇ 1 to ⁇ 3 are used as the similarity functions ⁇ i ⁇ .
  • the similarity function ⁇ 1 is a function for calculating the Jaccard coefficient of the product name of the record pair.
  • the similarity function ⁇ 2 is a function for calculating the Jaccard coefficient after converting hiragana into katakana if the product name of the record pair is in hiragana.
  • the similarity function ⁇ 3 is a function for calculating the similarity by the method described in Non-Patent Document 2 above.
  • the similarity function ⁇ 3 has a learnable parameter ⁇ 3 .
  • the similarity calculation unit 12 reads the parameter ⁇ 3 from the storage unit 20A and calculates the similarity s3 using the read parameter ⁇ 3 .
  • the prediction unit 13 uses the function serialize(e, e') that connects the attribute name and attribute value of the record pair (e, e') to extract the character string "[CLS][ COL] Product Name [VAL] Soy Sauce Senbei [COL] Price [VAL] 268 [SEP] [COL] Product Name [VAL] Shoyu Senbei [COL] Rating [VAL] 4 [SEP]”. Also, the prediction unit 13 obtains an L-dimensional vector v, which is a vector representation of this character string, by BERT, which is a pretrained language model.
  • w 1 , w 2 and w 3 are real vectors, and are examples of learnable parameters w of the importance calculation model g.
  • step S107 the output unit 14 outputs the identity prediction result of the record pair (e, e').
  • the above identity prediction and output are applied to all record pairs of the test data Dtest .
  • the importance g i is calculated by referring to the record pair (e, e′), and the calculated importance g i is used to A configuration for performing identity prediction is adopted. Therefore, according to the information processing apparatus 1A according to the present exemplary embodiment, in addition to the effects of the information processing apparatus 1 according to the first exemplary embodiment, calculation is performed using the record pair (e, e') Identity prediction can be performed with importance g i taken into consideration, and the effect of more appropriately predicting identity of record pair (e, e′) can be obtained.
  • the acquisition unit 11 further acquires the auxiliary data u
  • the prediction unit 13 refers to the record pair (e, e′), the plurality of similarities s i and the auxiliary data u. Then, identity prediction of the record pair (e, e') may be performed using the importance g i determined according to the record pair (e, e') and the auxiliary data u.
  • the auxiliary data u includes, for example, information indicating the name of the record, the feature amount of the record, and/or the classification result of the record (confectionery, person's name, etc.).
  • the auxiliary data u may include, for example, information on records obtained from external data such as Wikipedia (registered trademark).
  • the auxiliary data u may include, for example, the number of training data used in learning the parameter ⁇ of the similarity function ⁇ i and/or the parameter w of the importance calculation model g.
  • the auxiliary data u is not limited to the above example, and may include other information.
  • the auxiliary data u is, for example, a one-hot vector representing discrete information.
  • auxiliary data u is input to the importance calculation model g in addition to the record pair (e, e').
  • the auxiliary data u which is a vector, is concatenated with the L-dimensional vector z described above, and the concatenated vector and the parameter w are used to calculate the importance g i .
  • the prediction unit 13 refers to the record pair (e, e'), the plurality of similarities si , and the auxiliary data u, and calculates the record pair (e, e') and the auxiliary data u Identity prediction of the record pair (e, e') is performed using the importance g i determined according to .
  • the prediction unit 13 can further increase the accuracy of prediction of the identity of the record pair (e, e').
  • FIG. 9 is a block diagram showing the configuration of an information processing device 1B according to this exemplary embodiment.
  • the control unit 10A of the information processing apparatus 1B includes an acquisition unit 11, a similarity calculation unit 12, a prediction unit 13, an output unit 14, an integration unit 15A, and a learning unit 16B.
  • the acquisition unit 11 obtains training data including a plurality of pairs of record pairs (e j , e′ j ) and labels y j relating to the identity of the record pairs (e j , e′ j ). Dtr is also obtained.
  • the training data Dtr are used to learn the parameter P mentioned above.
  • the training data Dtr is is expressed as where n is the total number of record pairs (e j , e′ j ).
  • the label yj is, for example, '0' or '1'. "1" indicates that the first record ej and the second record e'j are the same, and "0" indicates that the first record ej and the second record e'j are the same. indicates that it is not
  • the learning unit 16B calculates (i) one or more parameters ⁇ i of each of the plurality of similarity functions ⁇ i used by the similarity calculation unit 12 to calculate the similarity si, and (ii) importance calculation At least one parameter P of one or a plurality of parameters w included in the importance calculation model g used by the unit 131A to calculate the importance is generated with reference to the training data.
  • the learning unit 16B is an example of the "parameter generating means" according to the present specification.
  • FIG. 10 is a flow chart showing the flow of the information processing method S2B, which is an example of the information processing method executed by the information processing apparatus 1B. Note that some steps may be performed in parallel or out of order. Also, the description of the already described contents will not be repeated.
  • step S201 the acquisition unit 11 acquires training data Dtr .
  • the training data Dtr is input by the user of the information processing device 1B, as an example.
  • step S202 the obtaining unit 11 obtains a plurality of similarity functions ⁇ i .
  • the similarity function ⁇ i is input by the user of the information processing device 1B.
  • Step S203 the learning unit 16B learns at least one of the parameter ⁇ i and the parameter w using the training data Dtr .
  • the parameter ⁇ i is a set of parameters possessed by the similarity function ⁇ i .
  • the parameter w is a set of parameters that the importance calculation model g has.
  • the learning unit 16B optimizes the parameter ⁇ i and the parameter w using the objective function L, for example.
  • An example of this optimization is represented.
  • the evaluation index l is is. That is, the evaluation index l is the probability that the records included in the record pair (e j , e′ j ) of the training data D tr are identical (the output of the probability function h w ); a label y j of '0' or '1'; is an input and outputs a value of 0 or more.
  • a cross-entropy error can be used as the evaluation index l.
  • is a non-negative hyperparameter.
  • the hyperparameter ⁇ may be determined by the user or the like of the information processing device 1B, or may be a value automatically determined using a set of record pairs whose identity is known, different from the training data Dtr . good.
  • is a regularization term for the parameters, and the L2 norm may be used. It is also possible to fix the parameter ⁇ i in the above equation and optimize only the parameter w.
  • the learning unit 16B stores the generated parameter w and parameter ⁇ i in the storage unit 20A.
  • the parameter w and the parameter ⁇ i generated by the learning unit 16B are used in the similarity calculation unit 12 to calculate the similarity si and/or the prediction unit 13 to predict identity.
  • Similarity functions ⁇ 1 to ⁇ 3 are used as the similarity functions ⁇ i ⁇ .
  • the similarity functions ⁇ 1 to ⁇ 3 are similar to the similarity functions ⁇ 1 to ⁇ 3 shown in the example of the first illustrative embodiment above.
  • the similarity function ⁇ 3 has a learnable parameter ⁇ 3 .
  • step S201 the acquisition unit 11 acquires the training data Dtr . Further, in step S203 , the learning unit 16B, based on the cross- entropy error, sets the importance degree
  • the parameter w of the calculation model g and the parameter ⁇ i of the similarity function ⁇ i are optimized using the stochastic gradient descent method.
  • the optimized parameter w and parameter ⁇ i are stored in the storage unit 20A.
  • the training data Dtr may include auxiliary data u.
  • the training data Dtr is, as an example, is represented.
  • the learning unit 16B optimizes the parameter w and the parameter ⁇ i using the training data Dtr including the auxiliary data u.
  • FIG. 11 is a block diagram showing the configuration of an information processing device 1C according to this exemplary embodiment.
  • the control unit 10A of the information processing device 1C includes an acquisition unit 11, a similarity calculation unit 12, a prediction unit 13, an output unit 14, a learning unit 16B, and a search result output unit 17C.
  • the acquisition unit 11 acquires input data from the user as the first record e included in the record pair (e, e').
  • Input data from the user is, for example, input by an input device (for example, a keyboard, a mouse, etc.) connected to the input/output unit 40A.
  • an input device for example, a keyboard, a mouse, etc.
  • the acquiring unit 11 acquires one of the plurality of records included in the target data as the second record e' included in the record pair (e, e').
  • the target data is data to be searched, and includes, for example, one or more tables.
  • the prediction unit 13 performs identity prediction for record pairs of the first record e and each of the plurality of records included in the target data.
  • the search result output unit 17C refers to each prediction result PR output by the output unit 14, and outputs a search result based on the input data and having the target data as a search target.
  • the search result output unit 17C outputs search results to an output device (display, printer, etc.) connected to the input/output unit 40A.
  • the search result output unit 17C may output the search result by transmitting the search result to another device connected via the communication unit 30A.
  • the search result output unit 17C may output the search result by storing the search result in the storage unit 20A or an external storage device.
  • FIG. 12 is a diagram showing a specific example of screen display output by the search result output unit 17C.
  • the input data is a character string entered by the user in the text box 51
  • the target data are the tables T1 and T2 shown in FIG. 6 in the first exemplary embodiment.
  • the prediction unit 13 performs identity prediction on record pairs of the first record e, which is the user's input data, and each of the records included in the table T1 and the record e' included in the table T2. Since the identity prediction processing performed by the prediction unit 13 has been described in the second exemplary embodiment, the description thereof will not be repeated.
  • the search result output unit 17C refers to the prediction result PR of the prediction unit 13 and outputs search results 53 and 54 based on the input data.
  • a search result 53 is a search result obtained by searching the table T1 using the character string "potato chips" as input data.
  • a search result 54 is a search result obtained by searching the table T2 using the character string "potato chips" as input data.
  • each prediction result output by the output unit 14 is referred to, and the search result based on the input data is the target data.
  • a configuration is adopted in which the search results are output. Therefore, according to the information processing apparatus 1C according to the present exemplary embodiment, in addition to the effects of the information processing apparatus 1 according to the first exemplary embodiment, the search from the target data based on the input data is more preferably performed. You can get the effect of being able to
  • the information processing device 1C can also be described as follows. Acquisition means for acquiring input data from a user and one of a plurality of records included in target data as a record pair; Similarity calculating means for calculating a plurality of similarities with respect to the record pair using a plurality of similarity functions; With respect to a record pair of the input data and each of a plurality of records included in the target data, the importance determined according to the record pair is determined by referring to the record pair and the plurality of similarities. a prediction means for predicting the identity of the record pair using an output means for outputting a search result based on the input data with reference to the prediction result by the prediction means and for the target data as a search target; Information processing device equipped with.
  • Some or all of the functions of the information processing apparatuses 1, 1A, 1B, 1C, and 2 may be implemented by hardware such as integrated circuits (IC chips), It may be realized by software.
  • the information processing device 1 and the like are implemented by, for example, a computer that executes instructions of a program that is software that implements each function.
  • a computer that executes instructions of a program that is software that implements each function.
  • An example of such a computer (hereinafter referred to as computer C) is shown in FIG.
  • Computer C comprises at least one processor C1 and at least one memory C2.
  • a program P for operating the computer C as the information processing apparatus 1 or the like is recorded in the memory C2.
  • the processor C1 reads the program P from the memory C2 and executes it, thereby realizing each function of the information processing apparatus 1 and the like.
  • processor C1 for example, CPU (Central Processing Unit), GPU (Graphic Processing Unit), DSP (Digital Signal Processor), MPU (Micro Processing Unit), FPU (Floating point number Processing Unit), PPU (Physics Processing Unit) , a microcontroller, or a combination thereof.
  • memory C2 for example, a flash memory, HDD (Hard Disk Drive), SSD (Solid State Drive), or a combination thereof can be used.
  • the computer C may further include a RAM (Random Access Memory) for expanding the program P during execution and temporarily storing various data.
  • Computer C may further include a communication interface for sending and receiving data to and from other devices.
  • Computer C may further include an input/output interface for connecting input/output devices such as a keyboard, mouse, display, and printer.
  • the program P can be recorded on a non-temporary tangible recording medium M that is readable by the computer C.
  • a recording medium M for example, a tape, disk, card, semiconductor memory, programmable logic circuit, or the like can be used.
  • the computer C can acquire the program P via such a recording medium M.
  • the program P can be transmitted via a transmission medium.
  • a transmission medium for example, a communication network or broadcast waves can be used.
  • Computer C can also obtain program P via such a transmission medium.
  • (Appendix 1) an acquisition means for acquiring a record pair; Similarity calculating means for calculating a plurality of similarities with respect to the record pair using a plurality of similarity functions; a prediction unit that refers to the record pair and the plurality of similarities and performs identity prediction of the record pair using an importance determined according to the record pair; an output means for outputting a prediction result by the prediction means; Information processing device equipped with.
  • the identity of record pairs can be predicted more appropriately.
  • the acquisition means further acquires auxiliary data
  • the prediction means refers to the record pair, the plurality of degrees of similarity, and the auxiliary data, and predicts the identity of the record pair using an importance determined according to the record pair and the auxiliary data. I do, The information processing device according to appendix 1.
  • the importance is information that reflects not only the record pair but also the contents of the auxiliary data.
  • the prediction means comprises importance calculation means for calculating the importance by referring to the record pair.
  • the information processing device according to appendix 1 or 2.
  • the accuracy of predicting the identity of a record pair can be further increased by predicting the identity of the record pair using the importance calculated by referring to the record pair.
  • the importance calculating means calculates an importance for each of the plurality of similarities,
  • the prediction means performs the identity prediction using a linear sum relating to the plurality of degrees of similarity, wherein each degree of importance is a weighting factor.
  • the information processing device according to appendix 3.
  • the acquisition means further acquires training data including a plurality of sets of record pairs and labels relating to the identity of the record pairs
  • the information processing device is one or more parameters of each of the plurality of similarity functions used by the similarity calculation means to calculate the similarity; and one or more parameters of an importance calculation model used by the importance calculation means to calculate the importance; Further comprising parameter generation means for generating at least one parameter of with reference to the training data, The information processing device according to appendix 3 or 4.
  • the identity of record pairs can be predicted more appropriately by using parameters generated by referring to training data.
  • the information processing apparatus includes integration means for generating integrated data from the first data and the second data by referring to the prediction result output by the output means. 6.
  • the information processing apparatus according to any one of Appendices 1 to 5.
  • the first data and the second data can be more preferably integrated.
  • the acquisition means is Obtaining input data from a user as a first record included in the record pair; obtaining one of a plurality of records included in the target data as a second record included in the record pair; the prediction means performs the identity prediction for a record pair of the first record and each of a plurality of records included in the target data;
  • the information processing apparatus refers to each of the prediction results output by the output means, and outputs a search result based on the input data, the search result having the target data as a search target. is equipped with 6.
  • the information processing apparatus according to any one of Appendices 1 to 5.
  • retrieval from target data based on input data can be performed more preferably.
  • (Appendix 8) Acquisition means for acquiring training data including a plurality of sets of record pairs and labels relating to the identity of the record pairs; One or more parameters of each of a plurality of similarity functions for calculating a plurality of similarities for a record pair to be predicted, and Prediction means for performing identity prediction of the prediction target record pair using an importance determined according to the prediction target record pair by referring to the prediction target record pair and the plurality of similarities, one or more parameters of the importance calculation model used to calculate the importance; parameter generation means for generating at least one parameter of with reference to the training data; Information processing device equipped with.
  • (Appendix 9) obtaining a record pair; calculating a plurality of degrees of similarity for the record pair using a plurality of similarity functions; referring to the record pair and the plurality of similarities, and performing identity prediction of the record pair using an importance determined according to the record pair; outputting a prediction result by the prediction means;
  • Information processing method including.
  • (Appendix 10) Acquiring training data including a plurality of sets of record pairs and labels relating to the identity of the record pairs; One or more parameters of each of a plurality of similarity functions for calculating a plurality of similarities for a record pair to be predicted, and Prediction means for performing identity prediction of the prediction target record pair using an importance determined according to the prediction target record pair by referring to the prediction target record pair and the plurality of similarities, referring to the training data to generate at least one of the one or more parameters of the importance calculation model used to calculate the importance; Information processing method including.
  • (Appendix 11) Acquiring training data including a plurality of sets of record pairs and labels relating to the identity of the record pairs; A plurality of similarity calculation models for calculating a plurality of similarities for a record pair to be predicted, and Prediction means for performing identity prediction of the prediction target record pair using an importance determined according to the prediction target record pair by referring to the prediction target record pair and the plurality of similarities, an importance calculation model used to calculate the importance; generating a model of at least one of with reference to the training data; A method of manufacturing a trained model including
  • Appendix 12 to the computer, an acquisition process for acquiring a record pair; A similarity calculation process for calculating a plurality of similarities for the record pair using a plurality of similarity functions; a prediction process of performing identity prediction of the record pair using an importance determined according to the record pair by referring to the record pair and the plurality of similarities; an output process for outputting a prediction result obtained by the prediction process; program to run.
  • At least one processor performs an acquisition process for acquiring a record pair, a similarity calculation process for calculating a plurality of similarities for the record pair using a plurality of similarity functions, and a similarity calculation process for the record pair. , a prediction process of referring to the plurality of degrees of similarity and using an importance level determined according to the record pair to predict the identity of the record pair; and an output process of outputting a prediction result of the prediction process.
  • Information processing device to execute.
  • this information processing apparatus may further include a memory, and this memory stores information for causing the processor to execute the acquisition process, the similarity calculation process, the prediction process, and the output process.
  • program may be stored. Also, this program may be recorded in a computer-readable non-temporary tangible recording medium.
  • At least one processor acquires training data including a plurality of sets of record pairs and labels related to the identity of the record pairs, and calculates a plurality of similarities for the record pairs to be predicted. Importance determined according to the record pair to be predicted by referring to one or more parameters of each of a plurality of similarity functions for performing the prediction, the record pair to be predicted, and the plurality of similarities.
  • the prediction means for predicting the identity of the record pair to be predicted using the training data An information processing device that executes a parameter generation process generated by referring to.
  • the information processing apparatus may further include a memory, and the memory may store a program for causing the processor to execute the acquisition process and the parameter generation process. Also, this program may be recorded in a computer-readable non-temporary tangible recording medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

レコード対の同一性をより好適に予測するために、情報処理装置(1)は、レコード対を取得する取得手段(11)と、レコード対について、複数の類似度関数を用いて複数の類似度を算出する類似度算出手段(12)と、レコード対と、複数の類似度とを参照して、前記レコード対に応じて定まる重要度を用いて前記レコード対の同一性予測を行う予測手段(13)と、予測手段(13)による予測結果を出力する出力手段(14)と、を備えている。

Description

情報処理装置、情報処理方法及びプログラム
 本発明は、レコード対の同一性予測を行う技術に関する。
 異なるテーブルに格納されたレコードから同一の又は類似するレコードの組み合わせを特定して対応付ける処理が行われている。このような処理は名寄せ処理とも呼ばれる。名寄せ処理によりテーブルの一元管理及びデータの拡張が可能となる。名寄せ処理を行う技術として、機械学習又はルールベースによるマッチングを行う技術が存在する。例えば、特許文献1及び非特許文献1には、機械学習により名寄せ処理を行う技術が記載されている。特に、特許文献1に記載の名寄せ処理装置は、情報処理装置と、記憶部と操作端末とから構成されている。この名寄せ処理装置は、レコード対の類似度を計算する類似度関数を複数用いてレコード対の類似度を計算し、訓練データを用いた機械学習により類似度の重みを学習する。
日本国特開2019-185244号公報
Pradap Konda, et. al., Magellan: Toward Building Entity Matching Management Systems, Proceedings of the VLDB Endowment, 2016
 ところで、レコード対の同一性を判定する手法として様々な手法が存在する。例えば、「アイス」と「あいす」のレコード対はカタカナをひらがなに表記変更することで同一性の判定精度を高くすることができる。また、「ポテトチップス」と「ポテチ」のレコード対は部分文字列を抽出することで同一性の判定精度を高くすることができる。このように、レコード対の同一性の判定に適した手法はレコード対のそれぞれで異なる場合がある。特許文献1及び非特許文献1に記載の技術では、レコード対によっては同一性の判定を適切に行えないという問題があった。
 本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、レコード対の同一性をより好適に予測できる技術を提供することである。
 本発明の一側面に係る情報処理装置は、レコード対を取得する取得手段と、前記レコード対について、複数の類似度関数を用いて複数の類似度を算出する類似度算出手段と、前記レコード対と、前記複数の類似度とを参照して、前記レコード対に応じて定まる重要度を用いて前記レコード対の同一性予測を行う予測手段と、前記予測手段による予測結果を出力する出力手段と、を備えている。
 また、本発明の一側面に係る情報処理装置は、レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを取得する取得手段と、予測対象のレコード対について複数の類似度を算出するための複数の類似度関数の各々が有する1又は複数のパラメータ、及び前記予測対象のレコード対と、前記複数の類似度とを参照して、前記予測対象のレコード対に応じて定まる重要度を用いて前記予測対象のレコード対の同一性予測を行う予測手段が、前記重要度を算出するために用いる重要度算出モデルが有する1又は複数のパラメータの少なくとも何れかのパラメータを、前記訓練データを参照して生成するパラメータ生成手段と、を備えている。
 また、本発明の一側面に係る情報処理方法は、レコード対を取得することと、前記レコード対について、複数の類似度関数を用いて複数の類似度を算出することと、前記レコード対と、前記複数の類似度とを参照して、前記レコード対に応じて定まる重要度を用いて前記レコード対の同一性予測を行うことと、前記レコード対の同一性予測による予測結果を出力することと、を含む。
 また、本発明の一側面に係る情報処理方法は、レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを取得することと、予測対象のレコード対について複数の類似度を算出するための複数の類似度関数の各々が有する1又は複数のパラメータ、及び前記予測対象のレコード対と、前記複数の類似度とを参照して、前記予測対象のレコード対に応じて定まる重要度を用いて前記予測対象のレコード対の同一性予測を行う予測手段が、前記重要度を算出するために用いる重要度算出モデルが有する1又は複数のパラメータの少なくとも何れかのパラメータを、前記訓練データを参照して生成することと、を含む。
 また、本発明の一側面に係る製造方法は、レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを取得することと、予測対象のレコード対について複数の類似度を算出するための複数の類似度算出モデル、及び前記予測対象のレコード対と、前記複数の類似度とを参照して、前記予測対象のレコード対に応じて定まる重要度を用いて前記予測対象のレコード対の同一性予測を行う予測手段が、前記重要度を算出するために用いる重要度算出モデルの少なくとも何れかのモデルを、前記訓練データを参照して生成することと、を含む。
 また、本発明の一側面に係るプログラムは、コンピュータに、レコード対を取得する取得処理と、前記レコード対について、複数の類似度関数を用いて複数の類似度を算出する類似度算出処理と、前記レコード対と、前記複数の類似度とを参照して、前記レコード対に応じて定まる重要度を用いて前記レコード対の同一性予測を行う予測処理と、前記予測処理による予測結果を出力する出力処理と、を実行させる。
 また、本発明の一側面に係るプログラムは、コンピュータに、レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを取得する取得処理と、予測対象のレコード対について複数の類似度を算出するための複数の類似度関数の各々が有する1又は複数のパラメータ、及び前記予測対象のレコード対と、前記複数の類似度とを参照して、前記予測対象のレコード対に応じて定まる重要度を用いて前記予測対象のレコード対の同一性予測を行う予測手段が、前記重要度を算出するために用いる重要度算出モデルが有する1又は複数のパラメータの少なくとも何れかのパラメータを、前記訓練データを参照して生成するパラメータ生成処理と、を実行させる。
 本発明の一態様によれば、レコード対の同一性をより好適に予測できる。
例示的実施形態1に係る情報処理装置の構成を示すブロック図である。 例示的実施形態1に係る情報処理方法の流れを示すフロー図である。 例示的実施形態1に係る情報処理装置の構成を示すブロック図である。 例示的実施形態1に係る情報処理方法の流れを示すフロー図である。 例示的実施形態2に係る情報処理装置の構成を示すブロック図である。 例示的実施形態2に係る第1のデータと第2のデータの具体例を示す図である。 例示的実施形態2に係る情報処理方法の流れを示すフロー図である。 例示的実施形態2に係る統合済データの具体例を示す図である。 例示的実施形態3に係る情報処理装置の構成を示すブロック図である。 例示的実施形態3に係る情報処理方法の流れを示すフロー図である。 例示的実施形態4に係る情報処理装置の構成を示すブロック図である。 例示的実施形態4に係る画面表示例を示す図である。 各例示的実施形態に係る情報処理装置として機能するコンピュータの構成を示すブロック図である。
 〔例示的実施形態1〕
 本発明の第1の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。
 <情報処理装置1の構成>
 本例示的実施形態に係る情報処理装置1の構成について、図1を参照して説明する。図1は、情報処理装置1の構成を示すブロック図である。情報処理装置1は、レコード対の同一性予測を行う装置である。情報処理装置1は、取得部11、類似度算出部12、予測部13及び出力部14を備える。
 (取得部11)
 取得部11は、レコード対を取得する。
 (レコード対・レコード)
 レコード対は複数のレコードのセットである。レコードは、一例として、テーブルの行であり、テーブルの列に対応する1又は複数の属性名及び属性値のセットを含む。レコード対に含まれるレコードの数は2であってもよく、また、3以上であってもよい。レコード対は、一例として、第1のテーブルに含まれるレコードと、第2のテーブルに含まれるレコードとのセットである。第1のテーブル及び第2のテーブルは、一例として、事業者の顧客情報を保存したテーブル、又は、商品情報を保存したテーブルである。ただし、第1のテーブル及び第2のテーブルは上述した例に限られず、他のテーブルであってもよい。また、第1のテーブルと第2のテーブルとは同じであってもよく、また、異なっていてもよい。
 (類似度算出部12)
 類似度算出部12は、取得部11が取得したレコード対について、複数の類似度関数を用いて複数の類似度を算出する。換言すると、類似度算出部12は、k個(kは2以上の整数)の類似度関数φ(1≦i≦k)を用いて、1つのレコード対についてk個の類似度を算出する。
 (類似度関数)
 類似度関数φは、レコード対に含まれるレコード同士の類似度を算出するための関数である。以下では、類似度関数φを「類似度算出モデル」とも呼ぶ。類似度関数φの入力はレコード対であり、類似度関数φの出力はレコード対に含まれるレコード同士の類似度である。複数の類似度関数φは、後述する情報処理装置2による学習の対象であり得る。類似度関数φが機械学習により生成される場合、類似度関数φの機械学習の手法は限定されず、一例として、決定木ベース、線形回帰、又はニューラルネットワークの手法が用いられてもよく、また、これらのうちの2以上の手法が用いられてもよい。決定木ベースとしては、例えば、LightGBM(Light Gradient Boosting Machine)、ランダムフォレスト、及びXGBoostが挙げられる。線形回帰としては、例えば、ベイズ回帰、サポートベクター回帰、Ridge回帰、Lasso回帰、及びElasticNetが挙げられる。ニューラルネットワークとしては、例えばディープラーニングが挙げられる。
 類似度関数φは、一例として、0~1の数値を類似度として出力する。類似度関数φとしては、例えば、Jaccard係数を用いることができる。Jaccard係数は、集合A={a1,a2,…}と集合B={b1,b2,…}に対し、|A∩B|/|A∪B|を計算するものである。また、類似度関数φとしては例えば、非特許文献1に記載された手法が用いられてもよい。また、他の例として、類似度関数φとして、例えば文献「Yuliang Li, Jinfeng Li, Yoshihiko Suhara, AnHai Doan, Wang-Chiew Tan, Deep Entity Matching with Pre-Trained Language Models, Proceedings of the VLDB Endowment,2016」(以下「非特許文献2」という)に記載された手法が用いられてもよい。ただし、類似度関数φは上述した例に限られず、他の手法によりレコード対の類似度を算出するものであってもよい。
 (予測部13)
 予測部13は、レコード対と、複数の類似度とを参照して、レコード対に応じて定まる重要度を用いてレコード対の同一性予測を行う。
 (重要度)
 重要度は、レコード対に応じて定まる情報である。重要度は、一例として、レコード対を参照して算出される。より具体的には、一例として、重要度を算出するための重要度算出モデルを用いて予測部13が重要度を算出する。この場合、重要度算出モデルの入力はレコード対である。また、重要度算出モデルの出力は重要度である。重要度算出モデルは、後述する情報処理装置2による学習の対象であり得る。重要度算出モデルが機械学習により生成される場合、重要度算出モデルの機械学習の手法は限定されず、一例として、決定木ベース、線形回帰、又はニューラルネットワークの手法が用いられてもよく、また、これらのうちの2以上の手法が用いられてもよい。
 重要度算出モデルは、一例として、BERT(Bidirectional encoder representations from Transformers)、fastText、word2vec、tf-idf、BM25、等の言語モデルを用いて生成される。また、重要度算出モデルは言語モデルを含んでもよい。言語モデルを用いる場合の重要度の算出処理の具体例について説明する。予測部13は、一例として、言語モデルを用いてレコード対をベクトルに変換し、このベクトルを更に別の特徴量空間上のベクトルに変換する。更に、予測部13は、このベクトルをkクラス分類器(ソフトマックス関数、等)に入力することで、k個の重要度を算出する。算出されるk個の重要度のそれぞれは、k個の類似度関数φのそれぞれに対応する。
 ただし、重要度を算出する手法は上述した例に限られず、予測部13は他の手法により重要度を算出してもよい。予測部13は、一例として、ルールベースの処理により重要度を算出してもよい。例えば、予測部13は、重要度とレコード対に関する情報とを対応付けたテーブルを参照することにより重要度を算出してもよい。ここで、レコード対に関する情報は、一例として、レコード対に含まれるレコードの特徴量、レコードの分類結果、又はレコードの名称、等を含んでもよい。
 予測部13は、一例として、類似度算出部12が算出した複数の類似度に関する線形和であって、各重要度を重み係数とする線形和を用いて、レコード対の同一性予測を行う。ただし、予測部13が同一性予測を行う手法は線形和を用いる手法に限られず、予測部13は他の手法によりレコード対の同一性予測を行ってもよい。
 予測部13は、一例として、機械学習により生成される予測モデルにレコード対と類似度とを入力することによりレコード対の同一性予測を行ってもよい。この場合、予測モデルの入力は、一例として、k個の類似度のセットとレコード対とを含む。また、予測モデルの出力は、一例として、同一性の予測結果を含む。また、予測部13は、予測モデルが有するパラメータを重要度として算出する。予測モデルの機械学習の手法は限定されず、一例として、決定木ベース、線形回帰、又はニューラルネットワークの手法が用いられてもよく、また、これらのうちの2以上の手法が用いられてもよい。
 (出力部14)
 出力部14は、予測部13による予測結果を出力する。予測結果は、一例として、レコード対に含まれるレコードが同一であるかを示す情報、又は、レコード対に含まれるレコードの類似度を示す情報を含む。
 予測部13による予測結果は、例えばテーブルの統合処理、又は情報検索処理に用いられる。テーブルを統合する場合、予測部13により同一であると予測されたレコードを連携することで、複数のテーブルを統合しデータの一元管理を行うことができる。また、情報検索において、検索キーとするレコード(例えば、ユーザにより指定されたレコード)と、所定のテーブルに登録された他の任意のレコードとのレコード対について予測部13が同一性予測を行ってもよい。この場合、予測部13により同一であると予測されたレコード対に含まれるレコードを、検索結果として情報処理装置1が出力してもよい。これにより、検索キーであるレコードと連携されていないテーブルにおける検索処理が可能となる。
 <情報処理装置1の効果>
 以上のように、本例示的実施形態に係る情報処理装置1においては、レコード対について複数の類似度関数を用いて複数の類似度を算出し、レコード対と、複数の類似度とを参照して、レコード対に応じて定まる重要度を用いてレコード対の同一性予測を行う構成が採用されている。ここで、重要度はレコード対に応じて定まるため、複数の類似度に基づく同一性予測の結果は、画一的な手法によるものではなく、レコード対毎の重要度が反映されたものとなる。このため、本例示的実施形態に係る情報処理装置1によれば、レコード対の同一性をより好適に予測できるという効果が得られる。
 <情報処理方法S1の流れ>
 本例示的実施形態に係る情報処理方法S1の流れについて、図2を参照して説明する。図2は、情報処理方法S1の流れを示すフロー図である。ステップS11において、取得部11はレコード対を取得する。ステップS12において、類似度算出部12は、レコード対について、複数の類似度関数を用いて複数の類似度を算出する。ステップS13において、予測部13は、レコード対と複数の類似度とを参照して、レコード対に応じて定まる重要度を用いてレコード対の同一性予測を行う。ステップS14において、出力部14は予測部13による予測結果を出力する。
 <情報処理方法S1の効果>
 以上のように、本例示的実施形態に係る情報処理方法S1においては、レコード対について複数の類似度関数を用いて複数の類似度を算出し、レコード対と、複数の類似度とを参照して、レコード対に応じて定まる重要度を用いてレコード対の同一性予測を行う構成が採用されている。このため、本例示的実施形態に係る情報処理方法S1によれば、レコード対の同一性をより好適に予測できるという効果が得られる。
<情報処理装置2の構成>
 次いで、本例示的実施形態に係る情報処理装置2の構成について、図3を参照して説明する。図3は、情報処理装置2の構成を示すブロック図である。情報処理装置2は、レコード対の同一性を予測するために用いるパラメータを生成する装置である。情報処理装置2は、取得部21及びパラメータ生成部22を備える。
 取得部21は、レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを取得する。同一性に関するラベルは、一例として、レコード対に含まれるレコードが同一であるか否かを示す。
 パラメータ生成部22は、(i)予測対象のレコード対について複数の類似度を算出するための複数の類似度関数φの各々が有する1又は複数のパラメータ、及び(ii)予測対象のレコード対と、複数の類似度とを参照して、予測対象のレコード対に応じて定まる重要度を用いて予測対象のレコード対の同一性予測を行う予測部13が、重要度を算出するために用いる重要度算出モデルが有する1又は複数のパラメータ、の少なくとも何れかのパラメータを、訓練データを参照して生成する。
 <情報処理装置2の効果>
 以上のように、本例示的実施形態に係る情報処理装置2においては、レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを取得し、予測対象のレコード対について複数の類似度を算出するための複数の類似度関数の各々が有する1又は複数のパラメータ、及び予測対象のレコード対と、複数の類似度とを参照して、予測対象のレコード対に応じて定まる重要度を用いて予測対象のレコード対の同一性予測を行う予測手段が、重要度を算出するために用いる重要度算出モデルが有する1又は複数のパラメータの少なくとも何れかのパラメータを、訓練データを参照して生成する構成が採用されている。このため、本例示的実施形態に係る情報処理装置2によれば、レコード対の同一性をより好適に予測可能なパラメータを生成できるという効果が得られる。
 <情報処理方法S2の流れ>
 本例示的実施形態に係る情報処理方法S2の流れについて、図4を参照して説明する。図4は、情報処理方法S2の流れを示すフロー図である。ステップS21において、取得部21は、レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを取得する。ステップS22において、パラメータ生成部22は、(i)予測対象のレコード対について複数の類似度を算出するための複数の類似度関数の各々が有する1又は複数のパラメータ、及び(ii)予測対象のレコード対と、複数の類似度とを参照して、予測対象のレコード対に応じて定まる重要度を用いて予測対象のレコード対の同一性予測を行う予測手段が、重要度を算出するために用いる重要度算出モデルが有する1又は複数のパラメータ、の少なくとも何れかのパラメータを、訓練データを参照して生成する。
 <情報処理方法S2の効果>
 以上のように、本例示的実施形態に係る情報処理方法S2においては、レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを取得し、予測対象のレコード対について複数の類似度を算出するための複数の類似度関数の各々が有する1又は複数のパラメータ、及び予測対象のレコード対と、複数の類似度とを参照して、予測対象のレコード対に応じて定まる重要度を用いて予測対象のレコード対の同一性予測を行う予測手段が、重要度を算出するために用いる重要度算出モデルが有する1又は複数のパラメータの少なくとも何れかのパラメータを、訓練データを参照して生成する構成が採用されている。このため、本例示的実施形態に係る情報処理方法S2によれば、レコード対の同一性をより好適に予測可能なパラメータを生成できるという効果が得られる。
 <製造方法>
 情報処理装置2は、学習済モデルの製造方法を実行する装置として特定することもできる。ここで、学習済モデルの製造方法は、レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを取得することと、複数の類似度算出モデル及び重要度算出モデルの少なくとも何れかのモデルを、訓練データを参照して生成することと、を含む。
 〔例示的実施形態2〕
 本発明の第2の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。
 <情報処理装置1Aの構成>
 図5は、本例示的実施形態に係る情報処理装置1Aの構成を示すブロック図である。情報処理装置1Aは、制御部10A、記憶部20A、通信部30A及び入出力部40Aを備える。
 (通信部30A)
 通信部30Aは、情報処理装置1Aの外部の装置と通信回線を介して通信する。通信回線の具体的構成は本例示的実施形態を限定するものではないが、通信回線は一例として、無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)、公衆回線網、モバイルデータ通信網、又は、これらの組み合わせである。通信部30Aは、制御部10Aから供給されたデータを他の装置に送信したり、他の装置から受信したデータを制御部10Aに供給したりする。
 (入出力部40A)
 入出力部40Aには、キーボード、マウス、ディスプレイ、プリンタ、タッチパネル等の入出力機器が接続される。入出力部40Aは、接続された入力機器から情報処理装置1Aに対する各種の情報の入力を受け付ける。また、入出力部40Aは、制御部10Aの制御の下、接続された出力機器に各種の情報を出力する。入出力部40Aとしては、例えばUSB(Universal Serial Bus)などのインタフェースが挙げられる。
 (制御部10A)
 制御部10Aは、図5に示すように、取得部11、類似度算出部12、予測部13、出力部14、及び統合部15Aを備える。
 (取得部11)
 取得部11は、レコード対に含まれる第1のレコードeを含む第1のデータxと、レコード対に含まれる第2のレコードe´を含む第2のデータx´とを取得する。第1のデータx及び第2のデータx´は、例えば複数のレコードを含むテーブルである。第1のレコードe∈xと、第2のレコードe´∈x´とは、一例として、以下のように表現される。
e=(a:v,a:v,…,a:v
e´=(a:v,a:v,…,ad´:v´d´
 ここで、a∈A(l=1、2、…d)、及びa´∈A´(m=1、2、…d´)、は属性名であり、A及びA´は、例えば文字列空間である。v∈V及びv´∈V´は属性値であり、V及びV´は、例えば文字列空間又は実数空間である。dはレコードeが有する属性の数であり、d´はレコードe´が有する属性の数である。換言すると、第1のレコードe及び第2のレコードe´はそれぞれ、属性名と属性値とのセットを複数含む。
 図6は、第1のデータx及び第2のデータx´の具体例であるテーブルT1及びテーブルT2を示す図である。テーブルT1及びテーブルT2は行と列からなり、行はレコード、列は属性に対応する。換言すると、テーブルT1は、複数の第1のレコードe、e、…を含む。また、テーブルT2は、複数の第2のレコードe´、e´、…を含む。
 図6の第1のレコードeは、e=(商品名:ポテトチップス,価格:198)と表される。第1のレコードeにおいて、属性名が「商品名」である属性の属性値は「ポテトチップス」であり、また、属性名が「価格」である属性の属性値は「198」である。
 テーブルT1の属性名及び属性値と、テーブルT2の属性名及び属性値とは、同じであってもよく、また、異なっていてもよい。図6の例で、取得部11が取得するレコード対(e,e´)は、テーブルT1に含まれる第1のレコードe、e、…のいずれかと、テーブルT2に含まれる第2のレコードe´、e´、…のいずれかとの対である。
 (類似度算出部12)
 類似度算出部12は、k個(kは2以上の整数)の類似度関数φ(1≦i≦k)を用いて、1つのレコード対(e,e´)についてk個の類似度sを算出する。類似度算出部12がk個の類似度sを算出する処理の詳細については後述する。
 (予測部13)
 予測部13は、レコード対(e,e´)と、複数の類似度sとを参照して、レコード対(e,e´)に応じて定まる重要度を用いてレコード対の同一性予測を行う。本例示的実施形態において、予測部13は、レコード対(e,e´)を参照して重要度を算出する重要度算出部131Aを備えている。予測部13が行う同一性の予測処理、及び重要度算出部131Aが行う重要度の算出処理の詳細については後述する。
 (出力部14)
 出力部14は、予測部13による予測結果を出力する。予測結果は、一例として、レコード対に含まれるレコード同士が同一であるか否かを示す情報を含む。また、予測結果は、レコード対に含まれるレコード同士の類似の程度を示す情報を含んでもよい。出力部14は、予測結果を記憶部20A又は外部記憶装置に書き込むことにより出力してもよく、また、入出力部40Aに接続された出力装置(表示装置、印刷装置、等)に出力してもよい。また、出力部14は、通信部30Aを介して予測結果を他の装置に送信することにより予測結果を出力してもよい。
 (統合部15A)
 統合部15Aは、出力部14が出力する予測結果を参照して、第1のデータと第2のデータとから、統合済データを生成する。統合部15Aが行う統合済データの生成処理の詳細については後述する。
 (記憶部20A)
 記憶部20Aには、取得部11が取得する第1のデータx及び第2のデータx´が記憶されるとともに、予測部13の予測結果PRが記憶される。また、記憶部20Aには、複数の類似度関数φ、重要度算出モデルg、及びパラメータPが記憶される。
 類似度関数{φ、…、φ}は、上述の例示的実施形態1で示したように、例えばJaccard係数、又は非特許文献1若しくは非特許文献2に記載された手法により類似度を算出する関数である。類似度関数φは、一例として、情報処理装置1Aのユーザ等により入力される。類似度関数φは、一例として、レコード対(e,e´)に対して0から1の数値を類似度として出力する。この場合、例えば、出力値が1に近いほど類似性が高く、0に近いほど類似性が低い。類似度関数φは、一例として、学習可能なパラメータを備えた関数である。
 重要度算出モデルgは、重要度算出部131Aが重要度を算出するために用いるモデルである。重要度算出モデルgは、上述の例示的実施形態1で示したように、例えばBERT、fastText、word2vec、tf-idf、BM25、等の言語モデルを用いて生成される。また、重要度算出モデルgは言語モデルを含んでもよい。
 記憶部20Aに記憶されたパラメータPは、k個の類似度関数φの各々が有する1又は複数のパラメータθ、及び、重要度算出モデルgが有する1又は複数のパラメータw、の少なくとも何れかのパラメータを含む。
 <情報処理方法S1Aの流れ>
 図7は、情報処理装置1Aが実行する情報処理方法の一例である情報処理方法S1Aの流れを示すフロー図である。なお、一部のステップは並行して、又は順序を換えて実行されてもよい。また、既に説明した内容についてはその説明を繰り返さない。
 (ステップS101)
 ステップS101において、取得部11は、第1のデータ及び第2のデータを取得する。取得部11は、一例として、情報処理装置1Aのユーザ等が入出力部40Aに接続された入力装置を用いて入力した第1のデータ及び第2のデータを取得する。また、取得部11は、通信部30Aを介して他の装置から第1のデータ及び第2のデータを受信することにより、第1のデータ及び第2のデータを取得してもよい。また、取得部11は、外部接続された記憶装置から第1のデータ及び第2のデータを読み出すことにより、第1のデータ及び第2のデータを取得してもよい。取得部11は、取得した第1のデータ及び第2のデータを記憶部20Aに記憶する。
 (ステップS102)
 ステップS102において、取得部11は、記憶部20Aに記憶されたパラメータPを取得する。
 (ステップS103)
 ステップS103において、取得部11は、予測対象であるレコード対(e,e´)を取得する。
 (ステップS104)
 ステップS104において、類似度算出部12は、k個の類似度関数φを用いて、レコード対(e,e´)についてk個の類似度sを算出する。k個の類似度関数φがそれぞれ異なるため、算出されるk個の類似度sもそれぞれ異なった値となり得る。例えば、「アイス」と「あいす」のレコード対の場合、表記変更を行って算出される類似度sは、類似性が高いことを示す値となる一方、部分文字列を抽出して算出される類似度sは、類似性が低いことを示す値となる。また、「ポテトチップス」と「ポテチ」のレコード対の場合、表記変更を行って算出される類似度sは、類似性が低いことを示す値となる一方、部分文字列を抽出して算出される類似度sは、類似性が高いことを示す値となる。
 (ステップS105)
 ステップS105において、重要度算出部131Aは、レコード対(e,e´)を参照して、複数の類似度sの各々に関する重要度gを算出する。重要度算出部131Aは、一例として、重要度算出モデルgを用いて重要度gを算出する。
 重要度算出モデルgは、複数の類似度sのそれぞれについて重要度gを算出するためのモデルである。重要度算出モデルgは、一例として、
Figure JPOXMLDOC01-appb-M000001
と表される。換言すると、重要度算出モデルgにより算出されるk個の重要度{g(e,e´)}の総和は1である。
 重要度算出部131Aが行う重要度gの算出処理の具体例について説明する。まず、重要度算出部131Aは、言語モデルで第1のレコードe及び第2のレコードe´の各属性値の文字列をベクトルに変換する。具体的には、例えば、重要度算出部131Aは、レコード対(e=(商品名:ポテトチップス,価格:198)、e´=(商品名:ポテチ,評価:5))を、レコード対(e,e´)を文字列に変換する関数serialize(e,e´)により、「[CLS][COL]商品名[VAL]ポテトチップス[COL]価格[VAL]198[SEP][COL]商品名[VAL]ポテチ[COL]評価[VAL]5[SEP]」という文字列に変換する。ここで、[CLS]と[COL]と[VAL]と[SEP]は、それぞれ文章の始まりと、属性名と、属性値と、レコードの区切りを示す記号である。
 更に、重要度算出部131Aは、生成した文字列を言語モデル(例えば、BERT)によりベクトルに変換する。続いて、重要度算出部131Aは、言語モデルにより得られたベクトルに対し、連結、和、深層学習等を適用することで、新たなL次元ベクトルzに変換する。
 更に、重要度算出部131Aは、変換したL次元ベクトルzを、kクラス分類器に入力することで、k個の重要度{g(e,e´)}を算出する。kクラス分類器としては、例えば線形分類器、深層学習等の技術が用いられる。kクラス分類器として、例えば文献「Robert A. Jacobs, Michael Jordan, Geoffrey Hinton: Adaptive Mixtures of Local Experts, Neural Computation 3, 79-87 (1991)」の文献に記載された技術、又は、「Noam Shazeer, Quoc Le, Geoffrey Hinton: Jeffrey Dean: OUTRAGEOUSLY LARGE NEURAL NETWORKS: THE SPARSELY-GATED MIXTURE-OF-EXPERTS LAYER, ICLR 2017」の文献に記載された技術が用いられてもよい。
 例えば、i=1,…,kにおいて、L次元ベクトルwに対し、線形ソフトマックス関数のi次元の出力である重要度{g(e,e´)}は、
exp(w^T・z)/(exp(w^T・z)+exp(w^T・z)+…+exp(w^T・z))
により算出される。ここで、L次元ベクトルwは、重要度算出モデルgの学習可能なパラメータwの一例である。また、「w^T・z」はL次元ベクトルwとL次元ベクトルzの内積である。
 (ステップS106)
 ステップS106において、予測部13は、類似度算出部12が計算した類似度sとレコード対(e、e´)とを用いて、レコード対(e、e´)の同一性を予測する。予測部13は、一例として、k個の類似度sを用いてレコード対(e,e´)に含まれるレコード同士の類似度を算出し、算出した類似度が閾値q(例えば、q=0.5)より大きい場合に、レコードeとレコードe´とが同一であると予測し、算出した確率が閾値q以下である場合に同一でないと予測する。
 予測部13が算出する確率は、レコード対(e,e´)についてk個の類似度sを統合し予測した結果を示すものであり、一例として、0~1の数値である。本例示的実施形態において、予測部13は、レコード対(e,e´)と類似度sとを入力とする確率関数hにより、確率を算出する。確率関数hは、一例として、k個の類似度s=φ(e,e´)を用いて以下の(数式1)で表される。
Figure JPOXMLDOC01-appb-M000002
 上述の(数式1)において、重要度{g(e,e´)}は重要度算出部131Aが算出する重要度であり、類似度s=φ(e,e´)は、類似度関数φによりレコード対(e,e´)について算出された類似度である。(数式1)を用いる場合、換言すると、予測部13は、複数の類似度sに関する線形和であって、各重要度{g(e,e´)}を重み係数とする線形和を用いて、同一性予測を行う。
 本例示的実施形態では、異なる複数のレコード対(e,e´)のそれぞれについて算出されたk個の類似度sが同じであっても、重要度{g(e,e´)}はレコード対のそれぞれで異なり得る。換言すると、予測部13による予測結果には、類似度sだけでなく、レコード対により定まる重要度gが反映される。このように、予測部13が同一性を予測する手法はレコード対によって異なり得る。
 (ステップS107)
 ステップS107において、出力部14は、予測部13の予測結果を出力する。一例として、出力部14は、予測結果を記憶部20Aに記憶する。
 (ステップS108)
 ステップS108において、予測部13は、予測対象である全てのレコード対(e,e´)について同一性の予測を行ったかを判定する。予測対象である全てのレコード対(e,e´)について予測処理が完了した場合(ステップS108;YES)、予測部13はステップS109の処理に進む。一方、また予測対象であるレコード対(e,e´)が残っている場合(ステップS108;NO)、予測部13はステップS103の処理に戻り、次のレコード対(e,e´)について同一性の予測を行う。すなわち、情報処理装置1Aは、予測対象である全てのレコード対(e,e´)について、ステップS103~S107処理を実行する。
 (ステップS109)
 ステップS109において、統合部15Aは、出力部14が出力する予測結果を参照して、第1のデータと第2のデータとから、統合済データを生成する。統合済データは、一例として、統合部15Aは、予測部13が同一であると予測したレコード対に含まれるレコード同士を統合したレコードを含む。
 図8は、統合済データの一例であるテーブルT3を示す図である。テーブルT3は、複数のレコードf、f、…を含む。レコードfは、図6の第1のレコードeと第2のレコードe´を統合したレコードである。レコードfは、図6の第1のレコードeと第2のレコードe´を統合したレコードである。レコードfは、図6の第1のレコードeと第2のレコードe´を統合したレコードである。
 <実施例>
 次に、本例示的実施形態の具体的な実施例を説明する。この例で、類似度関数{φ}として、類似度関数φ~φを用いる。類似度関数φは、レコード対の商品名のJaccard係数を算出する関数である。類似度関数φは、レコード対の商品名がひらがなであればカタカナに変換してからJaccard係数を算出する関数である。類似度関数φは、上述の非特許文献2に記載された手法により類似度を算出する関数である。ここで、類似度関数φは学習可能なパラメータθを持つ。
 (ステップS101)
 図7のステップS101において、取得部11は、同一性が未知のレコード対の集合であるテストデータDtest={((商品名:しょうゆせんべい,価格:268),(商品名:ショウユセンベイ,評価:4))、…、((商品名:ヨモギ団子,価格:190)、(商品名:みたらしだんご,評価:3))}を取得する。
 (ステップS102~S104)
 類似度算出部12は、類似度S=(s,s,s)を算出する。ここで、類似度算出部12は、パラメータθを記憶部20Aから読み取り、読み取ったパラメータθを用いて類似度sを算出する。具体的には、類似度算出部12は、テストデータDtestのレコード対{e=(商品名:しょうゆせんべい, 価格:268),e´=(商品名:ショウユセンベイ, 評価:4)}の類似度S=(φ(e,e´),φ(e,e´),φ(e,e´))^T=(0,1,0.7)^Tを計算する。
 (ステップS105)
 予測部13は、レコード対(e,e´)の属性名と属性値を連結する関数serialize(e,e´)を用いて、レコード対(e,e´)から文字列「[CLS][COL]商品名[VAL]しょうゆせんべい[COL]価格[VAL]268[SEP][COL]商品名[VAL]ショウユセンベイ[COL]評価[VAL]4[SEP]」を作成する。また、予測部13は、事前学習済み言語モデルであるBERTによりこの文字列のベクトル表現であるL次元ベクトルvを得る。更に、予測部13は、線形ソフトマックス関数を用いてi=1,2,3に対し類似度関数φの重みである重要度gを、
=e^(w^T・v)/(e^(w^T・v)+e^(w^T・v)+e^(w^T・v))
と計算し、(g,g,g)=(0.1,0.6,0.3)を得る。ここで、w、w及びwは実数ベクトルであり、重要度算出モデルgの学習可能なパラメータwの一例である。
 (ステップS106)
 ステップS106において、予測部13は、類似度算出部12が計算した類似度Sに重要度をかけた和を確率として算出する。類似度S=(0,1,0.7)^Tであり、重要度(g,g,g)=(0.1,0.6,0.3)であるから、
h(e,e´)=0.1×0+0.6×1+0.3×0.7=0.81
となる。算出された値「0.81」が予め定められた閾値q=0.5よりも大きいため、予測部13は、レコード対(e,e´)に含まれるレコードeとレコードe´とが同一であると予測する。
 (ステップS107)
 ステップS107において、出力部14がレコード対(e、e´)の同一性予測結果を出力する。以上の同一性予測と出力をテストデータDtestの全てのレコード対に対して適用する。
 <情報処理装置1Aの効果>
 以上のように、本例示的実施形態に係る情報処理装置1Aにおいては、レコード対(e,e´)を参照して重要度gを算出し、算出した重要度gを用いてレコード対の同一性予測を行う構成が採用されている。このため、本例示的実施形態に係る情報処理装置1Aによれば、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、レコード対(e,e´)を用いて算出される重要度gを加味した同一性予測を行うことができ、レコード対(e,e´)の同一性をより適切に予測できるという効果が得られる。
 <変形例>
 上述の例示的実施形態において、取得部11は補助データuを更に取得し、予測部13は、レコード対(e,e´)と、複数の類似度sと、補助データuとを参照して、レコード対(e,e´)と補助データuとに応じて定まる重要度gを用いてレコード対(e,e´)の同一性予測を行ってもよい。
 補助データuは、一例として、レコードの名前、レコードの特徴量、及び/又はレコードの分類結果(お菓子、人名、等)、を示す情報を含む。ここで、補助データuは、一例として、Wikipedia(登録商標)等の外部データから得られるレコードに関する情報を含んでもよい。また、補助データuは、一例として、類似度関数φのパラメータθ及び/又は重要度算出モデルgのパラメータwの学習で用いられた訓練データの数を含んでもよい。ただし、補助データuは上述した例に限られず、他の情報を含んでもよい。補助データuは、一例として、離散的な情報を表すワンホットベクトルである。
 この場合、重要度算出モデルgには、レコード対(e,e´)に加えて補助データuが入力される。一例として、ベクトルである補助データuは、上述のL次元ベクトルzに連結され、連結されたベクトルとパラメータwを用いて重要度gが算出される。
 本変形例では、予測部13は、レコード対(e,e´)と、複数の類似度sと、補助データuとを参照して、レコード対(e,e´)と補助データuとに応じて定まる重要度gを用いてレコード対(e,e´)の同一性予測を行う。これにより、予測部13はレコード対(e,e´)の同一性の予測精度をより高くすることができる。
 〔例示的実施形態3〕
 本発明の第3の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~2にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
 <情報処理装置1Bの構成>
 図9は、本例示的実施形態に係る情報処理装置1Bの構成を示すブロック図である。情報処理装置1Bの制御部10Aは、取得部11、類似度算出部12、予測部13、出力部14、統合部15Aに加えて、学習部16Bを備える。
 本例示的実施形態に係る取得部11は、レコード対(e,e´)と、当該レコード対(e,e´)の同一性に関するラベルyとの組を複数含む訓練データDtrを更に取得する。訓練データDtrは、上述のパラメータPを学習するために用いられる。訓練データDtrは、一例として、
Figure JPOXMLDOC01-appb-M000003
 と表現される。ここで、nは、レコード対(e,e´)の総数である。ラベルyは、一例として、「0」又は「1」である。「1」は、第1のレコードeと第2のレコードe´とが同一である旨を示し、「0」は、第1のレコードeと第2のレコードe´とが同一でない旨を示す。
 学習部16Bは、(i)類似度算出部12が類似度sを算出するために用いる複数の類似度関数φの各々が有する1又は複数のパラメータθ、及び(ii)重要度算出部131Aが重要度を算出するために用いる重要度算出モデルgが有する1又は複数のパラメータw、の少なくとも何れかのパラメータPを、前記訓練データを参照して生成する。学習部16Bは、本明細書に係る「パラメータ生成手段」の一例である。
 <情報処理方法S2Bの流れ>
 図10は、情報処理装置1Bが実行する情報処理方法の一例である情報処理方法S2Bの流れを示すフロー図である。なお、一部のステップは並行して、又は順序を換えて実行されてもよい。また、既に説明した内容についてはその説明を繰り返さない。
 (ステップS201・S202)
 ステップS201において、取得部11は、訓練データDtrを取得する。訓練データDtrは、一例として、情報処理装置1Bのユーザにより入力される。また、ステップS202において、取得部11は、複数の類似度関数φを取得する。類似度関数φは、一例として、情報処理装置1Bのユーザにより入力される。
 (ステップS203)
 ステップS203において、学習部16Bは、訓練データDtrを用いて、パラメータθ及びパラメータwの少なくとも何れかを学習する。ここで、パラメータθは、類似度関数φが有するパラメータの集合である。また、パラメータwは、重要度算出モデルgが有するパラメータの集合である。
 学習部16Bは、一例として、目的関数Lによりパラメータθとパラメータwとを最適化する。この最適化は、一例として、
Figure JPOXMLDOC01-appb-M000004
 と表される。ここで、評価指標lは、
Figure JPOXMLDOC01-appb-M000005
である。すなわち、評価指標lは、
  訓練データDtrのレコード対(e,e´)に含まれるレコード同士が同一である確率(確率関数hの出力)と、
  「0」又は「1」のラベルyと、
を入力とし、0以上の値を出力する損失関数である。評価指標lとしては、例えばクロスエントロピー誤差を用いることができる。
 また、目的関数Lにおいて、αは非負値のハイパーパラメータである。ハイパーパラメータαは、情報処理装置1Bのユーザ等が定めてもよいし、訓練データDtrとは別の同一性が既知のレコード対の集合を用いて自動的に決定された値であってもよい。Ωはパラメータに対する正則化項であり、L2ノルムを用いてもよい。上の式においてパラメータθを固定してパラメータwのみを最適化してもよい。
 学習部16Bは、生成したパラメータw及びパラメータθを記憶部20Aに保存する。学習部16Bが生成したパラメータw及びパラメータθは、類似度算出部12による類似度sの算出処理、及び/又は予測部13による同一性の予測処理において用いられる。
 <実施例>
 次に、本例示的実施形態の具体的な実施例について説明する。例えば、テーブルT1の第1のレコードe=(商品名:ポテトチップス,価格:198)、第1のレコードe=(商品名:アイス,価格:148)と、テーブルT2の第2のレコードe´=(商品名:ポテチ,評価:5)、第2のレコードe´=(商品名:あいす,評価:4)について、訓練データDtrを、
tr={(e,e´,1),(e,e´,1),(e,e´,0),(e,e´,0)}
とする。
 また、類似度関数{φ}として、類似度関数φ~φを用いる。類似度関数φ~φは、上述の例示的実施形態1の実施例で示した類似度関数φ~φと同様である。類似度関数φは学習可能なパラメータθを有する。
 ステップS201において、取得部11は訓練データDtrを取得する。また、ステップS203において、学習部16Bは、予測部13による訓練データDtrのレコード対(e,e´)の同一性予測がよく正解するように、クロスエントロピー誤差に基づいて、重要度算出モデルgのパラメータwと類似度関数φのパラメータθを、確率的勾配降下法を用いて最適化する。最適化されたパラメータwとパラメータθとは、記憶部20Aに保存される。
 <情報処理装置1Bの効果>
 以上のように、本例示的実施形態に係る情報処理装置1Bにおいては、重要度算出モデルgが有するパラメータw及び類似度関数φが有するパラメータθの少なくとも何れかのパラメータを、訓練データDtrを参照して生成する構成が採用されている。このため、本例示的実施形態に係る情報処理装置1Bによれば、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、レコード対の同一性をより好適に予測可能なパラメータを生成できるという効果が得られる。
 <変形例>
上述の例示的実施形態において、訓練データDtrは、補助データuを含んでいてもよい。この場合、訓練データDtrは、一例として、
Figure JPOXMLDOC01-appb-M000006
と表される。学習部16Bは、補助データuを含む訓練データDtrを用いてパラメータwとパラメータθとを最適化する。
 〔例示的実施形態4〕
 本発明の第4の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態1~3にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付記し、その説明を繰り返さない。
 <情報処理装置1Cの構成>
 図11は、本例示的実施形態に係る情報処理装置1Cの構成を示すブロック図である。情報処理装置1Cの制御部10Aは、取得部11、類似度算出部12、予測部13、出力部14、学習部16Bに加えて、検索結果出力部17Cを備える。
 本例示的実施形態に係る取得部11は、レコード対(e,e´)に含まれる第1のレコードeとして、ユーザからの入力データを取得する。ユーザからの入力データは、一例として、入出力部40Aに接続された入力装置(例えば、キーボード、マウス、等)により入力される。
 また、取得部11は、レコード対(e,e´)に含まれる第2のレコードe´として、対象データに含まれる複数のレコードの1つを取得する。対象データは、検索対象のデータであり、一例として、1又は複数のテーブルを含む。
 予測部13は、第1のレコードeと、対象データに含まれる複数のレコードの各々とのレコード対に対して同一性予測を行う。検索結果出力部17Cは、出力部14が出力する各々の予測結果PRを参照して、入力データに基づく検索結果であって、対象データを検索対象とする検索結果を出力する。検索結果出力部17Cは、一例として、入出力部40Aに接続された出力装置(ディスプレイ、プリンタ、等)に検索結果を出力する。また、検索結果出力部17Cは、通信部30Aを介して接続された他の装置に検索結果を送信することにより、検索結果を出力してもよい。また、検索結果出力部17Cは、検索結果を記憶部20A又は外部記憶装置に記憶することにより検索結果を出力してもよい。
 図12は、検索結果出力部17Cが出力する画面表示の具体例を示す図である。図12の例で、入力データは、ユーザがテキストボックス51に入力する文字列であり、対象データは、上述の例示的実施形態1において図6に示したテーブルT1及びテーブルT2である。予測部13は、ユーザの入力データである第1のレコードeと、テーブルT1に含まれるレコード及びテーブルT2に含まれるレコードe´の各々とのレコード対に対して同一性予測を行う。予測部13が行う同一性の予測処理は、上述の例示的実施形態2で説明したため、その説明を繰り返さない。
 図12の例において、検索結果出力部17Cは、予測部13の予測結果PRを参照して、入力データに基づく検索結果53、及び検索結果54を出力する。検索結果53は、「ポテチ」の文字列を入力データとして、テーブルT1から検索された検索結果である。検索結果54は、「ポテチ」の文字列を入力データとして、テーブルT2から検索された検索結果である。
 <情報処理装置1Cの効果>
 以上のように、本例示的実施形態に係る情報処理装置1Cにおいては、出力部14が出力する各々の予測結果を参照して、入力データに基づく検索結果であって、対象データを検索対象とする検索結果を出力する構成が採用されている。このため、本例示的実施形態に係る情報処理装置1Cによれば、例示的実施形態1に係る情報処理装置1の奏する効果に加えて、入力データに基づく対象データからの検索をより好適に行うことができるという効果が得られる。
 情報処理装置1Cは、以下のようにも記載され得る。
 ユーザからの入力データと、対象データに含まれる複数のレコードの1つとをレコード対として取得する取得手段と、
 前記レコード対について、複数の類似度関数を用いて複数の類似度を算出する類似度算出手段と、
 前記入力データと、前記対象データに含まれる複数のレコードの各々とのレコード対に対して、前記レコード対と、前記複数の類似度とを参照して、前記レコード対に応じて定まる重要度を用いて前記レコード対の同一性予測を行う予測手段と、
 前記予測手段による予測結果を参照して、前記入力データに基づく検索結果であって、前記対象データを検索対象とする検索結果を出力する出力手段と、
を備えている情報処理装置。
 〔ソフトウェアによる実現例〕
 情報処理装置1、1A、1B、1C、2(以下「情報処理装置1等」という)の一部又は全部の機能は、集積回路(ICチップ)等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。
 後者の場合、情報処理装置1等は、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例(以下、コンピュータCと記載する)を図13に示す。コンピュータCは、少なくとも1つのプロセッサC1と、少なくとも1つのメモリC2と、を備えている。メモリC2には、コンピュータCを情報処理装置1等として動作させるためのプログラムPが記録されている。コンピュータCにおいて、プロセッサC1は、プログラムPをメモリC2から読み取って実行することにより、情報処理装置1等の各機能が実現される。
 プロセッサC1としては、例えば、CPU(Central Processing Unit)、GPU(Graphic Processing Unit)、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、FPU(Floating point number Processing Unit)、PPU(Physics Processing Unit)、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリC2としては、例えば、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)、又は、これらの組み合わせなどを用いることができる。
 なお、コンピュータCは、プログラムPを実行時に展開したり、各種データを一時的に記憶したりするためのRAM(Random Access Memory)を更に備えていてもよい。また、コンピュータCは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータCは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。
 また、プログラムPは、コンピュータCが読み取り可能な、一時的でない有形の記録媒体Mに記録することができる。このような記録媒体Mとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータCは、このような記録媒体Mを介してプログラムPを取得することができる。また、プログラムPは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータCは、このような伝送媒体を介してプログラムPを取得することもできる。
 〔付記事項1〕
 本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。
 〔付記事項2〕
 上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
 (付記1)
 レコード対を取得する取得手段と、
 前記レコード対について、複数の類似度関数を用いて複数の類似度を算出する類似度算出手段と、
 前記レコード対と、前記複数の類似度とを参照して、前記レコード対に応じて定まる重要度を用いて前記レコード対の同一性予測を行う予測手段と、
 前記予測手段による予測結果を出力する出力手段と、
を備えている情報処理装置。
 上記の構成によれば、レコード対の同一性をより好適に予測できる。
 (付記2)
 前記取得手段は、補助データを更に取得し、
 前記予測手段は、前記レコード対と、前記複数の類似度と、前記補助データとを参照して、前記レコード対と前記補助データとに応じて定まる重要度を用いて前記レコード対の同一性予測を行う、
付記1に記載の情報処理装置。
 上記の構成によれば、重要度はレコード対だけでなく補助データの内容を反映した情報となる。このような重要度を用いてレコード対の同一性を予測することにより、レコード対の同一性の予測精度をより高くすることができる。
 (付記3)
 前記予測手段は、前記レコード対を参照して前記重要度を算出する重要度算出手段を備えている、
付記1又は2に記載の情報処理装置。
 上記の構成によれば、レコード対を参照して算出される重要度を用いてレコード対の同一性予測を行うことにより、レコード対の同一性の予測精度をより高くすることができる。
 (付記4)
 前記重要度算出手段は、前記複数の類似度の各々に関する重要度を算出し、
 前記予測手段は、前記複数の類似度に関する線形和であって、前記各重要度を重み係数とする線形和を用いて、前記同一性予測を行う、
付記3に記載の情報処理装置。
 上記の構成によれば、重要度を重み係数とする類似度の線形和を用いて同一性予測を行うことにより、レコード対の同一性の予測精度を高くすることができる。
 (付記5)
 前記取得手段は、レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを更に取得し、
 当該情報処理装置は、
  前記類似度算出手段が前記類似度を算出するために用いる前記複数の類似度関数の各々が有する1又は複数のパラメータ、及び、
  前記重要度算出手段が前記重要度を算出するために用いる重要度算出モデルが有する1又は複数のパラメータ、
の少なくとも何れかのパラメータを、前記訓練データを参照して生成するパラメータ生成手段を更に備えている、
付記3又は4に記載の情報処理装置。
 上記の構成によれば、訓練データを参照して生成したパラメータを用いることで、レコード対の同一性をより好適に予測することができる。
 (付記6)
 前記取得手段は、前記レコード対に含まれる第1のレコードを含む第1のデータと、前記レコード対に含まれる第2のレコードを含む第2のデータとを取得し、
 当該情報処理装置は、前記出力手段が出力する前記予測結果を参照して、前記第1のデータと前記第2のデータとから、統合済データを生成する統合手段を備えている、
付記1から5の何れか1つに記載の情報処理装置。
 上記の構成によれば、第1のデータと第2のデータとをより好適に統合することができる。
 (付記7)
 前記取得手段は、
  前記レコード対に含まれる第1のレコードとして、ユーザからの入力データを取得し、
  前記レコード対に含まれる第2のレコードとして、対象データに含まれる複数のレコードの1つを取得し、
 前記予測手段は、前記第1のレコードと、前記対象データに含まれる複数のレコードの各々とのレコード対に対して前記同一性予測を行い、
 当該情報処理装置は、前記出力手段が出力する各々の前記予測結果を参照して、前記入力データに基づく検索結果であって、前記対象データを検索対象とする検索結果を出力する検索結果出力手段を備えている、
付記1から5の何れか1つに記載の情報処理装置。
 上記の構成によれば、入力データに基づく対象データからの検索をより好適に行うことができる。
 (付記8)
 レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを取得する取得手段と、
  予測対象のレコード対について複数の類似度を算出するための複数の類似度関数の各々が有する1又は複数のパラメータ、及び、
  前記予測対象のレコード対と、前記複数の類似度とを参照して、前記予測対象のレコード対に応じて定まる重要度を用いて前記予測対象のレコード対の同一性予測を行う予測手段が、前記重要度を算出するために用いる重要度算出モデルが有する1又は複数のパラメータ、
の少なくとも何れかのパラメータを、前記訓練データを参照して生成するパラメータ生成手段と、
を備えている情報処理装置。
 上記の構成によれば、レコード対の同一性をより好適に予測可能なパラメータを生成できる。
 (付記9)
 レコード対を取得することと、
 前記レコード対について、複数の類似度関数を用いて複数の類似度を算出することと、
 前記レコード対と、前記複数の類似度とを参照して、前記レコード対に応じて定まる重要度を用いて前記レコード対の同一性予測を行うことと、
 前記予測手段による予測結果を出力することと、
を含む情報処理方法。
 上記の情報処理方法によれば、上述した情報処理装置と同様の効果を奏する。
 (付記10)
 レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを取得することと、
  予測対象のレコード対について複数の類似度を算出するための複数の類似度関数の各々が有する1又は複数のパラメータ、及び、
  前記予測対象のレコード対と、前記複数の類似度とを参照して、前記予測対象のレコード対に応じて定まる重要度を用いて前記予測対象のレコード対の同一性予測を行う予測手段が、前記重要度を算出するために用いる重要度算出モデルが有する1又は複数のパラメータ
の少なくとも何れかのパラメータを、前記訓練データを参照して生成することと、
を含む情報処理方法。
 上記の情報処理方法によれば、上述した情報処理装置と同様の効果を奏する。
 (付記11)
レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを取得することと、
  予測対象のレコード対について複数の類似度を算出するための複数の類似度算出モデル、及び、
  前記予測対象のレコード対と、前記複数の類似度とを参照して、前記予測対象のレコード対に応じて定まる重要度を用いて前記予測対象のレコード対の同一性予測を行う予測手段が、前記重要度を算出するために用いる重要度算出モデル、
の少なくとも何れかのモデルを、前記訓練データを参照して生成することと、
を含む学習済モデルの製造方法。
 上記の構成によれば、レコード対の同一性をより好適に予測可能なモデルを製造することができる。
 (付記12)
 コンピュータに、
 レコード対を取得する取得処理と、
 前記レコード対について、複数の類似度関数を用いて複数の類似度を算出する類似度算出処理と、
 前記レコード対と、前記複数の類似度とを参照して、前記レコード対に応じて定まる重要度を用いて前記レコード対の同一性予測を行う予測処理と、
 前記予測処理による予測結果を出力する出力処理と、
を実行させるプログラム。
 上記の構成によれば、上述した情報処理装置と同様の効果を奏する。
 (付記13)
 コンピュータに、
 レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを取得する取得処理と、
  予測対象のレコード対について複数の類似度を算出するための複数の類似度関数の各々が有する1又は複数のパラメータ、及び、
  前記予測対象のレコード対と、前記複数の類似度とを参照して、前記予測対象のレコード対に応じて定まる重要度を用いて前記予測対象のレコード対の同一性予測を行う予測手段が、前記重要度を算出するために用いる重要度算出モデルが有する1又は複数のパラメータ
の少なくとも何れかのパラメータを、前記訓練データを参照して生成するパラメータ生成処理と、
を実行させるプログラム。
 上記の構成によれば、上述した情報処理装置と同様の効果を奏する。
 〔付記事項3〕
 上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
 少なくとも1つのプロセッサを備え、前記プロセッサは、レコード対を取得する取得処理と、前記レコード対について、複数の類似度関数を用いて複数の類似度を算出する類似度算出処理と、前記レコード対と、前記複数の類似度とを参照して、前記レコード対に応じて定まる重要度を用いて前記レコード対の同一性予測を行う予測処理と、前記予測処理による予測結果を出力する出力処理とを実行する情報処理装置。
 なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記類似度算出処理と、前記予測処理と、前記出力処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
 上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
 少なくとも1つのプロセッサを備え、前記プロセッサは、レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを取得する取得処理と、予測対象のレコード対について複数の類似度を算出するための複数の類似度関数の各々が有する1又は複数のパラメータ、及び前記予測対象のレコード対と、前記複数の類似度とを参照して、前記予測対象のレコード対に応じて定まる重要度を用いて前記予測対象のレコード対の同一性予測を行う予測手段が、前記重要度を算出するために用いる重要度算出モデルが有する1又は複数のパラメータの少なくとも何れかのパラメータを、前記訓練データを参照して生成するパラメータ生成処理とを実行する情報処理装置。
 なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記パラメータ生成処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。
1、1A、1B、1C、2 情報処理装置
10A 制御部
11、21 取得部
12 類似度算出部
13 予測部
14 出力部
15A 統合部
16B 学習部
17C 検索結果出力部
20A 記憶部
22 パラメータ生成部
30A 通信部
40A 入出力部
131A 重要度算出部
S1、S1A、S2、S2B 情報処理方法

 

Claims (13)

  1.  レコード対を取得する取得手段と、
     前記レコード対について、複数の類似度関数を用いて複数の類似度を算出する類似度算出手段と、
     前記レコード対と、前記複数の類似度とを参照して、前記レコード対に応じて定まる重要度を用いて前記レコード対の同一性予測を行う予測手段と、
     前記予測手段による予測結果を出力する出力手段と、
    を備えている情報処理装置。
  2.  前記取得手段は、補助データを更に取得し、
     前記予測手段は、前記レコード対と、前記複数の類似度と、前記補助データとを参照して、前記レコード対と前記補助データとに応じて定まる重要度を用いて前記レコード対の同一性予測を行う
    請求項1に記載の情報処理装置。
  3.  前記予測手段は、前記レコード対を参照して前記重要度を算出する重要度算出手段を備えている
    請求項1又は2に記載の情報処理装置。
  4.  前記重要度算出手段は、前記複数の類似度の各々に関する重要度を算出し、
     前記予測手段は、前記複数の類似度に関する線形和であって、前記各重要度を重み係数とする線形和を用いて、前記同一性予測を行う
    請求項3に記載の情報処理装置。
  5.  前記取得手段は、レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを更に取得し、
     当該情報処理装置は、
      前記類似度算出手段が前記類似度を算出するために用いる前記複数の類似度関数の各々が有する1又は複数のパラメータ、及び
      前記重要度算出手段が前記重要度を算出するために用いる重要度算出モデルが有する1又は複数のパラメータ
    の少なくとも何れかのパラメータを、前記訓練データを参照して生成するパラメータ生成手段を更に備えている
    請求項3又は4に記載の情報処理装置。
  6.  前記取得手段は、前記レコード対に含まれる第1のレコードを含む第1のデータと、前記レコード対に含まれる第2のレコードを含む第2のデータとを取得し、
     当該情報処理装置は、前記出力手段が出力する前記予測結果を参照して、前記第1のデータと前記第2のデータとから、統合済データを生成する統合手段を備えている
    請求項1から5の何れか1項に記載の情報処理装置。
  7.  前記取得手段は、
      前記レコード対に含まれる第1のレコードとして、ユーザからの入力データを取得し、
      前記レコード対に含まれる第2のレコードとして、対象データに含まれる複数のレコードの1つを取得し、
     前記予測手段は、前記第1のレコードと、前記対象データに含まれる複数のレコードの各々とのレコード対に対して前記同一性予測を行い、
     当該情報処理装置は、前記出力手段が出力する各々の前記予測結果を参照して、前記入力データに基づく検索結果であって、前記対象データを検索対象とする検索結果を出力する検索結果出力手段を備えている
    請求項1から5の何れか1項に記載の情報処理装置。
  8.  レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを取得する取得手段と、
      予測対象のレコード対について複数の類似度を算出するための複数の類似度関数の各々が有する1又は複数のパラメータ、及び
      前記予測対象のレコード対と、前記複数の類似度とを参照して、前記予測対象のレコード対に応じて定まる重要度を用いて前記予測対象のレコード対の同一性予測を行う予測手段が、前記重要度を算出するために用いる重要度算出モデルが有する1又は複数のパラメータ
    の少なくとも何れかのパラメータを、前記訓練データを参照して生成するパラメータ生成手段と
    を備えている情報処理装置。
  9.  レコード対を取得することと、
     前記レコード対について、複数の類似度関数を用いて複数の類似度を算出することと、
     前記レコード対と、前記複数の類似度とを参照して、前記レコード対に応じて定まる重要度を用いて前記レコード対の同一性予測を行うことと、
     前記レコード対の同一性予測による予測結果を出力することと、
    を含む情報処理方法。
  10.  レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを取得することと、
      予測対象のレコード対について複数の類似度を算出するための複数の類似度関数の各々が有する1又は複数のパラメータ、及び
      前記予測対象のレコード対と、前記複数の類似度とを参照して、前記予測対象のレコード対に応じて定まる重要度を用いて前記予測対象のレコード対の同一性予測を行う予測手段が、前記重要度を算出するために用いる重要度算出モデルが有する1又は複数のパラメータ
    の少なくとも何れかのパラメータを、前記訓練データを参照して生成することと、
    を含む情報処理方法。
  11.  レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを取得することと、
      予測対象のレコード対について複数の類似度を算出するための複数の類似度算出モデル、及び
      前記予測対象のレコード対と、前記複数の類似度とを参照して、前記予測対象のレコード対に応じて定まる重要度を用いて前記予測対象のレコード対の同一性予測を行う予測手段が、前記重要度を算出するために用いる重要度算出モデル
    の少なくとも何れかのモデルを、前記訓練データを参照して生成することと、
    を含む学習済モデルの製造方法。
  12.  コンピュータに、
     レコード対を取得する取得処理と、
     前記レコード対について、複数の類似度関数を用いて複数の類似度を算出する類似度算出処理と、
     前記レコード対と、前記複数の類似度とを参照して、前記レコード対に応じて定まる重要度を用いて前記レコード対の同一性予測を行う予測処理と、
     前記予測処理による予測結果を出力する出力処理と、
    を実行させるプログラム。
  13.  コンピュータに、
     レコード対と、当該レコード対の同一性に関するラベルとの組を複数含む訓練データを取得する取得処理と、
      予測対象のレコード対について複数の類似度を算出するための複数の類似度関数の各々が有する1又は複数のパラメータ、及び
      前記予測対象のレコード対と、前記複数の類似度とを参照して、前記予測対象のレコード対に応じて定まる重要度を用いて前記予測対象のレコード対の同一性予測を行う予測手段が、前記重要度を算出するために用いる重要度算出モデルが有する1又は複数のパラメータ
    の少なくとも何れかのパラメータを、前記訓練データを参照して生成するパラメータ生成処理と、
    を実行させるプログラム。
PCT/JP2022/000215 2022-01-06 2022-01-06 情報処理装置、情報処理方法及びプログラム WO2023132029A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/000215 WO2023132029A1 (ja) 2022-01-06 2022-01-06 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/000215 WO2023132029A1 (ja) 2022-01-06 2022-01-06 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2023132029A1 true WO2023132029A1 (ja) 2023-07-13

Family

ID=87073587

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/000215 WO2023132029A1 (ja) 2022-01-06 2022-01-06 情報処理装置、情報処理方法及びプログラム

Country Status (1)

Country Link
WO (1) WO2023132029A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7454156B1 (ja) 2023-12-26 2024-03-22 ファーストアカウンティング株式会社 情報処理装置、情報処理方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012164028A (ja) * 2011-02-03 2012-08-30 Fujitsu Ltd レコード対選択装置、プログラム及び方法
JP2019185244A (ja) * 2018-04-05 2019-10-24 富士通株式会社 学習プログラム及び学習方法
JP2020501255A (ja) * 2016-11-25 2020-01-16 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 名前マッチング方法および装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012164028A (ja) * 2011-02-03 2012-08-30 Fujitsu Ltd レコード対選択装置、プログラム及び方法
JP2020501255A (ja) * 2016-11-25 2020-01-16 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 名前マッチング方法および装置
JP2019185244A (ja) * 2018-04-05 2019-10-24 富士通株式会社 学習プログラム及び学習方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7454156B1 (ja) 2023-12-26 2024-03-22 ファーストアカウンティング株式会社 情報処理装置、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
US8738547B2 (en) System and methods for finding hidden topics of documents and preference ranking documents
JP2019527440A (ja) マルチ関連ラベルを生成する方法及びシステム
CN111461004A (zh) 基于图注意力神经网络的事件检测方法、装置和电子设备
CN111581923A (zh) 文案生成方法、装置、设备和计算机可读存储介质
JP6924571B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
Lu et al. Nonparametric regression via variance-adjusted gradient boosting Gaussian process regression
WO2023132029A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP2006338342A (ja) 単語ベクトル生成装置、単語ベクトル生成方法およびプログラム
WO2021128529A1 (zh) 一种技术趋势预测方法和***
CN112988964B (zh) 文本韵律边界预测的方法、装置、设备及存储介质
CN117034921B (zh) 一种基于用户数据的提示学习训练方法、装置和介质
Basu et al. Word difficulty prediction using convolutional neural networks
CN110705279A (zh) 一种词汇表的选择方法、装置及计算机可读存储介质
US11983633B2 (en) Machine learning predictions by generating condition data and determining correct answers
WO2023162206A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
WO2021250751A1 (ja) 学習方法、学習装置及びプログラム
JPWO2018066083A1 (ja) 学習プログラム、情報処理装置および学習方法
JP7285308B1 (ja) 情報処理装置、情報処理方法、及びプログラム
EP4167227B1 (en) System and method for recognising chords in music
Rathod Efficient Usage of RAG Systems in the World of LLMs
US20240020310A1 (en) Information processing device, information processing method and program
WO2022168208A1 (ja) 情報処理装置、変換パターンの決定方法、名寄せ方法、学習方法、変換パターン決定プログラム、名寄せプログラム、および学習プログラム
JP7435740B2 (ja) 音声認識装置、制御方法、及びプログラム
CN113220841B (zh) 确定鉴别信息的方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22918618

Country of ref document: EP

Kind code of ref document: A1