JP7431379B1 - Data processing device and data processing method - Google Patents

Data processing device and data processing method Download PDF

Info

Publication number
JP7431379B1
JP7431379B1 JP2023181953A JP2023181953A JP7431379B1 JP 7431379 B1 JP7431379 B1 JP 7431379B1 JP 2023181953 A JP2023181953 A JP 2023181953A JP 2023181953 A JP2023181953 A JP 2023181953A JP 7431379 B1 JP7431379 B1 JP 7431379B1
Authority
JP
Japan
Prior art keywords
data
group
term
concept
patent document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023181953A
Other languages
Japanese (ja)
Inventor
隆 飯田
Original Assignee
株式会社ポーラ・オルビスホールディングス
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ポーラ・オルビスホールディングス filed Critical 株式会社ポーラ・オルビスホールディングス
Priority to JP2023181953A priority Critical patent/JP7431379B1/en
Application granted granted Critical
Publication of JP7431379B1 publication Critical patent/JP7431379B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】特許文献の集合における用語間の地位概念関係が適切に分類されたデータを作成してユーザに提供することができるデータ処理システムなどを提供する。【解決手段】データ処理装置1では、所定キーワードが含まれる特許文献群が取得され、特許文献群における用語の集合である用語群が取得され、用語ペアなどを含む特徴量データが作成され、地位概念関係を表すラベルを特徴量データに付加したデータである学習データが作成され、学習データを用いて、予測モデルの学習が実行され、特徴量データを学習が終了した予測モデルに入力したときの予測モデルの出力を用いて、地位概念データ群が作成され、地位概念データ群がディスプレイ1aに表示される。【選択図】図16The present invention provides a data processing system and the like that can create and provide to a user data in which status conceptual relationships between terms in a set of patent documents are appropriately classified. SOLUTION: A data processing device 1 acquires a group of patent documents including a predetermined keyword, acquires a term group that is a set of terms in the group of patent documents, creates feature data including term pairs, etc. Training data, which is data that adds labels representing conceptual relationships to feature data, is created, and the learning data is used to train a predictive model.When the feature data is input to the trained predictive model, A status concept data group is created using the output of the prediction model, and the status concept data group is displayed on the display 1a. [Selection diagram] Figure 16

Description

本発明は、特許文献の集合などのデータを処理するデータ処理装置及びデータ処理方法に関する。 The present invention relates to a data processing device and a data processing method for processing data such as a collection of patent documents.

従来、特許文献の集合から、テクニカルキーワードの関係を表すドーナッツチャートを作成するデータ処理装置として、非特許文献1に記載されたものが知られている。この手法では、特許文献の集合から、テキストマイニング手法により、テクニカルキーワードが抽出され、抽出されたテクニカルキーワードの出現頻度に基づいてクラスタリングを実施することにより、二層構造のドーナッツチャートが作成される。 BACKGROUND ART Conventionally, as a data processing device that creates a donut chart representing the relationship between technical keywords from a collection of patent documents, one described in Non-Patent Document 1 is known. In this method, technical keywords are extracted from a collection of patent documents using a text mining method, and a two-layer donut chart is created by performing clustering based on the frequency of appearance of the extracted technical keywords.

また、従来、学術文献及び技術文献などの非特許文献の集合から、テクニカルキーワード間の関係を表すツリー図を作成するデータ処理装置として、非特許文献2に記載されたものが知られている。この手法では、非特許文献の集合から、テクニカルキーワードが検索され、その検索結果に基づいてクラスタリングを実施することにより、ツリー図が作成される。 Furthermore, a data processing device described in Non-Patent Document 2 is known as a data processing device that creates a tree diagram representing relationships between technical keywords from a collection of non-patent documents such as academic documents and technical documents. In this method, technical keywords are searched from a collection of non-patent documents, and a tree diagram is created by performing clustering based on the search results.

”テキストマイニングと機械学習による効率的な特許調査”, [online], [令和5年5月18日検索], インターネット<URL:https://www.msi.co.jp/event/file/muc17_501_2.pdf>“Efficient patent search using text mining and machine learning”, [online], [Retrieved May 18, 2020], Internet <URL: https://www.msi.co.jp/event/file/ muc17_501_2.pdf> ”JDreamUsers Day 2022”, [online], [令和5年5月18日検索], インターネット<URL:https://jdream3.com/seminar/document/jdream_users_day_2022.pdf>“JDreamUsers Day 2022”, [online], [Searched on May 18, 2020], Internet <URL:https://jdream3.com/seminar/document/jdream_users_day_2022.pdf>

上記非特許文献1のデータ処理装置によれば、以下のような問題がある。すなわち、特許文献における請求項のテクニカルキーワード(以下「用語」という)の場合、2つの用語を比較した際、一方が上位概念の用語で、他方が下位概念の用語である状態が存在することがある。これに対して、非特許文献1の技術によれば、特許文献の集合からドーナッツチャートを作成する際、用語間の上位概念及び下位概念の関係(以下「地位概念関係」という)を区別することなく、出現頻度に基づいてクラスタリングが実行されてしまう。それにより、作成後のドーナッツチャートにおいて、用語間の地位概念関係が適切に分類されていない状態になってしまうことで、ユーザが用語間の地位概念関係を適切に把握できなくなる。 According to the data processing device of Non-Patent Document 1, there are the following problems. In other words, in the case of technical keywords (hereinafter referred to as "terms") in claims in patent documents, when two terms are compared, there may be a situation in which one is a term of a generic concept and the other is a term of a subordinate concept. be. On the other hand, according to the technique of Non-Patent Document 1, when creating a donut chart from a set of patent documents, it is possible to distinguish between the relationships between the superordinate concepts and the subordinate concepts (hereinafter referred to as "status concept relationships") between terms. Instead, clustering is performed based on frequency of occurrence. As a result, in the created donut chart, the status concept relationships between terms are not properly classified, making it impossible for the user to properly grasp the status concept relationships between terms.

本発明は、この課題を解決するためになされたもので、特許文献の集合における用語間の地位概念関係が適切に分類されたデータを作成してユーザに提供することができるデータ処理装置などを提供することを第1の目的とする。 The present invention has been made to solve this problem, and provides a data processing device and the like that can create and provide data to users in which the status concept relationships between terms in a set of patent documents are appropriately classified. The primary purpose is to provide.

また、上記非特許文献2のデータ処理装置によれば、非特許文献の集合からツリー図を作成する際、テクニカルキーワード(以下「用語」という)間の地位概念関係を区別することなく、クラスタリングが実行されてしまう。それにより、作成後のツリー図において、用語間の地位概念関係が適切に分類されていない状態になってしまうことで、ユーザが用語間の地位概念関係を適切に把握できなくなる。 Furthermore, according to the data processing device of Non-Patent Document 2, when creating a tree diagram from a collection of non-patent documents, clustering is performed without distinguishing the status conceptual relationship between technical keywords (hereinafter referred to as "terms"). It will be executed. As a result, the status concept relationships between terms are not properly classified in the created tree diagram, making it impossible for the user to properly grasp the status concept relationships between terms.

本発明は、この課題を解決するためになされたもので、非特許文献の集合における用語間の地位概念関係が適切に分類されたデータを作成してユーザに提供することができるデータ処理装置などを提供することを第2の目的とする。 The present invention has been made to solve this problem, and includes a data processing device and the like that can create and provide data to users in which the status concept relationships between terms in a collection of non-patent documents are appropriately classified. The second purpose is to provide the following.

さらに、上記非特許文献1のように、特許文献の集合から、テキストマイニング手法により、テクニカルキーワードとして所定物質を抽出した場合において、この所定物質の原料、部品及び材質のいずれかを表す用語(以下「基礎用語」という)をさらに抽出し、当該基礎用語間の地位概念関係を適切に分類したデータを作成することが望まれている。 Furthermore, when a predetermined substance is extracted as a technical keyword from a collection of patent documents using a text mining method, as in Non-Patent Document 1 above, a term (hereinafter referred to as It is desired to further extract ``basic terms'' (referred to as ``basic terms'') and create data that appropriately categorizes the status concept relationships between the basic terms.

本発明は、この課題を解決するためになされたもので、所定物質の基礎用語の地位概念関係が適切に分類されたデータを作成してユーザに提供することができるデータ処理装置などを提供することを第3の目的とする。 The present invention has been made to solve this problem, and provides a data processing device that can create and provide to a user data in which the status concept relationships of basic terms of a given substance are appropriately classified. This is the third purpose.

上記第1の目的を達成するために、第1の本発明に係るデータ処理装置は、
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶部と、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの第B用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
所定キーワードに基づいて、特許文献のデータベースを検索することにより、所定キーワードが含まれる第B特許文献群を取得する特許文献群取得部と、
第B特許文献群をデータマイニングすることにより、第B特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得部と、
用語群から特徴量データを作成する特徴量データ作成部と、を備えることを特徴とする。
In order to achieve the above first object, the data processing device according to the first invention includes:
A set of A term pairs, which are pairs of terms included in Patent document group A, which is a set of patent documents, and a label representing a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the A term pair. a trained model storage unit that stores a trained model that is a classification model that has been trained by a predetermined learning algorithm using the training data included;
When feature data including a set of B-th term pairs, which are pairs of terms included in the B-th Patent Literature Group, which is a set of patent documents, is input to the trained model, the feature value is calculated using the output of the trained model. a status concept data group creation unit that creates a status concept data group representing the relationship between the superordinate concept and the subordinate concept between the B-th term pair of data;
an output unit that performs output processing to output the status concept data group to the output device;
a patent document group acquisition unit that acquires a No. B patent document group that includes the predetermined keyword by searching a database of patent documents based on the predetermined keyword;
a term group acquisition unit that acquires a term group that is a term in a predetermined order of frequency of appearance among the terms in the B patent document group by data mining the B patent document group;
The present invention is characterized by comprising a feature data creation unit that creates feature data from a group of terms .

上記第1の目的を達成するために、第2の本発明に係るデータ処理方法は、
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶ステップと、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの第B用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
所定キーワードに基づいて、特許文献のデータベースを検索することにより、所定キーワードが含まれる第B特許文献群を取得する特許文献群取得ステップと、
第B特許文献群をデータマイニングすることにより、第B特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得ステップと、
用語群から特徴量データを作成する特徴量データ作成ステップと、
がデータ処理装置によって実行されることを特徴とする。
In order to achieve the above first object, the data processing method according to the second invention includes:
A set of A term pairs, which are pairs of terms included in Patent document group A, which is a set of patent documents, and a label representing a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the A term pair. a trained model storage step of storing a trained model that is a classification model that has been trained by a predetermined learning algorithm using the training data included;
When feature data including a set of B-th term pairs, which are pairs of terms included in the B-th Patent Literature Group, which is a set of patent documents, is input to the trained model, the feature value is calculated using the output of the trained model. a status concept data group creation step of creating a status concept data group representing the relationship between the superordinate concept and the subordinate concept between the B-th term pair of data;
an output step of performing output processing for outputting the status concept data group to an output device;
a patent document group acquisition step of acquiring a No. B patent document group that includes the predetermined keyword by searching a database of patent documents based on the predetermined keyword;
a term group acquisition step of acquiring a term group that is a term in a predetermined order of frequency of appearance among the terms in the B patent document group by data mining the B patent document group;
a feature data creation step of creating feature data from a group of terms;
is characterized in that it is executed by a data processing device.

以上のデータ処理装置又はデータ処理方法によれば、特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルが記憶されている。そして、特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの第B用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群が作成される。 According to the above data processing device or data processing method, a set of A-th term pairs, which are pairs of terms included in the A-th patent document group, which is a set of patent documents, and a superordinate concept and a subordinate concept between the A-th term pairs. A trained model, which is a classification model that has been trained by a predetermined learning algorithm using learning data including labels representing status-concept relationships including concept relationships, is stored. Then, using the output of the trained model when feature data including a set of B-th term pairs, which are pairs of terms included in the B-th patent document group, which is a set of patent documents, is input to the trained model, A status concept data group is created that represents the relationship between the superordinate concept and the subordinate concept between the B-th term pair of feature data.

ここで、特徴量データは、第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含んでいることにより、そのような特徴量データを学習済みモデルに対して入力した場合、学習済みモデルの出力は、特徴量データの第B用語ペア間の上位概念及び下位概念の関係を適切に予測したものとなる。したがって、そのような予測モデルの出力を用いて地位概念データ群を作成することにより、地位概念データ群を第B用語ペア間の上位概念及び下位概念の関係が適切に分類されたデータとして作成することができる。さらに、以上のように作成された地位概念データ群を出力装置に対して出力するための出力処理が実行されることにより、地位概念データ群を出力装置を介してユーザに提供することができる。なお、本明細書における「特許文献」は、特許公報、特開公報及び実用新案登録公報などの請求項を含む文献に相当する。また、本明細書における「学習が実行された分類モデル」は、モデルパラメータの学習が実行された分類モデルであることを意味する。さらに、第A特許文献群及び第B特許文献群は、同一の特許文献の集合であってもよく、互いに異なる特許文献の集合であってもよいとともに、一部が同一の特許文献の集合であってもよい。また、本明細書における「用語のペア」は、用語自体のペアに限らず、用語を表す記号のペア又は用語を表す番号のペアなども意味する。 Here, the feature data includes a set of B-th term pairs, which are pairs of terms included in the B-th patent document group, so that when such feature data is input to a trained model, , the output of the trained model is one that appropriately predicts the relationship between the superordinate concept and the subordinate concept between the B-th term pair of the feature amount data. Therefore, by creating a status concept data group using the output of such a prediction model, the status concept data group is created as data in which the relationships between the higher-level concepts and lower-level concepts between the B term pairs are appropriately classified. be able to. Further, by performing an output process for outputting the status concept data group created as described above to the output device, the status concept data group can be provided to the user via the output device. Note that "patent documents" in this specification correspond to documents including claims such as patent publications, Japanese Patent Laid-Open Publications, and utility model registration publications. Further, in this specification, "classification model that has undergone learning" means a classification model that has undergone learning of model parameters. Further, the A patent document group and the B patent document group may be a set of the same patent documents, a set of mutually different patent documents, or a set of partially identical patent documents. There may be. Furthermore, a "pair of terms" in this specification is not limited to a pair of terms themselves, but also refers to a pair of symbols representing a term or a pair of numbers representing a term.

さらに、所定キーワードに基づいて、特許文献のデータベースを検索することにより、所定キーワードが含まれる第B特許文献群が取得され、第B特許文献群をデータマイニングすることにより、第B特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群が取得される。そして、そのような用語群から作成された特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、地位概念データ群が作成される。それにより、地位概念データ群を、特許文献の集合における第B用語ペア間の上位概念及び下位概念の関係を適切に分類したデータとして作成することができる。Furthermore, by searching a database of patent documents based on a predetermined keyword, the B patent document group that includes the predetermined keyword is obtained, and by data mining the B patent document group, Among the terms, a group of terms that are terms up to a predetermined rank in order of frequency of appearance are acquired. Then, a status concept data group is created using the output of the trained model when feature data created from such term groups is input into the trained model. Thereby, the status concept data group can be created as data in which the relationship between the superordinate concept and the subordinate concept between the B-th term pair in the set of patent documents is appropriately classified.

前述した第1の目的を達成するために、第1Aの本発明に係るデータ処理装置は、In order to achieve the above-mentioned first object, the data processing device according to the first aspect of the present invention has the following features:
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶部と、A set of A term pairs, which are pairs of terms included in Patent Document Group A, which is a collection of patent documents, and a label representing a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the A term pair; a trained model storage unit that stores a trained model that is a classification model that has been trained by a predetermined learning algorithm using training data including;
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、Using the output of the trained model when feature data including a set of B-th term pairs, which are pairs of terms included in the B-th patent document group, which is a set of patent documents, is input to the trained model, a status concept data group creation unit that creates a status concept data group representing a relationship between the higher-level concept and the lower-level concept between the B-th term pair of the feature amount data;
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、an output unit that performs output processing for outputting the status concept data group to an output device;
を備え、Equipped with
前記特徴量データは、前記第B用語ペアが含まれる前記第B特許文献群の請求項のデータをさらに含むように構成されていることを特徴とする。The feature amount data is characterized in that it is configured to further include claim data of the B-th patent document group in which the B-th term pair is included.

前述した第1の目的を達成するために、第2Aの本発明に係るデータ処理方法は、
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶ステップと、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
がデータ処理装置によって実行され、
前記特徴量データは、前記第B用語ペアが含まれる前記第B特許文献群の請求項のデータをさらに含むように構成されていることを特徴とする。
In order to achieve the above-mentioned first objective, the data processing method according to the second aspect of the present invention includes:
A set of A term pairs, which are pairs of terms included in Patent Document Group A, which is a collection of patent documents, and a label representing a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the A term pair; a learned model storage step of storing a learned model that is a classification model that has been trained by a predetermined learning algorithm using learning data including;
Using the output of the trained model when feature data including a set of B-th term pairs, which are pairs of terms included in the B-th patent document group, which is a set of patent documents, is input to the trained model, a status concept data group creation step of creating a status concept data group representing the relationship between the higher-level concept and the lower-level concept between the B-th term pair of the feature amount data;
an output step of performing an output process for outputting the status concept data group to an output device;
is executed by the data processing device,
The feature amount data is characterized in that it is configured to further include claim data of the B-th patent document group in which the B-th term pair is included .

以上のデータ処理装置又はデータ処理方法によれば、地位概念データ群を第B用語ペア間の上位概念及び下位概念の関係が適切に分類されたデータとして作成することができる。さらに、以上のように作成された地位概念データ群を出力装置に対して出力するための出力処理が実行されることにより、地位概念データ群を出力装置を介してユーザに提供することができる。また、特徴量データは、第B用語ペアが含まれる第B特許文献群の請求項のデータをさらに含むように構成されている。それにより、学習済みモデルの出力を用いて地位概念データ群を作成した際、地位概念データ群に含まれる用語と請求項をリンク付けることが可能になる。According to the above data processing device or data processing method, it is possible to create a status concept data group as data in which the relationship between the superordinate concept and the subordinate concept between the B term pairs is appropriately classified. Further, by performing an output process for outputting the status concept data group created as described above to the output device, the status concept data group can be provided to the user via the output device. Further, the feature amount data is configured to further include data of claims of the B-th patent document group in which the B-th term pair is included. Thereby, when a status concept data group is created using the output of the learned model, it becomes possible to link terms and claims included in the status concept data group.

前述した第1の目的を達成するために、第1Bの本発明に係るデータ処理装置は、In order to achieve the above-mentioned first object, the data processing device according to the first aspect of the present invention has the following features:
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶部と、A set of A term pairs, which are pairs of terms included in Patent document group A, which is a set of patent documents, and a label representing a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the A term pair. a trained model storage unit that stores a trained model that is a classification model that has been trained by a predetermined learning algorithm using the training data included;
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの第B用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、When feature data including a set of B-th term pairs, which are pairs of terms included in the B-th Patent Literature Group, which is a set of patent documents, is input to the trained model, the feature value is calculated using the output of the trained model. a status concept data group creation unit that creates a status concept data group representing the relationship between the superordinate concept and the subordinate concept between the B-th term pair of data;
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、an output unit that performs output processing to output the status concept data group to the output device;
を備え、Equipped with
学習データは、第A用語ペアが含まれる第A特許文献群の請求項のデータをさらに含むように構成されていることを特徴とする。The learning data is characterized in that it is configured to further include claim data of the A-th patent document group in which the A-th term pair is included.

前述した第1の目的を達成するために、第2Bの本発明に係るデータ処理方法は、In order to achieve the above-mentioned first objective, the second B data processing method according to the present invention includes:
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶ステップと、A set of A term pairs, which are pairs of terms included in Patent document group A, which is a set of patent documents, and a label representing a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the A term pair. a trained model storage step of storing a trained model that is a classification model that has been trained by a predetermined learning algorithm using the training data included;
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの第B用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、When feature data including a set of B-th term pairs, which are pairs of terms included in the B-th Patent Literature Group, which is a set of patent documents, is input to the trained model, the feature value is calculated using the output of the trained model. a status concept data group creation step of creating a status concept data group representing the relationship between the superordinate concept and the subordinate concept between the B-th term pair of data;
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、an output step of performing output processing for outputting the status concept data group to an output device;
がデータ処理装置によって実行され、is executed by the data processing device,
学習データは、第A用語ペアが含まれる第A特許文献群の請求項のデータをさらに含むように構成されていることを特徴とする。The learning data is characterized in that it is configured to further include claim data of the A-th patent document group in which the A-th term pair is included.
以上のデータ処理装置又はデータ処理方法によれば、地位概念データ群を第B用語ペア間の上位概念及び下位概念の関係が適切に分類されたデータとして作成することができる。さらに、以上のように作成された地位概念データ群を出力装置に対して出力するための出力処理が実行されることにより、地位概念データ群を出力装置を介してユーザに提供することができる。また、以上のデータ処理装置又はデータ処理方法によれば、学習データが、第A用語ペアが含まれる第A特許文献群の請求項のデータをさらに含むように構成されていることにより、学習済みモデルにおいて高い学習精度を確保することができる。According to the above data processing device or data processing method, it is possible to create a status concept data group as data in which the relationship between the superordinate concept and the subordinate concept between the B term pairs is appropriately classified. Further, by performing an output process for outputting the status concept data group created as described above to the output device, the status concept data group can be provided to the user via the output device. Further, according to the above data processing device or data processing method, the learning data is configured to further include data of claims of Patent Document Group A that includes term pair A. High learning accuracy can be ensured in the model.

前述した第1の目的を達成するために、第1Cの本発明に係るデータ処理方法は、
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶部と、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの第B用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
所定キーワードに基づいて、特許文献のデータベースを検索することにより、所定キーワードが含まれる第B特許文献群を取得する特許文献群取得部と、
第B特許文献群をデータマイニングすることにより、第B特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得部と、
用語群から特徴量データを作成する特徴量データ作成部と、
特徴量データの第B用語ペアに基づき、地位概念関係を定義した地位概念データベースを検索することにより、ラベルを特徴量データに付加したデータである学習データを作成する学習データ作成部と、
を備えることを特徴とする。
In order to achieve the above-mentioned first object, the data processing method according to the first aspect of the present invention is as follows:
A set of A term pairs, which are pairs of terms included in Patent document group A, which is a set of patent documents, and a label representing a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the A term pair. a trained model storage unit that stores a trained model that is a classification model that has been trained by a predetermined learning algorithm using the training data included;
When feature data including a set of B-th term pairs, which are pairs of terms included in the B-th Patent Literature Group, which is a set of patent documents, is input to the trained model, the feature value is calculated using the output of the trained model. a status concept data group creation unit that creates a status concept data group representing the relationship between the superordinate concept and the subordinate concept between the B-th term pair of data;
an output unit that performs output processing to output the status concept data group to the output device;
a patent document group acquisition unit that acquires a No. B patent document group that includes the predetermined keyword by searching a database of patent documents based on the predetermined keyword;
a term group acquisition unit that acquires a term group that is a term in a predetermined order of frequency of appearance among the terms in the B patent document group by data mining the B patent document group;
a feature data creation unit that creates feature data from a group of terms;
a learning data creation unit that creates learning data that is data obtained by adding a label to the feature data by searching a status concept database that defines a status concept relationship based on the B-th term pair of the feature data ;
It is characterized by having the following.

前述した第1の目的を達成するために、第2Cの本発明に係るデータ処理方法は、
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶ステップと、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの第B用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
所定キーワードに基づいて、特許文献のデータベースを検索することにより、所定キーワードが含まれる第B特許文献群を取得する特許文献群取得ステップと、
第B特許文献群をデータマイニングすることにより、第B特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得ステップと、
用語群から特徴量データを作成する特徴量データ作成ステップと、
特徴量データの第B用語ペアに基づき、地位概念関係を定義した地位概念データベースを検索することにより、ラベルを特徴量データに付加したデータである学習データを作成する学習データ作成ステップと、がデータ処理装置によって実行されることを特徴とする。
In order to achieve the above-mentioned first objective, the data processing method according to the second invention of the present invention includes the following steps:
A set of A term pairs, which are pairs of terms included in Patent document group A, which is a set of patent documents, and a label representing a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the A term pair. a trained model storage step of storing a trained model that is a classification model that has been trained by a predetermined learning algorithm using the training data included;
When feature data including a set of B-th term pairs, which are pairs of terms included in the B-th Patent Literature Group, which is a set of patent documents, is input to the trained model, the feature value is calculated using the output of the trained model. a status concept data group creation step of creating a status concept data group representing the relationship between the superordinate concept and the subordinate concept between the B-th term pair of data;
an output step of performing output processing for outputting the status concept data group to an output device;
a patent document group acquisition step of acquiring a No. B patent document group that includes the predetermined keyword by searching a database of patent documents based on the predetermined keyword;
a term group acquisition step of acquiring a term group that is a term in a predetermined order of frequency of appearance among the terms in the B patent document group by data mining the B patent document group;
a feature data creation step of creating feature data from a group of terms;
a learning data creation step of creating learning data that is data in which a label is added to the feature data by searching a status concept database that defines status concept relationships based on the B-term pair of the feature data; It is characterized in that it is executed by a processing device.

以上のデータ処理装置又はデータ処理方法によれば、特徴量データの第B用語ペアに基づき、地位概念関係を定義した地位概念データベースを検索することにより、ラベルを特徴量データに付加したデータである学習データが作成される。したがって、所定キーワードを変更して学習データを作成し、そのような学習データを用いて分類モデルの学習を繰り返し実行することにより、分類モデルの学習効果をさらに向上させることができる。 According to the above data processing device or data processing method, the data is obtained by adding a label to the feature data by searching the status concept database that defines the status concept relationship based on the B-term pair of the feature data. Training data is created. Therefore, by creating learning data by changing predetermined keywords and repeatedly learning the classification model using such learning data, it is possible to further improve the learning effect of the classification model.

1Cの本発明において、学習データ作成部は、学習データを、ラベルに加えて、用語が含まれる第B特許文献群の請求項のデータを特徴量データにさらに付加したデータとして作成することが好ましい。 In the 1C aspect of the present invention, the learning data creation unit may create the learning data as data in which, in addition to the label, claim data of the B patent document group that includes the term is further added to the feature amount data. preferable.

2Cの本発明において、学習データ作成ステップでは、学習データが、ラベルに加えて、用語が含まれる第B特許文献群の請求項のデータを特徴量データにさらに付加したデータとして作成されることが好ましい。 In the 2C aspect of the present invention, in the learning data creation step, the learning data is created as data in which, in addition to the label, data of claims of the B patent document group that includes the term are further added to the feature data. is preferred.

以上のデータ処理装置又はデータ処理方法によれば、学習データが、ラベルに加えて、用語が含まれる第B特許文献群の請求項のデータを特徴量データにさらに付加したデータとして作成される。それにより、学習データによる予測モデルの学習効果をさらに向上させることができる。 According to the data processing apparatus or data processing method described above, the learning data is created as data in which, in addition to the label, the data of the claims of the B patent document group that includes the term are further added to the feature amount data. Thereby, the learning effect of the predictive model using the learning data can be further improved.

1Cの本発明において、地位概念データ群に含まれる第B用語ペアの地位概念関係が、地位概念データベースに追加されることが好ましい。 In the 1C aspect of the present invention, it is preferable that the status concept relationship of the B-th term pair included in the status concept data group is added to the status concept database.

2Cの本発明において、地位概念データ群に含まれる第B用語ペアの地位概念関係が、地位概念データベースに追加されることが好ましい。 In the second C aspect of the present invention, it is preferable that the status concept relationship of the B-th term pair included in the status concept data group is added to the status concept database.

以上のデータ処理装置又はデータ処理方法によれば、地位概念データ群に含まれる第B用語ペアの地位概念関係が、地位概念データベースに追加される。その結果、そのようにデータ量が増加した地位概念データベースを用いて、学習データが作成されることにより、学習データによる予測モデルの学習効果をさらに向上させることができる。 According to the above data processing device or data processing method, the status concept relationship of the B-th term pair included in the status concept data group is added to the status concept database. As a result, learning data is created using the status concept database with such an increased amount of data, thereby making it possible to further improve the learning effect of the predictive model using the learning data.

1Cの本発明において、学習データでは、上位概念を定義したラベルは第1所定値に、下位概念を定義したラベルは第2所定値にそれぞれ設定されており、
特徴量データを学習済みモデルに入力したときの学習済みモデルの出力における第B用語ペアの関係を表すラベルの平均値を算出する平均値算出部をさらに備え、
出力部は、出力部は、ラベルの平均値が所定範囲内にある第B用語ペアのデータを出力装置に対して出力するためのデータ出力処理を実行することが好ましい。
In the 1C aspect of the present invention, in the learning data, a label defining a superordinate concept is set to a first predetermined value, and a label defining a subordinate concept is set to a second predetermined value,
further comprising an average value calculation unit that calculates an average value of labels representing the relationship of the B-th term pair in the output of the trained model when the feature amount data is input to the trained model,
Preferably, the output unit executes data output processing for outputting data of the B-th term pair whose average value of the labels is within a predetermined range to the output device.

2Cの本発明において、学習データでは、上位概念を定義したラベルは第1所定値に、下位概念を定義したラベルは第2所定値にそれぞれ設定されており、
特徴量データを学習済みモデルに入力したときの学習済みモデルの出力における第B用語ペアの関係を表すラベルの平均値を算出する平均値算出ステップがデータ処理装置によってさらに実行され、
出力ステップでは、出力ステップでは、ラベルの平均値が所定範囲内にある第B用語ペアのデータを出力装置に対して出力するためのデータ出力処理が実行されることが好ましい。
In the second C aspect of the present invention, in the learning data, the label defining the superordinate concept is set to a first predetermined value, and the label defining the subordinate concept is set to a second predetermined value,
The data processing device further performs an average value calculation step of calculating an average value of labels representing the relationship of the B-th term pair in the output of the trained model when the feature amount data is input to the trained model,
In the output step, it is preferable that data output processing is performed to output data of the B-th term pair whose average value of the labels is within a predetermined range to the output device.

以上のデータ処理装置又はデータ処理方法によれば、特徴量データを学習済みモデルに入力したときの学習済みモデルの出力における第B用語ペアの関係を表すラベルの平均値が算出され、この平均値が所定範囲内にある第B用語ペアのデータが出力装置に対して出力するためのデータ出力処理が実行される。したがって、この所定範囲を予測精度が低いと予想される範囲に設定した場合、そのような予測精度の低い第B用語ペアのデータが出力装置から出力された際、ユーザは、予測精度の低い第B用語ペアのデータを確認することができる。それにより、ユーザは、学習データにおいて、予測精度の低い用語ペアのラベルを自身で付与・修正することができる。さらに、そのようにラベルを付与・修正した学習データを用いて、予測モデルの学習を再実行した場合、予測モデルの予測精度を高めることができる。 According to the above data processing device or data processing method, when feature data is input to the trained model, the average value of the labels representing the relationship between the B-th term pairs in the output of the trained model is calculated, and this average value A data output process is executed to output the data of the B-th term pair whose term is within a predetermined range to the output device. Therefore, if this predetermined range is set to a range in which prediction accuracy is expected to be low, when the data of the B-th term pair with such low prediction accuracy is output from the output device, the user will You can check the data for the B term pair. Thereby, the user can assign and correct labels for term pairs with low prediction accuracy in the learning data by himself/herself. Furthermore, when the learning data that has been labeled and corrected in this way is used to re-execute learning of the prediction model, the prediction accuracy of the prediction model can be improved.

第1の本発明において、地位概念データ群作成部は、特許文献の番号が第B用語ペアの各々の用語に対してリンク付けされた状態で、地位概念データ群を作成することが好ましい。 In the first aspect of the present invention, it is preferable that the status concept data group creation unit creates the status concept data group with the patent document number linked to each term of the B-th term pair.

第2の本発明において、地位概念データ群作成ステップでは、特許文献の番号が第B用語ペアの各々の用語に対してリンク付けされた状態で、地位概念データ群が作成されることが好ましい。 In the second aspect of the present invention, in the status concept data group creation step, it is preferable that the status concept data group is created with the patent document number linked to each term of the B-th term pair.

以上のデータ処理装置又はデータ処理方法によれば、地位概念データ群における第B用語ペアの各々の用語に対して特許文献の番号がリンク付けされた状態で地位概念データ群が作成される。それにより、ユーザは、地位概念データ群が出力装置から出力された際、第B用語ペアの地位概念関係に加えて、第B用語ペアの各々の用語に対応する特許文献の番号をさらに把握することができる。 According to the above data processing device or data processing method, the status concept data group is created in a state in which the patent document number is linked to each term of the B-th term pair in the status concept data group. Thereby, when the status concept data group is output from the output device, the user can further grasp the number of the patent document corresponding to each term in the B-th term pair, in addition to the status concept relationship of the B-th term pair. be able to.

第1の本発明において、地位概念データ群作成部は、地位概念データ群を、第B用語ペアの用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成することが好ましい。 In the first aspect of the present invention, the status concept data group creation unit may create the status concept data group as tree-like graphic data in which the terms of the B-th term pair are arranged according to the relationship between the superordinate concept and the subordinate concept. preferable.

第2の本発明において、地位概念データ群作成ステップでは、地位概念データ群が、第B用語ペアの用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成されることが好ましい。 In the second aspect of the present invention, in the status concept data group creation step, the status concept data group is created as tree-like graphic data in which the terms of the B-th term pair are arranged according to the relationship between superordinate concepts and subordinate concepts. is preferred.

以上のデータ処理装置又はデータ処理方法によれば、地位概念データ群が第B用語ペアの用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成される。それにより、この地位概念データ群が出力装置に出力された場合、ユーザは、出力装置を介して第B用語ペア間の上位概念及び下位概念の関係を容易に把握することができる。 According to the data processing apparatus or data processing method described above, the status concept data group is created as tree-like graphic data in which the terms of the B-th term pair are arranged according to the relationship between the superordinate concept and the subordinate concept. Thereby, when this status concept data group is output to the output device, the user can easily grasp the relationship between the superordinate concept and the subordinate concept between the B-th term pair via the output device.

第1の本発明において、特許文献群取得部は、第B特許文献群に加えて、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、特許文献のデータベースを検索することにより、第2所定キーワードが含まれる特許文献の集合である第2特許文献群をさらに取得し、
用語群取得部は、第B特許文献群及び第2特許文献群をデータマイニングすることにより、特許文献群及び第2特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群をさらに取得し、
特徴量データ作成部は、第2用語群に含まれる用語のうち、第B特許文献群及び第2特許文献群に含まれる用語のペアである第2用語ペアの集合を含む第2特徴量データをさらに作成し、
地位概念データ群作成部は、第2特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、第2特徴量データの第2用語ペア間の上位概念及び下位概念の関係を表す第2地位概念データ群を作成することが好ましい。
In the first aspect of the present invention, the patent document group acquisition unit, in addition to the B patent document group, based on a second predetermined keyword that is similar to the predetermined keyword in at least one of the concept, property, and classification, further obtaining a second patent document group, which is a set of patent documents including a second predetermined keyword, by searching a database of patent documents;
The term group acquisition unit performs data mining on the B patent document group and the second patent document group to obtain terms up to a predetermined rank in order of frequency of appearance among the terms in the patent document group and the second patent document group. Further obtain a second term group that is
The feature amount data creation unit generates second feature amount data including a set of second term pairs that are pairs of terms included in the B patent document group and the second patent document group among the terms included in the second term group. Create more
The status concept data group creation unit uses the output of the trained model when the second feature data is input to the trained model to determine the relationship between the superordinate concept and the subordinate concept between the second term pair of the second feature data. It is preferable to create a second status concept data group representing .

第2の本発明において、特許文献群取得ステップでは、第B特許文献群に加えて、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、特許文献のデータベースを検索することにより、第2所定キーワードが含まれる特許文献の集合である第2特許文献群がさらに取得され、
用語群取得ステップでは、第B特許文献群及び第2特許文献群をデータマイニングすることにより、第B特許文献群及び第2特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群がさらに取得され、
特徴量データ作成ステップでは、第2用語群に含まれる用語のうち、特許文献群及び第2特許文献群に含まれる用語のペアである第2用語ペアの集合を含む第2特徴量データがさらに作成され、
地位概念データ群作成ステップでは、第2特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、第2特徴量データの第2用語ペア間の上位概念及び下位概念の関係を表す第2地位概念データ群が作成されることが好ましい。
In the second invention, in the patent document group acquisition step, in addition to the B patent document group, based on a second predetermined keyword that is similar to the predetermined keyword in at least one of the concept, property, and classification, A second patent document group, which is a set of patent documents including the second predetermined keyword, is further obtained by searching a database of patent documents,
In the term group acquisition step, by data mining the B patent document group and the second patent document group, terms in the B patent document group and the second patent document group are acquired in order of frequency of appearance up to a predetermined rank. A second term group is further obtained, which is terms of
In the feature amount data creation step, the second feature amount data including a set of second term pairs that are pairs of terms included in the patent document group and the second patent document group among the terms included in the second term group is further generated. created,
In the status concept data group creation step, the relationship between the superordinate concept and the subordinate concept between the second term pair of the second feature data is calculated using the output of the trained model when the second feature data is input to the trained model. It is preferable that a second status concept data group representing .

以上のデータ処理装置又はデータ処理方法によれば、第2特許文献群は、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、特許文献のデータベースを検索することにより、第2所定キーワードが含まれる特許文献の集合として取得される。さらに、第B特許文献群及び第2特許文献群をデータマイニングすることにより、第B特許文献群及び第2特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群がさらに取得される。そして、そのような第2用語群から作成した第2特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、第2地位概念データ群が作成されることにより、第2地位概念データ群を、地位概念データ群に対して、概念、性質及び分類のうちの少なくとも1つが類似した用語を含むように作成することができる。 According to the above data processing device or data processing method, the second patent document group is created based on the second predetermined keyword that is similar in concept, property, and classification to the predetermined keyword. By searching the database, a set of patent documents containing the second predetermined keyword is obtained. Furthermore, by data mining the B patent document group and the second patent document group, the terms in the B patent document group and the second patent document group are ranked in order of frequency of appearance up to a predetermined rank. A second set of terms is further obtained. Then, a second status concept data group is created using the output of the trained model when the second feature data created from the second term group is input into the trained model . A status concept data group can be created to include terms similar to the status concept data group in at least one of concepts, properties, and classifications.

前述した第2の目的を達成するために、第3の本発明に係るデータ処理装置は、
所定キーワードに基づいて、非特許文献のデータベースを検索することにより、所定キーワードが含まれる非特許文献の集合である非特許文献群を取得する非特許文献群取得部と、
非特許文献群をデータマイニングすることにより、非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得部と、
用語群に基づいて、特許文献のデータベースを検索することにより、用語群が含まれる特許文献の集合である特許文献群を取得する特許文献群取得部と、
用語群に含まれる用語のうち、特許文献群に含まれる用語のペアである用語ペアの集合を含む特徴量データを作成する特徴量データ作成部と、
特徴量データを分類モデルである予測モデルに入力したときの予測モデルの出力を用いて、特徴量データの用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
を備え、
予測モデルは、特徴量データが入力されたときに、用語ペア間の上位概念及び下位概念の関係を表すラベルの値を出力するように構成されていることを特徴とする。
In order to achieve the second object mentioned above, the data processing device according to the third invention includes:
a non-patent document group acquisition unit that retrieves a non-patent document group that is a set of non-patent documents including a predetermined keyword by searching a database of non-patent documents based on a predetermined keyword;
a term group acquisition unit that acquires a term group that is a term in a predetermined order of frequency of appearance among the terms in the non-patent document group by data mining the non-patent document group;
a patent document group acquisition unit that acquires a patent document group that is a set of patent documents including the term group by searching a database of patent documents based on the term group;
a feature amount data creation unit that creates feature amount data including a set of term pairs that are pairs of terms included in the patent document group among terms included in the term group;
Status concept data that creates a status concept data group that expresses the relationship between higher-level concepts and lower-level concepts between term pairs of feature value data using the output of the predictive model when the feature value data is input into a prediction model that is a classification model. Group creation department,
an output unit that performs output processing to output the status concept data group to the output device;
Equipped with
The predictive model is characterized in that it is configured to output a label value representing the relationship between a superordinate concept and a subordinate concept between term pairs when feature data is input.

前述した第2の目的を達成するために、第4の本発明に係るデータ処理方法は、
所定キーワードに基づいて、非特許文献のデータベースを検索することにより、所定キーワードが含まれる非特許文献の集合である非特許文献群を取得する非特許文献群取得ステップと、
非特許文献群をデータマイニングすることにより、非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得ステップと、
用語群に基づいて、特許文献のデータベースを検索することにより、用語群が含まれる特許文献の集合である特許文献群を取得する特許文献群取得ステップと、
用語群に含まれる用語のうち、特許文献群に含まれる用語のペアである用語ペアの集合を含む特徴量データを作成する特徴量データ作成ステップと、
特徴量データを分類モデルである予測モデルに入力したときの予測モデルの出力を用いて、特徴量データの用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
がデータ処理装置によって実行され、
予測モデルは、特徴量データが入力されたときに、用語ペア間の上位概念及び下位概念の関係を表すラベルの値を出力するように構成されていることを特徴とする。
In order to achieve the second object mentioned above, the data processing method according to the fourth invention includes:
a step of acquiring a non-patent literature group, which is a set of non-patent literature containing the predetermined keyword, by searching a database of non-patent literature based on the predetermined keyword;
a term group acquisition step of acquiring a term group of terms up to a predetermined rank in order of frequency of appearance among the terms in the non-patent document group by data mining the non-patent document group;
a step of acquiring a patent document group, which is a set of patent documents including the term group, by searching a database of patent documents based on the term group;
a step of creating feature data that includes a set of term pairs that are pairs of terms included in the patent document group among terms included in the term group;
Status concept data that creates a status concept data group that expresses the relationship between higher-level concepts and lower-level concepts between term pairs of feature value data using the output of the predictive model when the feature value data is input into a prediction model that is a classification model. a group creation step;
an output step of performing output processing for outputting the status concept data group to an output device;
is executed by the data processing device,
The predictive model is characterized in that it is configured to output a label value representing the relationship between a superordinate concept and a subordinate concept between term pairs when feature data is input.

以上のデータ処理装置又はデータ処理方法によれば、用語群に含まれる用語のうち、特許文献群に含まれる用語のペアである用語ペアの集合を含む特徴量データが作成され、特徴量データを予測モデルに入力したときの予測モデルの出力を用いて、特徴量データの用語ペアの地位概念関係を定義した地位概念データ群が作成される。ここで、予測モデルは、特徴量データが入力されたときに、用語ペア間の上位概念及び下位概念の関係を表すラベルの値を出力するように構成されていることにより、予測モデルの出力は、特徴量データの用語ペア間の上位概念及び下位概念の関係を適切に予測したものとなる。したがって、そのような予測モデルの出力を用いて地位概念データ群を作成することにより、この地位概念データ群を用語ペア間の上位概念及び下位概念の関係が適切に分類されたデータとして作成することができる。さらに、以上のように作成された地位概念データ群を出力装置に対して出力するための出力処理が実行されることにより、地位概念データ群を出力装置を介してユーザに提供することができる。 According to the above-described data processing device or data processing method, feature amount data including a set of term pairs that are pairs of terms included in a patent document group among terms included in a term group is created, and feature amount data is A status concept data group that defines status concept relationships between term pairs of feature data is created using the output of the prediction model when input to the prediction model. Here, the prediction model is configured to output a label value representing the relationship between the superordinate concept and the subordinate concept between term pairs when the feature data is input, so that the output of the prediction model is , the relationship between the superordinate concept and the subordinate concept between the term pairs of the feature amount data is appropriately predicted. Therefore, by creating a status concept data group using the output of such a prediction model, this status concept data group can be created as data in which the relationships between higher-level concepts and lower-level concepts between term pairs are appropriately classified. I can do it. Further, by performing an output process for outputting the status concept data group created as described above to the output device, the status concept data group can be provided to the user via the output device.

これに加えて、非特許文献のデータベースを検索することにより、非特許文献群が、所定キーワードが含まれる非特許文献の集合として取得され、非特許文献群をデータマイニングすることにより、非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群が取得され、用語群に基づいて、特許文献のデータベースを検索することにより、用語群が含まれる特許文献の集合である特許文献群が取得される。それにより、地位概念データ群を、特許文献の集合における用語間の上位概念及び下位概念の関係と、非特許文献における用語間の上位概念及び下位概念の関係とを適切に分類したデータとして作成することができる。それにより、このように作成された地位概念データ群が出力装置に出力された場合、ユーザは、出力装置を介して、特許文献の集合における用語間の上位概念及び下位概念の関係と、非特許文献における用語間の上位概念及び下位概念の関係が適切に分類された地位概念データ群を確認することができる。 In addition, by searching a database of non-patent documents, a group of non-patent documents is obtained as a set of non-patent documents that include a predetermined keyword, and by data mining the group of non-patent documents, a group of non-patent documents is obtained. Among the terms in the group, a term group consisting of terms up to a predetermined rank in order of frequency of appearance is acquired, and by searching a database of patent documents based on the term group, patent documents that include the term group are obtained. A set of patent documents is obtained. As a result, a status concept data group is created as data that appropriately categorizes the relationships between terms in a set of patent documents between terms in terms of higher-level concepts and lower-level concepts, and the relationships in non-patent documents between terms in terms of higher-level concepts and lower-level concepts. be able to. As a result, when the status concept data group created in this way is output to the output device, the user can view the relationships between the higher-level concepts and lower-level concepts between terms in the set of patent documents, and the non-patent concepts through the output device. It is possible to confirm a status concept data group in which relationships between higher-level concepts and lower-level concepts between terms in literature are appropriately classified.

第3の本発明において、
特徴量データの用語ペアに基づき、用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を定義した地位概念データベースを検索することにより、地位概念関係を表すラベルを特徴量データに付加したデータである学習データを作成する学習データ作成ステップと、
学習データを用いて、所定の学習アルゴリズムより、予測モデルの学習を実行するモデル学習ステップと、
がデータ処理装置によってさらに実行されることが好ましい。
In the third invention,
Based on the term pairs in the feature data, labels representing the status concept relationships were added to the feature data by searching a status concept database that defined status concept relationships, including relationships between superordinate concepts and subordinate concepts between term pairs. a learning data creation step of creating learning data that is data;
a model learning step of performing learning of a predictive model using a predetermined learning algorithm using the learning data;
is preferably further executed by the data processing device.

第4の本発明において、
特徴量データの用語ペアに基づき、用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を定義した地位概念データベースを検索することにより、地位概念関係を表すラベルを特徴量データに付加したデータである学習データを作成する学習データ作成ステップと、
学習データを用いて、所定の学習アルゴリズムより、予測モデルの学習を実行するモデル学習ステップと、
がデータ処理装置によってさらに実行されることが好ましい。
In the fourth invention,
Based on the term pairs in the feature data, labels representing the status concept relationships were added to the feature data by searching a status concept database that defined status concept relationships, including relationships between superordinate concepts and subordinate concepts between term pairs. a learning data creation step of creating learning data that is data;
a model learning step of performing learning of a predictive model using a predetermined learning algorithm using the learning data;
is preferably further executed by the data processing device.

以上のデータ処理システム又はデータ処理方法によれば、特徴量データの用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルを特徴量データに付加したデータである学習データを用いて、所定の学習アルゴリズムより、予測モデルの学習が実行される。それにより、特徴量データが予測モデルに入力された際、特徴量データの用語ペア間の上位概念及び下位概念の関係を適切に予測した予測結果が予測モデルから出力されることなる。したがって、そのような予測モデルの出力を用いることにより、特徴量データの用語ペアの地位概念関係を定義した地位概念データ群を適切に作成することができる。 According to the above data processing system or data processing method, learning data that is data in which a label representing a status concept relationship including a relationship between a superordinate concept and a subordinate concept between term pairs of feature data is added to feature data is used. Then, learning of the prediction model is executed using a predetermined learning algorithm. As a result, when the feature data is input to the prediction model, the prediction model outputs a prediction result that appropriately predicts the relationship between the superordinate concept and the subordinate concept between the term pairs of the feature data. Therefore, by using the output of such a prediction model, it is possible to appropriately create a status concept data group that defines the status concept relationship between term pairs of feature data.

第3の本発明において、地位概念データ群作成部は、地位概念データ群を、用語ペアの用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成することが好ましい。 In the third aspect of the present invention, it is preferable that the status concept data group creation unit creates the status concept data group as tree-like graphic data in which the terms of the term pair are arranged according to the relationship between the superordinate concept and the subordinate concept.

第4の本発明において、地位概念データ群作成ステップでは、地位概念データ群が、用語ペアの用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成されることが好ましい。 In the fourth aspect of the present invention, it is preferable that in the status concept data group creation step, the status concept data group is created as tree-like graphic data in which the terms of the term pair are arranged according to the relationship between the superordinate concept and the subordinate concept. .

以上のデータ処理装置又はデータ処理方法によれば、地位概念データ群が用語ペアの用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成される。それにより、この地位概念データ群が出力装置に出力された場合、ユーザは、出力装置を介して用語ペア間の上位概念及び下位概念の関係を容易に把握することができる。 According to the above data processing apparatus or data processing method, the status concept data group is created as tree-like graphic data in which terms of term pairs are arranged according to the relationship between superordinate concepts and subordinate concepts. Thereby, when this status concept data group is output to the output device, the user can easily grasp the relationship between the superordinate concept and the subordinate concept between term pairs via the output device.

第3の本発明において、地位概念データ群作成部は、特許文献の番号及び非特許文献を表すデータの少なくとも一方が用語ペアの各々の用語に対してリンク付けされた状態で、地位概念データ群を作成することが好ましい。 In the third aspect of the present invention, the status concept data group creation unit generates the status concept data group in a state where at least one of the patent document number and the data representing the non-patent document is linked to each term of the term pair. It is preferable to create

第4の本発明において、地位概念データ群作成ステップでは、特許文献の番号及び非特許文献を表すデータの少なくとも一方が用語ペアの各々の用語にリンク付けされた状態で、地位概念データ群が作成されることが好ましい。 In the fourth aspect of the present invention, in the status concept data group creation step, the status concept data group is created with at least one of the patent document number and the data representing the non-patent documents linked to each term of the term pair. It is preferable that

以上のデータ処理装置又はデータ処理方法によれば、特許文献の番号及び非特許文献を表すデータの少なくとも一方が地位概念データ群における用語ペアの各々の用語にリンク付けされた状態で地位概念データ群が作成される。ユーザは、出力装置を介して、用語ペアの地位概念関係に加えて、用語ペアの各々の用語に対応する特許文献の番号及び非特許文献を表すデータの少なくとも一方をさらに把握することができる。 According to the above data processing device or data processing method, the status concept data group is configured such that at least one of the patent document number and the data representing the non-patent document is linked to each term of the term pair in the status concept data group. is created. Through the output device, the user can further grasp at least one of data representing the patent document number and non-patent document corresponding to each term in the term pair, in addition to the status concept relationship of the term pair.

第3の本発明において、非特許文献群取得部は、非特許文献群に加えて、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、非特許文献のデータベースを検索することにより、第2所定キーワードが含まれる非特許文献の集合である第2非特許文献群をさらに取得し、
用語群取得部は、非特許文献群及び第2非特許文献群をデータマイニングすることにより、非特許文献群及び第2非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群をさらに取得し、
特許文献群取得部は、第2用語群に基づいて、特許文献のデータベースを検索することにより、第2用語群が含まれる特許文献の集合である第2特許文献群を取得し、
特徴量データ作成部は、第2用語群に含まれる用語のうち、第2特許文献群に含まれる用語のペアである第2用語ペアの集合を含む第2特徴量データをさらに作成し、
地位概念データ群作成部は、第2特徴量データを予測モデルに入力したときの予測モデルの出力を用いて、第2特徴量データの第2用語ペア間の上位概念及び下位概念の関係を表す第2地位概念データ群を作成することが好ましい。
In the third aspect of the present invention, the non-patent document group acquisition unit, in addition to the non-patent document group, based on a second predetermined keyword that is similar to the predetermined keyword in at least one of the concept, property, and classification, further obtaining a second non-patent document group that is a set of non-patent documents including a second predetermined keyword by searching a database of non-patent documents;
The term group acquisition unit performs data mining on the non-patent document group and the second non-patent document group to obtain terms in the non-patent document group and the second non-patent document group in descending order of frequency of appearance up to a predetermined rank. further obtain a second term group that is terms of;
The patent document group acquisition unit acquires a second patent document group, which is a set of patent documents including the second term group, by searching a database of patent documents based on the second term group,
The feature amount data creation unit further creates second feature amount data including a set of second term pairs that are pairs of terms included in the second patent document group among the terms included in the second term group,
The status concept data group creation unit represents the relationship between the superordinate concept and the subordinate concept between the second term pairs of the second feature data using the output of the prediction model when the second feature data is input to the prediction model. It is preferable to create a second status concept data group.

第4の本発明において、非特許文献群取得ステップでは、非特許文献群に加えて、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、非特許文献のデータベースを検索することにより、第2所定キーワードが含まれる非特許文献の集合である第2非特許文献群がさらに取得され、
用語群取得ステップでは、非特許文献群及び第2非特許文献群をデータマイニングすることにより、非特許文献群及び第2非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群がさらに取得され、
特許文献群取得ステップでは、第2用語群に基づいて、特許文献のデータベースを検索することにより、第2用語群が含まれる特許文献の集合である第2特許文献群が取得され、
特徴量データ作成ステップでは、第2用語群に含まれる用語のうち、第2特許文献群に含まれる用語のペアである第2用語ペアの集合を含む第2特徴量データがさらに作成され、
地位概念データ群作成ステップでは、第2特徴量データを予測モデルに入力したときの予測モデルの出力を用いて、第2特徴量データの用語ペア間の上位概念及び下位概念の関係を表す第2地位概念データ群が作成されることが好ましい。
In the fourth aspect of the present invention, in the non-patent document group acquisition step, in addition to the non-patent document group, based on a second predetermined keyword that is similar to the predetermined keyword in at least one of the concept, property, and classification, A second non-patent document group, which is a set of non-patent documents including the second predetermined keyword, is further obtained by searching a database of non-patent documents;
In the term group acquisition step, by data mining the non-patent document group and the second non-patent document group, terms in the non-patent document group and the second non-patent document group are acquired in order of frequency of appearance up to a predetermined rank. A second term group is further obtained, which is terms of
In the patent document group acquisition step, a second patent document group, which is a set of patent documents including the second term group, is acquired by searching a database of patent documents based on the second term group;
In the feature data creation step, second feature data is further created that includes a set of second term pairs that are pairs of terms included in the second patent document group among terms included in the second term group;
In the status concept data group creation step, the output of the prediction model when the second feature data is inputted to the prediction model is used to create a second model that represents the relationship between the superordinate concept and the subordinate concept between the term pairs of the second feature data. Preferably, a status concept data group is created.

以上のデータ処理装置又はデータ処理方法によれば、第2非特許文献群は、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、非特許文献のデータベースを検索することにより、第2所定キーワードが含まれる非特許文献の集合として取得される。また、非特許文献群及び第2非特許文献群をデータマイニングすることにより、非特許文献群及び第2非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群がさらに取得される。さらに、そのような第2用語群から作成した特徴量データを予測モデルに入力したときの予測モデルの出力を用いて、第2地位概念データ群が作成されることにより、第2地位概念データ群を、地位概念データ群に対して、概念、性質及び分類のうちの少なくとも1つが類似した用語を含むように作成することができる。 According to the above data processing device or data processing method, the second non-patent document group is generated based on the second predetermined keyword that is similar in concept, property, and classification to the predetermined keyword. By searching the literature database, a set of non-patent literature containing the second predetermined keyword is obtained. In addition, by data mining the non-patent literature group and the second non-patent literature group, it is possible to identify terms in the non-patent literature group and the second non-patent literature group in order of frequency of appearance up to a predetermined rank. A second set of terms is further obtained. Furthermore, a second status concept data group is created using the output of the prediction model when the feature data created from the second term group is input into the prediction model. can be created for the status concept data group so that at least one of concepts, properties, and classifications includes terms similar to each other.

前述した第3の目的を達成するために、第5の本発明に係るデータ処理装置は、
所定物質を表す所定キーワードに基づいて、特許文献のデータベースを検索することにより、所定キーワードが含まれる特許文献の集合である特許文献群を取得する特許文献群取得部と、
特許文献群をデータマイニングすることにより、特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得部と、
所定物質に基づき、所定物質の原料、部品及び材質のいずれかを表す基礎用語を定義した基礎用語データベースを検索することにより、用語群から基礎用語の集合である基礎用語群を取得する基礎用語群取得部と、
基礎用語群に含まれる基礎用語と、用語群に含まれる用語及び基礎用語群に含まれる基礎用語の一方とのペアである選択用語ペアの集合を含む特徴量データを作成する特徴量データ作成部と、
特徴量データを分類モデルである予測モデルに入力したときの予測モデルの出力を用いて、特徴量データの選択用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
を備え、
予測モデルは、特徴量データが入力されたときに、選択用語ペア間の上位概念及び下位概念の関係を表すラベルの値を出力するように構成されていることを特徴とする。
In order to achieve the third object mentioned above, the data processing device according to the fifth aspect of the present invention includes:
a patent document group acquisition unit that acquires a patent document group that is a set of patent documents including the predetermined keyword by searching a database of patent documents based on a predetermined keyword representing a predetermined substance;
a term group acquisition unit that acquires a term group of terms up to a predetermined rank in order of frequency of appearance from among the terms in the patent document group by data mining the patent document group;
A basic term group that obtains a basic term group that is a set of basic terms from a term group by searching a basic term database that defines basic terms that represent any of the raw materials, parts, and materials of the specified substance based on the specified substance. an acquisition department;
a feature amount data creation unit that creates feature amount data including a set of selected term pairs that are a pair of a basic term included in the basic term group, a term included in the term group, and one of the basic terms included in the basic term group; and,
A status concept that creates a status concept data group that expresses the relationship between a superordinate concept and a subordinate concept between selected term pairs of feature data using the output of the prediction model when feature data is input into a prediction model that is a classification model. A data group creation unit,
an output unit that performs output processing to output the status concept data group to the output device;
Equipped with
The predictive model is characterized in that it is configured to output a label value representing the relationship between the superordinate concept and the subordinate concept between the selected term pair when the feature amount data is input.

前述した第3の目的を達成するために、第6の本発明に係るデータ処理方法は、
所定物質を表す所定キーワードに基づいて、特許文献のデータベースを検索することにより、所定キーワードが含まれる特許文献の集合である特許文献群を取得する特許文献群取得ステップと、
特許文献群をデータマイニングすることにより、特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得ステップと、
所定物質に基づき、所定物質の原料、部品及び材質のいずれかを表す基礎用語を定義した基礎用語データベースを検索することにより、用語群から基礎用語の集合である基礎用語群を取得する基礎用語群取得ステップと、
基礎用語群に含まれる基礎用語と、用語群に含まれる用語及び基礎用語群に含まれる基礎用語の一方とのペアである選択用語ペアの集合を含む特徴量データを作成する特徴量データ作成ステップと、
特徴量データを分類モデルである予測モデルに入力したときの予測モデルの出力を用いて、特徴量データの選択用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
がデータ処理装置によって実行され、
予測モデルは、特徴量データが入力されたときに、選択用語ペア間の上位概念及び下位概念の関係を表すラベルの値を出力するように構成されていることを特徴とする。
In order to achieve the third object mentioned above, the data processing method according to the sixth invention includes:
a step of obtaining a patent document group, which is a set of patent documents including the predetermined keyword, by searching a database of patent documents based on a predetermined keyword representing a predetermined substance;
a term group acquisition step of acquiring a term group of terms up to a predetermined rank in order of frequency of appearance from among the terms in the patent document group by data mining the patent document group;
A basic term group that obtains a basic term group that is a set of basic terms from a term group by searching a basic term database that defines basic terms that represent any of the raw materials, parts, and materials of the specified substance based on the specified substance. an acquisition step;
a step of creating feature data that includes a set of selected term pairs that are a pair of a basic term included in the basic term group, a term included in the term group, and one of the basic terms included in the basic term group; and,
A status concept that creates a status concept data group that expresses the relationship between a superordinate concept and a subordinate concept between selected term pairs of feature data using the output of the prediction model when feature data is input into a prediction model that is a classification model. a data group creation step;
an output step of performing output processing for outputting the status concept data group to an output device;
is executed by the data processing device,
The predictive model is characterized in that it is configured to output a label value representing the relationship between the superordinate concept and the subordinate concept between the selected term pair when the feature amount data is input.

以上のデータ処理装置又はデータ処理方法によれば、基礎用語群に含まれる基礎用語と、用語群に含まれる用語及び基礎用語群に含まれる基礎用語の一方とのペアである選択用語ペアの集合を含む特徴量データが作成され、特徴量データを分類モデルである予測モデルに入力したときの予測モデルの出力を用いて、特徴量データの選択用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群が作成され、地位概念データ群を出力装置に対して出力するための出力処理が実行される。ここで、予測モデルは、特徴量データが入力されたときに、選択用語ペア間の上位概念及び下位概念の関係を表すラベルの値を出力するように構成されていることにより、予測モデルの出力は、特徴量データの選択用語ペア間の上位概念及び下位概念の関係を適切に予測したものとなる。したがって、そのような予測モデルの出力を用いて地位概念データ群を作成することにより、地位概念データ群を選択用語ペア間の上位概念及び下位概念の関係が適切に分類されたデータとして作成することができる。さらに、以上のように作成された地位概念データ群を出力装置に対して出力するための出力処理が実行されることにより、地位概念データ群を出力装置を介してユーザに提供することができる。 According to the above data processing device or data processing method, a set of selected term pairs that are a pair of a basic term included in the basic term group, a term included in the term group, and a basic term included in the basic term group. When feature data is created and the feature data is input into a prediction model that is a classification model, the output of the prediction model is used to represent the relationship between the superordinate concept and the subordinate concept between the selected term pairs in the feature data. A status concept data group is created, and output processing for outputting the status concept data group to an output device is executed. Here, the prediction model is configured to output a label value representing the relationship between the superordinate concept and the subordinate concept between the selected term pairs when the feature data is input. is an appropriate prediction of the relationship between the superordinate concept and the subordinate concept between the selected term pairs of the feature amount data. Therefore, by creating a status concept data group using the output of such a prediction model, it is possible to create a status concept data group as data in which the relationships between higher-level concepts and lower-level concepts between selected term pairs are appropriately classified. I can do it. Further, by performing an output process for outputting the status concept data group created as described above to the output device, the status concept data group can be provided to the user via the output device.

これに加えて、所定物質を表す所定キーワードに基づいて、特許文献のデータベースを検索することにより、所定キーワードが含まれる特許文献の集合である特許文献群が取得され、特許文献群をデータマイニングすることにより、特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群が取得される。さらに、所定物質に基づき、所定物質の原料、部品及び材質のいずれかを表す基礎用語を定義した基礎用語データベースを検索することにより、用語群から基礎用語の集合である基礎用語群が取得される。それにより、地位概念データ群を、特許文献の集合における基礎用語間又は基礎用語及び用語の間の上位概念及び下位概念の関係を適切に分類したデータとして作成することができる。 In addition, by searching a database of patent documents based on a predetermined keyword representing a predetermined substance, a patent document group, which is a collection of patent documents that include the predetermined keyword, is obtained, and the patent document group is data mined. By doing this, a group of terms, which are terms in a predetermined order of frequency of appearance among the terms in the patent document group, are acquired. Furthermore, based on the predetermined substance, a basic term database that defines basic terms representing any of the raw materials, parts, and materials of the predetermined substance is searched to obtain a basic term group that is a set of basic terms from the term group. . Thereby, it is possible to create a status concept data group as data that appropriately classifies the relationships between basic terms or between basic terms and higher-level concepts and lower-level concepts in a set of patent documents.

第5の本発明において、特徴量データの選択用語ペアに基づき、選択用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を定義した地位概念データベースを検索することにより、地位概念関係を表すラベルを特徴量データに付加したデータである学習データを作成する学習データ作成部と、
学習データを用いて、所定の学習アルゴリズムより、予測モデルの学習を実行するモデル学習部と、
をさらに備えることが好ましい。
In the fifth aspect of the present invention, the status concept relationship is determined by searching the status concept database that defines the status concept relationship including the relationship between the superordinate concept and the subordinate concept between the selected term pair based on the selected term pair of the feature amount data. a learning data creation unit that creates learning data that is data in which a label representing the representation is added to the feature data;
a model learning unit that executes learning of a predictive model using a predetermined learning algorithm using the learning data;
It is preferable to further include.

第6の本発明において、
特徴量データの選択用語ペアに基づき、選択用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を定義した地位概念データベースを検索することにより、地位概念関係を表すラベルを特徴量データに付加したデータである学習データを作成する学習データ作成ステップと、
学習データを用いて、所定の学習アルゴリズムより、予測モデルの学習を実行するモデル学習ステップと、
がデータ処理装置によってさらに実行されることが好ましい。
In the sixth invention,
Based on the selected term pairs in the feature data, a label representing the status concept relationship is added to the feature data by searching a status concept database that defines status concept relationships including relationships between higher-level concepts and lower-level concepts between the selected term pairs. a learning data creation step of creating learning data that is added data;
a model learning step of performing learning of a predictive model using a predetermined learning algorithm using the learning data;
is preferably further executed by the data processing device.

以上のデータ処理システム又はデータ処理方法によれば、特徴量データの選択用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルを特徴量データに付加したデータである学習データを用いて、所定の学習アルゴリズムより、予測モデルの学習が実行される。それにより、特徴量データが予測モデルに入力された際、特徴量データの選択用語ペア間の上位概念及び下位概念の関係を適切に予測した予測結果が予測モデルから出力されることなる。したがって、そのような予測モデルの出力を用いることにより、特徴量データの選択用語ペア間の地位概念関係を定義した地位概念データ群を適切に作成することができる。 According to the above data processing system or data processing method, learning data is data in which a label representing a status concept relationship including a relationship between a superordinate concept and a subordinate concept between selected term pairs of feature data is added to feature data. The prediction model is trained using a predetermined learning algorithm. Thereby, when the feature data is input to the prediction model, the prediction model outputs a prediction result that appropriately predicts the relationship between the superordinate concept and the subordinate concept between the selected word pairs of the feature data. Therefore, by using the output of such a prediction model, it is possible to appropriately create a status concept data group that defines the status concept relationship between selected term pairs of feature amount data.

第5の本発明において、地位概念データ群作成部は、地位概念データ群を、選択用語ペアの選択用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成することが好ましい。 In the fifth aspect of the present invention, the status concept data group creation unit may create the status concept data group as tree-like graphic data in which the selected terms of the selected term pair are arranged according to the relationship between the superordinate concept and the subordinate concept. preferable.

第6の本発明において、地位概念データ群作成ステップでは、地位概念データ群が選択用語ペアの選択用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成されることが好ましい。 In the sixth aspect of the present invention, in the status concept data group creation step, the status concept data group may be created as tree-like graphic data in which the selected terms of the selected term pair are arranged according to the relationship between the superordinate concept and the subordinate concept. preferable.

以上のデータ処理装置又はデータ処理方法によれば、地位概念データ群が、選択用語ペアの選択用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成される。それにより、この地位概念データ群が出力装置に出力された場合、ユーザは、出力装置を介して選択用語ペアの選択用語における上位概念及び下位概念の関係を容易に把握することができる。 According to the data processing apparatus or data processing method described above, the status concept data group is created as tree-like graphic data in which the selected terms of the selected term pair are arranged according to the relationship between the superordinate concept and the subordinate concept. Thereby, when this status concept data group is output to the output device, the user can easily grasp the relationship between the superordinate concept and the subordinate concept in the selected term of the selected term pair via the output device.

第5の本発明において、地位概念データ群作成部は、地位概念データ群における選択用語ペアの基礎用語と基礎用語の製品情報との関係を定義した製品データベースをさらに用いて、基礎用語に製品情報がリンク付けされた状態で地位概念データ群を作成することが好ましい。 In the fifth aspect of the present invention, the status concept data group creation unit further uses a product database that defines the relationship between the basic term of the selected term pair in the status concept data group and the product information of the basic term, and adds product information to the basic term. It is preferable to create a status concept data group in a state in which these are linked.

第6の本発明において、地位概念データ群作成ステップでは、地位概念データ群における選択用語ペアの基礎用語と基礎用語の製品情報との関係を定義した製品データベースをさらに用いて、基礎用語に製品情報がリンク付けされた状態で地位概念データ群が作成されることが好ましい。 In the sixth aspect of the present invention, in the status concept data group creation step, a product database that defines the relationship between the basic term of the selected term pair in the status concept data group and the product information of the basic term is further used, and product information is added to the basic term. It is preferable that the status concept data group is created in a state in which the status concept data are linked.

以上のデータ処理装置又はデータ処理方法によれば、地位概念データ群における選択用語ペアの基礎用語に基礎用語の製品情報がリンク付けされた状態で地位概念データ群が作成される。それにより、ユーザは、この地位概念データ群が出力装置に出力された場合、ユーザは、出力装置を介して基礎用語の製品情報を把握することができる。 According to the above data processing device or data processing method, the status concept data group is created in a state in which the product information of the basic term is linked to the basic term of the selected term pair in the status concept data group. Thereby, when this status concept data group is output to the output device, the user can grasp the product information of the basic term via the output device.

第5の本発明において、
特許文献群取得部は、特許文献群に加えて、所定物質に対して性質及び分類のうちの少なくとも一方が類似の第2物質を表す第2所定キーワードに基づいて、特許文献のデータベースを検索することにより、第2所定キーワードが含まれる特許文献の集合である第2特許文献群をさらに取得し、
用語群取得部は、特許文献群及び第2特許文献群をデータマイニングすることにより、特許文献群及び第2特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群をさらに取得し、
基礎用語群取得部は、第2物質に基づき、基礎用語データベースを検索することにより、第2用語群から第2物質の基礎用語の集合である第2基礎用語群をさらに取得し、
特徴量データ作成部は、第2基礎用語群に含まれる基礎用語と、第2用語群に含まれる第2用語及び第2基礎用語群に含まれる基礎用語の一方とのペアである第2選択用語ペアの集合を含む第2特徴量データをさらに作成し、
地位概念データ群作成部は、第2特徴量データを予測モデルに入力したときの予測モデルの出力を用いて、第2特徴量データの第2選択用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群をさらに作成することが好ましい。
In the fifth invention,
The patent document group acquisition unit searches a database of patent documents based on a second predetermined keyword representing a second substance having at least one of properties and classification similar to the predetermined substance, in addition to the patent document group. By doing so, further acquiring a second patent document group that is a set of patent documents including the second predetermined keyword,
The term group acquisition unit performs data mining on the patent document group and the second patent document group to obtain, among the terms in the patent document group and the second patent document group, terms up to a predetermined rank in order of frequency of appearance. further obtaining a second term group;
The basic term group acquisition unit further acquires a second basic term group that is a set of basic terms for the second substance from the second term group by searching the basic term database based on the second substance,
The feature amount data creation unit generates a second selection that is a pair of a basic term included in the second basic term group and one of a second term included in the second term group and a basic term included in the second basic term group. further creating second feature data including a set of term pairs;
The status concept data group creation unit calculates the relationship between the superordinate concept and the subordinate concept between the second selected term pair of the second feature data, using the output of the prediction model when the second feature data is input into the prediction model. It is preferable to further create a group of status concept data to represent.

第6の本発明において、
特許文献群取得ステップでは、特許文献群に加えて、所定物質に対して性質及び分類のうちの少なくとも一方が類似の第2物質を表す第2所定キーワードに基づいて、特許文献のデータベースを検索することにより、第2所定キーワードが含まれる特許文献の集合である第2特許文献群がさらに取得され、
用語群取得ステップでは、特許文献群及び第2特許文献群をデータマイニングすることにより、特許文献群及び第2特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群がさらに取得され、
基礎用語群取得ステップでは、第2物質に基づき、基礎用語データベースを検索することにより、第2用語群から第2物質の基礎用語の集合である第2基礎用語群がさらに取得され、
特徴量データ作成ステップでは、第2基礎用語群に含まれる基礎用語と、第2用語群に含まれる第2用語及び第2基礎用語群に含まれる基礎用語の一方とのペアである第2選択用語ペアの集合を含む第2特徴量データがさらに作成され、
地位概念データ群作成ステップでは、第2特徴量データを予測モデルに入力したときの予測モデルの出力を用いて、第2特徴量データの第2選択用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群がさらに作成されることが好ましい。
In the sixth invention,
In the patent document group acquisition step, in addition to the patent document group, a database of patent documents is searched based on a second predetermined keyword representing a second substance having at least one of properties and classification similar to the predetermined substance. As a result, a second patent document group, which is a set of patent documents including the second predetermined keyword, is further obtained,
In the term group acquisition step, by data mining the patent document group and the second patent document group, terms in the patent document group and the second patent document group are ranked in order of frequency of occurrence up to a predetermined rank. a second set of terms is further obtained;
In the basic term group acquisition step, a second basic term group, which is a set of basic terms for the second substance, is further obtained from the second term group by searching the basic term database based on the second substance;
In the feature data creation step, the second selection is a pair of a basic term included in the second basic term group and one of a second term included in the second term group and a basic term included in the second basic term group. second feature data including a set of term pairs is further created;
In the status concept data group creation step, the relationship between the superordinate concept and the subordinate concept between the second selected term pair of the second feature data is calculated using the output of the prediction model when the second feature data is input to the prediction model. It is preferable that a group of status concept data to be represented is further created.

以上のデータ処理装置又はデータ処理方法によれば、第2特許文献群は、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、特許文献のデータベースを検索することにより、第2所定キーワードが含まれる特許文献の集合として取得される。また、特許文献群及び第2特許文献群をデータマイニングすることにより、非特許文献群及び第2非特許文献群における基礎用語のうち、出現頻度の高い方から順に所定順位までの基礎用語である第2基礎用語群が取得される。さらに、そのような第2基礎用語群から作成した特徴量データを予測モデルに入力したときの予測モデルの出力を用いて、第2地位概念データ群が作成されることにより、第2地位概念データ群を、地位概念データ群に対して、概念、性質及び分類のうちの少なくとも1つが類似した基礎用語を含むように作成することができる。 According to the above data processing device or data processing method, the second patent document group is created based on the second predetermined keyword that is similar in concept, property, and classification to the predetermined keyword. By searching the database, a set of patent documents containing the second predetermined keyword is obtained. In addition, by data mining the patent document group and the second patent document group, basic terms of the basic terms in the non-patent document group and the second non-patent document group are ranked in descending order of frequency of appearance up to a predetermined rank. A second basic vocabulary group is obtained. Furthermore, a second status concept data group is created using the output of the prediction model when the feature data created from the second basic term group is input into the prediction model. A group can be created to include basic terms that are similar in at least one of a concept, a property, and a classification to a group of status concept data.

本発明の第1実施形態に係るデータ処理装置を示す図である。FIG. 1 is a diagram showing a data processing device according to a first embodiment of the present invention. 第1実施形態のデータ処理装置の機能的な構成を示すブロック図である。1 is a block diagram showing a functional configuration of a data processing device according to a first embodiment; FIG. 用語群の一例を示す図である。It is a figure showing an example of a term group. 特徴量データの一例を示す図である。FIG. 3 is a diagram showing an example of feature amount data. 特徴量データの作成手順の説明図である。FIG. 3 is an explanatory diagram of a procedure for creating feature amount data. 特徴量データの作成手順の説明図である。FIG. 3 is an explanatory diagram of a procedure for creating feature amount data. 特徴量データの作成手順の説明図である。FIG. 3 is an explanatory diagram of a procedure for creating feature amount data. 特徴量データの作成手順の説明図である。FIG. 3 is an explanatory diagram of a procedure for creating feature amount data. 学習データの一例を示す図である。It is a figure showing an example of learning data. 地位概念データベースの一例を示す図である。FIG. 3 is a diagram showing an example of a status concept database. 地位概念データ群の作成手順の説明図である。FIG. 3 is an explanatory diagram of a procedure for creating a status concept data group. 地位概念データ群の作成手順の説明図である。FIG. 3 is an explanatory diagram of a procedure for creating a status concept data group. 地位概念データ群の作成手順の説明図である。FIG. 3 is an explanatory diagram of a procedure for creating a status concept data group. 地位概念データ群の作成手順の説明図である。FIG. 3 is an explanatory diagram of a procedure for creating a status concept data group. 地位概念データ群の一例を示す図である。FIG. 3 is a diagram showing an example of a status concept data group. 地位概念データ群の用語が選択された状態を示す図である。FIG. 6 is a diagram showing a state in which terms of the status concept data group are selected. 地位概念データ群の他の一例を示す図である。It is a figure which shows another example of a status concept data group. 学習済みモデル作成処理を示すフローチャートである。3 is a flowchart illustrating learned model creation processing. 地位概念データ群処理を示すフローチャートである。3 is a flowchart showing status concept data group processing. 再設定用データ処理を示すフローチャートである。It is a flowchart which shows data processing for resetting. 第2学習済みモデル作成処理を示すフローチャートである。It is a flowchart which shows the 2nd learned model creation process. 第2地位概念データ群処理を示すフローチャートである。It is a flowchart which shows the 2nd status concept data group process. 地位概念データ群の変形例を示す図である。It is a figure which shows the modification of a status concept data group. 第2実施形態のデータ処理装置の機能的な構成を示すブロック図である。FIG. 2 is a block diagram showing the functional configuration of a data processing device according to a second embodiment. 学習済みモデル作成処理を示すフローチャートである。3 is a flowchart illustrating learned model creation processing. 地位概念データ群処理を示すフローチャートである。3 is a flowchart showing status concept data group processing. 第2学習済みモデル作成処理を示すフローチャートである。It is a flowchart which shows the 2nd learned model creation process. 第2地位概念データ群処理を示すフローチャートである。It is a flowchart which shows the 2nd status concept data group process. 第3実施形態のデータ処理装置の機能的な構成を示すブロック図である。FIG. 7 is a block diagram showing the functional configuration of a data processing device according to a third embodiment. 用語群の一例を示す図である。It is a figure showing an example of a term group. 基礎用語群の一例を示す図である。FIG. 3 is a diagram showing an example of a basic term group. 特徴量データの一例を示す図である。FIG. 3 is a diagram showing an example of feature amount data. 学習データの一例を示す図である。It is a figure showing an example of learning data. 地位概念データベースの一例を示す図である。FIG. 3 is a diagram showing an example of a status concept database. 地位概念データ群の一例を示す図である。FIG. 3 is a diagram showing an example of a status concept data group. 地位概念データ群の表示例を示す図である。FIG. 3 is a diagram illustrating a display example of a status concept data group. 地位概念データ群の他の表示例を示す図である。FIG. 7 is a diagram showing another display example of the status concept data group. 基礎用語番号及び基礎用語の製品名のデータベースの一例を示す図である。FIG. 3 is a diagram showing an example of a database of basic term numbers and product names of basic terms. 学習済みモデル作成処理を示すフローチャートである。3 is a flowchart illustrating learned model creation processing. 地位概念データ群処理を示すフローチャートである。3 is a flowchart showing status concept data group processing. 第2学習済みモデル作成処理を示すフローチャートである。It is a flowchart which shows the 2nd learned model creation process. 第2地位概念データ群処理を示すフローチャートである。It is a flowchart which shows the 2nd status concept data group process.

以下、図面を参照しながら、本発明の第1実施形態に係るデータ処理装置について説明する。図1に示すように、本実施形態のデータ処理装置1は、パーソナルコンピュータタイプのものであり、ディスプレイ1a、装置本体1b及び入力インターフェース1cなどを備えている。出力装置としてのディスプレイ1aは、液晶ディスプレイタイプのものであり、各種データが表示される。 DESCRIPTION OF THE PREFERRED EMBODIMENTS A data processing apparatus according to a first embodiment of the present invention will be described below with reference to the drawings. As shown in FIG. 1, the data processing device 1 of this embodiment is of a personal computer type and includes a display 1a, a device main body 1b, an input interface 1c, and the like. The display 1a serving as an output device is of a liquid crystal display type, and displays various data.

装置本体1bは、HDDなどのストレージ、プロセッサ及びメモリ(RAM、E2PROM、ROMなど)などを備えている(いずれも図示せず)。この装置本体1bのストレージには、後述する学習処理などを実行するためのアプリケーションソフトがインストールされているとともに、特許文献データベース20及び地位概念データベース21(図2参照)が記憶されている。 The device main body 1b includes storage such as an HDD, a processor, and memory (RAM, E2PROM, ROM, etc.) (none of which are shown). In the storage of this device main body 1b, application software for executing learning processing, which will be described later, is installed, and a patent document database 20 and a status concept database 21 (see FIG. 2) are stored.

これらのデータベース20,21の詳細については後述する。また、入力インターフェース1cは、データ処理装置1を操作するためのキーボード及びマウスなどで構成されている。 Details of these databases 20 and 21 will be described later. Further, the input interface 1c includes a keyboard, a mouse, etc. for operating the data processing device 1.

図2に示すように、データ処理装置1は、特許文献群取得部11、用語群取得部12、特徴量データ作成部13、学習データ作成部14、モデル学習部15、地位概念データ群作成部16、出力部17及び平均値算出部18としての機能を備えている。 As shown in FIG. 2, the data processing device 1 includes a patent document group acquisition unit 11, a term group acquisition unit 12, a feature data creation unit 13, a learning data creation unit 14, a model learning unit 15, and a status concept data group creation unit. 16, an output section 17, and an average value calculation section 18.

特許文献群取得部11では、ユーザ(図示せず)による入力インターフェース1cの操作によって、所定キーワードが入力された場合、所定キーワードに基づいて、データ処理装置1内の特許文献データベース20を検索することにより、特許文献群が取得される。 When a predetermined keyword is input by a user (not shown) operating the input interface 1c, the patent document group acquisition unit 11 searches the patent document database 20 in the data processing device 1 based on the predetermined keyword. Accordingly, a group of patent documents is obtained.

ここで、特許文献データベース20には、特許公報、特開公報及び実用新案登録公報などの請求項を含む文献が多数含まれており、特許文献群は、所定キーワードが請求項に含まれる特許文献の集合として取得される。以下の説明では、所定キーワードが「ポリオキシエチレンジグリセリン飽和脂肪酸エステル」である場合を例にとって説明する。 Here, the patent document database 20 includes a large number of documents including claims such as patent publications, Japanese Patent Laid-Open Publications, and utility model registration publications. is obtained as a set of In the following explanation, an example will be explained in which the predetermined keyword is "polyoxyethylene diglycerin saturated fatty acid ester".

次いで、用語群取得部12では、形態素解析を用いて特許文献群をデータマイニングすることにより、用語群が取得される。この用語群は、特許文献群の請求項における用語のうち、出現頻度の高い方から順に所定順位までの用語の集合として取得される。本実施形態の場合、図3に示すように、出現頻度が1番目から5345番目までの用語が取得されるとともに、用語の番号として、KEYW0~KEYW5344がそれぞれ付加された状態となる。 Next, the term group acquisition unit 12 acquires a term group by data mining the patent document group using morphological analysis. This term group is acquired as a set of terms in the claims of the patent document group, ranked in descending order of frequency of appearance up to a predetermined rank. In the case of this embodiment, as shown in FIG. 3, terms with the first to 5345th appearance frequencies are acquired, and KEYW0 to KEYW5344 are added as term numbers, respectively.

次に、特徴量データ作成部13では、特許文献群及び用語群に基づいて、特徴量データが作成される。この特徴量データは、図4に示すように、特許文献の出願番号と、用語1及び用語2からなる用語ペアと、これらの用語ペアを含む請求項の番号及び請求項の文章とが含まれるように作成される。この図4は、用語の番号が用語1及び用語2として特徴量データに含まれるように構成した例であるが、用語の番号に代えて、用語自体が用語1及び用語2として特徴量データに含まれるように構成してもよい。この特徴量データは、本出願人が作成したプログラムにより、以下に述べる手法で作成される。なお、本実施形態では、用語ペアが第A用語ペア及び第B用語ペアに相当する。 Next, the feature data creation unit 13 creates feature data based on the patent literature group and the terminology group. As shown in FIG. 4, this feature amount data includes the application number of the patent document, a term pair consisting of term 1 and term 2, and the claim number and claim text that include these term pairs. Created as follows. This figure 4 is an example in which the term numbers are included in the feature data as Term 1 and Term 2. However, instead of the term numbers, the terms themselves are included in the feature data as Term 1 and Term 2. It may be configured so that it is included. This feature amount data is created by the method described below using a program created by the applicant. In this embodiment, the term pairs correspond to the A-th term pair and the B-th term pair.

まず、図5に示す特許文献群のデータ(一部のみを図示)において、請求項に含まれる用語群中の用語(太字で示す文言)をピックアップする。図5において、理解の容易化のために、ピックアップした用語をA~Hで表記すると、図6に示す状態となる。例えば、図6の用語<A>は、図5の「ポリオキシエチレンジグリセリン飽和脂肪酸エステル」に相当し、用語<B>は、図5の「ポリオキシエチレンジグリセリン直鎖飽和脂肪酸エステル」に相当する。なお、図5~6などにおいては、理解の容易化のために、請求項の番号が請求項の文章とは別個に表示されている。 First, in the data of the patent document group shown in FIG. 5 (only a part of which is shown), terms (words shown in bold) in the term group included in the claims are picked up. In FIG. 5, for ease of understanding, the picked terms are expressed as A to H, resulting in the state shown in FIG. For example, the term <A> in Figure 6 corresponds to "polyoxyethylene diglycerin saturated fatty acid ester" in Figure 5, and the term <B> corresponds to "polyoxyethylene diglycerin linear saturated fatty acid ester" in Figure 5. Equivalent to. Note that in FIGS. 5 and 6, the claim numbers are displayed separately from the claim text for ease of understanding.

次いで、図6に示すデータ群から、特許文献の請求項において用語が1つしか含まれていない請求項を削除することにより、図7に示すように、2つ以上の用語が特許文献の請求項に含まれているデータ群が作成される。 Next, by deleting claims in which only one term is included in the claims of the patent document from the data group shown in FIG. 6, as shown in FIG. The data group included in the term is created.

さらに、図8に示すように、請求項に含まれる2つ以上の用語の組み合わせである用語ペアを「用語1,用語2」としてピックアップすることにより、前述した図4の特徴量データが作成される。例えば、図8の出願番号2000-321321の公報の場合、請求項1に含まれている用語がA~Cの3つであることにより、用語ペアは、「A,B」、「B,A」、「B,C」、「C,B」、「A,C」及び「C,A」の6つとなる。 Furthermore, as shown in FIG. 8, by picking up a term pair that is a combination of two or more terms included in a claim as "term 1, term 2", the feature amount data of FIG. 4 described above is created. Ru. For example, in the case of the publication with application number 2000-321321 in FIG. ”, “B, C”, “C, B”, “A, C”, and “C, A”.

そして、学習データ作成部14では、データ処理装置1内の地位概念データベース21を参照することにより、前述した図4の特徴量データから図9に示す学習データが作成される。ここで、地位概念データベース21は、図10に示すように、用語1及び用語2の間の上位概念及び下位概念の関係などを表す地位概念関係を定義したものである。 Then, the learning data creation unit 14 creates the learning data shown in FIG. 9 from the feature amount data of FIG. 4 described above by referring to the status concept database 21 in the data processing device 1. Here, as shown in FIG. 10, the status concept database 21 defines status concept relationships that represent the relationship between higher-level concepts and lower-level concepts between term 1 and term 2.

図10において、ラベルの値は、用語ペア間の地位概念関係を表しており、具体的には、ラベルの値が「1」であることは、用語1が用語2の上位概念であることを表している。また、ラベルの値が「0」であることは、用語1が用語2の下位概念であることを表しており、ラベルの値が「2」であることは、用語1と用語2が上位概念及び下位概念の関係にないことを表している。 In FIG. 10, the label value represents the status concept relationship between term pairs. Specifically, a label value of "1" indicates that term 1 is a superordinate concept of term 2. represents. Also, a label value of "0" indicates that term 1 is a subordinate concept of term 2, and a label value of "2" indicates that term 1 and term 2 are superordinate concepts. and indicates that there is no relationship between them and subordinate concepts.

なお、本実施形態では、値1が第1所定値に相当し、値0が第2所定値に相当する。また、第1所定値及び第2所定値は、上記の値に限らず、様々な値に設定可能である。例えば、値10及び値0を第1所定値及び第2所定値にそれぞれ設定してもよく、値100及び値0を第1所定値及び第2所定値にそれぞれ設定してもよい。 Note that in this embodiment, the value 1 corresponds to the first predetermined value, and the value 0 corresponds to the second predetermined value. Further, the first predetermined value and the second predetermined value are not limited to the above values, but can be set to various values. For example, the value 10 and the value 0 may be set as the first predetermined value and the second predetermined value, respectively, and the value 100 and the value 0 may be set as the first predetermined value and the second predetermined value, respectively.

学習データ作成部14では、以上の地位概念データベース21を参照し、用語ペア間の地位概念関係を表すラベルを特徴量データに付加することにより、前述した図9の学習データが作成される。 The learning data creation unit 14 creates the learning data shown in FIG. 9 described above by referring to the status concept database 21 and adding a label representing the status concept relationship between term pairs to the feature amount data.

次いで、モデル学習部15(モデル記憶部)では、以上のように作成された学習データを用いて、所定の学習アルゴリズム(例えば、Transformerの自然言語モデル)により、分類モデルである予測モデルの学習が実行される。なお、以下の説明では、学習を実行済みの予測モデルを「学習済みモデル」という。この学習済みモデルは、モデル学習部15に記憶される。 Next, the model learning unit 15 (model storage unit) uses the training data created as described above to train a predictive model, which is a classification model, using a predetermined learning algorithm (for example, Transformer's natural language model). executed. Note that in the following description, a predictive model that has undergone learning will be referred to as a "trained model." This learned model is stored in the model learning section 15.

次に、地位概念データ群作成部16では、学習済みモデル及び特徴量データを用いて、地位概念データ群が作成される。この地位概念データ群は、前述した用語ペアの用語を上位概念及び下位概念の関係に従うように並べたツリー状の画像データ(図15参照)であり、以下に述べる手法により作成される。 Next, the status concept data group creation unit 16 creates a status concept data group using the learned model and the feature data. This status concept data group is tree-shaped image data (see FIG. 15) in which the terms of the term pair described above are arranged according to the relationship between superordinate concepts and subordinate concepts, and is created by the method described below.

すなわち、地位概念データ群作成部16では、特徴量データを学習済みモデルに入力したときの学習済みモデルの出力のラベルの値に基づいて、用語ペア間の地位概念関係が判定されるとともに、その判定結果に基づいて、用語ペアの用語を上位概念又は下位概念の関係に従って並べることにより、地位概念データ群が作成される。 That is, the status concept data group creation unit 16 determines the status concept relationship between the term pairs based on the label value of the output of the trained model when the feature data is input to the trained model, and also determines the status concept relationship between the term pairs. Based on the determination result, a status concept data group is created by arranging the terms of the term pair according to the relationship of superordinate concepts or subordinate concepts.

より具体的には、学習済みモデルの出力のラベルの値が「1」又は「0」であるときには、用語ペアの2つの用語が地位概念関係に従って並べられる。一方、学習済みモデルの出力のラベルの値が「2」であるとき、すなわち用語ペアの2つの用語が上位概念又は下位概念の関係にないときには、2つの用語は上位概念又は下位概念の関係で並べられることがない。 More specifically, when the value of the label of the output of the trained model is "1" or "0", the two terms of the term pair are arranged according to the status-concept relationship. On the other hand, when the value of the label of the output of the trained model is "2", that is, when the two terms in the term pair are not in the relationship of a superordinate concept or a subordinate concept, the two terms are in a relation of a superordinate concept or a subordinate concept. It is never sorted.

例えば、前述した図8の特徴量データにおいて、出願番号2000-321321の請求項2のデータが学習済みモデルに入力された場合、学習済みモデルの出力における用語ペア「A,B」のラベルは、用語Aの方が上位概念であることにより値1となるとともに、用語ペア「B,C」のラベルは、用語Bと用語Cは上位概念又は下位概念の関係にないことにより、値2となる。さらに、用語ペア「C,A」のラベルは、用語Aの方が上位概念であることにより値0となる。 For example, in the feature amount data of FIG. 8 described above, if the data of claim 2 of application number 2000-321321 is input to the trained model, the label of the term pair "A, B" in the output of the trained model is Term A has a value of 1 because it is a superordinate concept, and the label of term pair "B, C" has a value of 2 because term B and term C are not in a superordinate or subordinate concept relationship. . Furthermore, the label of the term pair "C, A" has a value of 0 because term A is a higher-level concept.

それにより、3つの用語A~Cの地位概念データ群は、図11に示すように、下位概念である用語B、Cが上位概念である用語Aにぶら下がる状態で作成される。ここで、前述した図5と図8を参照すると明らかなように、図11における用語Aは、「ポリオキシエチレンジグリセリン飽和脂肪酸エステル(図11では「飽和脂肪酸」と表記)」であり、用語Bは、「ポリオキシエチレンジグリセリン直鎖飽和脂肪酸エステル(図11では「直鎖」と表記)」である。また、用語Cは、「ポリオキシエチレンジグリセリン分岐飽和脂肪酸エステル(図11では「分岐」と表記)」である。 As a result, a status concept data group of three terms A to C is created with terms B and C, which are subordinate concepts, hanging from term A, which is a superordinate concept, as shown in FIG. Here, as is clear from FIG. 5 and FIG. 8 described above, the term A in FIG. 11 is "polyoxyethylene diglycerin saturated fatty acid ester (indicated as "saturated fatty acid" in FIG. 11)" B is "polyoxyethylene diglycerin linear saturated fatty acid ester (denoted as "linear" in FIG. 11)." Moreover, the term C is "polyoxyethylene diglycerin branched saturated fatty acid ester (denoted as "branched" in FIG. 11)."

さらに、前述した図8の特徴量データにおいて、出願番号2000-321321の請求項3のデータが学習済みモデルに入力された場合、学習済みモデルの出力における用語ペア「B,D」のラベルは、用語Bの方が上位概念であることにより値1となる。それにより、2つの用語B,Dを含む地位概念データ群は、図12に示すように、下位概念である用語Dが上位概念である用語Bにぶら下がる状態で作成される。前述した図5と図8を参照すると明らかなように、この図12における用語Dは、「ポリオキシエチレンジグリセリンミリスチン酸エステル(図12では「ミリスチン酸」と表記)」である。 Furthermore, in the feature amount data of FIG. 8 described above, when the data of claim 3 of application number 2000-321321 is input to the trained model, the label of the term pair "B, D" in the output of the trained model is Term B has a value of 1 because it is a higher-level concept. As a result, a status concept data group including two terms B and D is created with term D, which is a subordinate concept, hanging from term B, which is a superordinate concept, as shown in FIG. As is clear from reference to FIGS. 5 and 8 described above, the term D in FIG. 12 is "polyoxyethylene diglycerin myristic acid ester (denoted as "myristic acid" in FIG. 12)."

また、前述した図8の特徴量データにおいて、出願番号2017-333333の請求項2,3のデータが学習済みモデルに入力された場合、上記と同じ原理により、図13に示すように、4つの用語A,C,E,Fの地位概念データ群が作成される。前述した図5と図8を参照すると明らかなように、図13における用語Eは、「ポリオキシエチレンジグリセリンイソパルミチン酸エステル(図13では「イソパルミチン酸」と表記)」であり、用語Dは、「ポリオキシエチレンジグリセリンイソステアリン酸エステル(図13では「イソステアリン酸」と表記)」である。 In addition, in the feature amount data of FIG. 8 described above, when the data of claims 2 and 3 of application number 2017-333333 are input to the learned model, four A status concept data group of terms A, C, E, and F is created. As is clear from FIG. 5 and FIG. 8 described above, the term E in FIG. 13 is "polyoxyethylene diglycerin isopalmitic acid ester (indicated as "isopalmitic acid" in FIG. 13)," and the term D is "polyoxyethylene diglycerin isostearate (denoted as "isostearic acid" in FIG. 13)."

さらに、前述した図8の特徴量データにおいて、出願番号2011-123456の請求項1,2のデータが学習済みモデルに入力された場合、上記と同じ原理により、図14に示すように、4つの用語B,D,G,Hの地位概念データ群が作成される。前述した図5と図8を参照すると明らかなように、図14における用語Gは、「ポリオキシエチレンジグリセリンモノミリスチン酸エステル(図14では「モノミリスチン酸」と表記)」であり、用語Hは、「ポリオキシエチレンジグリセリンジミリスチン酸エステル(図14では「ジミリスチン酸」と表記)」である。 Furthermore, in the feature amount data of FIG. 8 described above, when the data of claims 1 and 2 of application number 2011-123456 are input to the learned model, four A status concept data group of terms B, D, G, and H is created. As is clear from FIG. 5 and FIG. 8 described above, the term G in FIG. 14 is "polyoxyethylene diglycerin monomyristic acid ester (indicated as "monomyristic acid" in FIG. 14)," and the term H in FIG. is "polyoxyethylene diglycerol dimiristic acid ester (denoted as "dimyristic acid" in FIG. 14)."

以上の処理を継続して実行することにより、図15に示す地位概念データ群が最終的に作成される。この地位概念データ群は、各用語に対して特許文献の番号がリンクした状態で作成される。この場合、例えば、特許文献の番号としては、特許登録公報が発行されていて登録期間が残っているもの、及び、特許公開公報が発行されていて登録になる可能性が存在するものが各用語に対してリンク付けされるように構成してもよい。 By continuously executing the above processing, the status concept data group shown in FIG. 15 is finally created. This status concept data group is created with patent document numbers linked to each term. In this case, for example, the patent document numbers include those for which a patent registration gazette has been issued and the registration period remains, and those for which a patent publication gazette has been issued and there is a possibility of registration for each term. It may also be configured to be linked to.

そして、以上のように作成された地位概念データ群のデータが出力部17からディスプレイ1aに出力される(出力処理)。それにより、ディスプレイ1aには、図15に示す地位概念データ群が表示される。すなわち、用語「ポリオキシエチレンジグリセリン飽和脂肪酸エステル」を最上位概念とし、これにぶら下がる状態で、下位概念の用語「ポリオキシエチレンジグリセリン直鎖飽和脂肪酸エステル」及び用語「ポリオキシエチレンジグリセリン分岐飽和脂肪酸エステル」が表示される。 Then, the data of the status concept data group created as described above is output from the output unit 17 to the display 1a (output processing). Thereby, the status concept data group shown in FIG. 15 is displayed on the display 1a. That is, the term "polyoxyethylene diglycerin saturated fatty acid ester" is taken as the top concept, and the term "polyoxyethylene diglycerin linear saturated fatty acid ester" and the term "polyoxyethylene diglycerin branched" are defined as subordinate concepts. "Saturated fatty acid ester" is displayed.

さらに、用語「ポリオキシエチレンジグリセリン直鎖飽和脂肪酸エステル」には、これにぶら下がる状態で、下位概念の用語「ポリオキシエチレンジグリセリンミリスチン酸エステル」などが表示され、用語「ポリオキシエチレンジグリセリン分岐飽和脂肪酸エステル」には、これぶら下がる状態で、下位概念の用語「ポリオキシエチレンジグリセリンイソステアリン酸エステル」などが表示される。 In addition, the term "polyoxyethylene diglycerin linear saturated fatty acid ester" displays subordinate terms such as "polyoxyethylene diglycerin myristate ester", and the term "polyoxyethylene diglycerin "Branched saturated fatty acid ester" is displayed with subordinate terms such as "polyoxyethylene diglycerin isostearate".

このよう地位概念データ群がディスプレイ1aに表示されている状態で、ユーザが入力インターフェース1cを介して、地位概念データ群のいずれかの用語を選択した場合、その用語を請求項に含む特許文献の番号が表示される。例えば、図16に示すように、用語「イソステアリン酸」が選択された場合には、用語「ポリオキシエチレンジグリセリンイソステアリン酸エステル」を請求項に含む特許文献の番号(特願2011-111111、特願2012-222222、・・・)が表示される。 When the user selects any term in the status concept data group via the input interface 1c while the status concept data group is displayed on the display 1a, if the user selects any term in the status concept data group, the patent document that includes that term in a claim A number will be displayed. For example, as shown in FIG. 16, when the term "isostearic acid" is selected, the number of the patent document including the term "polyoxyethylene diglycerin isostearate" in the claim (Japanese Patent Application No. 2011-111111, 2012-222222,...) is displayed.

また、平均値算出部18では、特徴量データを学習済みモデルに入力した際の学習済みモデルの出力に基づき、各用語ペアのラベルの平均値が算出される。この場合、各用語ペアのラベルが「0」又は「1」であるものにおいて、そのラベルの平均値が算出される。 Further, the average value calculation unit 18 calculates the average value of the labels of each term pair based on the output of the trained model when the feature amount data is input to the trained model. In this case, the average value of the labels of each pair of terms whose labels are "0" or "1" is calculated.

そして、出力部17では、以上のように算出された各用語ペアのラベルの平均値において、ラベルの平均値が所定範囲内にある用語ペアのデータがディスプレイ1aに出力される(データ出力処理)。それにより、ユーザは、学習データにおける、ラベルの平均値が所定範囲内にある用語ペアのラベルを把握することができる。この所定範囲は、ユーザにより、予測モデルの予測精度が低く、学習データを修正する必要があると判断できるような値(例えば、0.3~0.7)に設定されている。 Then, in the output unit 17, data of term pairs whose label average values are within a predetermined range among the label average values of each term pair calculated as described above are output to the display 1a (data output processing). . Thereby, the user can grasp the labels of term pairs in the learning data whose average value falls within a predetermined range. This predetermined range is set by the user to a value (for example, 0.3 to 0.7) that allows the user to determine that the prediction accuracy of the prediction model is low and that it is necessary to modify the learning data.

したがって、ユーザは、学習データにおける、ラベルの平均値が所定範囲内にある用語ペアのラベルに対して、入力インターフェース1cを操作して自身の判断で「0」、「1」又は「2」を付与することにより、修正した学習データを作成することができる。その結果、そのような修正された学習データを用いて、予測モデルの学習を再度、実行した場合、予測モデルの予測精度を向上させることができる。この場合、ユーザは、学習データに加えて又は代えて、地位概念データベース21内のデータの追加又はデータのラベルの修正を実施してもよい。 Therefore, the user operates the input interface 1c to assign "0", "1", or "2" to the labels of term pairs in the learning data whose average value falls within a predetermined range. By adding this, it is possible to create modified learning data. As a result, when the predictive model is trained again using such modified learning data, the predictive accuracy of the predictive model can be improved. In this case, the user may add data or modify the label of the data in the status concept database 21 in addition to or in place of the learning data.

データ処理装置1では、以上の処理が所定キーワードを変更して繰り返し実行されることにより、例えば、図16に示すような地位概念データ群が作成される。 In the data processing device 1, the above-described processing is repeatedly executed by changing a predetermined keyword, thereby creating a status concept data group as shown in FIG. 16, for example.

なお、用語群取得部12によって取得された用語群のうち、出現頻度が1~N(Nは整数)番目の用語が所定キーワードに順に設定されることにより、以上の処理が繰り返し実行されるように構成してもよい。その際、所定キーワードの設定は、自動的に設定されるように構成してもよい。 Note that among the term groups acquired by the term group acquisition unit 12, the terms with the 1st to Nth (N is an integer) appearance frequency are sequentially set as predetermined keywords, so that the above process is repeatedly executed. It may be configured as follows. In this case, the setting of the predetermined keyword may be configured to be automatically set.

また、以上のデータ処理装置1の要素11~17においては、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワード(例えば、ポリオキシエチレンジグリセリンステアリン酸エステル)が入力された場合、以下に述べるように各種処理が実行される。 In addition, in the elements 11 to 17 of the data processing device 1 described above, a second predetermined keyword (for example, polyoxyethylene diglycerin stearate ester ) is input, various processes are executed as described below.

すなわち、特許文献群取得部11では、ユーザによる入力インターフェース1cの操作によって、第2所定キーワードが入力された場合、第2所定キーワードに基づいて、データ処理装置1内の特許文献データベース20を検索することにより、第2特許文献群が取得される。 That is, when the second predetermined keyword is input by the user's operation of the input interface 1c, the patent document group acquisition unit 11 searches the patent document database 20 in the data processing device 1 based on the second predetermined keyword. As a result, the second patent document group is obtained.

次いで、用語群取得部12では、特許文献群及び第2特許文献をデータマイニングすることにより、前述した図3の用語群と同様に、第2用語群が取得される(図示せず)。この第2用語群は、特許文献群及び第2特許文献群の請求項における用語のうち、出現頻度の高い方から順に所定順位までの用語の集合として取得される。 Next, the term group acquisition unit 12 performs data mining on the patent document group and the second patent document to obtain a second term group (not shown) in the same way as the term group in FIG. 3 described above. This second term group is acquired as a set of terms in the patent document group and the claims of the second patent document group, ranked in descending order of frequency of appearance up to a predetermined rank.

さらに、特徴量データ作成部13では、特許文献群、第2特許文献群及び用語群に基づいて、前述した図4の特徴量データと同様に、第2特徴量データが作成される(図示せず)。 Furthermore, the feature data creation unit 13 creates second feature data based on the patent document group, the second patent document group, and the term group, similar to the feature data in FIG. 4 described above (not shown). figure).

また、学習データ作成部14では、データ処理装置1内の地位概念データベース21を参照することにより、上記の第2特徴量データから、前述した図9の学習データと同様に、第2学習データが作成される(図示せず)。 Further, the learning data creation unit 14 generates second learning data from the second feature amount data by referring to the status concept database 21 in the data processing device 1, similar to the learning data in FIG. 9 described above. (not shown).

次いで、モデル学習部15では、以上のように作成された第2学習データを用いて、前述した所定の学習アルゴリズムにより、学習済みモデルの追加学習が実行される。以下、第2学習データを用いた追加学習が実行済みである予測モデルを「第2学習済みモデル」という。 Next, in the model learning unit 15, additional learning of the trained model is performed using the second learning data created as described above and according to the predetermined learning algorithm described above. Hereinafter, a predictive model that has undergone additional learning using second learning data will be referred to as a "second trained model."

さらに、地位概念データ群作成部16では、第2学習済みモデル及び第2特徴量データを用いて、前述した図15の地位概念データ群と同様に、第2地位概念データ群が作成される(図示せず)。 Furthermore, the status concept data group creation unit 16 uses the second learned model and the second feature data to create a second status concept data group in the same manner as the status concept data group shown in FIG. (not shown).

そして、以上のように作成された第2地位概念データ群のデータが出力部17からディスプレイ1aに出力される。それにより、ディスプレイ1aには、第2地位概念データ群が表示される(図示せず)。この場合、第2地位概念データ群に加えて、地位概念データ群がディスプレイ1aに同時に表示されるように構成してもよい。 Then, the data of the second status concept data group created as described above is outputted from the output unit 17 to the display 1a. Thereby, the second status concept data group is displayed on the display 1a (not shown). In this case, the status concept data group may be displayed simultaneously on the display 1a in addition to the second status concept data group.

次に、本実施形態のデータ処理装置1によって実行される各種演算処理について説明する。まず、図17を参照しながら、学習済みモデル作成処理について説明する。この学習済みモデル作成処理は、以下に述べるように、学習済みモデルを作成するためのものであり、ユーザの入力インターフェース1cの操作により、前述した所定キーワードが入力されたときに実行される。 Next, various calculation processes executed by the data processing device 1 of this embodiment will be explained. First, the trained model creation process will be described with reference to FIG. 17. As described below, this trained model creation process is for creating a trained model, and is executed when the above-mentioned predetermined keyword is input by the user's operation of the input interface 1c.

なお、以下の説明において算出される各種の値は、データ処理装置1のストレージ又はメモリ内に記憶されるものとする。 It is assumed that various values calculated in the following explanation are stored in the storage or memory of the data processing device 1.

この学習済みモデル作成処理では、まず、特許文献群の取得処理が実行される(図17/STEP1)。この取得処理では、前述したように、所定キーワードに基づいて、特許文献データベース20を検索することにより、特許文献群が取得される(特許文献群取得ステップ)。 In this trained model creation process, first, a patent document group acquisition process is executed (FIG. 17/STEP 1). In this acquisition process, as described above, a patent document group is acquired by searching the patent document database 20 based on a predetermined keyword (patent document group acquisition step).

次いで、用語群の取得処理が実行される(図17/STEP2)。この取得処理では、前述したように、特許文献群をデータマイニングすることにより、用語群が取得される(用語群取得ステップ)。 Next, a term group acquisition process is executed (FIG. 17/STEP 2). In this acquisition process, as described above, a term group is acquired by data mining a patent document group (term group acquisition step).

次に、特徴量データの作成処理が実行される(図17/STEP3)。この作成処理では、前述したように、特許文献群及び用語群に基づいて、図4に示す特徴量データが作成される(特徴量データ作成ステップ)。 Next, feature amount data creation processing is executed (FIG. 17/STEP 3). In this creation process, as described above, the feature amount data shown in FIG. 4 is created based on the patent document group and term group (feature amount data creation step).

この特徴量データの作成処理に続けて、学習データの作成処理が実行される(図17/STEP4)。この作成処理では、前述したように、地位概念データベース21内に存在するデータを用いて、図4の特徴量データから図9に示す学習データが作成される(学習データ作成ステップ)。 Following this feature data creation process, learning data creation processing is executed (FIG. 17/STEP 4). In this creation process, as described above, the learning data shown in FIG. 9 is created from the feature amount data of FIG. 4 using data existing in the status concept database 21 (learning data creation step).

次いで、モデル学習処理が実行される(図17/STEP5)。このモデル学習処理では、前述したように、学習データを用いて、所定の学習アルゴリズムにより、分類モデルである予測モデルの学習が実行される(モデル学習ステップ)。以上の処理が実行されることにより、学習済みモデルが作成される。 Next, model learning processing is executed (FIG. 17/STEP 5). In this model learning process, as described above, a predictive model, which is a classification model, is trained using learning data according to a predetermined learning algorithm (model learning step). By performing the above processing, a trained model is created.

次に、図18を参照しながら、地位概念データ群処理について説明する。この地位概念データ群処理は、以下に述べるように、地位概念データ群を作成してディスプレイ1aに表示するためのものであり、ユーザによる入力インターフェース1cの所定操作に伴って実行される。 Next, status concept data group processing will be explained with reference to FIG. As described below, this status concept data group processing is for creating a status concept data group and displaying it on the display 1a, and is executed in accordance with a predetermined operation of the input interface 1c by the user.

この地位概念データ群処理では、まず、地位概念データ群の作成処理が実行される(図18/STEP10)。この作成処理では、前述したように、学習済みモデル及び特徴量データを用いて、図15に示す地位概念データ群が作成される(地位概念データ群作成ステップ)。 In this status concept data group processing, first, a status concept data group creation process is executed (FIG. 18/STEP 10). In this creation process, as described above, the status concept data group shown in FIG. 15 is created using the trained model and feature data (status concept data group creation step).

次いで、地位概念データ群の表示処理が実行される(図18/STEP11)。この表示処理では、前述したように、図15に示す地位概念データ群がディスプレイ1aに表示される(出力ステップ)。 Next, display processing of the status concept data group is executed (FIG. 18/STEP 11). In this display process, as described above, the status concept data group shown in FIG. 15 is displayed on the display 1a (output step).

次に、図19を参照しながら、再設定用データ処理について説明する。この再設定用データ処理は、以下に述べるように、ラベルの再設定が必要なデータをディスプレイ1aに表示するためのものであり、ユーザによる入力インターフェース1cの所定操作に伴って実行される。 Next, the resetting data processing will be described with reference to FIG. 19. As described below, this reset data processing is for displaying data that requires label reset on the display 1a, and is executed in response to a predetermined operation of the input interface 1c by the user.

この再設定用データ処理では、まず、平均値算出処理が実行される(図19/STEP20)。この平均値算出処理では、特徴量データを学習済みモデルに入力したときの学習済みモデルの出力における用語ペアのラベルの平均値が算出される。 In this resetting data processing, first, average value calculation processing is executed (FIG. 19/STEP 20). In this average value calculation process, the average value of labels of term pairs in the output of the trained model when the feature amount data is input to the trained model is calculated.

次いで、再設定用データの作成処理が実行される(図19/STEP21)。この作成処理では、学習済みモデルの出力における用語ペアのラベルの平均値が前述した所定範囲内にある用語ペアが選択され、これの用語ペア及びラベルの値を含むように、再設定用データが作成される(図示せず)。 Next, a process for creating resetting data is executed (FIG. 19/STEP 21). In this creation process, term pairs whose average value of the label of the term pair in the output of the trained model is within the above-mentioned predetermined range are selected, and the reconfiguration data is created to include the term pair and label value. (not shown).

次に、再設定用データの表示処理が実行される(図19/STEP22)。この表示処理では、再設定用データがディスプレイ1aに表示される(出力ステップ)。それにより、ユーザは、予測精度の低い用語ペアのデータを確認して、その用語ペアのラベルを修正した学習データを自身で作成することが可能になる。さらに、そのような修正した学習データを用いて、予測モデルの学習を再実行した場合には、学習済みモデルの予測精度を高めることができる。この場合、ユーザは、学習データに加えて又は代えて、データの追加又はデータのラベルの修正を実施してもよい。 Next, display processing of the reset data is executed (FIG. 19/STEP 22). In this display process, the resetting data is displayed on the display 1a (output step). This allows the user to check the data of term pairs with low prediction accuracy and create learning data by themselves with corrected labels for the term pairs. Furthermore, when learning the predictive model is re-executed using such modified learning data, the predictive accuracy of the trained model can be improved. In this case, the user may add data or modify the label of the data in addition to or instead of the learning data.

次に、図20を参照しながら、第2学習済みモデル作成処理について説明する。この第2学習済みモデル作成処理は、以下に述べるように、第2学習済みモデルを作成するためのものであり、ユーザの入力インターフェース1cの操作により、前述した第2所定キーワードが入力されたときに実行される。 Next, the second trained model creation process will be described with reference to FIG. 20. As described below, this second trained model creation process is for creating a second trained model, and is performed when the second predetermined keyword described above is input by the user's operation of the input interface 1c. is executed.

この第2学習済みモデル作成処理では、まず、第2特許文献群の取得処理が実行される(図20/STEP31)。この取得処理では、前述したように、第2所定キーワードに基づいて、特許文献データベース20を検索することにより、第2特許文献群が取得される(特許文献群取得ステップ)。 In this second trained model creation process, first, a second patent document group acquisition process is executed (FIG. 20/STEP 31). In this acquisition process, as described above, the second patent document group is acquired by searching the patent document database 20 based on the second predetermined keyword (patent document group acquisition step).

次いで、第2用語群の取得処理が実行される(図20/STEP32)。この取得処理では、前述したように、特許文献群及び第2特許文献群をデータマイニングすることにより、第2用語群が取得される(用語群取得ステップ)。 Next, a second term group acquisition process is executed (FIG. 20/STEP 32). In this acquisition process, as described above, the second term group is acquired by data mining the patent document group and the second patent document group (term group acquisition step).

次に、第2特徴量データの作成処理が実行される(図20/STEP33)。この作成処理では、前述したように、特許文献群、第2特許文献群及び第2用語群に基づいて、第2特徴量データが作成される(特徴量データ作成ステップ)。 Next, a process for creating second feature amount data is executed (FIG. 20/STEP 33). In this creation process, as described above, the second feature amount data is created based on the patent document group, the second patent document group, and the second term group (feature amount data creation step).

この第2特徴量データの作成処理に続けて、第2学習データの作成処理が実行される(図20/STEP34)。この作成処理では、前述したように、地位概念データベース21を参照することにより、第2特徴量データから第2学習データが作成される(学習データ作成ステップ)。 Following the process of creating the second feature amount data, the process of creating the second learning data is executed (FIG. 20/STEP 34). In this creation process, as described above, the second learning data is created from the second feature data by referring to the status concept database 21 (learning data creation step).

次いで、第2モデル学習処理が実行される(図20/STEP35)。この第2モデル学習処理では、前述したように、第2学習データを用いて、所定の学習アルゴリズムにより、予測モデルの学習が実行される(モデル学習ステップ)。以上の処理が実行されることにより、第2学習済みモデルが作成される。 Next, a second model learning process is executed (FIG. 20/STEP 35). In this second model learning process, as described above, learning of the predictive model is executed using the second learning data according to a predetermined learning algorithm (model learning step). By performing the above processing, a second trained model is created.

次に、図21を参照しながら、第2地位概念データ群処理について説明する。この第2地位概念データ群処理は、以下に述べるように、第2地位概念データ群を作成してディスプレイ1aに表示するためのものであり、ユーザによる入力インターフェース1cの所定操作に伴って実行される。 Next, the second status concept data group processing will be explained with reference to FIG. As described below, this second status concept data group processing is for creating a second status concept data group and displaying it on the display 1a, and is executed in accordance with a predetermined operation of the input interface 1c by the user. Ru.

この第2地位概念データ群処理では、まず、第2地位概念データ群の作成処理が実行される(図21/STEP40)。この作成処理では、前述したように、第2学習済みモデル及び第2特徴量データを用いて、第2地位概念データ群が作成される(第2地位概念データ群作成ステップ)。 In this second status concept data group process, first, a process for creating a second status concept data group is executed (FIG. 21/STEP 40). In this creation process, as described above, the second status concept data group is created using the second trained model and the second feature data (second status concept data group creation step).

次いで、第2地位概念データ群の表示処理が実行される(図21/STEP41)。この表示処理では、前述したように、第2地位概念データ群がディスプレイ1aに表示される(出力ステップ)。この場合、第2地位概念データ群に加えて、地位概念データ群が同時にディスプレイ1aに表示されるように構成してもよい。 Next, display processing of the second status concept data group is executed (FIG. 21/STEP 41). In this display process, as described above, the second status concept data group is displayed on the display 1a (output step). In this case, the status concept data group may be simultaneously displayed on the display 1a in addition to the second status concept data group.

以上のように、第1実施形態のデータ処理装置1によれば、特徴量データの用語ペアにおける地位概念関係を表すラベルを特徴量データに付加したデータとして、学習データが作成され、この学習データを用いて、分類モデルである予測モデルの学習が実行される。そして、特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの用語ペアの上位概念及び下位概念の関係を表す概念データ群が作成される。 As described above, according to the data processing device 1 of the first embodiment, learning data is created as data in which a label representing a status concept relationship in a term pair of feature data is added to feature data, and this learning data Learning of a prediction model, which is a classification model, is performed using . Then, using the output of the trained model when the feature data is input to the trained model, a conceptual data group representing the relationship between the superordinate concept and the subordinate concept of the term pair of the feature data is created.

ここで、特徴量データは、用語群に含まれる用語のうち、特許文献群の請求項に含まれる2つの用語のペアである用語ペアを含むものである。それにより、このような特徴量データを学習済みモデルに対して入力した場合、学習済みモデルの出力は、特徴量データの用語ペアの上位概念及び下位概念の関係を適切に予測したものとなる。 Here, the feature amount data includes a term pair that is a pair of two terms included in a claim of a patent document group among terms included in a term group. As a result, when such feature data is input to a trained model, the output of the trained model appropriately predicts the relationship between the superordinate concept and the subordinate concept of the term pair of the feature data.

したがって、そのような予測モデルの出力を用いて地位概念データ群を作成することにより、地位概念データ群を用語ペアの上位概念及び下位概念の関係が適切に分類されたデータとして作成することができる。これに加えて、特許文献のデータベースを検索することにより、特許文献群が、所定キーワードを請求項に含む特許文献の集合として取得される。それにより、地位概念データ群を、特許文献の集合の請求項における用語間の上位概念及び下位概念の関係を適切に分類したデータとして作成することができる。 Therefore, by creating a status concept data group using the output of such a prediction model, it is possible to create a status concept data group as data in which the relationships between the higher-level concepts and lower-level concepts of term pairs are appropriately classified. . In addition, by searching a patent document database, a patent document group is obtained as a set of patent documents that include a predetermined keyword in a claim. Thereby, the status concept data group can be created as data that appropriately classifies the relationships between the higher-level concepts and lower-level concepts between the terms in the claims of the set of patent documents.

さらに、地位概念データ群が、用語ペアの用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成され、ディスプレイ1aに表示される。それにより、ユーザは、用語間の上位概念及び下位概念の関係を容易に把握することができる。また、ユーザによる入力インターフェース1cの操作により、地位概念データ群の用語が選択された際、その用語を請求項に含む特許文献の番号が表示される。それにより、ユーザは、用語ペアの上位概念及び下位概念の関係に加えて、用語ペアの各々の用語が含まれる特許文献の番号をさらに把握することができる。 Furthermore, a status concept data group is created as tree-like graphic data in which the terms of the term pair are arranged according to the relationship between superordinate concepts and subordinate concepts, and is displayed on the display 1a. Thereby, the user can easily grasp the relationship between the superordinate concepts and subordinate concepts between terms. Furthermore, when a term in the status concept data group is selected by the user's operation of the input interface 1c, the number of the patent document that includes the term in a claim is displayed. Thereby, the user can further grasp the number of the patent document in which each term in the term pair is included, in addition to the relationship between the superordinate concept and the subordinate concept of the term pair.

また、再設定用データの作成処理では、再設定用データが、学習済みモデルの出力における用語ペアのラベルの平均値が所定範囲内にある用語ペア及びラベルの値を含むように作成され、ディスプレイ1aに表示される。それにより、ユーザは、予測精度の低い用語ペアのデータを確認して、用語ペアのラベルを修正した学習データを自身で作成したり、地位概念データの内容を追加・修正したりすることができる。さらに、そのような修正した学習データを用いて、予測モデルの学習を再実行した場合には、学習済みモデルの予測精度を高めることができる。 In addition, in the reconfiguration data creation process, the reconfiguration data is created so as to include term pairs and label values whose average value of the label of the term pair in the output of the trained model is within a predetermined range, and is displayed. 1a. As a result, users can check data on term pairs with low prediction accuracy, create their own learning data with corrected labels for term pairs, and add/revise the content of status concept data. . Furthermore, when learning the predictive model is re-executed using such modified learning data, the predictive accuracy of the trained model can be improved.

一方、第2学習済みモデル作成処理では、第2所定キーワードに基づいて、第2特許文献群が取得され、特許文献群及び第2特許文献群をデータマイニングすることにより、第2用語群が取得され、特許文献群、第2特許文献群及び第2用語群に基づいて、第2特徴量データが作成される。さらに、第2特徴量データから第2学習データが作成され、この第2学習データを用いて予測モデルの学習が実行されることにより、第2学習済みモデルが作成されるとともに、第2学習済みモデル及び第2特徴量データを用いて、第2地位概念データ群が作成される。それにより、第2地位概念データ群を、地位概念データ群に対して、概念、性質及び分類のうちの少なくとも1つが類似した用語を含むように作成することができる。 On the other hand, in the second learned model creation process, a second patent document group is acquired based on a second predetermined keyword, and a second term group is acquired by data mining the patent document group and the second patent document group. Then, second feature amount data is created based on the patent document group, the second patent document group, and the second term group. Further, second learning data is created from the second feature data, and learning of a predictive model is executed using this second learning data, thereby creating a second trained model and A second status concept data group is created using the model and the second feature data. Thereby, the second status concept data group can be created to include terms similar to the status concept data group in at least one of concepts, properties, and classifications.

なお、第1実施形態は、データ処理装置をパーソナルコンピュータタイプのデータ処理装置1で構成した例であるが、データ処理装置を、複数のパーソナルコンピュータ又は1つ以上のサーバ(この場合、サーバはクラウドサーバも含む)で構成してもよく、パーソナルコンピュータとサーバを組み合わせて構成してもよい。 Note that the first embodiment is an example in which the data processing device is configured with a personal computer type data processing device 1, but the data processing device is configured with a plurality of personal computers or one or more servers (in this case, the server is a cloud server). (including servers), or may be configured by combining a personal computer and a server.

また、第1実施形態は、出力装置として、ディスプレイ1aを用いた例であるが、本発明の出力装置は、これに限らず、データ処理装置からの地位概念データ群を出力できるものであればよい。例えば、データ処理装置がクラウドサーバである場合、クラウドサーバから出力された地位概念データ群を、通信網を介して受信して出力する端末装置(パーソナルコンピュータ又はプリンタなど)を出力装置として用いてもよい。 Further, although the first embodiment is an example in which the display 1a is used as the output device, the output device of the present invention is not limited to this, and any device that can output the status concept data group from the data processing device can be used. good. For example, if the data processing device is a cloud server, a terminal device (such as a personal computer or printer) that receives and outputs the status concept data group output from the cloud server via a communication network may be used as the output device. good.

さらに、第1実施形態は、所定キーワードが請求項に含まれる特許文献の集合を特許文献群として取得した例であるが、これに代えて、所定キーワードが特許文献内の請求項を含めた全文章のいずれかに含まれている特許文献の集合を特許文献群として取得してもよい。その場合には、特徴量データ及び学習データにおいて、請求項のデータが含まれないように構成してもよい。 Furthermore, the first embodiment is an example in which a set of patent documents in which a predetermined keyword is included in a claim is acquired as a patent document group; A set of patent documents included in any of the sentences may be acquired as a patent document group. In that case, the feature data and the learning data may be configured so that the claimed data is not included.

一方、第1実施形態は、特許文献番号が特徴量データ及び学習データに含まれるように構成した例であるが、これに変えて、特許文献番号が特徴量データ及び学習データに含まれていないように構成してもよい。その場合には、例えば、請求項と特許文献番号をリンク付けしたデータベースをデータ処理装置内に記憶しておき、地位概念データ群の用語が選択されたときに、特許文献番号を表示するように構成してもよい。 On the other hand, the first embodiment is an example in which the patent document number is included in the feature data and the learning data, but instead of this, the patent document number is not included in the feature data and the learning data. It may be configured as follows. In that case, for example, a database in which claims and patent document numbers are linked may be stored in the data processing device, and the patent document number may be displayed when a term in the status concept data group is selected. may be configured.

また、第1実施形態は、地位概念データ群が図15に示す2次元の画像データとして作成された例であるが、地位概念データ群は、図22に示すような3次元形式で表された画像データとして作成されてもよく、表形式のデータとして作成されてもよい。 Further, in the first embodiment, the status concept data group is created as two-dimensional image data as shown in FIG. 15, but the status concept data group is expressed in a three-dimensional format as shown in FIG. It may be created as image data or as tabular data.

さらに、地位概念データ群を作成する際、各用語について、名寄せ辞書(図示せず)を参照して名寄せ処理を実施した後、地位概念データ群を作成するようにしてもよい。 Furthermore, when creating the status concept data group, the status concept data group may be created after performing name matching processing for each term with reference to a name matching dictionary (not shown).

一方、第1実施形態は、所定の学習アルゴリズムとして、Transformerの自然言語モデルを用いた例であるが、所定の学習アルゴリズムとして、Random Forest、XGBoost、サポートベクターマシン又はニューラルネットワークなどを用いてもよい。 On the other hand, in the first embodiment, a Transformer natural language model is used as the predetermined learning algorithm, but Random Forest, XGBoost, support vector machine, neural network, etc. may also be used as the predetermined learning algorithm. .

また、第1実施形態は、学習済みモデルとして、モデル学習部15で学習を実行した予測モデルを用いた例であるが、これに代えて、汎用的な学習済みモデル(例えば、BERT:Bidirectional Encoder Representations from Transformers)を、ファインチューニングすることなくそのまま用いてもよい。 Furthermore, although the first embodiment is an example in which a predictive model trained by the model learning unit 15 is used as a trained model, instead of this, a general-purpose trained model (for example, BERT: Bidirectional Encoder Representations from Transformers) may be used as is without fine-tuning.

さらに、学習済みモデルとして、転移学習により作成された学習済みモデルを用いてもよい。例えば、情報処理装置1で作成された学習データが、サーバに送信され、サーバにおいてBERTなどの予測モデルの学習を実行することにより、学習済みモデルが作成されるとともに、その学習済みモデルが情報処理装置1に送信されて記憶されるように構成してもよい。その場合には、情報処理装置1において、特徴量データが作成される毎に、予測モデルの学習を実行することなく、特徴量データを学習済みモデルに入力することにより、地位概念データ群を作成すればよい。 Furthermore, a trained model created by transfer learning may be used as the trained model. For example, learning data created by the information processing device 1 is sent to a server, and by executing learning of a predictive model such as BERT on the server, a trained model is created, and the trained model is used for information processing. The information may be configured to be transmitted to the device 1 and stored therein. In that case, the information processing device 1 creates a status concept data group by inputting the feature data into the learned model without executing learning of the predictive model every time the feature data is created. do it.

一方、第1実施形態の地位概念データ群作成部16において、地位概念データ群が作成される毎に、この地位概念データ群における用語間の上位概念又は下位概念の関係を示すラベルを追加したデータを作成し、そのデータを図2の2点鎖線で示すように、地位概念データベース21に追加するように構成してもよい。このように構成した場合、そのようにデータ量が増加した地位概念データベースを用いて、学習データが作成されることにより、学習データによる予測モデルの学習効果をさらに向上させることができる。 On the other hand, in the status concept data group creation unit 16 of the first embodiment, each time a status concept data group is created, data is added with a label indicating the relationship between higher-level concepts or lower-level concepts between terms in this status concept data group. may be created and the data may be added to the status concept database 21 as shown by the two-dot chain line in FIG. When configured in this way, learning data is created using the status concept database with such an increased amount of data, thereby making it possible to further improve the learning effect of the predictive model using the learning data.

また、第1実施形態は、情報処理装置1において、特徴量データが作成される毎に、学習データを作成し、予測モデルの学習(追加学習)を実行した例であるが、これに代えて、予測モデルの学習をM(Mは1以上の整数)回分、実行した以降は、特徴量データが作成された際、予測モデルの学習を実行することなく、特徴量データを学習済みモデルに入力することにより、地位概念データ群を作成するように構成してもよい。例えば、所定キーワードで学習を1回実行した学習済みモデルに対して、前述した第2特徴量データを入力することにより、第2地位概念データを作成するように構成してもよい。 Further, in the first embodiment, learning data is created every time feature data is created in the information processing device 1, and predictive model learning (additional learning) is executed. , after performing predictive model learning M times (M is an integer greater than or equal to 1), when feature data is created, the feature data is input to the trained model without performing predictive model learning. By doing so, a status concept data group may be created. For example, the second status concept data may be created by inputting the second feature data described above to a trained model that has been trained once using a predetermined keyword.

さらに、第1実施形態は、学習データ作成部14において学習データを作成した例であるが、これに代えて、ユーザが学習データを作成するように構成してもよい。 Furthermore, although the first embodiment is an example in which the learning data is created in the learning data creation section 14, the learning data may be created by the user instead.

また、第1実施形態は、所定キーワードとして「ポリオキシエチレンジグリセリン飽和脂肪酸エステル」を用いた例であるが、本発明の所定キーワードはこれに限らず、様々なキーワードが使用可能である。例えば、所定キーワードとして、シリコーン油などを用いてもよい。 Further, in the first embodiment, "polyoxyethylene diglycerin saturated fatty acid ester" is used as the predetermined keyword, but the predetermined keyword of the present invention is not limited to this, and various keywords can be used. For example, silicone oil or the like may be used as the predetermined keyword.

さらに、第1実施形態は、第2所定キーワードとして、「ポリオキシエチレンジグリセリンステアリン酸エステル」を用いた例であるが、本発明の第2所定キーワードは、これに限らず、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似であるものであればよい。例えば、「ポリオキシアルキレンポリグリセリルエーテル」が所定キーワードである場合には、「ポリオキシエチレンジグリセリルエーテル」を第2所定キーワードとして用いてもよい。 Furthermore, although the first embodiment is an example in which "polyoxyethylene diglycerin stearate" is used as the second predetermined keyword, the second predetermined keyword of the present invention is not limited to this. It is sufficient if at least one of the concepts, properties, and classifications is similar. For example, when "polyoxyalkylene polyglyceryl ether" is the predetermined keyword, "polyoxyethylene diglyceryl ether" may be used as the second predetermined keyword.

また、第1実施形態は、データ処理装置1内に記憶されている特許文献データベース20から特許文献群を取得した例であるが、例えば、特許文献データベースがデータ処理装置1以外のサーバなどの演算処理装置に記憶されている場合には、データ処理装置1と演算処理装置間の通信により、演算処理装置内の特許文献データベースから特許文献群を取得するように構成してもよい。 Furthermore, although the first embodiment is an example in which a patent document group is acquired from the patent document database 20 stored in the data processing device 1, for example, the patent document database may be When stored in the processing device, the patent documents may be configured to be acquired from a patent document database within the processing device through communication between the data processing device 1 and the arithmetic processing device.

さらに、第1実施形態は、データ処理装置1内に記憶されている地位概念データベース21を用いて学習データを作成した例であるが、例えば、地位概念データベースがデータ処理装置1以外のサーバなどの演算処理装置に記憶されている場合には、データ処理装置1と演算処理装置間の通信により、演算処理装置内の地位概念データベースを用いて学習データを作成するように構成してもよい。 Furthermore, although the first embodiment is an example in which learning data is created using the status concept database 21 stored in the data processing device 1, for example, the status concept database is stored in a server other than the data processing device 1. When stored in the arithmetic processing device, the learning data may be created using a status concept database in the arithmetic processing device through communication between the data processing device 1 and the arithmetic processing device.

一方、第1実施形態は、図10に示す地位概念データベース21を用いた例であるが、本発明の地位概念データベースは、これに限らず、用語ペア間の地位概念関係を表すものであればよい。例えば、地位概念データベースにおいて、用語1が用語2の上位概念であることを「>」の記号で表し、用語1が用語2の下位概念であることを「<」の記号で表すとともに、用語1と用語2が上位概念又は下位概念の関係にないことを「×」の記号で表してもよい。 On the other hand, the first embodiment is an example using the status concept database 21 shown in FIG. good. For example, in a status concept database, the symbol ">" indicates that term 1 is a superordinate concept of term 2, the symbol "<" indicates that term 1 is a subordinate concept of term 2, and the symbol "<" indicates that term 1 is a subordinate concept of term 2. The fact that Term 2 and Term 2 are not in a superordinate or subordinate concept relationship may be represented by an "x" symbol.

また、図10の地位概念データベース21において、用語1と用語2の関係を表すラベルとして、上位概念及び下位概念の関係をそれぞれ表す値「1」「0」のみが設定されているように構成してもよい。その場合には、学習データ作成部14において、特徴量データの用語ペアが地位概念データベース21に含まれていないときに、特徴量データの用語ペアにおける用語1と用語2の関係を表すラベルとして値「2」を設定するように構成すればよい。 In addition, the status concept database 21 in FIG. 10 is configured such that only the values "1" and "0" representing the relationships between the superordinate concept and the subordinate concept are set as labels expressing the relationship between term 1 and term 2. You can. In that case, when the term pair of the feature data is not included in the status concept database 21, the learning data creation unit 14 uses a value as a label representing the relationship between term 1 and term 2 in the term pair of the feature data. The configuration may be configured so that "2" is set.

さらに、図10の地位概念データベース21において、用語1と用語2の関係を表すラベルとして、前述した上位概念の関係、下位概念の関係、及び、上位概念又は下位概念の関係にないことをそれぞれ表す値「1」「0」「2」以外に、等位概念を表すラベルとして、値「3」が設定されているように構成してもよい。その場合には、学習データ作成部14において、学習データにおける用語ペアのラベルとして、「0」~「3」の値が設定されるように構成すればよい。 Furthermore, in the status concept database 21 of FIG. 10, as labels representing the relationship between term 1 and term 2, the above-mentioned superordinate concept relationship, subordinate concept relationship, and the absence of a superordinate concept or subordinate concept relationship are respectively indicated. In addition to the values "1", "0", and "2", the value "3" may be set as a label representing a coordinate concept. In that case, the learning data creation unit 14 may be configured to set values of "0" to "3" as labels for term pairs in the learning data.

次に、本発明の第2実施形態に係るデータ処理装置について説明する。本実施形態のデータ処理装置1A(図23参照)は、図1のデータ処理装置1と同一のパーソナルコンピュータタイプのものであるので、以下、異なる点を中心に説明する。また、第1実施形態と同一の構成に対しては同じ符号を付すとともに、その説明を省略する。 Next, a data processing device according to a second embodiment of the present invention will be described. Since the data processing apparatus 1A (see FIG. 23) of this embodiment is of the same personal computer type as the data processing apparatus 1 of FIG. 1, the following description will focus on the differences. Further, the same components as in the first embodiment are given the same reference numerals, and their explanations are omitted.

本実施形態のデータ処理装置1Aには、非特許文献データベース39、特許文献データベース40及び地位概念データベース41(図23参照)が記憶されている。これらのデータベース39~41の詳細については後述する。 The data processing device 1A of this embodiment stores a non-patent literature database 39, a patent literature database 40, and a status concept database 41 (see FIG. 23). Details of these databases 39 to 41 will be described later.

図23に示すように、データ処理装置1Aは、非特許文献群取得部30、用語群取得部31、特許文献群取得部32、特徴量データ作成部33、学習データ作成部34、モデル学習部35、地位概念データ群作成部36及び出力部37としての機能を備えている。 As shown in FIG. 23, the data processing device 1A includes a non-patent document group acquisition unit 30, a term group acquisition unit 31, a patent document group acquisition unit 32, a feature data creation unit 33, a learning data creation unit 34, a model learning unit 35, functions as a status concept data group creation section 36 and an output section 37.

まず、非特許文献群取得部30では、ユーザによる入力インターフェース1cの操作によって、所定キーワードが入力された場合、所定キーワードに基づいて、データ処理装置1A内の非特許文献データベース39を検索することにより、非特許文献群が取得される。 First, when a predetermined keyword is input by the user's operation of the input interface 1c, the non-patent document group acquisition unit 30 searches the non-patent document database 39 in the data processing device 1A based on the predetermined keyword. , a group of non-patent documents is obtained.

ここで、非特許文献データベース39には、学術文献及び技術文献などの文献が多数含まれており、非特許文献群は、所定キーワードが文章又は図表などに含まれる非特許文献の集合として取得される。以下の説明では、所定キーワードが「ポリオキシエチレンジグリセリン飽和脂肪酸エステル」である場合を例にとって説明する。 Here, the non-patent literature database 39 includes a large number of documents such as academic documents and technical documents, and the non-patent document group is acquired as a set of non-patent documents in which a predetermined keyword is included in sentences, diagrams, etc. Ru. In the following explanation, an example will be explained in which the predetermined keyword is "polyoxyethylene diglycerin saturated fatty acid ester".

次いで、用語群取得部31では、非特許文献群をデータマイニングすることにより、用語群が取得される。この用語群は、非特許文献群の文章などに含まれる用語のうち、出現頻度の高い方から順に所定順位までの用語の集合として取得される。 Next, the term group acquisition unit 31 acquires a term group by data mining the non-patent literature group. This term group is obtained as a set of terms included in the sentences of the non-patent literature group, ranked in descending order of frequency of appearance up to a predetermined rank.

次に、特許文献群取得部32では、用語群に基づいて、特許文献データベース40を検索することにより、特許文献群が取得される。この特許文献群は、用語群中の用語が請求項に含まれる特許文献の集合として取得される。 Next, the patent document group acquisition unit 32 acquires a patent document group by searching the patent document database 40 based on the term group. This patent document group is obtained as a set of patent documents in which the terms in the term group are included in the claims.

さらに、特徴量データ作成部33では、特許文献群及び用語群に基づいて、前述した図4の特徴量データの作成手法と同じ手法により、特徴量データ(図示せず)が作成される。 Further, the feature data creation unit 33 creates feature data (not shown) based on the patent literature group and terminology group using the same method as the feature data creation method shown in FIG. 4 described above.

また、学習データ作成部34では、データ処理装置1A内の地位概念データベース41を参照することにより、学習データが作成される。ここで、地位概念データベース41は、前述した地位概念データベース21と同様に構成されており、学習データは、前述した図9の学習データと同様に作成される。 Further, the learning data creation unit 34 creates learning data by referring to the status concept database 41 in the data processing device 1A. Here, the status concept database 41 is configured in the same manner as the status concept database 21 described above, and the learning data is created in the same manner as the learning data in FIG. 9 described above.

次いで、モデル学習部35では、以上のように作成された学習データを用いて、所定の学習アルゴリズム(例えば、Transformerの自然言語モデル)により、分類モデルである予測モデルの学習が実行される。 Next, the model learning unit 35 uses the learning data created as described above to perform learning of a predictive model, which is a classification model, using a predetermined learning algorithm (for example, a natural language model of Transformer).

次に、地位概念データ群作成部36では、学習済みモデル及び特徴量データを用いて、地位概念データ群が作成される。この地位概念データ群は、図示しないが、前述した図15の地位概念データ群と同様に作成される。すなわち、地位概念データ群は、用語ペアの用語を上位概念及び下位概念の関係に従うように並べた画像データとして作成される。 Next, the status concept data group creation unit 36 creates a status concept data group using the trained model and the feature data. Although not shown, this status concept data group is created in the same manner as the status concept data group shown in FIG. 15 described above. That is, the status concept data group is created as image data in which the terms of the term pair are arranged according to the relationship between the superordinate concept and the subordinate concept.

そして、以上のように作成された地位概念データ群のデータが出力部37からディスプレイ1aに出力される(出力処理)。それにより、ディスプレイ1aには、地位概念データ群が表示される(図示せず)。 Then, the data of the status concept data group created as described above is outputted from the output unit 37 to the display 1a (output processing). As a result, the status concept data group is displayed on the display 1a (not shown).

このよう地位概念データ群がディスプレイ1aに表示されている状態で、ユーザが入力インターフェース1cを介して、地位概念データ群のいずれかの用語を選択した場合、図示しないが、その用語を含む非特許文献を表すデータ(非特許文献の名称又は番号)、及び、その用語を請求項に含む特許文献の番号の少なくとも一方が表示される。 While the status concept data group is displayed on the display 1a, if the user selects any term in the status concept data group via the input interface 1c, a non-patent that includes that term (not shown) At least one of data representing a document (name or number of a non-patent document) and a number of a patent document including the term in a claim is displayed.

また、以上のデータ処理装置1Aの要素30~37においては、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワード(例えば、ポリオキシエチレンジグリセリンステアリン酸エステル)が入力された場合、以下に述べるように各種処理が実行される。 Further, in the elements 30 to 37 of the data processing device 1A, a second predetermined keyword (for example, polyoxyethylene diglycerin stearate ester) having at least one of concept, property, and classification similar to the predetermined keyword ) is input, various processes are executed as described below.

すなわち、非特許文献群取得部30では、ユーザによる入力インターフェース1cの操作によって、第2所定キーワードが入力された場合、第2所定キーワードに基づいて、データ処理装置1A内の非特許文献データベース39を検索することにより、第2非特許文献群が取得される。 That is, when the second predetermined keyword is input by the user's operation of the input interface 1c, the non-patent document group acquisition unit 30 retrieves the non-patent document database 39 in the data processing device 1A based on the second predetermined keyword. By searching, the second non-patent literature group is acquired.

次いで、用語群取得部31では、非特許文献群及び第2非特許文献をデータマイニングすることにより、第2用語群が取得される(図示せず)。この第2用語群は、非特許文献群及び第2非特許文献群の文章などに含まれる用語のうち、出現頻度の高い方から順に所定順位までの用語の集合として取得される。 Next, the term group acquisition unit 31 acquires a second term group by data mining the non-patent literature group and the second non-patent literature (not shown). This second term group is acquired as a set of terms included in the non-patent document group and the sentences of the second non-patent document group, ranked in descending order of frequency of appearance up to a predetermined rank.

次に、特許文献群取得部32では、第2用語群に基づいて、特許文献データベース40を検索することにより、第2特許文献群が取得される。この第2特許文献群は、第2用語群中の用語が請求項に含まれる特許文献の集合として取得される。 Next, the patent document group acquisition unit 32 acquires a second patent document group by searching the patent document database 40 based on the second term group. This second patent document group is obtained as a set of patent documents in which the terms in the second term group are included in claims.

さらに、特徴量データ作成部33では、第2特許文献群及び第2用語群に基づいて、前述した特徴量データと同様に、第2特徴量データが作成される(図示せず)。 Furthermore, the feature amount data creation unit 33 creates second feature amount data (not shown) in the same way as the feature amount data described above, based on the second patent document group and the second term group.

また、学習データ作成部34では、地位概念データベース41を参照することにより、上記の第2特徴量データから、前述した学習データと同様に、第2学習データが作成される(図示せず)。 Further, in the learning data creation unit 34, by referring to the status concept database 41, second learning data is created from the second feature amount data, similar to the learning data described above (not shown).

次いで、モデル学習部35では、以上のように作成された第2学習データを用いて、前述した所定の学習アルゴリズムにより、分類モデルである予測モデルの学習が実行される。それにより、第2学習済みモデルが作成される。 Next, the model learning unit 35 uses the second learning data created as described above to perform learning of a predictive model, which is a classification model, according to the predetermined learning algorithm described above. As a result, a second learned model is created.

さらに、地位概念データ群作成部36では、第2学習済みモデル及び第2特徴量データを用いて、前述した地位概念データ群と同様に、第2地位概念データ群が作成される(図示せず)。 Furthermore, the status concept data group creation unit 36 uses the second learned model and the second feature data to create a second status concept data group in the same way as the status concept data group described above (not shown). ).

そして、以上のように作成された第2地位概念データ群のデータが出力部17からディスプレイ1aに出力される(出力処理)。それにより、ディスプレイ1aには、第2地位概念データ群が表示される(図示せず)。 Then, the data of the second status concept data group created as described above is outputted from the output unit 17 to the display 1a (output processing). Thereby, the second status concept data group is displayed on the display 1a (not shown).

次に、本実施形態のデータ処理装置1Aによって実行される各種演算処理について説明する。まず、図24を参照しながら、学習済みモデル作成処理について説明する。この学習済みモデル作成処理は、以下に述べるように、学習済みモデルを作成するためのものであり、ユーザの入力インターフェース1cの操作により、前述した所定キーワードが入力されたときに実行される。 Next, various calculation processes executed by the data processing device 1A of this embodiment will be explained. First, the trained model creation process will be described with reference to FIG. 24. As described below, this trained model creation process is for creating a trained model, and is executed when the above-mentioned predetermined keyword is input by the user's operation of the input interface 1c.

この学習済みモデル作成処理では、まず、非特許文献群の取得処理が実行される(図24/STEP51)。この取得処理では、前述したように、所定キーワードに基づいて、非特許文献データベース39を検索することにより、非特許文献群が取得される(非特許文献群取得ステップ)。 In this trained model creation process, first, a process for acquiring a group of non-patent documents is executed (FIG. 24/STEP 51). In this acquisition process, as described above, a non-patent literature group is acquired by searching the non-patent literature database 39 based on a predetermined keyword (non-patent literature group acquisition step).

次いで、用語群の取得処理が実行される(図24/STEP52)。この取得処理では、前述したように、非特許文献群をデータマイニングすることにより、用語群が取得される(用語群取得ステップ)。 Next, a term group acquisition process is executed (FIG. 24/STEP 52). In this acquisition process, as described above, a group of terms is acquired by data mining a group of non-patent documents (term group acquisition step).

次に、特許文献の取得処理が実行される(図24/STEP53)。この取得処理では、前述したように、用語群に基づいて、特許文献データベース40を検索することにより、特許文献群が取得される(特許文献群取得ステップ)。 Next, patent document acquisition processing is executed (FIG. 24/STEP 53). In this acquisition process, as described above, a patent document group is acquired by searching the patent document database 40 based on the term group (patent document group acquisition step).

次に、特徴量データの作成処理が実行される(図24/STEP54)。この作成処理では、前述したように、特許文献群及び用語群に基づいて、特徴量データが作成される(特徴量データ作成ステップ)。 Next, feature amount data creation processing is executed (FIG. 24/STEP 54). In this creation process, as described above, feature amount data is created based on the patent document group and term group (feature amount data creation step).

この特徴量データの作成処理に続けて、学習データの作成処理が実行される(図24/STEP55)。この作成処理では、前述したように、地位概念データベース41を参照することにより、学習データが作成される(学習データ作成ステップ)。 Following this feature data creation processing, learning data creation processing is executed (FIG. 24/STEP 55). In this creation process, as described above, learning data is created by referring to the status concept database 41 (learning data creation step).

次いで、モデル学習処理が実行される(図24/STEP56)。このモデル学習処理では、前述したように、学習データを用いて、所定の学習アルゴリズムにより、分類モデルである予測モデルの学習が実行される(モデル学習ステップ)。以上の処理が実行されることにより、学習済みモデルが作成される。 Next, model learning processing is executed (FIG. 24/STEP 56). In this model learning process, as described above, a predictive model, which is a classification model, is trained using learning data according to a predetermined learning algorithm (model learning step). By performing the above processing, a learned model is created.

次に、図25を参照しながら、地位概念データ群処理について説明する。この地位概念データ群処理は、以下に述べるように、地位概念データ群を作成してディスプレイ1aに表示するためのものであり、ユーザによる入力インターフェース1cの所定操作に伴って実行される。 Next, status concept data group processing will be explained with reference to FIG. As described below, this status concept data group processing is for creating a status concept data group and displaying it on the display 1a, and is executed in accordance with a predetermined operation of the input interface 1c by the user.

この地位概念データ群処理では、まず、地位概念データ群の作成処理が実行される(図25/STEP60)。この作成処理では、前述したように、学習済みモデル及び特徴量データを用いて、地位概念データ群が作成される(地位概念データ群作成ステップ)。 In this status concept data group processing, first, a status concept data group creation process is executed (FIG. 25/STEP 60). In this creation process, as described above, a status concept data group is created using the learned model and feature data (status concept data group creation step).

次いで、地位概念データ群の表示処理が実行される(図25/STEP61)。この表示処理では、図示しないが、前述したように、地位概念データ群がディスプレイ1aに表示される(出力ステップ)。 Next, display processing of the status concept data group is executed (FIG. 25/STEP 61). In this display process, although not shown, as described above, the status concept data group is displayed on the display 1a (output step).

次に、図26を参照しながら、第2学習済みモデル作成処理について説明する。この第2学習済みモデル作成処理は、以下に述べるように、第2学習済みモデルを作成するためのものであり、ユーザの入力インターフェース1cの操作により、前述した第2所定キーワードが入力されたときに実行される。 Next, the second trained model creation process will be described with reference to FIG. 26. As described below, this second trained model creation process is for creating a second trained model, and is performed when the second predetermined keyword described above is input by the user's operation of the input interface 1c. is executed.

この第2学習済みモデル作成処理では、まず、第2非特許文献群の取得処理が実行される(図26/STEP71)。この取得処理では、前述したように、第2所定キーワードに基づいて、非特許文献データベース39を検索することにより、第2非特許文献群が取得される(非特許文献群取得ステップ)。 In this second trained model creation process, first, a second non-patent document group acquisition process is executed (FIG. 26/STEP 71). In this acquisition process, as described above, the second non-patent literature group is acquired by searching the non-patent literature database 39 based on the second predetermined keyword (non-patent literature group acquisition step).

次いで、第2用語群の取得処理が実行される(図26/STEP72)。この取得処理では、前述したように、非特許文献及び第2非特許文献群をデータマイニングすることにより、第2用語群が取得される(用語群取得ステップ)。 Next, a second term group acquisition process is executed (FIG. 26/STEP 72). In this acquisition process, as described above, the second term group is acquired by data mining the non-patent literature and the second non-patent literature group (term group acquisition step).

次に、第2特許文献群の取得処理が実行される(図26/STEP73)。この取得処理では、前述したように、第2用語群に基づいて、特許文献データベース40を検索することにより、第2特許文献群が取得される。 Next, acquisition processing for the second patent document group is executed (FIG. 26/STEP 73). In this acquisition process, as described above, the second patent document group is acquired by searching the patent document database 40 based on the second term group.

さらに、第2特徴量データの作成処理が実行される(図26/STEP74)。この作成処理では、前述したように、第2特許文献群及び第2用語群に基づいて、第2特徴量データが作成される(特徴量データ作成ステップ)。 Furthermore, a process for creating second feature amount data is executed (FIG. 26/STEP 74). In this creation process, as described above, the second feature amount data is created based on the second patent document group and the second term group (feature amount data creation step).

この第2特徴量データの作成処理に続けて、第2学習データの作成処理が実行される(図26/STEP75)。この作成処理では、前述したように、地位概念データベース41を参照することにより、第2特徴量データから第2学習データが作成される(学習データ作成ステップ)。 Following the process of creating the second feature data, the process of creating the second learning data is executed (FIG. 26/STEP 75). In this creation process, as described above, the second learning data is created from the second feature data by referring to the status concept database 41 (learning data creation step).

次いで、第2モデル学習処理が実行される(図26/STEP76)。この第2モデル学習処理では、前述したように、第2学習データを用いて、所定の学習アルゴリズムにより、予測モデルの学習が実行される(モデル学習ステップ)。以上の処理が実行されることにより、第2学習済みモデルが作成される。 Next, a second model learning process is executed (FIG. 26/STEP76). In this second model learning process, as described above, learning of the predictive model is executed using the second learning data according to a predetermined learning algorithm (model learning step). By performing the above processing, a second trained model is created.

次に、図27を参照しながら、第2地位概念データ群処理について説明する。この第2地位概念データ群処理は、以下に述べるように、第2地位概念データ群を作成してディスプレイ1aに表示するためのものであり、ユーザによる入力インターフェース1cの所定操作に伴って実行される。 Next, the second status concept data group processing will be explained with reference to FIG. As described below, this second status concept data group processing is for creating a second status concept data group and displaying it on the display 1a, and is executed in accordance with a predetermined operation of the input interface 1c by the user. Ru.

この第2地位概念データ群処理では、まず、第2地位概念データ群の作成処理が実行される(図27/STEP80)。この作成処理では、前述したように、第2学習済みモデル及び第2特徴量データを用いて、第2地位概念データ群が作成される(第2地位概念データ群作成ステップ)。 In this second status concept data group process, first, a process for creating a second status concept data group is executed (FIG. 27/STEP 80). In this creation process, as described above, the second status concept data group is created using the second trained model and the second feature data (second status concept data group creation step).

次いで、第2地位概念データ群の表示処理が実行される(図27/STEP81)。この表示処理では、前述したように、第2地位概念データ群(図示せず)がディスプレイ1aに表示される(出力ステップ)。この場合、第2地位概念データ群に加えて、地位概念データ群が同時にディスプレイ1aに表示されるように構成してもよい。 Next, display processing of the second status concept data group is executed (FIG. 27/STEP 81). In this display process, as described above, the second status concept data group (not shown) is displayed on the display 1a (output step). In this case, the status concept data group may be simultaneously displayed on the display 1a in addition to the second status concept data group.

以上のように、第2実施形態に係るデータ処理装置1Aによれば、特徴量データの用語ペアにおける地位概念関係を表すラベルを特徴量データに付加したデータである学習データを用いて、分類モデルである予測モデルの学習が実行される。そして、特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群が作成される。 As described above, according to the data processing device 1A according to the second embodiment, the classification model is Learning of a predictive model is executed. Then, using the output of the trained model when the feature data is input to the trained model, a status concept data group is created that represents the relationship between the superordinate concept and the subordinate concept between the term pairs of the feature data.

ここで、特徴量データは、特許文献群の請求項に存在する用語群の用語のペアである用語ペアを含むものである。それにより、このような特徴量データを学習済みモデルに対して入力した場合、学習済みモデルの出力は、特徴量データの用語ペア間の上位概念及び下位概念の関係を適切に予測したものとなる。したがって、そのような予測モデルの出力を用いて地位概念データ群を作成することにより、この地位概念データ群を用語ペア間の上位概念及び下位概念の関係が適切に分類されたデータとして作成することができる。 Here, the feature amount data includes a term pair that is a term pair of a term group that exists in the claims of the patent document group. As a result, when such feature data is input to a trained model, the output of the trained model will be an appropriate prediction of the relationship between superordinate concepts and subordinate concepts between term pairs in the feature data. . Therefore, by creating a status concept data group using the output of such a prediction model, this status concept data group can be created as data in which the relationships between higher-level concepts and lower-level concepts between term pairs are appropriately classified. I can do it.

これに加えて、非特許文献のデータベースを検索することにより、非特許文献群が、所定キーワードが含まれる非特許文献の集合として取得され、非特許文献群をデータマイニングすることにより、非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群が取得され、用語群に基づいて、特許文献のデータベースを検索することにより、用語群が請求項に含まれる特許文献の集合である特許文献群が取得される。それにより、地位概念データ群を、特許文献の集合の請求項における用語間の上位概念及び下位概念の関係と、非特許文献における用語間の上位概念及び下位概念の関係とを適切に分類したデータとして作成することができる。 In addition, by searching a database of non-patent documents, a group of non-patent documents is obtained as a set of non-patent documents that include a predetermined keyword, and by data mining the group of non-patent documents, a group of non-patent documents is obtained. Among the terms in the group, a term group is obtained that is a term up to a predetermined rank in order of frequency of appearance, and the term group is included in a claim by searching a database of patent documents based on the term group. A patent document group, which is a collection of patent documents, is obtained. Thereby, the status concept data group is classified into data that appropriately classifies the relationship between the superordinate concepts and subordinate concepts between terms in the claims of a set of patent documents, and the relation between the superordinate concepts and subordinate concepts between terms in non-patent documents. It can be created as

さらに、地位概念データ群が、用語ペアの用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成され、ディスプレイ1aに表示される。それにより、ユーザは、用語間の上位概念及び下位概念の関係を容易に把握することができる。また、ユーザによる入力インターフェース1cの操作により、地位概念データ群の用語が選択された際、その用語を含む非特許文献を表すデータ(非特許文献の名称又は番号)、及び/又は、その用語を請求項に含む特許文献の番号が表示される。それにより、ユーザは、用語ペアの地位概念関係に加えて、用語ペアの各々の用語が含まれる非特許文献を表すデータ、及び/又は、用語ペアの各々の用語が請求項に含まれる特許文献の番号をさらに把握することができる。 Furthermore, a status concept data group is created as tree-like graphic data in which the terms of the term pair are arranged according to the relationship between superordinate concepts and subordinate concepts, and is displayed on the display 1a. Thereby, the user can easily grasp the relationship between the superordinate concepts and subordinate concepts between terms. In addition, when a term in the status concept data group is selected by the user's operation of the input interface 1c, data representing a non-patent document containing the term (name or number of the non-patent document) and/or the term The number of the patent document included in the claim is displayed. Thereby, in addition to the status concept relationship of the term pairs, the user can obtain data representing non-patent documents in which each term in the term pair is included, and/or patent documents in which each term in the term pair is included in a claim. You can further understand the numbers.

さらに、第2学習済みモデル作成処理では、第2所定キーワードに基づいて、第2非特許文献群が取得され、非特許文献群及び第2非特許文献群をデータマイニングすることにより、第2用語群が取得され、第2用語群に基づいて、特許文献データベース40を検索することにより、第2特許文献群が取得される。さらに、第2特許文献群及び第2用語群に基づいて、第2特徴量データが作成され、地位概念データベース41を参照することにより、第2特徴量データから第2学習データが作成される。 Furthermore, in the second trained model creation process, a second non-patent document group is acquired based on the second predetermined keyword, and by data mining the non-patent document group and the second non-patent document group, the second term A second group of patent documents is obtained by searching the patent document database 40 based on the second group of terms. Further, second feature amount data is created based on the second patent document group and second term group, and second learning data is created from the second feature amount data by referring to the status concept database 41.

そして、この第2学習データを用いて予測モデルの学習が実行されることにより、第2学習済みモデルが作成され、第2学習済みモデル及び第2特徴量データを用いて、第2地位概念データ群が作成される。それにより、第2地位概念データ群を、地位概念データ群に対して、概念、性質及び分類のうちの少なくとも1つが類似した用語を含むように作成することができる。 Then, by executing learning of the predictive model using this second learning data, a second trained model is created, and a second status concept data is created using the second trained model and the second feature data. A group is created. Thereby, the second status concept data group can be created to include terms similar to the status concept data group in at least one of concepts, properties, and classifications.

なお、第2実施形態は、データ処理装置をパーソナルコンピュータタイプのデータ処理装置1Aで構成した例であるが、データ処理装置を、複数のパーソナルコンピュータ又は1つ以上のサーバ(この場合、サーバはクラウドサーバも含む)で構成してもよく、パーソナルコンピュータとサーバを組み合わせて構成してもよい。 The second embodiment is an example in which the data processing device is configured with a personal computer type data processing device 1A, but the data processing device is configured with a plurality of personal computers or one or more servers (in this case, the server is a cloud server). (including servers), or may be configured by combining a personal computer and a server.

また、第2実施形態は、出力装置として、ディスプレイ1aを用いた例であるが、本発明の出力装置は、これに限らず、データ処理装置からの地位概念データ群を出力できるものであればよい。例えば、データ処理装置がクラウドサーバである場合、クラウドサーバから出力された地位概念データ群を、通信網を介して受信して出力する端末装置(パーソナルコンピュータ又はプリンタなど)を出力装置として用いてもよい。 Further, although the second embodiment is an example in which the display 1a is used as the output device, the output device of the present invention is not limited to this, and any device that can output the status concept data group from the data processing device can be used. good. For example, if the data processing device is a cloud server, a terminal device (such as a personal computer or printer) that receives and outputs the status concept data group output from the cloud server via a communication network may be used as the output device. good.

さらに、第2実施形態は、用語群が請求項に含まれる特許文献の集合を特許文献群として取得した例であるが、これに代えて、用語群が特許文献内の請求項を含めた全文章のいずれかに含まれている特許文献の集合を特許文献群として取得してもよい。その場合には、特徴量データ及び学習データにおいて、請求項のデータが含まれないように構成してもよい。 Furthermore, the second embodiment is an example in which a set of patent documents in which a term group is included in a claim is acquired as a patent document group; A set of patent documents included in any of the sentences may be acquired as a patent document group. In that case, the feature data and the learning data may be configured so that the claimed data is not included.

また、第2実施形態は、地位概念データ群を図15と同様の2次元の画像データとした例であるが、地位概念データ群は、前述した図22と同様の3次元で表された画像データとして作成されてもよく、表形式のデータとして作成されてもよい。 Furthermore, the second embodiment is an example in which the status concept data group is two-dimensional image data similar to that shown in FIG. It may be created as data or as tabular data.

さらに、地位概念データ群を作成する際、各用語について、名寄せ辞書(図示せず)を参照して名寄せ処理を実施した後、地位概念データ群を作成するようにしてもよい。 Furthermore, when creating the status concept data group, the status concept data group may be created after performing name matching processing for each term with reference to a name matching dictionary (not shown).

一方、第2実施形態は、所定の学習アルゴリズムとして、Transformerの自然言語モデルを用いた例であるが、所定の学習アルゴリズムとして、Random Forest、XGBoost、サポートベクターマシン又はニューラルネットワークなどを用いてもよい。 On the other hand, the second embodiment is an example in which a Transformer natural language model is used as the predetermined learning algorithm, but Random Forest, XGBoost, support vector machine, neural network, etc. may also be used as the predetermined learning algorithm. .

また、第2実施形態は、学習済みモデルとして、モデル学習部35で学習を実行した予測モデルを用いた例であるが、これに代えて、汎用的な学習済みモデル(例えば、BERT:Bidirectional Encoder Representations from Transformers)を、ファインチューニングすることなくそのまま用いてもよい。 Furthermore, although the second embodiment is an example in which a predictive model trained by the model learning unit 35 is used as a trained model, instead of this, a general-purpose trained model (for example, BERT: Bidirectional Encoder Representations from Transformers) may be used as is without fine-tuning.

さらに、学習済みモデルとして、転移学習により作成された学習済みモデルを用いてもよい。例えば、情報処理装置1Aで作成された学習データが、サーバに送信され、サーバにおいてBERTなどの予測モデルの学習を実行することにより、学習済みモデルが作成されるとともに、その学習済みモデルが情報処理装置1Aに送信されるように構成してもよい。その場合には、情報処理装置1Aにおいて、特徴量データが作成される毎に、予測モデルの学習を実行することなく、特徴量データを学習済みモデルに入力することにより、地位概念データ群を作成すればよい。 Furthermore, a trained model created by transfer learning may be used as the trained model. For example, learning data created by the information processing device 1A is sent to a server, and by executing learning of a predictive model such as BERT on the server, a trained model is created, and the trained model is used for information processing. The information may be configured to be transmitted to the device 1A. In that case, the information processing device 1A creates a status concept data group by inputting feature data into a learned model without executing predictive model learning every time feature data is created. do it.

一方、第2実施形態の地位概念データ群作成部36において、地位概念データ群が作成される毎に、この地位概念データ群における用語間の上位概念又は下位概念の関係を示すラベルを追加したデータを作成し、そのデータを図23の2点鎖線で示すように、地位概念データベース41に追加するように構成してもよい。このように構成した場合、そのようにデータ量が増加した地位概念データベースを用いて、学習データが作成されることにより、学習データによる予測モデルの学習効果をさらに向上させることができる。 On the other hand, in the status concept data group creation unit 36 of the second embodiment, each time a status concept data group is created, data is added with a label indicating the relationship between the higher-level concepts or lower-level concepts between the terms in this status concept data group. may be created and the data may be added to the status concept database 41 as shown by the two-dot chain line in FIG. When configured in this way, learning data is created using the status concept database with such an increased amount of data, thereby making it possible to further improve the learning effect of the predictive model using the learning data.

また、第2実施形態は、情報処理装置1Aにおいて、特徴量データが作成される毎に、学習データを作成し、予測モデルの学習(追加学習)を実行した例であるが、これに代えて、予測モデルの学習をM(Mは1以上の整数)回分、実行した以降は、特徴量データが作成された際、予測モデルの学習を実行することなく、特徴量データを学習済みモデルに入力することにより、地位概念データ群を作成するように構成してもよい。例えば、所定キーワードで学習を1回実行した学習済みモデルに対して、前述した第2特徴量データを入力することにより、第2地位概念データを作成するように構成してもよい。 Further, in the second embodiment, learning data is created every time feature data is created in the information processing device 1A, and predictive model learning (additional learning) is executed. , after performing predictive model learning M times (M is an integer greater than or equal to 1), when feature data is created, the feature data is input to the trained model without performing predictive model learning. By doing so, a status concept data group may be created. For example, the second status concept data may be created by inputting the second feature data described above to a trained model that has been trained once using a predetermined keyword.

さらに、第2実施形態は、学習データ作成部34において学習データを作成した例であるが、これに代えて、ユーザが学習データを作成するように構成してもよい。 Furthermore, although the second embodiment is an example in which the learning data is created in the learning data creation section 34, the learning data may be created by the user instead.

また、第2実施形態は、所定キーワードとして「ポリオキシエチレンジグリセリン飽和脂肪酸エステル」を用いた例であるが、本発明の所定キーワードはこれに限らず、様々なキーワードが使用可能である。例えば、所定キーワードとして、シリコーン油などを用いてもよい。 Further, although the second embodiment is an example in which "polyoxyethylene diglycerin saturated fatty acid ester" is used as the predetermined keyword, the predetermined keyword of the present invention is not limited to this, and various keywords can be used. For example, silicone oil or the like may be used as the predetermined keyword.

さらに、第2実施形態は、第2所定キーワードとして、「ポリオキシエチレンジグリセリンステアリン酸エステル」を用いた例であるが、本発明の第2所定キーワードは、これに限らず、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似であるものであればよい。例えば、「ポリオキシアルキレンポリグリセリルエーテル」が所定キーワードである場合には、「ポリオキシエチレンジグリセリルエーテル」を第2所定キーワードとして用いてもよい。 Furthermore, although the second embodiment is an example in which "polyoxyethylene diglycerin stearate" is used as the second predetermined keyword, the second predetermined keyword of the present invention is not limited to this. It is sufficient if at least one of the concepts, properties, and classifications is similar. For example, when "polyoxyalkylene polyglyceryl ether" is the predetermined keyword, "polyoxyethylene diglyceryl ether" may be used as the second predetermined keyword.

また、第2実施形態は、データ処理装置1A内に記憶されている非特許文献データベース39から非特許文献群を取得した例であるが、例えば、非特許文献データベースがデータ処理装置1A以外のサーバなどの演算処理装置に記憶されている場合には、データ処理装置1Aと演算処理装置間の通信により、演算処理装置内の非特許文献データベースから非特許文献群を取得するように構成してもよい。 Further, the second embodiment is an example in which a non-patent literature group is acquired from the non-patent literature database 39 stored in the data processing device 1A, but for example, the non-patent literature database is stored in a server other than the data processing device 1A. etc., the non-patent literature group may be configured to be acquired from the non-patent literature database in the arithmetic processing unit through communication between the data processing device 1A and the arithmetic processing unit. good.

さらに、第2実施形態は、データ処理装置1A内に記憶されている特許文献データベース40から特許文献群を取得した例であるが、例えば、特許文献データベースがデータ処理装置1A以外のサーバなどの演算処理装置に記憶されている場合には、データ処理装置1Aと演算処理装置間の通信により、演算処理装置内の特許文献データベースから特許文献群を取得するように構成してもよい。 Furthermore, although the second embodiment is an example in which a patent document group is acquired from the patent document database 40 stored in the data processing device 1A, for example, the patent document database is operated by a server other than the data processing device 1A. When stored in the processing device, the patent documents may be configured to be acquired from a patent document database within the processing device through communication between the data processing device 1A and the arithmetic processing device.

一方、第2実施形態は、データ処理装置1A内に記憶されている地位概念データベース41を用いて学習データを作成した例であるが、例えば、地位概念データベースがデータ処理装置1A以外のサーバなどの演算処理装置に記憶されている場合には、データ処理装置1Aと演算処理装置間の通信により、演算処理装置内の地位概念データベースを用いて学習データを作成するように構成してもよい。 On the other hand, the second embodiment is an example in which learning data is created using the status concept database 41 stored in the data processing device 1A. When stored in the arithmetic processing device, the learning data may be created using a status concept database in the arithmetic processing device through communication between the data processing device 1A and the arithmetic processing device.

一方、第2実施形態は、前述した地位概念データベース21と同様の地位概念データベース41を用いた例であるが、本発明の地位概念データベースは、これに限らず、用語ペア間の地位概念関係を表すものであればよい。例えば、地位概念データベースにおいて、用語1が用語2の上位概念であることを「>」の記号で表し、用語1が用語2の下位概念であることを「<」の記号で表すとともに、用語1と用語2が上位概念又は下位概念の関係にないことを「×」の記号で表してもよい。 On the other hand, the second embodiment is an example using a status concept database 41 similar to the status concept database 21 described above, but the status concept database of the present invention is not limited to this. It is fine as long as it represents something. For example, in a status concept database, the symbol ">" indicates that term 1 is a superordinate concept of term 2, the symbol "<" indicates that term 1 is a subordinate concept of term 2, and the symbol "<" indicates that term 1 is a subordinate concept of term 2. The fact that Term 2 and Term 2 are not in a superordinate or subordinate concept relationship may be represented by an "x" symbol.

また、地位概念データベース41において、用語1と用語2の関係を表すラベルとして、上位概念及び下位概念の関係をそれぞれ表す値「1」「0」のみが設定されているように構成してもよい。その場合には、学習データ作成部34において、特徴量データの用語ペアが地位概念データベース41に含まれていないときに、特徴量データの用語ペアにおける用語1と用語2の関係を表すラベルとして値「2」を設定するように構成すればよい。 Furthermore, the status concept database 41 may be configured such that only the values "1" and "0" representing the relationships between higher-level concepts and lower-level concepts are set as labels representing the relationship between term 1 and term 2. . In that case, in the learning data creation unit 34, when the term pair of the feature data is not included in the status concept database 41, a value is set as a label representing the relationship between term 1 and term 2 in the term pair of the feature data. The configuration may be configured so that "2" is set.

さらに、地位概念データベース41において、用語1と用語2の関係を表すラベルとして、前述した上位概念の関係、下位概念の関係、及び、上位概念又は下位概念の関係にないことをそれぞれ表す値「1」「0」「2」以外に、等位概念を表すラベルとして、値「3」が設定されているように構成してもよい。その場合には、学習データ作成部34において、学習データにおける用語ペアのラベルとして、「0」~「3」の値が設定されるように構成すればよい。 Furthermore, in the status concept database 41, as a label representing the relationship between term 1 and term 2, the value "1" representing the above-mentioned superordinate concept relationship, subordinate concept relationship, and the absence of a superordinate concept or subordinate concept relationship, respectively. , "0" and "2", the value "3" may be set as a label representing a coordinate concept. In that case, the learning data creation unit 34 may be configured to set values of "0" to "3" as labels for term pairs in the learning data.

次に、本発明の第3実施形態に係るデータ処理装置について説明する。本実施形態のデータ処理装置1B(図28参照)は、図1のデータ処理装置1と同一のパーソナルコンピュータタイプのものであるので、以下、異なる点を中心に説明する。また、第1実施形態と同一の構成に対しては同じ符号を付すとともに、その説明を省略する。 Next, a data processing device according to a third embodiment of the present invention will be described. Since the data processing device 1B (see FIG. 28) of this embodiment is of the same personal computer type as the data processing device 1 of FIG. 1, the following description will focus on the differences. Further, the same components as in the first embodiment are given the same reference numerals, and their explanations are omitted.

本実施形態のデータ処理装置1Bには、特許文献データベース59、基礎用語データベース60及び地位概念データベース61(図28参照)が記憶されている。これらのデータベース59~61の詳細については後述する。 The data processing device 1B of this embodiment stores a patent document database 59, a basic terminology database 60, and a status concept database 61 (see FIG. 28). Details of these databases 59 to 61 will be described later.

図28に示すように、データ処理装置1Bは、特許文献群取得部50、用語群取得部51、基礎用語群取得部52、特徴量データ作成部53、学習データ作成部54、モデル学習部55、地位概念データ群作成部56及び出力部57としての機能を備えている。 As shown in FIG. 28, the data processing device 1B includes a patent document group acquisition unit 50, a term group acquisition unit 51, a basic term group acquisition unit 52, a feature data creation unit 53, a learning data creation unit 54, and a model learning unit 55. , functions as a status concept data group creation section 56 and an output section 57.

まず、特許文献群取得部50では、ユーザによる入力インターフェース1cの操作によって、所定キーワードが入力された場合、所定キーワードに基づいて、データ処理装置1B内の特許文献データベース59を検索することにより、特許文献群が取得される。 First, in the patent document group acquisition unit 50, when a predetermined keyword is input by the user's operation of the input interface 1c, the patent document group acquisition unit 50 searches the patent document database 59 in the data processing device 1B based on the predetermined keyword. A collection of documents is obtained.

ここで、特許文献データベース59には、特許公報、特開公報及び実用新案登録公報などの請求項を含む文献が多数含まれており、特許文献群は、所定キーワードが請求項に含まれる特許文献の集合として取得される。以下の説明では、所定キーワードが「シリコーン油」である場合を例にとって説明する。 Here, the patent document database 59 includes a large number of documents including claims, such as patent publications, Japanese Patent Laid-Open Publications, and utility model registration publications. is obtained as a set of In the following explanation, a case where the predetermined keyword is "silicone oil" will be explained as an example.

次いで、用語群取得部51では、特許文献群をデータマイニングすることにより、図29に示すような用語群が取得される。この用語群は、特許文献群の請求項に含まれる用語のうち、出現頻度の高い方から順に所定順位までの用語の集合として取得される。 Next, the term group acquisition unit 51 acquires a term group as shown in FIG. 29 by data mining the patent document group. This term group is obtained as a set of terms included in the claims of the patent document group, ranked in descending order of frequency of appearance up to a predetermined rank.

次に、基礎用語群取得部52では、基礎用語データベース60を参照することにより、図30に示す基礎用語群が用語群から取得される。ここで、基礎用語データベース60には、シリコーン油を含む各種物質の原料を表す基礎用語が含まれており、基礎用語群は、基礎用語データベース60に含まれている基礎用語を用語群から抜き出すことによって取得される。 Next, the basic term group acquisition unit 52 refers to the basic term database 60 to obtain the basic term group shown in FIG. 30 from the term group. Here, the basic term database 60 includes basic terms representing raw materials of various substances including silicone oil, and the basic term group is created by extracting the basic terms included in the basic term database 60 from the term group. obtained by.

さらに、特徴量データ作成部53では、図31に示す特徴量データが基礎用語群及び用語群から作成される。図31に示すように、特徴量データは、選択用語1及び選択用語2からなる選択用語ペアを含むように作成される。これらの選択用語ペアは、基礎用語群から抜きだした1つの基礎用語と、基礎用語群から抜きだした他の1つの基礎用語又は用語群から抜きだした1つの用語とを、選択用語1及び選択用語2として組み合わせたものに相当する。なお、図31のデータでは、出願番号及び請求項のデータの具体的な表示が省略されており、この点は、後述する図32においても同様である。 Furthermore, the feature amount data creation unit 53 creates feature amount data shown in FIG. 31 from the basic term group and the term group. As shown in FIG. 31, the feature amount data is created to include a selected term pair consisting of selected term 1 and selected term 2. These selected term pairs combine one basic term extracted from the basic term group and one other basic term extracted from the basic term group or one term extracted from the term group into selected term 1 and one basic term extracted from the term group. This corresponds to the combination of selected terms 2. In addition, in the data of FIG. 31, specific display of the application number and claim data is omitted, and this point is also the same in FIG. 32, which will be described later.

また、学習データ作成部54では、データ処理装置1B内の地位概念データベース61を用いて、図31に示す特徴量データから図32に示す学習データが作成される。ここで、地位概念データベース61は、図33に示すように、選択用語ペアの間の上位概念及び下位概念の関係などの地位概念関係を定義したものである。 Further, the learning data creation unit 54 creates the learning data shown in FIG. 32 from the feature amount data shown in FIG. 31 using the status concept database 61 in the data processing device 1B. Here, as shown in FIG. 33, the status concept database 61 defines status concept relationships such as relationships between higher-level concepts and lower-level concepts between pairs of selected terms.

図33において、ラベルの値は、選択用語ペア間の地位概念関係を表しており、具体的には、ラベルの値が「1」であることは、選択用語1が選択用語2の上位概念であることを表している。また、ラベルの値が「0」であることは、選択用語1が選択用語2の下位概念であることを表しており、選択用語1と選択用語2が上位概念及び下位概念の関係にないことを表している。 In FIG. 33, the label value represents the status concept relationship between selected term pairs. Specifically, a label value of "1" means that selected term 1 is a superordinate concept of selected term 2. represents something. In addition, a label value of "0" indicates that selected term 1 is a subordinate concept of selected term 2, and that selected term 1 and selected term 2 do not have a relationship of a superordinate concept and a subordinate concept. represents.

学習データ作成部54では、この地位概念データベース61を参照して、図31の特徴量データに対してラベルを付加することにより、図32の学習データが作成される。 The learning data creation unit 54 creates the learning data shown in FIG. 32 by referring to the status concept database 61 and adding labels to the feature data shown in FIG.

次いで、モデル学習部55では、以上のように作成された学習データを用いて、所定の学習アルゴリズム(例えば、Transformerの自然言語モデル)により、分類モデルである予測モデルの学習が実行される。 Next, the model learning unit 55 uses the learning data created as described above to perform learning of a predictive model, which is a classification model, using a predetermined learning algorithm (for example, a natural language model of Transformer).

次に、地位概念データ群作成部56では、学習済みモデル及び特徴量データを用いて、地位概念データ群が作成される。この地位概念データ群は、図34に示すように、前述した選択用語ペアの選択用語を上位概念及び下位概念の関係に従うように並べたツリー状の画像データであり、以下に述べる手法により作成される。 Next, the status concept data group creation unit 56 creates a status concept data group using the trained model and the feature data. As shown in FIG. 34, this status concept data group is tree-like image data in which the selected terms of the selected term pairs described above are arranged according to the relationship between superordinate concepts and subordinate concepts, and is created by the method described below. Ru.

すなわち、地位概念データ群作成部56では、特徴量データを学習済みモデルに入力したときの学習済みモデルの出力のラベルの値に基づいて、選択用語ペア間の地位概念関係が判定されるとともに、その判定結果に基づいて、選択用語ペアを並べることにより、地位概念データ群が作成される。 That is, the status concept data group creation unit 56 determines the status concept relationship between the selected term pairs based on the label value of the output of the trained model when the feature data is input to the trained model, and Based on the determination result, a status concept data group is created by arranging the selected term pairs.

例えば、特徴量データの選択用語1と選択用語2が「シリコーン油」及び「シクロメチコン」の場合には、学習済みモデルの出力が「1」となり、図34に示すように、上位概念である選択用語「シリコーン油」に下位概念である選択用語「シクロメチコン」がぶら下がる状態で、地位概念データ群が作成される。 For example, if selected term 1 and selected term 2 of the feature amount data are "silicone oil" and "cyclomethicone", the output of the trained model will be "1", and as shown in FIG. 34, it is a superordinate concept. A status concept data group is created in which the selected term "cyclomethicone", which is a subordinate concept, is suspended from the selected term "silicone oil".

また、選択用語1と選択用語2が「シクロメチコン」及び「シクロペンタシロキサン」の場合には、学習済みモデルの出力が「1」となり、図34に示すように、上位概念である選択用語「シクロメチコン」に下位概念である選択用語「シクロペンタシロキサン」がぶら下がる状態で、地位概念データ群が作成される。以上の処理を継続して実行することにより、図34に示す地位概念データ群が最終的に作成される。 In addition, when the selected term 1 and the selected term 2 are "cyclomethicone" and "cyclopentasiloxane", the output of the learned model is "1", and as shown in FIG. 34, the selected term " A status concept data group is created with the selected term ``cyclopentasiloxane'', which is a subordinate concept, hanging from ``cyclomethicone''. By continuously executing the above processing, the status concept data group shown in FIG. 34 is finally created.

そして、以上のように作成された地位概念データ群のデータが出力部57からディスプレイ1aに出力される(出力処理)。それにより、ディスプレイ1aには、地位概念データ群が図34に示す状態で表示される。 Then, the data of the status concept data group created as described above is output from the output unit 57 to the display 1a (output processing). Thereby, the status concept data group is displayed on the display 1a in the state shown in FIG. 34.

このよう地位概念データ群がディスプレイ1aに表示されている状態で、ユーザが入力インターフェース1cを介して、地位概念データ群における選択用語のうち、いずれかの基礎用語を選択した場合、その基礎用語の基礎用語番号が表示される。例えば、図35に示すように、基礎用語「ジメチコン」が選択された場合には、3つの基礎用語番号B002,B003,B004が表示される。 When the user selects any basic term from among the selected terms in the status concept data group through the input interface 1c while the status concept data group is displayed on the display 1a, The basic term number is displayed. For example, as shown in FIG. 35, when the basic term "dimethicone" is selected, three basic term numbers B002, B003, and B004 are displayed.

これらの基礎用語番号B002~B004は、図37のデータベースに示すように、基礎用語の製品名とリンク付けされた状態でデータベース化されている。それにより、ユーザは、図37を参照することによって、基礎用語「ジメチコン」の製品名「シリコーンXXXXX」,「シリコーンKKKKK」,「シリコーンSSSSS」を把握することができる。 These basic term numbers B002 to B004 are stored in a database linked to the product name of the basic term, as shown in the database of FIG. Thereby, the user can understand the product names "Silicone XXXXX", "Silicone KKKKK", and "Silicone SSSSS" of the basic term "dimethicone" by referring to FIG.

この場合、基礎用語番号B002~B004がディスプレイ1aに表示されている状態で、基礎用語番号B002~B004のいずれかが選択された際に、選択された基礎用語番号に対応して、図37に記載されている製品名が表示されるように構成してもよく、図37のデータベースが別画面でディスプレイ1aに表示されるように構成してもよい。また、地位概念データ群のいずれかの基礎用語が選択された際、基礎用語番号に代えて又は加えて、基礎用語が含まれている特許文献の番号がディスプレイ1aに表示されるように構成してもよい。 In this case, when one of the basic term numbers B002 to B004 is selected while the basic term numbers B002 to B004 are displayed on the display 1a, the screen shown in FIG. 37 corresponds to the selected basic term number. The configuration may be such that the listed product name is displayed, or the database shown in FIG. 37 may be displayed on the display 1a on a separate screen. Further, when any basic term in the status concept data group is selected, the number of the patent document containing the basic term is displayed on the display 1a instead of or in addition to the basic term number. You can.

また、図36に示すように、基礎用語「シクロメチコン」がクリックされた場合には、下位概念の基礎用語「シクロペンタシロキサン」の基礎用語番号(B001,B003)が表示されるとともに、下位概念の基礎用語「シクロヘキサシロキサン」の基礎用語番号(B009)が表示される。それにより、ユーザは、前述した図37のデータベースを参照することによって、基礎用語「シクロペンタシロキサン」及び基礎用語「シクロヘキサシロキサン」の製品名を把握することができる。 Further, as shown in FIG. 36, when the basic term "cyclomethicone" is clicked, the basic term number (B001, B003) of the basic term "cyclopentasiloxane" of the subordinate concept is displayed, and the subordinate concept The basic term number (B009) of the basic term "cyclohexasiloxane" is displayed. Thereby, the user can grasp the product names of the basic term "cyclopentasiloxane" and the basic term "cyclohexasiloxane" by referring to the database shown in FIG. 37 described above.

また、以上のデータ処理装置1Bの要素50~57においては、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワード(例えば、フェニルトリメチコン)が入力された場合、以下に述べるように各種処理が実行される。 Furthermore, in the elements 50 to 57 of the data processing device 1B, a second predetermined keyword (for example, phenyl trimethicone) that is similar in at least one of the concept, property, and classification to the predetermined keyword is input. In this case, various processes are executed as described below.

すなわち、特許文献群取得部50では、ユーザによる入力インターフェース1cの操作によって、第2所定キーワードが入力された場合、第2所定キーワードに基づいて、データ処理装置1B内の特許文献データベース59を検索することにより、第2特許文献群が取得される。 That is, when the second predetermined keyword is input by the user's operation of the input interface 1c, the patent document group acquisition unit 50 searches the patent document database 59 in the data processing device 1B based on the second predetermined keyword. As a result, the second patent document group is obtained.

次いで、用語群取得部51では、特許文献群及び第2特許文献をデータマイニングすることにより、第2用語群が取得される(図示せず)。この第2用語群は、特許文献群及び第2特許文献群の請求項における用語のうち、出現頻度の高い方から順に所定順位までの用語の集合として取得される。 Next, the term group acquisition unit 51 acquires a second term group by data mining the patent document group and the second patent document (not shown). This second term group is acquired as a set of terms in the patent document group and the claims of the second patent document group, ranked in descending order of frequency of appearance up to a predetermined rank.

次に、基礎用語群取得部52では、基礎用語データベース60を参照し、基礎用語データベース60に含まれている基礎用語を第2用語群から抜き出すことによって、第2基礎用語群が取得される(図示せず)。 Next, the basic term group acquisition unit 52 refers to the basic term database 60 and extracts the basic terms included in the basic term database 60 from the second term group, thereby acquiring a second basic term group ( (not shown).

さらに、特徴量データ作成部53では、第2用語群及び第2基礎用語群に基づいて、前述した図31の特徴量データと同様に、第2特徴量データが作成される(図示せず)。 Further, the feature data creation unit 53 creates second feature data based on the second term group and the second basic term group, similar to the feature data shown in FIG. 31 described above (not shown). .

また、学習データ作成部54では、前述した地位概念データベース61を参照することにより、上記の第2特徴量データから、前述した図32の学習データと同様に、第2学習データが作成される(図示せず)。 Further, in the learning data creation unit 54, by referring to the status concept database 61 described above, second learning data is created from the second feature amount data, similar to the learning data of FIG. 32 described above ( (not shown).

次いで、モデル学習部55では、以上のように作成された第2学習データを用いて、前述した所定の学習アルゴリズムにより、分類モデルである予測モデルの学習が実行される。以下、第2学習データを用いた学習を実行済みの予測モデルを「第2学習済みモデル」という。 Next, the model learning unit 55 uses the second learning data created as described above to perform learning of a predictive model, which is a classification model, according to the predetermined learning algorithm described above. Hereinafter, a predictive model that has been trained using the second learning data will be referred to as a "second trained model."

さらに、地位概念データ群作成部56では、第2学習済みモデル及び第2特徴量データを用いて、前述した図34の地位概念データ群と同様に、第2地位概念データ群が作成される(図示せず)。 Further, the status concept data group creation unit 56 creates a second status concept data group using the second trained model and the second feature data, in the same manner as the status concept data group shown in FIG. (not shown).

そして、以上のように作成された第2地位概念データ群のデータが出力部57からディスプレイ1aに出力される(出力処理)。それにより、ディスプレイ1aには、第2地位概念データ群が表示される(図示せず)。 Then, the data of the second status concept data group created as described above is output from the output unit 57 to the display 1a (output processing). Thereby, the second status concept data group is displayed on the display 1a (not shown).

次に、本実施形態のデータ処理装置1Bによって実行される各種演算処理について説明する。まず、図38を参照しながら、学習済みモデル作成処理について説明する。この学習済みモデル作成処理は、以下に述べるように、学習済みモデルを作成するためのものであり、ユーザの入力インターフェース1cの操作により、前述した所定キーワードが入力されたときに実行される。 Next, various calculation processes executed by the data processing device 1B of this embodiment will be explained. First, the trained model creation process will be described with reference to FIG. As described below, this trained model creation process is for creating a trained model, and is executed when the above-mentioned predetermined keyword is input by the user's operation of the input interface 1c.

この学習済みモデル作成処理では、まず、特許文献群の取得処理が実行される(図38/STEP91)。この取得処理では、前述したように、所定キーワードに基づいて、特許文献データベース59を検索することにより、特許文献群が取得される(特許文献群取得ステップ)。 In this trained model creation process, first, a patent document group acquisition process is executed (FIG. 38/STEP 91). In this acquisition process, as described above, a patent document group is acquired by searching the patent document database 59 based on a predetermined keyword (patent document group acquisition step).

次いで、用語群の取得処理が実行される(図38/STEP92)。この取得処理では、前述したように、特許文献群をデータマイニングすることにより、用語群が取得される(用語群取得ステップ)。 Next, a term group acquisition process is executed (FIG. 38/STEP 92). In this acquisition process, as described above, a term group is acquired by data mining a patent document group (term group acquisition step).

次に、基礎用語群の取得処理が実行される(図38/STEP93)。この取得処理では、前述したように、基礎用語データベース60を参照することにより、基礎用語群が用語群から取得される(基礎用語群取得ステップ)。 Next, a basic term group acquisition process is executed (FIG. 38/STEP 93). In this acquisition process, as described above, the basic term group is acquired from the term group by referring to the basic term database 60 (basic term group acquisition step).

さらに、特徴量データの作成処理が実行される(図38/STEP94)。この作成処理では、前述したように、特徴量データが用語群及び基礎用語群から作成される(特徴量データ作成ステップ)。 Furthermore, feature amount data creation processing is executed (FIG. 38/STEP 94). In this creation process, as described above, feature data is created from a term group and a basic term group (feature data creation step).

この特徴量データの作成処理に続けて、学習データの作成処理が実行される(図38/STEP95)。この作成処理では、前述したように、地位概念データベース61を参照することにより、学習データが作成される(学習データ作成ステップ)。 Following the feature amount data creation process, learning data creation processing is executed (FIG. 38/STEP 95). In this creation process, as described above, learning data is created by referring to the status concept database 61 (learning data creation step).

次いで、モデル学習処理が実行される(図38/STEP96)。このモデル学習処理では、前述したように、学習データを用いて、所定の学習アルゴリズムにより、分類モデルである予測モデルの学習が実行される(モデル学習ステップ)。以上の処理が実行されることにより、学習済みモデルが作成される。 Next, model learning processing is executed (FIG. 38/STEP 96). In this model learning process, as described above, a predictive model, which is a classification model, is trained using learning data according to a predetermined learning algorithm (model learning step). By performing the above processing, a learned model is created.

次に、図39を参照しながら、地位概念データ群処理について説明する。この地位概念データ群処理は、以下に述べるように、地位概念データ群を作成してディスプレイ1aに表示するためのものであり、ユーザによる入力インターフェース1cの所定操作に伴って実行される。 Next, the status concept data group processing will be explained with reference to FIG. As described below, this status concept data group processing is for creating a status concept data group and displaying it on the display 1a, and is executed in accordance with a predetermined operation of the input interface 1c by the user.

この地位概念データ群処理では、まず、地位概念データ群の作成処理が実行される(図39/STEP100)。この作成処理では、前述したように、学習済みモデル及び特徴量データを用いて、地位概念データ群が作成される(地位概念データ群作成ステップ)。 In this status concept data group processing, first, a process for creating a status concept data group is executed (FIG. 39/STEP 100). In this creation process, as described above, a status concept data group is created using the learned model and feature data (status concept data group creation step).

次いで、地位概念データ群の表示処理が実行される(図39/STEP101)。この表示処理では、図示しないが、前述したように、地位概念データ群がディスプレイ1aに表示される(出力ステップ)。 Next, display processing of the status concept data group is executed (FIG. 39/STEP 101). In this display process, although not shown, as described above, the status concept data group is displayed on the display 1a (output step).

次に、図40を参照しながら、第2学習済みモデル作成処理について説明する。この第2学習済みモデル作成処理は、前述した第2学習済みモデルを作成するためのものであり、ユーザの入力インターフェース1cの操作により、前述した第2所定キーワードが入力されたときに実行される。 Next, the second trained model creation process will be described with reference to FIG. 40. This second trained model creation process is for creating the second trained model described above, and is executed when the second predetermined keyword described above is input by the user's operation of the input interface 1c. .

この第2学習済みモデル作成処理では、まず、第2特許文献群の取得処理が実行される(図40/STEP111)。この取得処理では、前述したように、第2所定キーワードに基づいて、特許文献データベース59を検索することにより、第2特許文献群が取得される(特許文献群取得ステップ)。 In this second trained model creation process, first, a second patent document group acquisition process is executed (FIG. 40/STEP 111). In this acquisition process, as described above, the second patent document group is acquired by searching the patent document database 59 based on the second predetermined keyword (patent document group acquisition step).

次いで、第2用語群の取得処理が実行される(図40/STEP112)。この取得処理では、前述したように、特許文献及び第2特許文献群をデータマイニングすることにより、第2用語群が取得される(用語群取得ステップ)。 Next, a second term group acquisition process is executed (FIG. 40/STEP 112). In this acquisition process, as described above, the second term group is acquired by data mining the patent document and the second patent document group (term group acquisition step).

さらに、第2基礎用語群の取得処理が実行される(図40/STEP113)。この取得処理では、前述したように、基礎用語データベース60を参照し、基礎用語データベース60に含まれている基礎用語を第2用語群から抜き出すことによって、第2基礎用語群が取得される。 Furthermore, a second basic term group acquisition process is executed (FIG. 40/STEP 113). In this acquisition process, as described above, the second basic term group is acquired by referring to the basic term database 60 and extracting the basic terms included in the basic term database 60 from the second term group.

次に、第2特徴量データの作成処理が実行される(図40/STEP114)。この作成処理では、前述したように、第2用語群及び第2基礎用語群に基づいて、第2特徴量データが作成される(特徴量データ作成ステップ)。 Next, a process for creating second feature amount data is executed (FIG. 40/STEP 114). In this creation process, as described above, the second feature data is created based on the second term group and the second basic term group (feature data creation step).

この第2特徴量データの作成処理に続けて、第2学習データの作成処理が実行される(図40/STEP115)。この作成処理では、前述したように、地位概念データベース61を参照することにより、第2特徴量データから第2学習データが作成される(学習データ作成ステップ)。 Following this second feature amount data creation process, second learning data creation processing is executed (FIG. 40/STEP 115). In this creation process, as described above, the second learning data is created from the second feature data by referring to the status concept database 61 (learning data creation step).

次いで、第2モデル学習処理が実行される(図40/STEP116)。この第2モデル学習処理では、前述したように、第2学習データを用いて、所定の学習アルゴリズムにより、分類モデルである予測モデルの学習が実行される(モデル学習ステップ)。以上の処理が実行されることにより、第2学習済みモデルが作成される。 Next, a second model learning process is executed (FIG. 40/STEP 116). In this second model learning process, as described above, a predictive model, which is a classification model, is trained using a predetermined learning algorithm using the second learning data (model learning step). By performing the above processing, a second trained model is created.

次に、図41を参照しながら、第2地位概念データ群処理について説明する。この第2地位概念データ群処理は、以下に述べるように、第2地位概念データ群を作成してディスプレイ1aに表示するためのものであり、ユーザによる入力インターフェース1cの所定操作に伴って実行される。 Next, the second status concept data group processing will be explained with reference to FIG. As described below, this second status concept data group processing is for creating a second status concept data group and displaying it on the display 1a, and is executed in accordance with a predetermined operation of the input interface 1c by the user. Ru.

この第2地位概念データ群処理では、まず、第2地位概念データ群の作成処理が実行される(図41/STEP120)。この作成処理では、前述したように、第2学習済みモデル及び第2特徴量データを用いて、第2地位概念データ群が作成される(第2地位概念データ群作成ステップ)。 In this second status concept data group process, first, a process for creating a second status concept data group is executed (FIG. 41/STEP 120). In this creation process, as described above, the second status concept data group is created using the second learned model and the second feature data (second status concept data group creation step).

次いで、第2地位概念データ群の表示処理が実行される(図41/STEP121)。この表示処理では、前述したように、第2地位概念データ群(図示せず)がディスプレイ1aに表示される(出力ステップ)。 Next, display processing of the second status concept data group is executed (FIG. 41/STEP 121). In this display process, as described above, the second status concept data group (not shown) is displayed on the display 1a (output step).

以上のように、第3実施形態に係るデータ処理装置1Bによれば、特徴量データの選択用語ペアにおける地位概念関係を表すラベルを特徴量データに付加したデータである学習データを用いて、分類モデルである予測モデルの学習が実行される。そして、特徴量データを学習済みモデルに入力したときの学習済みモデルの出力を用いて、特徴量データの選択用語ペアの地位概念関係を定義した地位概念データ群が作成される。 As described above, according to the data processing device 1B according to the third embodiment, classification is performed using learning data that is data in which a label representing a status concept relationship in a selected term pair of feature data is added to feature data. Learning of a predictive model, which is a model, is executed. Then, using the output of the learned model when the feature amount data is input to the trained model, a status concept data group is created that defines the status concept relationship between the selected word pairs of the feature amount data.

ここで、特徴量データは、基礎用語群に含まれる基礎用語と、基礎用語群に含まれる他の基礎用語又は用語群に含まれる用語とのペアである選択用語ペアを含むものである。それにより、このような特徴量データを学習済みモデルに対して入力した場合、学習済みモデルの出力は、特徴量データの選択用語ペアの地位概念関係を適切に予測したものとなる。したがって、そのような予測モデルの出力を用いて地位概念データ群を作成することにより、地位概念データ群を選択用語ペアの地位概念関係が適切に分類されたデータとして作成することができる。 Here, the feature amount data includes a selected term pair that is a pair of a basic term included in the basic term group and another basic term included in the basic term group or a term included in the term group. Thereby, when such feature data is input to a trained model, the output of the trained model will be an appropriate prediction of the status concept relationship of the selected term pair of the feature data. Therefore, by creating a status concept data group using the output of such a prediction model, the status concept data group can be created as data in which the status concept relationships of selected term pairs are appropriately classified.

さらに、地位概念データ群が、選択用語ペアの選択用語を上位概念及び下位概念の関係に従うように並べたツリー状の図形データとして作成され、ディスプレイ1aに表示される。それにより、ユーザは、選択用語間の地位概念関係を容易に把握することができる。また、ユーザによる入力インターフェース1cの操作により、地位概念データ群の選択用語における基礎用語がクリックされた際、その基礎用語の製品名とリンク付けされた基礎用語番号が表示される。それにより、ユーザは、選択用語間の地位概念関係に加えて、基礎用語の製品名をさらに把握することができる。 Furthermore, a status concept data group is created as tree-like graphic data in which the selected terms of the selected term pair are arranged according to the relationship between the superordinate concept and the subordinate concept, and is displayed on the display 1a. Thereby, the user can easily grasp the status concept relationship between the selected terms. Further, when a basic term among the selected terms of the status concept data group is clicked by the user through the operation of the input interface 1c, the basic term number linked to the product name of the basic term is displayed. Thereby, the user can further understand the product name of the basic term in addition to the status conceptual relationship between the selected terms.

一方、第2学習済みモデル作成処理では、第2所定キーワードに基づいて、第2特許文献群が取得され、特許文献群及び第2特許文献群をデータマイニングすることにより、第2用語群が取得され、基礎用語データベース60を参照することにより、第2用語群から第2基礎用語群が取得される。さらに、第2用語群及び第2基礎用語群に基づいて、第2特徴量データが作成され、地位概念データベース61を参照することにより、第2特徴量データから第2学習データが作成される。そして、この第2学習データを用いて予測モデルの学習が実行されることにより、第2学習済みモデルが作成されるとともに、第2学習済みモデル及び第2特徴量データを用いて、第2地位概念データ群が作成される。それにより、第2地位概念データ群を、地位概念データ群に対して、概念、性質及び分類のうちの少なくとも1つが類似した用語を含むように作成することができる。 On the other hand, in the second learned model creation process, a second patent document group is acquired based on a second predetermined keyword, and a second term group is acquired by data mining the patent document group and the second patent document group. Then, by referring to the basic term database 60, a second basic term group is obtained from the second term group. Further, second feature amount data is created based on the second term group and second basic term group, and second learning data is created from the second feature amount data by referring to the status concept database 61. Then, by executing learning of the predictive model using this second learning data, a second trained model is created, and a second position is created using the second trained model and the second feature data. A conceptual data group is created. Thereby, the second status concept data group can be created to include terms similar to the status concept data group in at least one of concepts, properties, and classifications.

なお、第3実施形態は、データ処理装置をパーソナルコンピュータタイプのデータ処理装置1Bで構成した例であるが、データ処理装置を、複数のパーソナルコンピュータ又は1つ以上のサーバ(この場合、サーバはクラウドサーバも含む)で構成してもよく、パーソナルコンピュータとサーバを組み合わせて構成してもよい。 Note that the third embodiment is an example in which the data processing device is configured with a personal computer type data processing device 1B, but the data processing device is configured with a plurality of personal computers or one or more servers (in this case, the server is a cloud server). (including servers), or may be configured by combining a personal computer and a server.

また、第3実施形態は、出力装置として、ディスプレイ1aを用いた例であるが、本発明の出力装置は、これに限らず、データ処理装置からの地位概念データ群を出力できるものであればよい。例えば、データ処理装置がクラウドサーバである場合、クラウドサーバから出力された地位概念データ群を、通信網を介して受信して出力する端末装置(パーソナルコンピュータ又はプリンタなど)を出力装置として用いてもよい。 Further, although the third embodiment is an example in which the display 1a is used as the output device, the output device of the present invention is not limited to this, and any device that can output the status concept data group from the data processing device can be used. good. For example, if the data processing device is a cloud server, a terminal device (such as a personal computer or printer) that receives and outputs the status concept data group output from the cloud server via a communication network may be used as the output device. good.

さらに、第3実施形態は、用語群が請求項に含まれる特許文献の集合を特許文献群として取得した例であるが、これに代えて、用語群が特許文献内の請求項を含めた全文章のいずれかに含まれている特許文献の集合を特許文献群として取得してもよい。その場合には、特徴量データ及び学習データにおいて、請求項のデータが含まれないように構成してもよい。 Furthermore, the third embodiment is an example in which a set of patent documents in which a term group is included in a claim is acquired as a patent document group; A set of patent documents included in any of the sentences may be acquired as a patent document group. In that case, the feature data and the learning data may be configured so that the claimed data is not included.

さらに、第3実施形態は、地位概念データ群を図34に示す2次元の画像データとした例であるが、地位概念データ群は、前述した図22と同様の3次元で表された画像データとして作成されてもよく、表形式のデータとして作成されてもよい。 Furthermore, the third embodiment is an example in which the status concept data group is the two-dimensional image data shown in FIG. It may be created as a table format data.

さらに、地位概念データ群を作成する際、各用語について、名寄せ辞書(図示せず)を参照して名寄せ処理を実施した後、地位概念データ群を作成するようにしてもよい。 Furthermore, when creating the status concept data group, the status concept data group may be created after performing name matching processing for each term with reference to a name matching dictionary (not shown).

また、第3実施形態は、基礎用語として、所定物質の原料を表す用語を用いた例であるが、本発明の基礎用語は、これに限らず、所定物質の原料、部品及び材質のいずれかを表す用語であればよい。例えば、基礎用語として、金属の材質などを用いてもよい。 Further, the third embodiment is an example in which a term representing a raw material of a predetermined substance is used as a basic term, but the basic term of the present invention is not limited to this, and can be any one of a raw material, a part, and a material of a predetermined substance. Any term that represents the term is sufficient. For example, the basic term may be the material of metal.

さらに、第3実施形態は、基礎用語の製品情報として、基礎用語の製品名を用いた例であるが、これに代えて、基礎用語の製品情報として、基礎用語の製品番号を用いてもよい。 Further, the third embodiment is an example in which the product name of the basic term is used as the product information of the basic term, but instead of this, the product number of the basic term may be used as the product information of the basic term. .

一方、第3実施形態は、所定の学習アルゴリズムとして、Transformerの自然言語モデルを用いた例であるが、所定の学習アルゴリズムとして、Random Forest、XGBoost、サポートベクターマシン又はニューラルネットワークなどを用いてもよい。 On the other hand, the third embodiment is an example in which a Transformer natural language model is used as the predetermined learning algorithm, but Random Forest, XGBoost, support vector machine, neural network, etc. may also be used as the predetermined learning algorithm. .

また、第3実施形態は、学習済みモデルとして、モデル学習部55で学習を実行した予測モデルを用いた例であるが、これに代えて、汎用的な学習済みモデル(例えば、BERT:Bidirectional Encoder Representations from Transformers)を、ファインチューニングすることなくそのまま用いてもよい。 Further, the third embodiment is an example in which a predictive model trained by the model learning unit 55 is used as a trained model, but instead of this, a general-purpose trained model (for example, BERT: Bidirectional Encoder Representations from Transformers) may be used as is without fine-tuning.

さらに、学習済みモデルとして、転移学習により作成された学習済みモデルを用いてもよい。例えば、情報処理装置1Bで作成された学習データが、サーバに送信され、サーバにおいてBERTなどの予測モデルの学習を実行することにより、学習済みモデルが作成されるとともに、その学習済みモデルが情報処理装置1Bに送信されるように構成してもよい。その場合には、情報処理装置1Bにおいて、特徴量データが作成される毎に、予測モデルの学習を実行することなく、特徴量データを学習済みモデルに入力することにより、地位概念データ群を作成すればよい。 Furthermore, a trained model created by transfer learning may be used as the trained model. For example, learning data created by the information processing device 1B is sent to a server, and by executing learning of a predictive model such as BERT on the server, a trained model is created, and the trained model is used for information processing. The information may be configured to be transmitted to the device 1B. In that case, the information processing device 1B creates a status concept data group by inputting the feature data into a learned model without executing predictive model learning every time the feature data is created. do it.

一方、第3実施形態の地位概念データ群作成部56において地位概念データ群が作成される毎に、以下に述べるように、基礎用語データベース60及び地位概念データベース61に対して、データの追加を実行してもよい。すなわち、地位概念データ群における選択用語において、その選択用語が基礎用語データベース60に含まれていない場合には、その選択用語が基礎用語データベース60に追加されるように構成してもよい。このように構成した場合、データ量が増加した基礎用語データベース60を用いて、特徴量データが作成されることにより、地位概念データ群のデータ量を増大させることができる。 On the other hand, each time a status concept data group is created in the status concept data group creation unit 56 of the third embodiment, data is added to the basic terminology database 60 and the status concept database 61 as described below. You may. That is, if the selected term in the status concept data group is not included in the basic term database 60, the selected term may be added to the basic term database 60. With this configuration, the amount of data of the status concept data group can be increased by creating feature amount data using the basic terminology database 60 with an increased amount of data.

また、地位概念データ群における選択用語間の上位概念又は下位概念の関係を示すラベルを追加したデータを作成し、そのデータが地位概念データベース61に含まれていない場合には、図28の2点鎖線で示すように、地位概念データベース61に追加するように構成してもよい。このように構成した場合、データ量が増加した地位概念データベースを用いて、学習データが作成されることにより、学習データによる予測モデルの学習効果をさらに向上させることができる。 Furthermore, if data is created with a label indicating the relationship between the higher-level concepts or lower-level concepts between the selected terms in the status concept data group, and the data is not included in the status concept database 61, the two points shown in FIG. It may be configured to be added to the status concept database 61 as shown by the chain line. With this configuration, learning data is created using the status concept database with an increased amount of data, thereby making it possible to further improve the learning effect of the predictive model using the learning data.

また、第3実施形態は、情報処理装置1Bにおいて、特徴量データが作成される毎に、学習データを作成し、予測モデルの学習(追加学習)を実行した例であるが、これに代えて、予測モデルの学習をM(Mは1以上の整数)回分、実行した以降は、特徴量データが作成された際、予測モデルの学習を実行することなく、特徴量データを学習済みモデルに入力することにより、地位概念データ群を作成するように構成してもよい。例えば、所定キーワードで学習を1回実行した学習済みモデルに対して、前述した第2特徴量データを入力することにより、第2地位概念データを作成するように構成してもよい。 Furthermore, in the third embodiment, learning data is created every time feature data is created in the information processing device 1B, and predictive model learning (additional learning) is executed. , after performing predictive model learning M times (M is an integer greater than or equal to 1), when feature data is created, the feature data is input to the trained model without performing predictive model learning. By doing so, a status concept data group may be created. For example, the second status concept data may be created by inputting the second feature data described above to a trained model that has been trained once using a predetermined keyword.

さらに、第3実施形態は、学習データ作成部54において学習データを作成した例であるが、これに代えて、ユーザが学習データを作成するように構成してもよい。 Furthermore, although the third embodiment is an example in which the learning data is created in the learning data creation section 54, the learning data may be created by the user instead.

また、第3実施形態は、所定キーワードとして「シリコーン油」を用いた例であるが、本発明の所定キーワードはこれに限らず、様々なキーワードが使用可能である。例えば、所定キーワードとして、バラエキスなどを用いてもよい。 Further, although the third embodiment is an example in which "silicone oil" is used as the predetermined keyword, the predetermined keyword of the present invention is not limited to this, and various keywords can be used. For example, rose extract or the like may be used as the predetermined keyword.

さらに、第3実施形態は、第2所定キーワードとして、「フェニルトリメチコン」を用いた例であるが、本発明の第2所定キーワードは、これに限らず、所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似であるものであればよい。例えば、「界面活性剤」が所定キーワードである場合には、「粘度調整剤」を第2所定キーワードとして用いてもよい。 Furthermore, although the third embodiment is an example in which "phenyl trimethicone" is used as the second predetermined keyword, the second predetermined keyword of the present invention is not limited to this, and the concept, property, and It is sufficient that at least one of the classifications is similar. For example, when "surfactant" is the predetermined keyword, "viscosity modifier" may be used as the second predetermined keyword.

また、第3実施形態は、データ処理装置1B内に記憶されている特許文献データベース59から特許文献群を取得した例であるが、例えば、特許文献データベースがデータ処理装置1B以外のサーバなどの演算処理装置に記憶されている場合には、データ処理装置1Bと演算処理装置間の通信により、演算処理装置内の特許文献データベースから特許文献群を取得するように構成してもよい。 Furthermore, although the third embodiment is an example in which a patent document group is acquired from the patent document database 59 stored in the data processing device 1B, for example, the patent document database may be operated by a server other than the data processing device 1B. When stored in the processing device, the patent documents may be configured to be acquired from a patent document database within the processing device through communication between the data processing device 1B and the arithmetic processing device.

さらに、第3実施形態は、データ処理装置1B内に記憶されている基礎用語データベース60から基礎用語群を取得した例であるが、例えば、基礎用語データベースがデータ処理装置1B以外のサーバなどの演算処理装置に記憶されている場合には、データ処理装置1Bと演算処理装置間の通信により、演算処理装置内の基礎用語データベースから基礎用語群を取得するように構成してもよい。 Furthermore, although the third embodiment is an example in which the basic term group is acquired from the basic term database 60 stored in the data processing device 1B, for example, the basic term database may be operated by a server other than the data processing device 1B. When stored in the processing device, the basic term group may be configured to be acquired from the basic term database in the arithmetic processing device through communication between the data processing device 1B and the arithmetic processing device.

一方、第3実施形態は、データ処理装置1B内に記憶されている地位概念データベース61を用いて学習データを作成した例であるが、例えば、地位概念データベースがデータ処理装置1B以外のサーバなどの演算処理装置に記憶されている場合には、データ処理装置1Bと演算処理装置間の通信により、演算処理装置内の地位概念データベースを用いて学習データを作成するように構成してもよい。 On the other hand, the third embodiment is an example in which learning data is created using the status concept database 61 stored in the data processing device 1B. When stored in the arithmetic processing device, the learning data may be created using a status concept database in the arithmetic processing device through communication between the data processing device 1B and the arithmetic processing device.

一方、第3実施形態は、図33に示す地位概念データベース61を用いた例であるが、本発明の地位概念データベースは、これに限らず、選択用語ペア間の地位概念関係を表すものであればよい。例えば、地位概念データベースにおいて、選択用語1が選択用語2の上位概念であることを「>」の記号で表し、選択用語1が用語2の下位概念であることを「<」の記号で表すとともに、選択用語1と用語2が上位概念又は下位概念の関係にないことを「×」の記号で表してもよい。 On the other hand, the third embodiment is an example in which the status concept database 61 shown in FIG. Bye. For example, in a status concept database, the symbol ">" indicates that selected term 1 is a superordinate concept of selected term 2, and the symbol "<" indicates that selected term 1 is a subordinate concept of term 2. , the fact that selected term 1 and term 2 are not in a superordinate concept or subordinate concept relationship may be represented by an "x" symbol.

また、地位概念データベース61において、選択用語1と選択用語2の関係を表すラベルとして、上位概念及び下位概念の関係をそれぞれ表す値「1」「0」のみが設定されているように構成してもよい。その場合には、学習データ作成部54において、特徴量データの選択用語ペアが地位概念データベース61に含まれていないときに、特徴量データの選択用語ペアにおける選択用語1と選択用語2の関係を表すラベルとして値「2」を設定するように構成すればよい。 In addition, the status concept database 61 is configured such that only the values "1" and "0" representing the relationships between higher-level concepts and lower-level concepts are set as labels representing the relationship between selected term 1 and selected term 2. Good too. In that case, the learning data creation unit 54 calculates the relationship between selected term 1 and selected term 2 in the selected term pair of feature amount data when the selected term pair of feature amount data is not included in the status concept database 61. The configuration may be such that the value "2" is set as the label.

さらに、地位概念データベース61において、選択用語1と選択用語2の関係を表すラベルとして、前述した上位概念の関係、下位概念の関係、及び、上位概念又は下位概念の関係にないことをそれぞれ表す値「1」「0」「2」以外に、等位概念を表すラベルとして、値「3」が設定されているように構成してもよい。その場合には、学習データ作成部34において、学習データにおける選択用語ペアのラベルとして、「0」~「3」の値が設定されるように構成すればよい。 Furthermore, in the status concept database 61, as a label representing the relationship between the selected term 1 and the selected term 2, values representing the above-mentioned superordinate concept relationship, subordinate concept relationship, and not having the above-mentioned superordinate concept or subordinate concept relationship, respectively. In addition to "1", "0", and "2", the value "3" may be set as a label representing a coordinate concept. In that case, the learning data creation unit 34 may be configured to set a value of "0" to "3" as the label of the selected term pair in the learning data.

1 データ処理装置
1a ディスプレイ(出力装置)
11 特許文献群取得部
12 用語群取得部
13 特徴量データ作成部
14 学習データ作成部
15 モデル学習部(モデル記憶部)
16 地位概念データ群作成部
17 出力部
18 平均値算出部
20 特許文献データベース
21 地位概念データベース
1A データ処理装置
30 非特許文献群取得部
31 用語群取得部
32 特許文献群取得部
33 特徴量データ作成部
34 学習データ作成部
35 モデル学習部
36 地位概念データ群作成部
37 出力部
39 非特許文献データベース
40 特許文献データベース
41 地位概念データベース
1B データ処理装置
50 特許文献群取得部
51 用語群取得部
52 基礎用語群取得部
53 特徴量データ作成部
54 学習データ作成部
55 モデル学習部
56 地位概念データ群作成部
57 出力部
59 特許文献データベース
60 基礎用語データベース
61 地位概念データベース

1 Data processing device 1a Display (output device)
11 Patent Document Group Acquisition Unit 12 Terminology Group Acquisition Unit 13 Feature Data Creation Unit 14 Learning Data Creation Unit 15 Model Learning Unit (Model Storage Unit)
16 Status concept data group creation unit 17 Output unit 18 Average value calculation unit 20 Patent document database 21 Status concept database 1A Data processing device 30 Non-patent document group acquisition unit 31 Terminology group acquisition unit 32 Patent document group acquisition unit 33 Feature amount data creation Part 34 Learning data creation part 35 Model learning part 36 Status concept data group creation part 37 Output part 39 Non-patent literature database 40 Patent literature database 41 Status concept database 1B Data processing device 50 Patent literature group acquisition part 51 Terminology group acquisition part 52 Basics Terminology group acquisition unit 53 Feature data creation unit 54 Learning data creation unit 55 Model learning unit 56 Status concept data group creation unit 57 Output unit 59 Patent document database 60 Basic terminology database 61 Status concept database

Claims (40)

特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶部と、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
所定キーワードに基づいて、前記特許文献のデータベースを検索することにより、当該所定キーワードが含まれる前記第B特許文献群を取得する特許文献群取得部と、
当該第B特許文献群をデータマイニングすることにより、当該第B特許文献群における前記用語のうち、出現頻度の高い方から順に所定順位までの前記用語である用語群を取得する用語群取得部と、
前記用語群から前記特徴量データを作成する特徴量データ作成部と、
を備えることを特徴とするデータ処理装置。
A set of A term pairs, which are pairs of terms included in Patent Document Group A, which is a collection of patent documents, and a label representing a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the A term pair; a trained model storage unit that stores a trained model that is a classification model that has been trained by a predetermined learning algorithm using training data including;
Using the output of the trained model when feature data including a set of B-th term pairs, which are pairs of terms included in the B-th patent document group, which is a set of patent documents, is input to the trained model, a status concept data group creation unit that creates a status concept data group representing a relationship between the higher-level concept and the lower-level concept between the B-th term pair of the feature amount data;
an output unit that performs output processing for outputting the status concept data group to an output device;
a patent document group acquisition unit that acquires the B patent document group that includes the predetermined keyword by searching the patent document database based on the predetermined keyword;
a term group acquisition unit that acquires a term group that is the term in the B patent document group in order of frequency of appearance up to a predetermined rank by data mining the B patent document group; ,
a feature data creation unit that creates the feature data from the term group;
A data processing device comprising:
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶部と、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
を備え、
前記特徴量データは、前記第B用語ペアが含まれる前記第B特許文献群の請求項のデータをさらに含むように構成されていることを特徴とするデータ処理装置。
A set of A term pairs, which are pairs of terms included in Patent Document Group A, which is a collection of patent documents, and a label representing a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the A term pair; a trained model storage unit that stores a trained model that is a classification model that has been trained by a predetermined learning algorithm using training data including;
Using the output of the trained model when feature data including a set of B-th term pairs, which are pairs of terms included in the B-th patent document group, which is a set of patent documents, is input to the trained model, a status concept data group creation unit that creates a status concept data group representing a relationship between the higher-level concept and the lower-level concept between the B-th term pair of the feature amount data;
an output unit that performs output processing for outputting the status concept data group to an output device;
Equipped with
The data processing device is characterized in that the feature amount data is configured to further include claim data of the B-th patent document group in which the B-th term pair is included .
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶部と、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
を備え、
前記学習データは、前記第A用語ペアが含まれる前記第A特許文献群の請求項のデータをさらに含むように構成されていることを特徴とするデータ処理装置。
A set of A term pairs, which are pairs of terms included in Patent Document Group A, which is a collection of patent documents, and a label representing a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the A term pair; a trained model storage unit that stores a trained model that is a classification model that has been trained by a predetermined learning algorithm using training data including;
Using the output of the trained model when feature data including a set of B-th term pairs, which are pairs of terms included in the B-th patent document group, which is a set of patent documents, is input to the trained model, a status concept data group creation unit that creates a status concept data group representing a relationship between the higher-level concept and the lower-level concept between the B-th term pair of the feature amount data;
an output unit that performs output processing for outputting the status concept data group to an output device;
Equipped with
The data processing device is characterized in that the learning data is configured to further include claim data of the A-th patent document group in which the A-th term pair is included .
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶部と、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
所定キーワードに基づいて、前記特許文献のデータベースを検索することにより、当該所定キーワードが含まれる前記第B特許文献群を取得する特許文献群取得部と、
当該第B特許文献群をデータマイニングすることにより、当該第B特許文献群における前記用語のうち、出現頻度の高い方から順に所定順位までの前記用語である用語群を取得する用語群取得部と、
前記用語群から前記特徴量データを作成する特徴量データ作成部と、
前記特徴量データの前記第B用語ペアに基づき、前記地位概念関係を定義した地位概念データベースを検索することにより、前記ラベルを前記特徴量データに付加したデータである前記学習データを作成する学習データ作成部と、
を備えることを特徴とするデータ処理装置。
A set of A term pairs, which are pairs of terms included in Patent Document Group A, which is a collection of patent documents, and a label representing a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the A term pair; a trained model storage unit that stores a trained model that is a classification model that has been trained by a predetermined learning algorithm using training data including;
Using the output of the trained model when feature data including a set of B-th term pairs, which are pairs of terms included in the B-th patent document group, which is a set of patent documents, is input to the trained model, a status concept data group creation unit that creates a status concept data group representing a relationship between the higher-level concept and the lower-level concept between the B-th term pair of the feature amount data;
an output unit that performs output processing for outputting the status concept data group to an output device;
a patent document group acquisition unit that acquires the B patent document group that includes the predetermined keyword by searching the patent document database based on the predetermined keyword;
a term group acquisition unit that acquires a term group that is the term in the B patent document group in order of frequency of appearance up to a predetermined rank by data mining the B patent document group; ,
a feature data creation unit that creates the feature data from the term group;
Learning data that creates the learning data that is data in which the label is added to the feature data by searching a status concept database that defines the status concept relationship based on the B-th term pair of the feature data. The creation department and
A data processing device comprising :
請求項4に記載のデータ処理装置において、
前記学習データ作成部は、前記学習データを、前記ラベルに加えて、前記用語が含まれる前記第B特許文献群の請求項のデータを前記特徴量データにさらに付加したデータとして作成することを特徴とするデータ処理装置。
The data processing device according to claim 4,
The learning data creation unit creates the learning data as data in which, in addition to the label, claim data of the B patent document group that includes the term is further added to the feature amount data. data processing equipment.
請求項4に記載のデータ処理装置において、
前記地位概念データ群に含まれる前記第B用語ペア間の前記地位概念関係が、前記地位概念データベースに追加されることを特徴とするデータ処理装置。
The data processing device according to claim 4,
A data processing device characterized in that the status concept relationship between the B-th term pair included in the status concept data group is added to the status concept database.
請求項4に記載のデータ処理装置において、
前記学習データでは、前記上位概念を定義した前記ラベルは第1所定値に、前記下位概念を定義した前記ラベルは第2所定値にそれぞれ設定されており、
前記特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力における前記第B用語ペア間の前記地位概念関係を表すラベルの平均値を算出する平均値算出部をさらに備え、
前記出力部は、前記ラベルの前記平均値が所定範囲内にある前記第B用語ペアのデータを前記出力装置に対して出力するためのデータ出力処理を実行することを特徴とするデータ処理装置。
The data processing device according to claim 4,
In the learning data, the label defining the superordinate concept is set to a first predetermined value, and the label defining the subordinate concept is set to a second predetermined value,
further comprising an average value calculation unit that calculates an average value of labels representing the status concept relationship between the B-th term pairs in the output of the trained model when the feature amount data is input to the trained model,
The data processing device is characterized in that the output unit executes data output processing for outputting data of the B-th term pair in which the average value of the labels is within a predetermined range to the output device.
請求項1~7のいずれかに記載のデータ処理装置において、
前記地位概念データ群作成部は、前記特許文献の番号が前記第B用語ペアの各々の用語に対してリンク付けされた状態で、前記地位概念データ群を作成することを特徴とするデータ処理装置。
The data processing device according to any one of claims 1 to 7,
The data processing device is characterized in that the status concept data group creation unit creates the status concept data group in a state where the number of the patent document is linked to each term of the B-th term pair. .
請求項1~7のいずれかに記載のデータ処理装置において、
前記地位概念データ群作成部は、前記地位概念データ群を、前記第B用語ペアの前記用語を前記上位概念及び前記下位概念の関係に従うように並べたツリー状の図形データとして作成することを特徴とするデータ処理装置。
The data processing device according to any one of claims 1 to 7,
The status concept data group creation unit creates the status concept data group as tree-like graphic data in which the terms of the B-th term pair are arranged according to the relationship between the higher-level concept and the lower-level concept. data processing equipment.
請求項に記載のデータ処理装置において、
前記特許文献群取得部は、前記第B特許文献群に加えて、前記所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、前記特許文献のデータベースを検索することにより、当該第2所定キーワードが含まれる特許文献の集合である第2特許文献群をさらに取得し、
前記用語群取得部は、前記第B特許文献群及び前記第2特許文献群をデータマイニングすることにより、前記第B特許文献群及び前記第2特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群をさらに取得し、
前記特徴量データ作成部は、前記第2用語群に含まれる前記用語のうち、前記第B特許文献群及び前記第2特許文献群に含まれる前記用語のペアである第2用語ペアの集合を含む第2特徴量データをさらに作成し、
前記地位概念データ群作成部は、前記第2特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記第2特徴量データの前記第2用語ペアの前記上位概念及び前記下位概念の関係を表す第2地位概念データ群を作成することを特徴とするデータ処理装置。
The data processing device according to claim 1 ,
The patent document group acquisition unit acquires the patent documents based on, in addition to the B patent document group, a second predetermined keyword that is similar to the predetermined keyword in at least one of the concept, property, and classification. further obtain a second patent document group that is a set of patent documents including the second predetermined keyword by searching the database;
The term group acquisition unit performs data mining on the B patent document group and the second patent document group to determine which of the terms in the B patent document group and the second patent document group has a higher frequency of appearance. Further obtain a second term group that is terms up to a predetermined rank in order from
The feature data creation unit generates a set of second term pairs that are pairs of terms included in the B patent document group and the second patent document group among the terms included in the second term group. Further create second feature data including
The status concept data group creation unit uses the output of the trained model when the second feature data is input to the trained model to determine the upper rank of the second term pair of the second feature data. A data processing device that creates a second status concept data group representing a relationship between a concept and the subordinate concept.
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶ステップと、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
所定キーワードに基づいて、前記特許文献のデータベースを検索することにより、当該所定キーワードが含まれる前記第B特許文献群を取得する特許文献群取得ステップと、
当該第B特許文献群をデータマイニングすることにより、当該第B特許文献群における前記用語のうち、出現頻度の高い方から順に所定順位までの前記用語である用語群を取得する用語群取得ステップと、
前記用語群から前記特徴量データを作成する特徴量データ作成ステップと、
がデータ処理装置によって実行されることを特徴とするデータ処理方法。
A set of A term pairs, which are pairs of terms included in Patent Document Group A, which is a collection of patent documents, and a label representing a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the A term pair; a learned model storage step of storing a learned model that is a classification model that has been trained by a predetermined learning algorithm using learning data including;
Using the output of the trained model when feature data including a set of B-th term pairs, which are pairs of terms included in the B-th patent document group, which is a set of patent documents, is input to the trained model, a status concept data group creation step of creating a status concept data group representing the relationship between the higher-level concept and the lower-level concept between the B-th term pair of the feature amount data;
an output step of performing an output process for outputting the status concept data group to an output device;
a patent document group acquisition step of acquiring the B patent document group that includes the predetermined keyword by searching the database of patent documents based on the predetermined keyword;
a term group acquisition step of acquiring a term group that is the term up to a predetermined rank in order of frequency of appearance among the terms in the B patent document group by data mining the B patent document group; ,
a feature data creation step of creating the feature data from the term group;
A data processing method, characterized in that: is executed by a data processing device.
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶ステップと、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
がデータ処理装置によって実行され、
前記特徴量データは、前記第B用語ペアが含まれる前記第B特許文献群の請求項のデータをさらに含むように構成されていることを特徴とするデータ処理方法。
A set of A term pairs, which are pairs of terms included in Patent Document Group A, which is a collection of patent documents, and a label representing a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the A term pair; a learned model storage step of storing a learned model that is a classification model that has been trained by a predetermined learning algorithm using learning data including;
Using the output of the trained model when feature data including a set of B-th term pairs, which are pairs of terms included in the B-th patent document group, which is a set of patent documents, is input to the trained model, a status concept data group creation step of creating a status concept data group representing the relationship between the higher-level concept and the lower-level concept between the B-th term pair of the feature amount data;
an output step of performing an output process for outputting the status concept data group to an output device;
is executed by the data processing device,
The data processing method is characterized in that the feature amount data is configured to further include claim data of the B-th patent document group in which the B-th term pair is included .
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶ステップと、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
がデータ処理装置によって実行され、
前記学習データは、前記第A用語ペアが含まれる前記第A特許文献群の請求項のデータをさらに含むように構成されていることを特徴とするデータ処理方法。
A set of A term pairs, which are pairs of terms included in Patent Document Group A, which is a collection of patent documents, and a label representing a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the A term pair; a learned model storage step of storing a learned model that is a classification model that has been trained by a predetermined learning algorithm using learning data including;
Using the output of the trained model when feature data including a set of B-th term pairs, which are pairs of terms included in the B-th patent document group, which is a set of patent documents, is input to the trained model, a status concept data group creation step of creating a status concept data group representing the relationship between the higher-level concept and the lower-level concept between the B-th term pair of the feature amount data;
an output step of performing an output process for outputting the status concept data group to an output device;
is executed by the data processing device,
The data processing method is characterized in that the learning data is configured to further include claim data of the A-th patent document group in which the A-th term pair is included .
特許文献の集合である第A特許文献群に含まれる用語のペアである第A用語ペアの集合と、当該第A用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を表すラベルとを含む学習データを用いて、所定の学習アルゴリズムより学習が実行された分類モデルである学習済みモデルを記憶する学習済みモデル記憶ステップと、
特許文献の集合である第B特許文献群に含まれる用語のペアである第B用語ペアの集合を含む特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
所定キーワードに基づいて、前記特許文献のデータベースを検索することにより、当該所定キーワードが含まれる前記第B特許文献群を取得する特許文献群取得ステップと、
当該第B特許文献群をデータマイニングすることにより、当該第B特許文献群における前記用語のうち、出現頻度の高い方から順に所定順位までの前記用語である用語群を取得する用語群取得ステップと、
前記用語群から前記特徴量データを作成する特徴量データ作成ステップと、
前記特徴量データの前記第B用語ペアに基づき、前記地位概念関係を定義した地位概念データベースを検索することにより、前記ラベルを前記特徴量データに付加したデータである学習データを作成する学習データ作成ステップと、
がデータ処理装置によって実行されることを特徴とするデータ処理方法。
A set of A term pairs, which are pairs of terms included in Patent Document Group A, which is a collection of patent documents, and a label representing a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the A term pair; a learned model storage step of storing a learned model that is a classification model that has been trained by a predetermined learning algorithm using learning data including;
Using the output of the trained model when feature data including a set of B-th term pairs, which are pairs of terms included in the B-th patent document group, which is a set of patent documents, is input to the trained model, a status concept data group creation step of creating a status concept data group representing the relationship between the higher-level concept and the lower-level concept between the B-th term pair of the feature amount data;
an output step of performing an output process for outputting the status concept data group to an output device;
a patent document group acquisition step of acquiring the B patent document group that includes the predetermined keyword by searching the database of patent documents based on the predetermined keyword;
a term group acquisition step of acquiring a term group that is the term up to a predetermined rank in order of frequency of appearance among the terms in the B patent document group by data mining the B patent document group; ,
a feature data creation step of creating the feature data from the term group;
creating learning data that is data in which the label is added to the feature data by searching a status concept database that defines the status concept relationship based on the B-th term pair of the feature data; step and
A data processing method, characterized in that : is executed by a data processing device .
請求項14に記載のデータ処理方法において、
前記学習データ作成ステップでは、前記学習データが、前記ラベルに加えて、前記用語が含まれる前記第B特許文献群の請求項のデータを前記特徴量データにさらに付加したデータとして作成されることを特徴とするデータ処理方法。
The data processing method according to claim 14,
In the learning data creation step, the learning data is created as data in which, in addition to the label, claim data of the B patent document group that includes the term is further added to the feature data. Characteristic data processing method.
請求項14に記載のデータ処理方法において、
前記地位概念データ群に含まれる前記第B用語ペア間の前記地位概念関係が、前記地位概念データベースに追加されることを特徴とするデータ処理方法。
The data processing method according to claim 14,
A data processing method characterized in that the status concept relationship between the B-th term pair included in the status concept data group is added to the status concept database.
請求項14に記載のデータ処理方法において、
前記学習データでは、前記上位概念を定義した前記ラベルは第1所定値に、前記下位概念を定義した前記ラベルは第2所定値にそれぞれ設定されており、
前記特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力における前記第B用語ペア間の前記地位概念関係を表すラベルの平均値を算出する平均値算出ステップが前記データ処理装置によってさらに実行され、
前記出力ステップでは、前記ラベルの前記平均値が所定範囲内にある前記第B用語ペアのデータを前記出力装置に対して出力するためのデータ出力処理が実行されることを特徴とするデータ処理方法。
The data processing method according to claim 14,
In the learning data, the label defining the superordinate concept is set to a first predetermined value, and the label defining the subordinate concept is set to a second predetermined value,
The average value calculating step of calculating the average value of labels representing the status concept relationship between the B-th term pairs in the output of the trained model when the feature amount data is input to the trained model is performed by the data processing device. is further executed by
A data processing method characterized in that, in the output step, data output processing is executed to output data of the B-th term pair in which the average value of the label is within a predetermined range to the output device. .
請求項11~17のいずれかに記載のデータ処理方法において、
前記地位概念データ群作成ステップでは、前記特許文献の番号が前記第B用語ペアの各々の用語に対してリンク付けされた状態で、前記地位概念データ群が作成されることを特徴とするデータ処理方法。
In the data processing method according to any one of claims 11 to 17,
In the status concept data group creation step, the status concept data group is created with the number of the patent document linked to each term of the B-th term pair. Method.
請求項11~17のいずれかに記載のデータ処理方法において、
前記地位概念データ群作成ステップでは、前記地位概念データ群が、前記第B用語ペアの前記用語を前記上位概念及び前記下位概念の関係に従うように並べたツリー状の図形データとして作成されることを特徴とするデータ処理方法。
In the data processing method according to any one of claims 11 to 17,
In the status concept data group creation step, the status concept data group is created as tree-like graphic data in which the terms of the B-th term pair are arranged according to the relationship between the superordinate concept and the subordinate concept. Characteristic data processing method.
請求項11に記載のデータ処理方法において、
前記特許文献群取得ステップでは、前記第B特許文献群に加えて、前記所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、前記特許文献のデータベースを検索することにより、当該第2所定キーワードが含まれる特許文献の集合である第2特許文献群がさらに取得され、
前記用語群取得ステップでは、前記第B特許文献群及び前記第2特許文献群をデータマイニングすることにより、前記第B特許文献群及び前記第2特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群がさらに取得され、
前記特徴量データ作成ステップでは、前記第2用語群に含まれる前記用語のうち、前記第B特許文献群及び前記第2特許文献群に含まれる前記用語のペアである第2用語ペアの集合を含む第2特徴量データがさらに作成され、
前記地位概念データ群作成ステップでは、前記第2特徴量データを前記学習済みモデルに入力したときの当該学習済みモデルの出力を用いて、前記第2特徴量データの前記第B用語ペア間の前記上位概念及び前記下位概念の関係を表す第2地位概念データ群が作成されることを特徴とするデータ処理方法。
The data processing method according to claim 11 ,
In the patent document group acquisition step, in addition to the B patent document group, the patent documents are acquired based on a second predetermined keyword that is similar to the predetermined keyword in at least one of the concepts, properties, and classifications. By searching the database, a second patent document group, which is a set of patent documents including the second predetermined keyword, is further obtained;
In the term group acquisition step, data mining is performed on the B patent document group and the second patent document group to determine which of the terms in the B patent document group and the second patent document group has a higher frequency of appearance. A second term group is further obtained, which is terms up to a predetermined rank in order from
In the feature amount data creation step, a set of second term pairs that are pairs of terms included in the B patent document group and the second patent document group among the terms included in the second term group are created. Second feature data including:
In the status concept data group creation step, the output of the trained model when the second feature data is input to the trained model is used to calculate the difference between the B-th term pair of the second feature data. A data processing method characterized in that a second status concept data group representing a relationship between a superordinate concept and the subordinate concept is created.
所定キーワードに基づいて、非特許文献のデータベースを検索することにより、当該所定キーワードが含まれる非特許文献の集合である非特許文献群を取得する非特許文献群取得部と、
当該非特許文献群をデータマイニングすることにより、当該非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得部と、
当該用語群に基づいて、特許文献のデータベースを検索することにより、当該用語群が含まれる特許文献の集合である特許文献群を取得する特許文献群取得部と、
前記用語群に含まれる前記用語のうち、前記特許文献群に含まれる前記用語のペアである用語ペアの集合を含む特徴量データを作成する特徴量データ作成部と、
前記特徴量データを分類モデルである予測モデルに入力したときの当該予測モデルの出力を用いて、前記特徴量データの前記用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
を備え、
前記予測モデルは、前記特徴量データが入力されたときに、前記用語ペア間の前記上位概念及び前記下位概念の関係を表すラベルの値を出力するように構成されていることを特徴とするデータ処理装置。
a non-patent document group acquisition unit that searches a database of non-patent documents based on a predetermined keyword to obtain a non-patent document group that is a set of non-patent documents that include the predetermined keyword;
a term group acquisition unit that acquires a term group of terms up to a predetermined rank in order of frequency of appearance among the terms in the non-patent document group by data mining the non-patent document group;
a patent document group acquisition unit that acquires a patent document group that is a set of patent documents including the term group by searching a database of patent documents based on the term group;
a feature amount data creation unit that creates feature amount data including a set of term pairs that are pairs of terms included in the patent document group among the terms included in the term group;
When the feature amount data is input to a prediction model that is a classification model, the output of the prediction model is used to create a status concept data group representing the relationship between the superordinate concept and the subordinate concept between the term pairs of the feature amount data. a status concept data group creation unit,
an output unit that performs output processing for outputting the status concept data group to an output device;
Equipped with
Data characterized in that the prediction model is configured to output a label value representing a relationship between the higher-level concept and the lower-level concept between the term pair when the feature amount data is input. Processing equipment.
請求項21に記載のデータ処理装置において、
前記特徴量データの前記用語ペアに基づき、当該用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を定義した地位概念データベースを検索することにより、当該地位概念関係を表すラベルを前記特徴量データに付加したデータである学習データを作成する学習データ作成部と、
前記学習データを用いて、所定の学習アルゴリズムより、前記予測モデルの学習を実行するモデル学習部と、
をさらに備えることを特徴とするデータ処理装置。
The data processing device according to claim 21,
Based on the term pair of the feature amount data, by searching a status concept database that defines a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the term pair, a label representing the status concept relationship is assigned to the feature. a learning data creation unit that creates learning data that is data added to the quantitative data;
a model learning unit that executes learning of the predictive model according to a predetermined learning algorithm using the learning data;
A data processing device further comprising:
請求項21又は22に記載のデータ処理装置において、
前記地位概念データ群作成部は、前記地位概念データ群を、前記用語ペアの前記用語を前記上位概念及び前記下位概念の関係に従うように並べたツリー状の図形データとして作成することを特徴とするデータ処理装置。
The data processing device according to claim 21 or 22,
The status concept data group creation unit creates the status concept data group as tree-like graphic data in which the terms of the term pair are arranged according to the relationship between the superordinate concept and the subordinate concept. Data processing equipment.
請求項21又は22に記載のデータ処理装置において、
前記地位概念データ群作成部は、前記特許文献の番号及び前記非特許文献を表すデータの少なくとも一方が前記用語ペアの各々の用語に対してリンク付けされた状態で、前記地位概念データ群を作成することを特徴とするデータ処理装置。
The data processing device according to claim 21 or 22,
The status concept data group creation unit creates the status concept data group with at least one of the number of the patent document and the data representing the non-patent document linked to each term of the term pair. A data processing device characterized by:
請求項21又は22に記載のデータ処理装置において、
前記非特許文献群取得部は、前記非特許文献群に加えて、前記所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、前記非特許文献の前記データベースを検索することにより、当該第2所定キーワードが含まれる非特許文献の集合である第2非特許文献群をさらに取得し、
前記用語群取得部は、前記非特許文献群及び前記第2非特許文献群をデータマイニングすることにより、前記非特許文献群及び前記第2非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群をさらに取得し、
前記特許文献群取得部は、前記第2用語群に基づいて、前記特許文献の前記データベースを検索することにより、当該第2用語群が含まれる前記特許文献の集合である第2特許文献群を取得し、
前記特徴量データ作成部は、前記第2用語群に含まれる前記用語のうち、前記第2特許文献群に含まれる前記用語のペアである第2用語ペアの集合を含む第2特徴量データをさらに作成し、
前記地位概念データ群作成部は、前記第2特徴量データを前記予測モデルに入力したときの当該予測モデルの出力を用いて、前記第2特徴量データの前記第2用語ペア間の前記上位概念及び前記下位概念の関係を表す第2地位概念データ群を作成することを特徴とするデータ処理装置。
The data processing device according to claim 21 or 22,
The non-patent document group acquisition unit acquires the non-patent documents based on a second predetermined keyword that is similar to the predetermined keyword in at least one of a concept, a property, and a classification, in addition to the non-patent document group. further obtain a second non-patent document group that is a set of non-patent documents including the second predetermined keyword by searching the database;
The term group acquisition unit performs data mining on the non-patent document group and the second non-patent document group to determine which of the terms in the non-patent document group and the second non-patent document group has a higher frequency of appearance. Further obtain a second term group that is terms up to a predetermined rank in order from
The patent document group acquisition unit searches the database of the patent documents based on the second term group to obtain a second patent document group that is a set of the patent documents including the second term group. Acquired,
The feature amount data creation unit generates second feature amount data including a set of second term pairs that are pairs of terms included in the second patent document group among the terms included in the second term group. Create more,
The status concept data group creation unit generates the superordinate concept between the second term pair of the second feature data using the output of the prediction model when the second feature data is input to the prediction model. and a data processing device that creates a second status concept data group representing a relationship between the subordinate concepts.
所定キーワードに基づいて、非特許文献のデータベースを検索することにより、当該所定キーワードが含まれる非特許文献の集合である非特許文献群を取得する非特許文献群取得ステップと、
当該非特許文献群をデータマイニングすることにより、当該非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得ステップと、
当該用語群に基づいて、特許文献のデータベースを検索することにより、当該用語群が含まれる特許文献の集合である特許文献群を取得する特許文献群取得ステップと、
前記用語群に含まれる前記用語のうち、前記特許文献群に含まれる前記用語のペアである用語ペアの集合を含む特徴量データを作成する特徴量データ作成ステップと、
前記特徴量データを分類モデルである予測モデルに入力したときの当該予測モデルの出力を用いて、前記特徴量データの前記用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
がデータ処理装置によって実行され、
前記予測モデルは、前記特徴量データが入力されたときに、前記用語ペア間の前記上位概念及び前記下位概念の関係を表すラベルの値を出力するように構成されていることを特徴とするデータ処理方法。
a step of acquiring a non-patent literature group, which is a set of non-patent literature that includes the predetermined keyword, by searching a database of non-patent literature based on the predetermined keyword;
a term group acquisition step of acquiring a term group of terms up to a predetermined rank in order of frequency of appearance among the terms in the non-patent document group by data mining the non-patent document group;
a step of acquiring a patent document group, which is a set of patent documents including the term group, by searching a database of patent documents based on the term group;
a step of creating feature data that includes a set of term pairs that are pairs of terms included in the patent document group among the terms included in the term group;
When the feature amount data is input to a prediction model that is a classification model, the output of the prediction model is used to create a status concept data group representing the relationship between the superordinate concept and the subordinate concept between the term pairs of the feature amount data. a status concept data group creation step;
an output step of performing an output process for outputting the status concept data group to an output device;
is executed by the data processing device,
Data characterized in that the prediction model is configured to output a label value representing a relationship between the higher-level concept and the lower-level concept between the term pair when the feature amount data is input. Processing method.
請求項26に記載のデータ処理方法において、
前記特徴量データの前記用語ペアに基づき、当該用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を定義した地位概念データベースを検索することにより、当該地位概念関係を表すラベルを前記特徴量データに付加したデータである学習データを作成する学習データ作成ステップと、
前記学習データを用いて、所定の学習アルゴリズムより、前記予測モデルの学習を実行するモデル学習ステップと、
が前記データ処理装置によってさらに実行されることを特徴とするデータ処理方法。
The data processing method according to claim 26,
Based on the term pair of the feature amount data, by searching a status concept database that defines a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the term pair, a label representing the status concept relationship is assigned to the feature. a learning data creation step of creating learning data that is data added to the quantitative data;
a model learning step of performing learning of the predictive model according to a predetermined learning algorithm using the learning data;
further executed by the data processing device.
請求項26又は27に記載のデータ処理方法において、
前記地位概念データ群作成ステップでは、前記地位概念データ群が、前記用語ペアの前記用語を前記上位概念及び前記下位概念の関係に従うように並べたツリー状の図形データとして作成されることを特徴とするデータ処理方法。
The data processing method according to claim 26 or 27,
In the status concept data group creation step, the status concept data group is created as tree-like graphic data in which the terms of the term pair are arranged according to the relationship between the superordinate concept and the subordinate concept. data processing methods.
請求項26又は27に記載のデータ処理方法において、
前記地位概念データ群作成ステップでは、前記特許文献の番号及び前記非特許文献を表すデータの少なくとも一方が前記用語ペアの各々の用語にリンク付けされた状態で、前記地位概念データ群が作成されることを特徴とするデータ処理方法。
The data processing method according to claim 26 or 27,
In the status concept data group creation step, the status concept data group is created with at least one of the number of the patent document and the data representing the non-patent document linked to each term of the term pair. A data processing method characterized by:
請求項26又は27に記載のデータ処理方法において、
前記非特許文献群取得ステップでは、前記非特許文献群に加えて、前記所定キーワードに対して概念、性質及び分類のうちの少なくとも1つが類似である第2所定キーワードに基づいて、前記非特許文献のデータベースを検索することにより、当該第2所定キーワードが含まれる非特許文献の集合である第2非特許文献群がさらに取得され、
前記用語群取得ステップでは、前記非特許文献群及び前記第2非特許文献群をデータマイニングすることにより、前記非特許文献群及び前記第2非特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群がさらに取得され、
前記特許文献群取得ステップでは、前記第2用語群に基づいて、前記特許文献の前記データベースを検索することにより、当該第2用語群が含まれる前記特許文献の集合である第2特許文献群が取得され、
前記特徴量データ作成ステップでは、前記第2用語群に含まれる前記用語のうち、前記第2特許文献群に含まれる前記用語のペアである第2用語ペアの集合を含む第2特徴量データがさらに作成され、
前記地位概念データ群作成ステップでは、前記第2特徴量データを前記予測モデルに入力したときの当該予測モデルの出力を用いて、前記第2特徴量データの前記用語ペア間の前記上位概念及び前記下位概念の関係を表す第2地位概念データ群が作成されることを特徴とするデータ処理方法。
The data processing method according to claim 26 or 27,
In the non-patent literature group acquisition step, in addition to the non-patent literature group, the non-patent literature is acquired based on a second predetermined keyword that is similar to the predetermined keyword in at least one of the concepts, properties, and classifications. A second non-patent document group, which is a set of non-patent documents including the second predetermined keyword, is further obtained by searching the database,
In the term group acquisition step, data mining is performed on the non-patent document group and the second non-patent document group to determine which of the terms in the non-patent document group and the second non-patent document group has a higher frequency of appearance. A second term group is further obtained, which is terms up to a predetermined rank in order from
In the patent document group acquisition step, by searching the database of the patent documents based on the second term group, a second patent document group, which is a set of the patent documents including the second term group, is obtained. obtained,
In the feature amount data creation step, second feature amount data including a set of second term pairs that are pairs of terms included in the second patent document group among the terms included in the second term group is created. further created,
In the status concept data group creation step, the output of the prediction model when the second feature data is input to the prediction model is used to determine the superordinate concept between the term pairs of the second feature data and the A data processing method characterized in that a second status concept data group representing a relationship between subordinate concepts is created.
所定物質を表す所定キーワードに基づいて、特許文献のデータベースを検索することにより、当該所定キーワードが含まれる特許文献の集合である特許文献群を取得する特許文献群取得部と、
当該特許文献群をデータマイニングすることにより、当該特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得部と、
前記所定物質に基づき、前記所定物質の原料、部品及び材質のいずれかを表す基礎用語を定義した基礎用語データベースを検索することにより、前記用語群から前記基礎用語の集合である基礎用語群を取得する基礎用語群取得部と、
前記基礎用語群に含まれる前記基礎用語と、前記用語群に含まれる前記用語及び前記基礎用語群に含まれる前記基礎用語の一方とのペアである選択用語ペアの集合を含む特徴量データを作成する特徴量データ作成部と、
前記特徴量データを分類モデルである予測モデルに入力したときの当該予測モデルの出力を用いて、前記特徴量データの前記選択用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成部と、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力部と、
を備え、
前記予測モデルは、前記特徴量データが入力されたときに、前記選択用語ペア間の前記上位概念及び前記下位概念の関係を表すラベルの値を出力するように構成されていることを特徴とするデータ処理装置。
a patent document group acquisition unit that retrieves a patent document group that is a set of patent documents that include the predetermined keyword by searching a database of patent documents based on a predetermined keyword representing a predetermined substance;
a term group acquisition unit that acquires a term group of terms up to a predetermined rank in order of frequency of appearance from among the terms in the patent document group by data mining the patent document group;
Based on the predetermined substance, a basic term database that defines basic terms representing any of raw materials, parts, and materials of the predetermined substance is searched to obtain a basic term group that is a set of basic terms from the term group. a basic term group acquisition unit,
Creating feature amount data including a set of selected term pairs that are a pair of the basic term included in the basic term group, the term included in the term group, and one of the basic terms included in the basic term group. a feature data creation unit,
When the feature amount data is input into a prediction model that is a classification model, the output of the prediction model is used to generate a status concept data group representing the relationship between the superordinate concept and the subordinate concept between the selected term pairs of the feature amount data. a status concept data group creation unit to create;
an output unit that performs output processing for outputting the status concept data group to an output device;
Equipped with
The prediction model is characterized in that, when the feature amount data is input, the prediction model is configured to output a label value representing a relationship between the higher-level concept and the lower-level concept between the selected term pair. Data processing equipment.
請求項31に記載のデータ処理装置において、
前記特徴量データの前記選択用語ペアに基づき、当該選択用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を定義した地位概念データベースを検索することにより、当該地位概念関係を表すラベルを前記特徴量データに付加したデータである学習データを作成する学習データ作成部と、
前記学習データを用いて、所定の学習アルゴリズムより、前記予測モデルの学習を実行するモデル学習部と、
をさらに備えることを特徴とするデータ処理装置。
The data processing device according to claim 31,
Based on the selected term pair of the feature amount data, a label representing the status concept relationship is searched by searching a status concept database that defines a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the selected term pair. a learning data creation unit that creates learning data that is data added to the feature data;
a model learning unit that executes learning of the predictive model according to a predetermined learning algorithm using the learning data;
A data processing device further comprising:
請求項31又は32に記載のデータ処理装置において、
前記地位概念データ群作成部は、前記地位概念データ群を、前記選択用語ペアの選択用語を前記上位概念及び前記下位概念の関係に従うように並べたツリー状の図形データとして作成することを特徴とするデータ処理システム。
The data processing device according to claim 31 or 32,
The status concept data group creation unit creates the status concept data group as tree-like graphic data in which the selected terms of the selected term pair are arranged in accordance with the relationship between the superordinate concept and the subordinate concept. data processing system.
請求項31又は32に記載のデータ処理装置において、
前記地位概念データ群作成部は、前記地位概念データ群における前記選択用語ペアの前記基礎用語と当該基礎用語の製品情報との関係を定義した製品データベースをさらに用いて、前記基礎用語に前記製品情報がリンク付けされた状態で前記地位概念データ群を作成することを特徴とするデータ処理システム。
The data processing device according to claim 31 or 32,
The status concept data group creation unit further uses a product database that defines the relationship between the basic term of the selected term pair in the status concept data group and the product information of the basic term, and adds the product information to the basic term. A data processing system characterized in that the status concept data group is created in a state where the data are linked.
請求項31又は32に記載のデータ処理装置において、
前記特許文献群取得部は、前記特許文献群に加えて、前記所定物質に対して性質及び分類のうちの少なくとも一方が類似の第2物質を表す第2所定キーワードに基づいて、前記特許文献のデータベースを検索することにより、当該第2所定キーワードが含まれる特許文献の集合である第2特許文献群をさらに取得し、
前記用語群取得部は、前記特許文献群及び前記第2特許文献群をデータマイニングすることにより、前記特許文献群及び前記第2特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群をさらに取得し、
前記基礎用語群取得部は、前記第2物質に基づき、前記基礎用語データベースを検索することにより、前記第2用語群から前記第2物質の前記基礎用語の集合である第2基礎用語群をさらに取得し、
前記特徴量データ作成部は、前記第2基礎用語群に含まれる前記基礎用語と、前記第2用語群に含まれる第2用語及び前記第2基礎用語群に含まれる前記基礎用語の一方とのペアである第2選択用語ペアの集合を含む第2特徴量データをさらに作成し、
前記地位概念データ群作成部は、前記第2特徴量データを前記予測モデルに入力したときの当該予測モデルの出力を用いて、前記第2特徴量データの前記第2選択用語ペア間の前記上位概念及び前記下位概念の関係を表す前記地位概念データ群をさらに作成することを特徴とするデータ処理システム。
The data processing device according to claim 31 or 32,
In addition to the patent document group, the patent document group acquisition unit acquires the patent documents based on a second predetermined keyword representing a second substance that is similar in at least one of properties and classification to the predetermined substance. further obtain a second patent document group that is a set of patent documents including the second predetermined keyword by searching the database;
The term group acquisition unit performs data mining on the patent document group and the second patent document group to obtain a predetermined rank of terms in the order of frequency of appearance among the terms in the patent document group and the second patent document group. Further obtain a second term group that is the terms up to
The basic term group acquisition unit further obtains a second basic term group, which is a set of basic terms for the second substance, from the second term group by searching the basic term database based on the second substance. Acquired,
The feature amount data creation unit is configured to combine the basic term included in the second basic term group with one of the second term included in the second term group and the basic term included in the second basic term group. further creating second feature data including a set of second selected term pairs that are pairs;
The status concept data group creation unit uses the output of the prediction model when the second feature data is input to the prediction model to determine the top rank between the second selected term pair of the second feature data. A data processing system further comprising the step of creating the status concept data group representing the relationship between the concept and the subordinate concept.
所定物質を表す所定キーワードに基づいて、特許文献のデータベースを検索することにより、当該所定キーワードが含まれる特許文献の集合である特許文献群を取得する特許文献群取得ステップと、
当該特許文献群をデータマイニングすることにより、当該特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である用語群を取得する用語群取得ステップと、
前記所定物質に基づき、前記所定物質の原料、部品及び材質のいずれかを表す基礎用語を定義した基礎用語データベースを検索することにより、前記用語群から前記基礎用語の集合である基礎用語群を取得する基礎用語群取得ステップと、
前記基礎用語群に含まれる前記基礎用語と、前記用語群に含まれる前記用語及び前記基礎用語群に含まれる前記基礎用語の一方とのペアである選択用語ペアの集合を含む特徴量データを作成する特徴量データ作成ステップと、
前記特徴量データを分類モデルである予測モデルに入力したときの当該予測モデルの出力を用いて、前記特徴量データの前記選択用語ペア間の上位概念及び下位概念の関係を表す地位概念データ群を作成する地位概念データ群作成ステップと、
前記地位概念データ群を出力装置に対して出力するための出力処理を実行する出力ステップと、
がデータ処理装置によって実行され、
前記予測モデルは、前記特徴量データが入力されたときに、前記選択用語ペア間の前記上位概念及び前記下位概念の関係を表すラベルの値を出力するように構成されていることを特徴とするデータ処理方法。
a step of obtaining a patent document group, which is a set of patent documents including the predetermined keyword, by searching a database of patent documents based on a predetermined keyword representing a predetermined substance;
a term group acquisition step of acquiring a term group of terms up to a predetermined rank in order of frequency of appearance from among the terms in the patent document group by data mining the patent document group;
Based on the predetermined substance, a basic term database that defines basic terms representing any of raw materials, parts, and materials of the predetermined substance is searched to obtain a basic term group that is a set of basic terms from the term group. a basic term group acquisition step;
Creating feature amount data including a set of selected term pairs that are a pair of the basic term included in the basic term group, the term included in the term group, and one of the basic terms included in the basic term group. a feature data creation step,
When the feature amount data is input into a prediction model that is a classification model, the output of the prediction model is used to generate a status concept data group representing the relationship between the superordinate concept and the subordinate concept between the selected term pairs of the feature amount data. a step of creating a status concept data group;
an output step of performing an output process for outputting the status concept data group to an output device;
is executed by the data processing device,
The prediction model is characterized in that, when the feature amount data is input, the prediction model is configured to output a label value representing a relationship between the higher-level concept and the lower-level concept between the selected term pair. Data processing method.
請求項36に記載のデータ処理方法において、
前記特徴量データの前記選択用語ペアに基づき、当該選択用語ペア間における上位概念及び下位概念の関係を含む地位概念関係を定義した地位概念データベースを検索することにより、当該地位概念関係を表すラベルを前記特徴量データに付加したデータである学習データを作成する学習データ作成ステップと、
前記学習データを用いて、所定の学習アルゴリズムより、前記予測モデルの学習を実行するモデル学習ステップと、
が前記データ処理装置によってさらに実行されることを特徴とするデータ処理方法。
The data processing method according to claim 36,
Based on the selected term pair of the feature amount data, a label representing the status concept relationship is searched by searching a status concept database that defines a status concept relationship including a relationship between a superordinate concept and a subordinate concept between the selected term pair. a learning data creation step of creating learning data that is data added to the feature data;
a model learning step of performing learning of the predictive model according to a predetermined learning algorithm using the learning data;
further executed by the data processing device.
請求項36又は37に記載のデータ処理方法において、
前記地位概念データ群作成ステップでは、前記地位概念データ群が前記選択用語ペアの選択用語を前記上位概念及び前記下位概念の関係に従うように並べたツリー状の図形データとして作成されることを特徴とするデータ処理方法。
The data processing method according to claim 36 or 37,
In the status concept data group creation step, the status concept data group is created as tree-like graphic data in which the selected terms of the selected term pair are arranged in accordance with the relationship between the superordinate concept and the subordinate concept. data processing methods.
請求項36又は37に記載のデータ処理方法において、
前記地位概念データ群作成ステップでは、前記地位概念データ群における前記選択用語ペアの前記基礎用語と当該基礎用語の製品情報との関係を定義した製品データベースをさらに用いて、前記基礎用語に前記製品情報がリンク付けされた状態で前記地位概念データ群が作成されることを特徴とするデータ処理方法。
The data processing method according to claim 36 or 37,
In the status concept data group creation step, the product information is added to the basic term using a product database that defines the relationship between the basic term of the selected term pair in the status concept data group and the product information of the basic term. A data processing method characterized in that the status concept data group is created in a state where the data are linked.
請求項36又は37に記載のデータ処理方法において、
前記特許文献群取得ステップでは、前記特許文献群に加えて、前記所定物質に対して性質及び分類のうちの少なくとも一方が類似の第2物質を表す第2所定キーワードに基づいて、前記特許文献のデータベースを検索することにより、当該第2所定キーワードが含まれる特許文献の集合である第2特許文献群がさらに取得され、
前記用語群取得ステップでは、前記特許文献群及び前記第2特許文献群をデータマイニングすることにより、前記特許文献群及び前記第2特許文献群における用語のうち、出現頻度の高い方から順に所定順位までの用語である第2用語群がさらに取得され、
前記基礎用語群取得ステップでは、前記第2物質に基づき、前記基礎用語データベースを検索することにより、前記第2用語群から前記第2物質の前記基礎用語の集合である第2基礎用語群がさらに取得され、
前記特徴量データ作成ステップでは、前記第2基礎用語群に含まれる前記基礎用語と、前記第2用語群に含まれる第2用語及び前記第2基礎用語群に含まれる前記基礎用語の一方とのペアである第2選択用語ペアの集合を含む第2特徴量データがさらに作成され、
前記地位概念データ群作成ステップでは、前記第2特徴量データを前記予測モデルに入力したときの当該予測モデルの出力を用いて、前記第2特徴量データの前記第2選択用語ペア間の前記上位概念及び前記下位概念の関係を表す前記地位概念データ群がさらに作成されることを特徴とするデータ処理方法。
The data processing method according to claim 36 or 37,
In the patent document group acquisition step, in addition to the patent document group, the patent documents are acquired based on a second predetermined keyword representing a second substance having at least one of properties and classification similar to the predetermined substance. By searching the database, a second patent document group, which is a set of patent documents including the second predetermined keyword, is further obtained;
In the term group acquisition step, by data mining the patent document group and the second patent document group, terms in the patent document group and the second patent document group are ranked in a predetermined order from the highest frequency of appearance. A second term group is further obtained, which is the terms up to
In the basic term group acquisition step, by searching the basic term database based on the second substance, a second basic term group that is a set of basic terms for the second substance is further obtained from the second term group. obtained,
In the feature amount data creation step, the basic term included in the second basic term group and one of the second term included in the second term group and the basic term included in the second basic term group Second feature data including a set of pairs of second selected term pairs is further created,
In the status concept data group creation step, the output of the prediction model when the second feature data is input to the prediction model is used to determine the top rank between the second selected term pair of the second feature data. A data processing method characterized in that the status concept data group representing the relationship between the concept and the subordinate concept is further created.
JP2023181953A 2023-10-10 2023-10-23 Data processing device and data processing method Active JP7431379B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023181953A JP7431379B1 (en) 2023-10-10 2023-10-23 Data processing device and data processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2023175544 2023-10-10
JP2023181953A JP7431379B1 (en) 2023-10-10 2023-10-23 Data processing device and data processing method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2023175544 Division 2023-10-10 2023-10-10

Publications (1)

Publication Number Publication Date
JP7431379B1 true JP7431379B1 (en) 2024-02-14

Family

ID=89853288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023181953A Active JP7431379B1 (en) 2023-10-10 2023-10-23 Data processing device and data processing method

Country Status (1)

Country Link
JP (1) JP7431379B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017151838A (en) 2016-02-26 2017-08-31 トヨタ自動車株式会社 Topic estimation learning device and topic estimation learning method
US20210081376A1 (en) 2018-05-25 2021-03-18 ZFusion Technology Co., Ltd. Xiamen Construction method, device, computing device, and storage medium for constructing patent knowledge database
JP2022171827A (en) 2017-06-27 2022-11-11 株式会社半導体エネルギー研究所 Portable information terminal

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017151838A (en) 2016-02-26 2017-08-31 トヨタ自動車株式会社 Topic estimation learning device and topic estimation learning method
JP2022171827A (en) 2017-06-27 2022-11-11 株式会社半導体エネルギー研究所 Portable information terminal
US20210081376A1 (en) 2018-05-25 2021-03-18 ZFusion Technology Co., Ltd. Xiamen Construction method, device, computing device, and storage medium for constructing patent knowledge database

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
星野 恵以子 ほか,特許調査における検索式自動生成による検索の実験,電気学会研究会資料 情報システム研究会 IS-19-060~073,日本,一般社団法人電気学会,2019年11月09日,37~40頁

Similar Documents

Publication Publication Date Title
CN107491655B (en) Liver disease information intelligent consultation system based on machine learning
JP4812661B2 (en) Map display system and map display method
JP2003330948A (en) Device and method for evaluating web page
WO2005004004A1 (en) Sentence classification device and method
JP6818706B2 (en) Information providing equipment, information providing method, and program
JP2021022359A (en) Management system and management method
EP3955125A1 (en) Document information evaluation device, document information evaluation method, and document information evaluation program
CN113515589A (en) Data recommendation method, device, equipment and medium
JP6757840B2 (en) Sentence extraction system, sentence extraction method, and program
JP6714268B1 (en) Question sentence output method, computer program, and information processing apparatus
JP5135412B2 (en) Document analysis apparatus and program
CN114722174A (en) Word extraction method and device, electronic equipment and storage medium
CN114138969A (en) Text processing method and device
JP7388256B2 (en) Information processing device and information processing method
JP7431379B1 (en) Data processing device and data processing method
JP7490241B2 (en) Cluster analysis method, cluster analysis system, and cluster analysis program
CN114969371A (en) Heat sorting method and device of combined knowledge graph
JP6782037B1 (en) Thinking support system, thinking support program, thinking support program storage medium, and hierarchical graph data storage medium
JP7351502B2 (en) Variable data generation device, predictive model generation device, variable data production method, predictive model production method, program and recording medium
JP7255585B2 (en) Information processing device, information processing method, and program
Kunanets et al. Enhanced LSA Method with Ukraine Language Support.
JP2004348555A (en) Method and device for analyzing document, document analysis program, and storage medium storing document analysis program
JP2005339419A (en) Web page evaluation system and web page evaluation method
JP6181890B2 (en) Literature analysis apparatus, literature analysis method and program
Vallejo-Huanga et al. Similarity Visualizer Using Natural Language Processing in Academic Documents of the DSpace in Ecuador

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231023

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20231023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240201

R150 Certificate of patent or registration of utility model

Ref document number: 7431379

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150