JP2010097262A - Database creation device, database creation method, and computer program - Google Patents
Database creation device, database creation method, and computer program Download PDFInfo
- Publication number
- JP2010097262A JP2010097262A JP2008265353A JP2008265353A JP2010097262A JP 2010097262 A JP2010097262 A JP 2010097262A JP 2008265353 A JP2008265353 A JP 2008265353A JP 2008265353 A JP2008265353 A JP 2008265353A JP 2010097262 A JP2010097262 A JP 2010097262A
- Authority
- JP
- Japan
- Prior art keywords
- database
- data
- item
- type
- items
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、異なるデータ形式を有する複数の表データが存在する場合であっても、容易に一のデータベースを生成することができ、集計項目を累計することができるデータベース生成装置、データベース生成方法及びコンピュータプログラムに関する。 The present invention provides a database generation apparatus, a database generation method, and a database generation apparatus capable of easily generating one database and accumulating total items even when there are a plurality of table data having different data formats It relates to a computer program.
関係データベースを生成する場合、事前に生成されている表データを利用することが多い。表データのデータベース項目が一致している場合には、複数の表データをマージすることにより容易に新しいデータベースを生成することができる。 When generating a relational database, table data generated in advance is often used. When the database items of the table data match, a new database can be easily generated by merging a plurality of table data.
しかし、表データのデータ形式が標準化されていない場合、表データのデータ形式は作成者に依存しており、また同一のアプリケーションであっても使用するソフトウェアプログラムによってデータベース項目の相違、データベース項目の配列の相違等が存在しており、そのままマージすることができない。斯かる問題を解決するべく、従来は中間ファイルフォーマットを用いて、データベース項目が相違している、あるいはデータベース項目の配列順序が相違している複数の表データをマージして1つの表データを生成している。 However, if the data format of the table data is not standardized, the data format of the table data depends on the creator, and even in the same application, the database items differ depending on the software program used, the database item array There are differences, etc., and merging is not possible. In order to solve such a problem, conventionally, an intermediate file format is used to generate one table data by merging a plurality of table data having different database items or different database item arrangement orders. is doing.
例えば特許文献1では、表データの中間ファイルとして良く用いられているCSVファイルを用い、複数の表データファイルから1つのデータベースを生成しているデータベース管理システムが開示されている。
しかし、特許文献1のように、CSVファイルを介して複数の表データをマージする場合、どのデータベース項目が相違しているか、どのデータベース項目の配列順序が相違しているか等に関する情報を事前に知っておく必要が有り、これらの情報に応じて適切な変換手順を設定しておかないと、所望の表データを生成することができないという問題点があった。
However, as in
また、異なる表データ間で横断的な集計処理を実行する場合、単に表データをマージするだけではなく、データベース項目ごとに事前にデータ型を認識しておく必要がある。例えばデータ型が数値型のデータベース項目については集計することが可能であるのに対して、データ型が文字型であるデータベース項目については集計することができない。したがって、新たなデータベースを生成する基礎となる表データのすべての項目についてデータ型を認識しておかなければ、新たなデータベースを生成した場合に集計処理を確実に実行できることを保証することができない。 In addition, when performing a cross tabulation process between different table data, it is necessary not only to merge table data but also to recognize a data type for each database item in advance. For example, database items whose data types are numeric types can be aggregated, whereas database items whose data types are character types cannot be aggregated. Therefore, unless the data types are recognized for all items of the table data serving as a basis for generating a new database, it cannot be guaranteed that the aggregation process can be reliably executed when the new database is generated.
さらに、表データのセル位置に基づいて自動的に表データをマージする方法も考えられているが、いわゆるゆらぎ情報が存在する場合、新たなデータベースを生成する基礎となるすべての表データの項目間の関係を事前に把握する必要があり、処理が煩雑になるという問題点があった。 In addition, a method of automatically merging table data based on the cell position of the table data is also considered, but if so-called fluctuation information exists, the items between all table data items that form the basis for creating a new database It is necessary to grasp the relationship in advance, and there is a problem that processing becomes complicated.
本発明は斯かる事情に鑑みてなされたものであり、異なるデータ形式を有する複数の表データが存在する場合であっても、容易に新たなデータベースを生成することができ、集計項目が存在する場合であっても正しく集計結果を算出することができるデータベース生成装置、データベース生成方法及びコンピュータプログラムを提供することを目的とする。 The present invention has been made in view of such circumstances, and even when there are a plurality of table data having different data formats, a new database can be easily generated, and there are tabulation items. It is an object of the present invention to provide a database generation device, a database generation method, and a computer program that can correctly calculate a totaling result even in a case.
上記目的を達成するために第1発明に係るデータベース生成装置は、表データが含まれる一又は複数の電子文書ファイル中から抽出したデータに基づいて新たなデータベースを生成するデータベース生成装置において、一又は複数の前記電子文書ファイルを取得する電子文書ファイル取得手段と、生成するデータベースのデータベース項目及びデータ抽出規則を特定するデータ抽出規則特定手段と、特定したデータベース項目及びデータ抽出規則にて、一又は複数の前記電子文書ファイルから前記データベース項目及び対応するデータを抽出するデータ抽出手段と、抽出されたデータベース項目ごとにデータ型を検出するデータ型検出手段と、前記データベース項目ごとに、データ型が数値型であるか否かを判断する型判断手段と、該型判断手段で、データ型が数値型であると判断されたデータベース項目について、集計指示を受け付けたか否かを判断する指示判断手段と、該指示判断手段で集計指示を受け付けていないと判断した場合、抽出されたデータベース項目及び対応するデータを一覧表示し、前記指示判断手段で集計指示を受け付けたと判断した場合、データベース項目ごとの集計項目を加えて前記データベース項目及び対応するデータを一覧表示する表示手段とを備えることを特徴とする。 In order to achieve the above object, a database generation apparatus according to the first invention is a database generation apparatus that generates a new database based on data extracted from one or a plurality of electronic document files including table data. One or more of electronic document file acquisition means for acquiring a plurality of electronic document files, data extraction rule specifying means for specifying database items and data extraction rules of a database to be generated, and specified database items and data extraction rules Data extraction means for extracting the database item and corresponding data from the electronic document file, data type detection means for detecting a data type for each extracted database item, and for each database item, the data type is a numeric type Type determination means for determining whether or not the type, and the type determination If the database type is determined to be numeric, the instruction determination means for determining whether or not the aggregation instruction has been accepted and the instruction determination means determines that the aggregation instruction has not been accepted. Display means for displaying a list of the database items and corresponding data, and adding a total item for each database item to display a list of the database items and corresponding data when it is determined that the totaling instruction is received by the instruction determination unit. It is characterized by providing.
また、第2発明に係るデータベース生成装置は、第1発明において、前記データ型検出手段は、前記データベース項目ごとに数値変換する数値変換手段と、数値変換にエラーが生じたか否かを判断するエラー判断手段と、該エラー判断手段でエラーが生じたと判断した場合、該データベース項目のデータ型が文字型であると検出し、エラーが生じていないと判断した場合、該データベース項目のデータ型が数値型であると検出する検出手段とを備えることを特徴とする。 According to a second aspect of the present invention, there is provided the database generation device according to the first aspect, wherein the data type detection means includes a numerical value conversion means for performing numerical conversion for each database item, and an error for determining whether or not an error has occurred in the numerical conversion. If it is determined that an error has occurred in the determination means and the error determination means, the data type of the database item is detected as a character type, and if it is determined that no error has occurred, the data type of the database item is a numeric value. And detecting means for detecting that it is a mold.
また、第3発明に係るデータベース生成装置は、第1又は第2発明において、異なる電子文書ファイルから抽出した表データの位置の相違に関する情報、及び/又は異なる電子文書ファイルから抽出したデータベース項目の相違に関する情報を少なくとも含む表データの相違に関するゆらぎ情報を抽出するゆらぎ情報抽出手段と、前記データベース項目、前記データ抽出規則及び抽出されたゆらぎ情報に基づいて、前記データ抽出規則の変更部分が存在するか否かを判断する判断手段と、該判断手段で変更部分が存在すると判断した場合、同一のデータベース項目に対しては同一の、異なるデータベース項目に対しては異なるタグ情報を付与するタグ情報付与手段とを備え、前記データ抽出手段は、前記データ抽出規則の変更部分を反映して前記データベース項目及び対応するデータを抽出するようにしてあり、前記表示手段は、前記データベース項目に付与されているタグ情報に従って前記データベース項目を配列して、前記データベース項目及び対応するデータを一覧表示するようにしてあることを特徴とする。 Further, the database generation device according to the third invention is the database generation device according to the first or second invention, wherein the information on the difference in the position of the table data extracted from different electronic document files and / or the difference of the database items extracted from the different electronic document files. Fluctuation information extracting means for extracting fluctuation information relating to differences in table data including at least information relating to, and whether there is a change part of the data extraction rule based on the database item, the data extraction rule, and the extracted fluctuation information Determining means for determining whether or not, and tag information providing means for assigning different tag information to the same database item and different database items when it is determined by the determining means that there is a changed portion And the data extraction means reflects the changed part of the data extraction rule. The database items and corresponding data are extracted, and the display means arranges the database items according to tag information given to the database items, and displays the database items and corresponding data as a list. It is characterized by the above.
次に、上記目的を達成するために第4発明に係るデータベース生成方法は、表データが含まれる一又は複数の電子文書ファイル中から抽出したデータに基づいて新たなデータベースを生成するデータベース生成装置で実行することが可能なデータベース生成方法において、一又は複数の前記電子文書ファイルを取得し、生成するデータベースのデータベース項目及びデータ抽出規則を特定し、特定したデータベース項目及びデータ抽出規則にて、一又は複数の前記電子文書ファイルから前記データベース項目及び対応するデータを抽出し、抽出されたデータベース項目ごとにデータ型を検出し、前記データベース項目ごとに、データ型が数値型であるか否かを判断し、データ型が数値型であると判断されたデータベース項目について、集計指示を受け付けたか否かを判断し、集計指示を受け付けていないと判断した場合、抽出されたデータベース項目及び対応するデータを一覧表示し、集計指示を受け付けたと判断した場合、データベース項目ごとの集計項目を加えて前記データベース項目及び対応するデータを一覧表示することを特徴とする。 Next, in order to achieve the above object, a database generation method according to a fourth invention is a database generation apparatus that generates a new database based on data extracted from one or a plurality of electronic document files including table data. In a database generation method that can be executed, one or a plurality of the electronic document files are acquired, a database item and a data extraction rule of the database to be generated are specified, and the specified database item and data extraction rule Extracting the database item and corresponding data from the plurality of electronic document files, detecting a data type for each extracted database item, and determining whether the data type is a numeric type for each database item For database items whose data type is determined to be numeric, If it is determined whether or not, and it is determined that the aggregation instruction is not accepted, the extracted database items and corresponding data are displayed in a list. If it is determined that the aggregation instruction is accepted, the aggregation item for each database item is displayed. In addition, the database items and corresponding data are displayed as a list.
また、第5発明に係るデータベース生成方法は、第4発明において、前記データベース項目ごとに数値変換し、数値変換にエラーが生じたか否かを判断し、エラーが生じたと判断した場合、該データベース項目のデータ型が文字型であると検出し、エラーが生じていないと判断した場合、該データベース項目のデータ型が数値型であると検出することを特徴とする。 The database generation method according to a fifth aspect of the present invention is the database generation method according to the fourth aspect, wherein the database item is converted into a numerical value for each of the database items, and it is determined whether an error has occurred in the numerical conversion. When the data type is detected as a character type and it is determined that no error has occurred, the data type of the database item is detected as a numeric type.
また、第6発明に係るデータベース生成方法は、第4又は第5発明において、異なる電子文書ファイルから抽出した表データの位置の相違に関する情報、及び/又は異なる電子文書ファイルから抽出したデータベース項目の相違に関する情報を少なくとも含む表データの相違に関するゆらぎ情報を抽出し、前記データベース項目、前記データ抽出規則及び抽出されたゆらぎ情報に基づいて、前記データ抽出規則の変更部分が存在するか否かを判断し、変更部分が存在すると判断した場合、同一のデータベース項目に対しては同一の、異なるデータベース項目に対しては異なるタグ情報を付与し、前記データ抽出規則の変更部分を反映して前記データベース項目及び対応するデータを抽出し、前記データベース項目に付与されているタグ情報に従って前記データベース項目を配列して、前記データベース項目及び対応するデータを一覧表示することを特徴とする。 The database generation method according to the sixth invention is the database generation method according to the fourth or fifth invention, wherein the information on the difference in the position of the table data extracted from different electronic document files and / or the difference in the database items extracted from the different electronic document files. Fluctuation information related to the difference in the table data including at least information related to the data is extracted, and it is determined whether there is a changed part of the data extraction rule based on the database item, the data extraction rule, and the extracted fluctuation information. If it is determined that there is a changed part, the same database item is assigned the same, different database items are given different tag information, and the changed part of the data extraction rule is reflected to reflect the changed database item and The corresponding data is extracted and the tag information assigned to the database item is extracted. Said arranged database items, characterized in that list the database field and the corresponding data I.
次に、上記目的を達成するために第7発明に係るコンピュータプログラムは、表データが含まれる一又は複数の電子文書ファイル中から抽出したデータに基づいて新たなデータベースを生成するデータベース生成装置で実行することが可能なコンピュータプログラムにおいて、前記データベース生成装置を、一又は複数の前記電子文書ファイルを取得する電子文書ファイル取得手段、生成するデータベースのデータベース項目及びデータ抽出規則を特定するデータ抽出規則特定手段、特定したデータベース項目及びデータ抽出規則にて、一又は複数の前記電子文書ファイルから前記データベース項目及び対応するデータを抽出するデータ抽出手段、抽出されたデータベース項目ごとにデータ型を検出するデータ型検出手段、前記データベース項目ごとに、データ型が数値型であるか否かを判断する型判断手段、該型判断手段で、データ型が数値型であると判断されたデータベース項目について、集計指示を受け付けたか否かを判断する指示判断手段、及び該指示判断手段で集計指示を受け付けていないと判断した場合、抽出されたデータベース項目及び対応するデータを一覧表示し、前記指示判断手段で集計指示を受け付けたと判断した場合、データベース項目ごとの集計項目を加えて前記データベース項目及び対応するデータを一覧表示する表示手段として機能させることを特徴とする。 Next, in order to achieve the above object, the computer program according to the seventh invention is executed by a database generation device that generates a new database based on data extracted from one or a plurality of electronic document files including table data. In the computer program that can be performed, the database generation device includes an electronic document file acquisition unit that acquires one or a plurality of the electronic document files, a data extraction rule specifying unit that specifies a database item and a data extraction rule of the database to be generated , Data extraction means for extracting the database item and corresponding data from one or a plurality of the electronic document files with the specified database item and data extraction rule, and data type detection for detecting the data type for each extracted database item Means, said database For each eye, type determination means for determining whether or not the data type is a numerical type, and whether or not the type determination means has received an aggregation instruction for the database item for which the data type is determined to be a numerical type When determining that the instruction determining means to determine, and when the instruction determining means does not accept the aggregation instruction, when the instruction determining means displays a list of the extracted database items and corresponding data and determines that the instruction determining means has received the aggregation instruction In addition, a total item for each database item is added to function as display means for displaying a list of the database item and corresponding data.
また、第8発明に係るコンピュータプログラムは、第7発明において、前記データ型検出手段を、前記データベース項目ごとに数値変換する数値変換手段、数値変換にエラーが生じたか否かを判断するエラー判断手段、及び該エラー判断手段でエラーが生じたと判断した場合、該データベース項目のデータ型が文字型であると検出し、エラーが生じていないと判断した場合、該データベース項目のデータ型が数値型であると検出する検出手段として機能させることを特徴とする。 The computer program according to an eighth invention is the computer program according to the seventh invention, wherein in the seventh invention, the data type detecting means is a numerical value converting means for numerically converting each database item, and an error determining means for determining whether or not an error has occurred in the numerical conversion And when the error determination means determines that an error has occurred, the data type of the database item is detected as a character type. When it is determined that no error has occurred, the data type of the database item is a numeric type. It is made to function as a detection means which detects that there exists.
また、第9発明に係るコンピュータプログラムは、第7又は第8発明において、前記データベース生成装置を、異なる電子文書ファイルから抽出した表データの位置の相違に関する情報、及び/又は異なる電子文書ファイルから抽出したデータベース項目の相違に関する情報を少なくとも含む表データの相違に関するゆらぎ情報を抽出するゆらぎ情報抽出手段、前記データベース項目、前記データ抽出規則及び抽出されたゆらぎ情報に基づいて、前記データ抽出規則の変更部分が存在するか否かを判断する判断手段、及び該判断手段で変更部分が存在すると判断した場合、同一のデータベース項目に対しては同一の、異なるデータベース項目に対しては異なるタグ情報を付与するタグ情報付与手段として機能させ、前記データ抽出手段を、前記データ抽出規則の変更部分を反映して前記データベース項目及び対応するデータを抽出する手段として機能させ、前記表示手段を、前記データベース項目に付与されているタグ情報に従って前記データベース項目を配列して、前記データベース項目及び対応するデータを一覧表示する手段として機能させることを特徴とする。 A computer program according to a ninth invention is the computer program according to the seventh or eighth invention, wherein the database generation device is extracted from information relating to a difference in position of table data extracted from different electronic document files and / or from different electronic document files. Fluctuation information extraction means for extracting fluctuation information relating to differences in table data including at least information relating to differences in the database items, the database item, the data extraction rule, and the changed portion of the data extraction rule based on the extracted fluctuation information If it is determined by the determination means that there is a changed part, the same database item is assigned the same tag information, but different database items are assigned different tag information. It functions as tag information giving means, and the data extracting means Reflecting the changed part of the data extraction rule, function as means for extracting the database item and the corresponding data, and arranging the database item according to the tag information given to the database item, the display means, It is characterized by functioning as means for displaying a list of database items and corresponding data.
第1発明、第4発明及び第7発明では、一又は複数の電子文書ファイルを取得し、生成するデータベースのデータベース項目及びデータ抽出規則を特定し、特定したデータベース項目及びデータ抽出規則にて、一又は複数の電子文書ファイルからデータベース項目及び対応するデータを抽出する。抽出されたデータベース項目ごとにデータ型を検出し、データベース項目ごとに、データ型が数値型であるか否かを判断する。データ型が数値型であると判断されたデータベース項目について、集計指示を受け付けたか否かを判断し、集計指示を受け付けていないと判断した場合、抽出されたデータベース項目及び対応するデータを一覧表示し、集計指示を受け付けたと判断した場合、データベース項目ごとの集計項目を加えてデータベース項目及び対応するデータを一覧表示する。データベース項目及び対応するデータを抽出した時点でデータ型を判断することにより、不要な表データについて項目のデータ型を判断する必要がない。また、データ型が数値型であるデータベース項目についてのみ集計項目を追加して表示することができ、異なるデータ形式を有する複数の表データを基礎とする場合であっても、新たなデータベースを生成することができるとともに、正しく集計結果を算出することが可能となる。 In the first invention, the fourth invention, and the seventh invention, one or a plurality of electronic document files are acquired, the database item and data extraction rule of the database to be generated are specified, and the specified database item and data extraction rule Alternatively, database items and corresponding data are extracted from a plurality of electronic document files. A data type is detected for each extracted database item, and it is determined for each database item whether the data type is a numeric type. For database items whose data type is determined to be numeric, it is determined whether or not an aggregation instruction has been accepted. If it is determined that no aggregation instruction has been accepted, a list of the extracted database items and corresponding data is displayed. If it is determined that the totaling instruction has been received, the totaling item for each database item is added and the database item and corresponding data are displayed in a list. By determining the data type at the time of extracting the database item and the corresponding data, it is not necessary to determine the data type of the item for unnecessary table data. In addition, aggregate items can be added and displayed only for database items whose data type is numeric, and a new database is created even when based on a plurality of table data having different data formats. In addition, it is possible to calculate the total result correctly.
第2発明、第5発明及び第8発明では、データベース項目ごとに数値変換し、数値変換にエラーが生じたか否かを判断する。エラーが生じたと判断した場合、該データベース項目のデータ型が文字型であると検出し、エラーが生じていないと判断した場合、該データベース項目のデータ型が数値型であると検出する。これにより、抽出したデータベース項目ごとに数値変換処理を実行するだけで、該データベース項目のデータ型が数値型であるか文字型であるかを検出することができ、事前にすべての項目のデータ型を把握しておくことなく、正しく集計結果を算出することが可能なデータベース項目であるか否かを判断することが可能となる。 In the second invention, the fifth invention, and the eighth invention, numerical conversion is performed for each database item, and it is determined whether or not an error has occurred in the numerical conversion. When it is determined that an error has occurred, it is detected that the data type of the database item is a character type, and when it is determined that no error has occurred, it is detected that the data type of the database item is a numeric type. As a result, it is possible to detect whether the data type of the database item is a numeric type or a character type simply by executing a numerical value conversion process for each extracted database item. It is possible to determine whether or not the database item is capable of correctly calculating the total result without knowing the above.
第3発明、第6発明及び第9発明では、異なる電子文書ファイルから抽出した表データの位置の相違に関する情報、及び/又は異なる電子文書ファイルから抽出したデータベース項目の相違に関する情報を少なくとも含む表データの相違に関するゆらぎ情報を抽出する。データベース項目、データ抽出規則及び抽出されたゆらぎ情報に基づいて、データ抽出規則の変更部分が存在するか否かを判断し、変更部分が存在すると判断した場合、同一のデータベース項目に対しては同一の、異なるデータベース項目に対しては異なるタグ情報を付与する。データ抽出規則の変更部分を反映してデータベース項目及び対応するデータを抽出し、データベース項目に付与されているタグ情報に従ってデータベース項目を配列して、データベース項目及び対応するデータを一覧表示する。これにより、複数のファイル上で表データの位置が相違する場合、データベース項目が相違する場合、データベース項目の配列順序が相違する場合等であっても、斯かる相違に起因して変更されたデータ抽出規則に従ってデータを抽出し、同一のデータベース項目については同一のタグ情報をキー情報として集約することができ、新たな異なるデータベース項目については、異なるタグ情報により新規のデータベース項目として追加生成することができる。したがって、ユーザがデータベース項目の相違を事前にすべて知ることができない場合であっても、データベース項目が重複又は欠落することなく新たなデータベースを生成して一覧表示することが可能となる。 In the third invention, the sixth invention, and the ninth invention, table data including at least information relating to a difference in position of table data extracted from different electronic document files and / or information relating to a difference in database items extracted from different electronic document files Fluctuation information about the difference between Based on the database item, the data extraction rule, and the extracted fluctuation information, it is determined whether there is a changed part of the data extraction rule. If it is determined that the changed part exists, the same database item is the same Different tag information is assigned to different database items. The database item and corresponding data are extracted reflecting the changed part of the data extraction rule, the database item is arranged according to the tag information given to the database item, and the database item and the corresponding data are displayed in a list. As a result, even if the position of the table data is different on a plurality of files, the database items are different, the arrangement order of the database items is different, etc., the data changed due to such differences Data can be extracted according to the extraction rules, and the same tag information can be aggregated as key information for the same database item, and new different database items can be additionally generated as new database items with different tag information it can. Therefore, even when the user cannot know all the differences between the database items in advance, a new database can be generated and displayed in a list without duplication or omission of the database items.
本発明によれば、データベース項目及び対応するデータを抽出した時点でデータ型を判断することにより、不要な表データについて項目のデータ型を判断する必要がない。また、データ型が数値型であるデータベース項目についてのみ集計項目として追加して表示することができ、異なるデータ形式を有する複数の表データを基礎とする場合であっても、新たなデータベースを生成することができるとともに、正しく集計結果を算出することが可能となる。 According to the present invention, it is not necessary to determine the data type of the item for unnecessary table data by determining the data type at the time of extracting the database item and the corresponding data. In addition, only database items whose data types are numeric types can be added and displayed as aggregated items, and a new database is generated even when based on a plurality of table data having different data formats. In addition, it is possible to calculate the total result correctly.
以下、本発明の実施の形態に係るデータベース生成装置について、図面に基づいて具体的に説明する。以下の実施の形態は、特許請求の範囲に記載された発明を限定するものではなく、実施の形態の中で説明されている特徴的事項の組み合わせの全てが解決手段の必須事項であるとは限らないことは言うまでもない。 Hereinafter, a database generation device according to an embodiment of the present invention will be specifically described with reference to the drawings. The following embodiments do not limit the invention described in the claims, and all combinations of characteristic items described in the embodiments are essential to the solution. It goes without saying that it is not limited.
また、本発明は多くの異なる態様にて実施することが可能であり、実施の形態の記載内容に限定して解釈されるべきものではない。実施の形態を通じて同じ要素には同一の符号を付している。 The present invention can be implemented in many different modes and should not be construed as being limited to the description of the embodiment. The same symbols are attached to the same elements throughout the embodiments.
以下の実施の形態では、コンピュータシステムにコンピュータプログラムを導入したデータベース生成装置について説明するが、当業者であれば明らかな通り、本発明はその一部をコンピュータで実行することが可能なコンピュータプログラムとして実施することができる。したがって、本発明は、データベース生成装置というハードウェアとしての実施の形態、ソフトウェアとしての実施の形態、又はソフトウェアとハードウェアとの組み合わせの実施の形態をとることができる。コンピュータプログラムは、ハードディスク、DVD、CD、光記憶装置、磁気記憶装置等の任意のコンピュータで読み取ることが可能な記録媒体に記録することができる。 In the following embodiment, a database generation apparatus in which a computer program is introduced into a computer system will be described. However, as will be apparent to those skilled in the art, the present invention is a computer program that can be partially executed by a computer. Can be implemented. Therefore, the present invention can take an embodiment of hardware as a database generation device, an embodiment of software, or an embodiment of a combination of software and hardware. The computer program can be recorded on any computer-readable recording medium such as a hard disk, DVD, CD, optical storage device, magnetic storage device or the like.
(実施の形態1)
図1は、本発明の実施の形態1に係るデータベース生成装置の構成例を示すブロック図である。本発明の実施の形態1に係るデータベース生成装置1は、少なくともCPU(中央演算装置)11、メモリ12、記憶装置13、I/Oインタフェース14、ビデオインタフェース15、可搬型ディスクドライブ16、通信インタフェース17及び上述したハードウェアを接続する内部バス18で構成されている。
(Embodiment 1)
FIG. 1 is a block diagram showing a configuration example of a database generation apparatus according to
CPU11は、内部バス18を介してデータベース生成装置1の上述したようなハードウェア各部と接続されており、上述したハードウェア各部の動作を制御するとともに、記憶装置13に記憶されているコンピュータプログラム100に従って、種々のソフトウェア的機能を実行する。メモリ12は、SRAM、SDRAM等の揮発性メモリで構成され、コンピュータプログラム100の実行時にロードモジュールが展開され、コンピュータプログラム100の実行時に発生する一時的なデータ等を記憶する。
The
記憶装置13は、内蔵される固定型記憶装置(ハードディスク)、SRAM等の揮発性メモリ、ROM等の不揮発性メモリ等で構成されている。記憶装置13に記憶されているコンピュータプログラム100は、プログラム及びデータ等の情報を記録したDVD、CD−ROM等の可搬型記録媒体90から、可搬型ディスクドライブ16によりダウンロードされ、実行時には記憶装置13からメモリ12へ展開して実行される。もちろん、通信インタフェース17を介してネットワーク2に接続されている外部のコンピュータからダウンロードされたコンピュータプログラムであっても良い。
The
また記憶装置13は、電子文書ファイル記憶部131、データ抽出規則記憶部132、データベース記憶部133及びゆらぎ情報記憶部134を備えている。電子文書ファイル記憶部131には、表データを内容に含み、新たなデータベースを生成するための基礎となる電子文書ファイルを記憶する。
The
データ抽出規則記憶部132には、例えば電子文書ファイルに含まれる表データのうち最大のサイズを有する表データを選択する、ファイルの先頭からn(nは自然数)番目の表データを選択する等の、表データからデータベース項目及び対応するデータを抽出するデータ抽出規則を記憶している。
The data extraction
データベース記憶部133には、複数の電子文書ファイルに含まれる表データをマージして新たに生成されたデータベースを記憶する。ゆらぎ情報記憶部134には、マージする対象となる表データ間の相違に関する情報、いわゆるゆらぎ情報を記憶する。ゆらぎ情報としては、例えば表データの開始セルの位置の相違に関する表位置ゆらぎ情報、表データの項目の順序が相違する、新規項目の存在、項目の抜けの存在等の項目の相違に関する項目ゆらぎ情報等がある。また、英語表記での大文字と小文字との相違、全角と半角との相違等も含む広い概念である。
The
通信インタフェース17は内部バス18に接続されており、インターネット、LAN、WAN等の外部のネットワーク2に接続されることにより、外部のコンピュータ等とデータ送受信を行うことが可能となっている。電子文書ファイル記憶部131は、データベース生成装置1の記憶装置13に備えることに限定されるものではなく、外部のコンピュータの記憶装置に記憶されることによりネットワーク上に点在していても良い。
The
I/Oインタフェース14は、キーボード21、マウス22等のデータ入力媒体と接続され、データの入力を受け付ける。また、ビデオインタフェース15は、CRTモニタ、LCD等の表示装置23と接続され、所定の画像を表示する。
The I /
図2は、本発明の実施の形態1に係るデータベース生成装置1の機能ブロック図である。電子文書ファイル取得部201は、一又は複数の表データを含む電子文書ファイルを取得する。電子文書ファイルは、記憶装置13内に記憶されている電子文書ファイルを電子文書ファイル記憶部131に集約しても良いし、ネットワーク2を介して外部のコンピュータから取得しても良い。また、キーボード21、マウス22等の入力装置を介して入力しても良い。
FIG. 2 is a functional block diagram of the
データ抽出規則特定部202は、取得した一又は複数の電子文書ファイルに含まれる表データを罫線に関する罫線情報に基づいて解析して、表データを抽出する場合に適用するべきデータ抽出規則を特定する。特定されたデータベース項目及びデータ抽出規則は、データ抽出規則記憶部132に記憶される。データ抽出規則特定部202は、少なくとも罫線情報抽出部203と、解析部204とを備えている。
The data extraction
罫線情報抽出部203は、取得した一又は複数の電子文書ファイルに含まれる罫線に関する罫線情報をそれぞれ抽出する。具体的には、罫線で囲まれている部分を表データと認識し、その他の罫線がどのように配置されているかに関する情報を取得する。
The ruled line
解析部204は、抽出した複数の罫線情報に基づいて電子文書ファイルの内容を解析する。具体的には、罫線によりレコード単位で項目がどのように区分けされているかを判断し、見出し部とデータ部とを区別する。
The
データ抽出部205は、特定したデータベース項目及びデータ抽出規則にて、一又は複数の電子文書ファイルからデータベース項目及び対応するデータを抽出する。抽出されたデータベース項目及び対応するデータはデータベース記憶部133に記憶される。
The
データ型検出部206は、抽出されたデータベース項目ごとにデータ型を検出する。検出されるデータ型は、集計することが可能な数値型、及びそれ以外のデータ型、例えば文字型等である。
The data
型判断部207は、データ型検出部206で検出されたデータ型が、数値型であるか否かを判断する。データ型が数値型でなければ集計の対象になりえないからである。指示判断部208は、データ型が数値型であると判断されたデータベース項目について、集計指示を受け付けたか否かを判断する。
The
表示部209は、集計指示を受け付けていないと判断した場合は、抽出されたデータベース項目及び対応するデータを表示装置23にて一覧表示する。集計指示を受け付けたと判断した場合は、抽出されたデータベース項目及び対応するデータだけでなく、データベース項目ごとの集計項目を加えて表示装置23にて一覧表示する。
When the
図3は、本発明の実施の形態1に係るデータベース生成装置1のCPU11のデータベース生成処理の手順を示すフローチャートである。図3において、データベース生成装置1のCPU11は、一又は複数の表データを含む電子文書ファイルを取得する(ステップS301)。電子文書ファイルは、記憶装置13内に記憶されている電子文書ファイルを読み出しても良いし、ネットワーク2を介して外部のコンピュータから読み出しても良い。また、キーボード21、マウス22等の入力装置を介して入力を受け付けても良い。
FIG. 3 is a flowchart showing a database generation processing procedure of the
CPU11は、取得した一又は複数の電子文書ファイルに含まれる罫線に関する罫線情報をそれぞれ抽出する(ステップS302)。具体的には、罫線で囲まれている部分を表データと認識し、その他の罫線がどのように配置されているかに関する情報を取得する。
The
CPU11は、抽出した複数の罫線情報に基づいて電子文書ファイルの内容を解析する(ステップS303)。具体的には、罫線によりレコード単位で項目がどのように区分けされているかを判断し、見出し部とデータ部とを区別する。
The
図4は、罫線情報に基づいて表データの抽出を行う処理の例示図である。具体的には、電子文書ファイルのデータの走査方向につきユーザの指定を受け付け、項目が階層化されているか否かを1行ずつ判定する。図4(a)では、表データを下方向42へ走査する場合を示しており、項目領域41の1行目には項目「材料名」、「重量」、「物質」、「比率」が存在することを検出することができる。2行目では、項目「比率」が「平均重量」、「最大重量」に分割され、項目数が増加していることを検出することができる。
FIG. 4 is an exemplary diagram of processing for extracting table data based on ruled line information. Specifically, the user designation is accepted for the scanning direction of the data of the electronic document file, and it is determined line by line as to whether or not the item is hierarchized. FIG. 4A shows a case where the table data is scanned in the
3行目では、項目名を検出することはできないものの、2行目の項目とセル位置及び項目数が同一であることを検出することができる。したがって、2行目まで見出し部であり、3行目以降がデータ部であることを自動認識することができ、新たなデータベース生成のためのデータ抽出は、3行目以降のデータ部から行うことができる。 In the third line, although the item name cannot be detected, it can be detected that the cell position and the number of items are the same as the item in the second line. Therefore, it is possible to automatically recognize that the heading part is up to the second line and the data part is after the third line, and data extraction for generating a new database is performed from the data part after the third line. Can do.
図4(b)では、表データを右方向44へ走査する場合を示しており、項目領域43の1列目には項目「材料名」、「重量」、「物質」、「比率」が存在することを検出することができる。2列目では、項目「比率」が「平均重量」、「最大重量」に分割され、項目数が増加していることを検出することができる。
FIG. 4B shows a case where the table data is scanned in the
3列目では、項目名を検出することはできないものの、2列目の項目とセル位置及び項目数が同一であることを検出することができる。したがって、2列目まで見出し部であり、3列目以降がデータ部であることを自動認識することができ、新たなデータベース生成のためのデータ抽出は、3列目以降のデータ部から行うことができる。 In the third column, although the item name cannot be detected, it can be detected that the cell position and the number of items are the same as the item in the second column. Therefore, it is possible to automatically recognize that the second column is the heading part and the third and subsequent columns are data parts, and data extraction for generating a new database is performed from the third and subsequent data parts. Can do.
このように走査方向によらず、罫線情報に基づいて、データベース生成時に抽出するべきデータベース項目及び対応するデータのセル位置を正確に検出することができるので、表データの行と列とが反転している場合であっても一のデータベースとしてマージすることが可能となる。 As described above, since the database item to be extracted at the time of database generation and the cell position of the corresponding data can be accurately detected based on the ruled line information regardless of the scanning direction, the row and column of the table data are inverted. Even if it is, it becomes possible to merge as one database.
図3に戻って、データベース生成装置1のCPU11は、解析結果に基づいて、生成するデータベースのデータベース項目及びデータ抽出規則を特定する(ステップS304)。CPU11は、一又は複数の電子文書ファイル又は該電子文書ファイル中の表データから、新たに生成するデータベースのデータベース項目及び対応するデータを抽出する(ステップS305)。データを抽出する規則は、記憶されているデータ抽出規則に従う。
Returning to FIG. 3, the
なお、罫線情報の解析結果だけでは正しくデータベース項目等が特定できない場合も生じうる。この場合、手動にてデータベース項目及びデータ抽出規則の特定を受け付ける。図5は、本発明の実施の形態1に係るデータベース生成装置1のCPU11の手動特定処理の手順を示すフローチャートである。
Note that there may be a case where the database item or the like cannot be correctly specified only by the analysis result of the ruled line information. In this case, specification of database items and data extraction rules is received manually. FIG. 5 is a flowchart showing a procedure of manual identification processing of the
図5において、データベース生成装置1のCPU11は、図3のステップS303の処理の実行終了後、一又は複数の電子文書ファイルの指定を受け付け(ステップS501)、複数のシートが存在する場合にはシートの指定、及びシートに含まれる表データ中にて該表データと他の表データとのマージ対象となる範囲指定を受け付ける(ステップS502)。CPU11は、受け付けた範囲指定に従って、データベース項目及びデータ抽出規則を特定し(ステップS503)、処理を図3のステップS305へ進める。
In FIG. 5, the
図6は、範囲指定が必要となる場合の例示図である。図6(a)は、表データの構造が特段の規則性を有していない場合の例示図である。この場合、キーボード21、マウス22等の入力装置により、表データとして使用する領域61のみを範囲指定として受け付ける。指定を受け付けた範囲に、例えば他の表データのデータベース項目とリンクするようなタグ情報を付加することにより、新たなデータベースに含まれるデータベース項目のデータとして正しく抽出することができる。
FIG. 6 is an exemplary diagram in a case where range specification is required. FIG. 6A is an exemplary diagram when the structure of the table data does not have any particular regularity. In this case, only an
図6(b)は、表データとして認識できない領域区分となっている場合の例示図である。図6(b)の例では、見出し部として認識するべき領域62が表として認識できる領域、すなわち矩形領域となっていない。この場合、キーボード21、マウス22等の入力装置により、領域62を含めて列ごとの領域63の範囲指定を受け付け、見出し部「材料」、「重量」、「比率1」、「比率2」に対して、他の表データのデータベース項目とリンクするようにタグ情報を付加する。これにより、新たなデータベースに含まれるデータベース項目のデータとして抽出することができる。
FIG. 6B is an exemplary diagram in the case where the region is unrecognizable as table data. In the example of FIG. 6B, the
図3に戻って、データベース生成装置1のCPU11は、抽出されたデータベース項目ごとにデータ型を検出し(ステップS306)、一のデータベース項目を選択する(ステップS307)。CPU11は、選択されたデータベース項目のデータ型が数値型であるか否かを判断する(ステップS308)。
Returning to FIG. 3, the
CPU11が、データ型が数値型であると判断した場合(ステップS308:YES)、CPU11は、集計指示を受け付けたか否かを判断する(ステップS309)。CPU11が集計指示を受け付けたと判断した場合(ステップS309:YES)、CPU11は、集計処理を実行し、データベース項目に集計項目を追加する(ステップS310)。
When the
CPU11が、データ型が数値型ではなく例えば文字型であると判断した場合(ステップS308:NO)、CPU11は、ステップS309及びステップS310を、CPU11が、集計指示を受け付けていないと判断した場合(ステップS309:NO)、CPU11は、ステップS310を、それぞれスキップし、全てのデータベース項目を選択したか否かを判断する(ステップS311)。
When the
CPU11が、まだ選択されていないデータベース項目が存在すると判断した場合(ステップS311:NO)、CPU11は、次のデータベース項目を選択し(ステップS312)、処理をステップS308へ戻して上述した処理を繰り返す。CPU11が、全てのデータベース項目を選択したと判断した場合(ステップS311:YES)、CPU11は、集計項目を含むデータベース項目及び対応するデータを一覧表示する(ステップS313)。
If the
なお、データ型が数値型であるか否かを判断する方法は特に限定されるものではない。例えば、データベース項目に対応するデータを数値変換処理し、エラーが生じたか否かに応じてデータ型が数値型であるか否かを判断しても良い。図7は、本発明の実施の形態1に係るデータベース生成装置1のCPU11の数値変換処理を用いる場合のデータ型判断処理の手順を示すフローチャートである。
The method for determining whether or not the data type is a numeric type is not particularly limited. For example, the data corresponding to the database item may be subjected to numerical value conversion processing, and it may be determined whether or not the data type is a numerical type depending on whether or not an error has occurred. FIG. 7 is a flowchart showing the procedure of the data type determination process when the numerical value conversion process of the
図7において、データベース生成装置1のCPU11は、データベース項目ごとに対応するデータを数値変換し(ステップS701)、エラーが生じたか否かを判断する(ステップS702)。CPU11が、エラーが生じたと判断した場合(ステップS702:YES)、CPU11は、データ型が文字型であると判断する(ステップS703)。CPU11が、エラーが生じていないと判断した場合(ステップS702:NO)、CPU11は、データ型が数値型であると判断する(ステップS704)。
In FIG. 7, the
図8は、一の表データに数値型データを含む同一項目が複数存在する場合の例示図である。図8(a)に示すように、パーツ‘DTA114E’については、一の表データに項目‘Ag’が2つ存在している。本来は、図8(b)に示すように、パーツごとのAg含有率を集計して、Ag含有率に応じて注文対象となるパーツを抽出することが目的である場合、単にデータベース項目及び対応するデータを抽出しただけでは、パーツごとのAg含有率を算出することができない。 FIG. 8 is an illustration of a case where there are a plurality of identical items including numerical data in one table data. As shown in FIG. 8A, for the part 'DTA 114E', there are two items 'Ag' in one table data. Originally, as shown in FIG. 8 (b), if the purpose is to aggregate the Ag content for each part and extract the parts to be ordered according to the Ag content, simply the database item and the corresponding It is not possible to calculate the Ag content for each part simply by extracting the data to be processed.
そこで、例えば図8(a)の表データから、(重量(mg)×平均重量%/100)を総重量で除算するという集計指示を受け付けることにより、データベース生成時に集計項目を追加した所望のデータベース項目及び対応するデータを表示することができる。 Therefore, for example, from the table data of FIG. 8A, by receiving a totaling instruction to divide (weight (mg) × average weight% / 100) by the total weight, a desired database in which the totaling items are added at the time of database generation Items and corresponding data can be displayed.
図9は、Ag含有量の一覧表の例示図である。図9(a)は、パーツごとにAg含有量を算出する集計指示を受け付けた場合の表示画面の例示図である。集計指示として、項目「重量(mg)」と項目「材料の平均重量%」とを用いて項目「重量」91を演算するという演算式の入力を集計指示として受け付け、集計結果である項目「重量」91を新規の項目として追加している。 FIG. 9 is an exemplary diagram of a list of Ag contents. FIG. 9A is an exemplary view of a display screen when an aggregation instruction for calculating the Ag content for each part is received. As an aggregation instruction, an input of an arithmetic expression for calculating the item “weight” 91 using the item “weight (mg)” and the item “average weight% of material” is accepted as an aggregation instruction, and the item “weight” as the aggregation result is received. "91" is added as a new item.
また、集計指示の受け付けは、演算式として受け付けることに限定されるものではなく、マウス22等による選択の入力を受け付けても良い。図9(b)は、マウス22により、集計単位を項目「注文可能なパーツ」92とし、集計対象を項目「重量(mg)」93とする旨の指示を受け付けた場合の表示画面の例示図である。この場合、新規の項目「重量合計」94が追加され、集計単位に沿った集計結果が重量合計に表示される。すなわち、項目「注文可能なパーツ」92が、複数の項目「重量(mg)」93にまたがっている場合、項目「注文可能なパーツ」92に含まれるすべての項目「重量(mg)」93の値を加算して、新規の項目「重量合計」94に集計結果が表示されている。
The acceptance of the totaling instruction is not limited to accepting as an arithmetic expression, and an input of selection using the
以上のように本実施の形態1によれば、データベース項目及び対応するデータを抽出した時点でデータ型を判断することにより、不要な表データについて項目のデータ型を判断する必要がない。また、データ型が数値型であるデータベース項目についてのみ集計項目を追加して表示することができ、異なるデータ形式を有する複数の表データを基礎とする場合であっても、新たなデータベースを生成することができるとともに、正しく集計結果を算出することが可能となる。 As described above, according to the first embodiment, it is not necessary to determine the data type of the item for unnecessary table data by determining the data type at the time when the database item and the corresponding data are extracted. In addition, aggregate items can be added and displayed only for database items whose data type is numeric, and a new database is created even when based on a plurality of table data having different data formats. In addition, it is possible to calculate the total result correctly.
(実施の形態2)
本発明の実施の形態2に係るデータベース生成装置の構成例は、実施の形態1と同様であることから同一の符号を付することで詳細な説明は省略する。本実施の形態2は、マージ対象となる表データ間に、いわゆるゆらぎ情報が存在する場合に、タグ情報を用いて揺らぎ情報に対する補正処理を実行する点で実施の形態1と相違する。ここで、「ゆらぎ情報」とは、表データ間の相違に関する情報の総称である。例えば表データの開始セルの位置の相違に関する表位置ゆらぎ情報、表データの項目の順序が相違する、新規項目の存在、項目の抜けの存在等の項目の相違に関する項目ゆらぎ情報等がある。
(Embodiment 2)
Since the configuration example of the database generation device according to the second embodiment of the present invention is the same as that of the first embodiment, the same reference numerals are given and detailed description is omitted. The second embodiment is different from the first embodiment in that when so-called fluctuation information exists between table data to be merged, correction processing for fluctuation information is executed using tag information. Here, “fluctuation information” is a general term for information regarding differences between table data. For example, there are table position fluctuation information relating to the difference in the position of the start cell of the table data, item fluctuation information relating to the difference in items such as the presence of new items, the presence of missing items, etc., in which the order of the items of the table data is different.
図10は、表データの位置に相違が存在する「表位置ゆらぎ情報」の説明図である。図10(a)から図10(c)に示すように、表データを示す罫線が存在する領域の左上のセル101、102、103のサイズが相違することにより、電子文書ファイル中の表データのセル位置がそれぞれ相違している。表位置ゆらぎ情報が存在する場合、例えばデータ抽出規則を「上から1番目の表」等に特定しておく、又は記憶してあるデータ抽出規則から選択することにより、図10(a)から図10(c)に示すすべての表データを抽出の対象とすることができる。
FIG. 10 is an explanatory diagram of “table position fluctuation information” in which there is a difference in the position of the table data. As shown in FIGS. 10A to 10C, the size of the upper
図11は、表データの項目に相違が存在する「項目ゆらぎ情報」の説明図である。図11(a)を基準とした場合、図11(b)は項目Cと項目Bとの順序が入れ替わっている。従来のCSVファイルを用いて表データをマージする場合には、項目Cと項目Bとの順序が入れ替わっていることを事前にユーザが知っている状態で、入れ替え指示を出す必要があった。 FIG. 11 is an explanatory diagram of “item fluctuation information” in which differences exist in the items of the table data. When FIG. 11A is used as a reference, the order of item C and item B in FIG. When merging table data using a conventional CSV file, it is necessary to issue a replacement instruction in a state where the user knows in advance that the order of item C and item B has been switched.
本実施の形態2では、項目が入れ替わっていることを検出して、項目名にリンクしたタグ情報を付与する。すなわち図11(a)の見出し部111では、例えば項目Aに対してタグ情報‘a’を、項目Bに対してタグ情報‘b’を、項目Cに対してタグ情報‘c’を、それぞれ付与する。図11(b)の見出し部112では、項目Bと項目Cとの順序が入れ替わっているが、タグ情報は図11(a)と同様の対応関係で付与しておく。データ抽出時にはタグ情報‘a’、タグ情報‘b’及びタグ情報‘c’を基礎としてデータを集約するので、基礎となる表データで項目がどのように配置されていても、新たなデータベースでは、タグ情報の順に集約することができる。したがって、項目Cと項目Bとの順序が入れ替わっていることを事前にユーザが知らなくても、表データを適正にマージすることが可能となる。
In the second embodiment, it is detected that the items are switched, and tag information linked to the item name is given. 11A, for example, tag information 'a' for item A, tag information 'b' for item B, and tag information 'c' for item C, respectively. Give. In the heading
また、図11(c)では、見出し部113に新たな項目である項目D、項目Eが存在するのに対し、項目Cが欠落している。この場合も、項目Dに対してタグ情報‘d’を、項目Eに対してタグ情報‘e’を、それぞれ付与することにより、データ抽出時にタグ情報を基礎としてデータを抽出する限り、誤った項目を集約するおそれはない。すなわち、新規に追加された項目は独立して集約することができるし、欠落している項目については本表データからはデータを抽出することがない。
Further, in FIG. 11C, items D and E, which are new items, are present in the heading
図12は、本発明の実施の形態2に係るデータベース生成装置1の機能ブロック図である。電子文書ファイル取得部201は、一又は複数の表データを含む電子文書ファイルを取得する。電子文書ファイルは、記憶装置13内に記憶されている電子文書ファイルを電子文書ファイル記憶部131に集約しても良いし、ネットワーク2を介して外部のコンピュータから取得しても良い。また、キーボード21、マウス22等の入力装置を介して入力しても良い。
FIG. 12 is a functional block diagram of the
データ抽出規則特定部202は、取得した一又は複数の電子文書ファイルに含まれる表データを罫線に関する罫線情報に基づいて解析して、表データを抽出する場合に適用するべきデータ抽出規則を特定する。特定されたデータベース項目及びデータ抽出規則は、データ抽出規則記憶部132に記憶される。データ抽出規則特定部202は、少なくとも罫線情報抽出部203と、解析部204とを備えている。
The data extraction
罫線情報抽出部203は、取得した一又は複数の電子文書ファイルに含まれる罫線に関する罫線情報をそれぞれ抽出する。具体的には、罫線で囲まれている部分を表データと認識し、その他の罫線がどのように配置されているかに関する情報を取得する。
The ruled line
解析部204は、抽出した複数の罫線情報に基づいて電子文書ファイルの内容を解析する。具体的には、罫線によりレコード単位で項目がどのように区分けされているかを判断し、見出し部とデータ部とを区別する。
The
ゆらぎ情報抽出部1201は、異なる電子文書ファイルから抽出した表データの位置の相違に関する情報、及び/又は異なる電子文書ファイルから抽出したデータベース項目の相違に関する情報を少なくとも含む表データの相違に関するゆらぎ情報を抽出する。判断部1202は、データベース項目、データ抽出規則及び抽出されたゆらぎ情報に基づいて、データ抽出規則の変更部分が存在するか否かを判断する。すなわち、ゆらぎ情報の存在によって、タグ情報に基づく表データの抽出規則が変更されるので、変更部分が存在すると判断した場合にはデータ抽出規則に対して何らかのゆらぎ補正が実行されていると判断することができる。
The fluctuation
タグ情報付与部1203は、判断部1202で変更部分が存在すると判断した場合、同一のデータベース項目に対しては同一の、異なるデータベース項目に対しては異なるタグ情報を付与する。このようにすることで、前述したようなタグ情報を用いることより、ゆらぎ情報を有する表データであっても適正にマージすることができる。
When the
データ抽出部205は、データ抽出規則の変更部分を反映してデータベース項目及び対応するデータを抽出する。データ抽出規則にはタグ情報に関する項目が含まれており、タグ情報に応じてデータベース項目及び対応するデータが抽出され、データベース記憶部133に記憶される。
The
データ型検出部206は、抽出されたデータベース項目ごとにデータ型を検出する。検出されるデータ型は、集計することが可能な数値型、及びそれ以外のデータ型、例えば文字型等である。
The data
型判断部207は、データ型検出部206で検出されたデータ型が、数値型であるか否かを判断する。データ型が数値型でなければ集計の対象になりえないからである。指示判断部208は、データ型が数値型であると判断されたデータベース項目について、集計指示を受け付けたか否かを判断する。
The
表示部209は、集計指示を受け付けていないと判断した場合は、抽出されたデータベース項目及び対応するデータを、データベース項目に付与されているタグ情報に従ってデータベース項目を配列して、表示装置23にて一覧表示する。集計指示を受け付けたと判断した場合は、抽出されたデータベース項目及び対応するデータだけでなく、データベース項目ごとの集計項目を加えて表示装置23にて一覧表示する。
When the
図13は、本発明の実施の形態2に係るデータベース生成装置1のCPU11のゆらぎ情報の補正処理の手順を示すフローチャートである。
FIG. 13 is a flowchart showing the procedure of fluctuation information correction processing of the
図13において、データベース生成装置1のCPU11は、図3のステップS304の処理実行後、異なる電子文書ファイルから抽出した表データの位置の相違に関する情報、及び/又は異なる電子文書ファイルから抽出したデータベース項目の相違に関する情報を少なくとも含む表データの相違に関するゆらぎ情報を抽出する(ステップS1301)。抽出するゆらぎ情報は、上述した2つに限定されるものではない。
In FIG. 13, the
CPU11は、データベース項目、データ抽出規則及び抽出されたゆらぎ情報に基づいて、データ抽出規則の変更部分が存在するか否かを判断する(ステップS1302)。CPU11が、変更部分が存在しないと判断した場合(ステップS1302:NO)、CPU11は、ゆらぎ情報に起因するデータ抽出規則に対する何らかの補正処理(以下、ゆらぎ補正)が実行されていないと判断して、処理を図3のステップS306へ進める。CPU11が、変更部分が存在すると判断した場合(ステップS1302:YES)、CPU11は、同一のデータベース項目に対しては同一の、異なるデータベース項目に対しては異なるタグ情報を付与する(ステップS1303)。
The
CPU11は、データ抽出規則の変更部分を反映してデータベース項目及び対応するデータを抽出し(ステップS1304)、データベース項目に付与されているタグ情報に従ってデータベース項目を配列して(ステップS1305)、処理を図3のステップS306へ進める。
The
以上のように本実施の形態2によれば、表データ間にゆらぎ情報が存在する場合であっても、タグ情報を基礎として同一項目についてはデータを集約することができ、ユーザが項目の入れ替わりに関する情報等を正確に把握することなく、新たなデータベースを生成することができる。そして、データベース項目及び対応するデータを抽出した時点でデータ型を判断することにより、不要な表データについて項目のデータ型を判断する必要がない。また、データ型が数値型であるデータベース項目についてのみ集計項目として追加して表示することができ、異なるデータ形式を有する複数の表データを基礎とする場合であっても、新たなデータベースを生成するとともに、正しく集計結果を算出することが可能となる。 As described above, according to the second embodiment, even when fluctuation information exists between table data, data can be aggregated for the same item on the basis of tag information, and the user can change items. It is possible to generate a new database without accurately grasping information and the like regarding the information. Then, by determining the data type when the database item and corresponding data are extracted, it is not necessary to determine the data type of the item for unnecessary table data. In addition, only database items whose data types are numeric types can be added and displayed as aggregated items, and a new database is generated even when based on a plurality of table data having different data formats. At the same time, it is possible to calculate the total result correctly.
なお、本発明は上記実施例に限定されるものではなく、本発明の趣旨の範囲内であれば多種の変更、改良等が可能である。例えば変更すべきデータ抽出規則が見つかった場合、自動的にデータ抽出規則を変更しても良いし、ユーザによる変更指示の入力を受け付けても良い。また、データ抽出規則が変更された場合、自動的に再度データベース生成処理を実行するようにしても良いし、ユーザによるデータベース再生成指示の入力を受け付けても良い。 The present invention is not limited to the above-described embodiments, and various changes and improvements can be made within the scope of the present invention. For example, when a data extraction rule to be changed is found, the data extraction rule may be automatically changed or an input of a change instruction by the user may be accepted. Further, when the data extraction rule is changed, the database generation process may be automatically executed again, or an input of a database regeneration instruction by the user may be accepted.
1 データベース生成装置
2 ネットワーク
11 CPU
12 メモリ
13 記憶装置
14 I/Oインタフェース
15 ビデオインタフェース
16 可搬型ディスクドライブ
17 通信インタフェース
18 内部バス
23 表示装置
90 可搬型記録媒体
100 コンピュータプログラム
131 電子文書ファイル記憶部
132 データ抽出規則記憶部
133 データベース記憶部
134 ゆらぎ情報記憶部
1
12
Claims (9)
一又は複数の前記電子文書ファイルを取得する電子文書ファイル取得手段と、
生成するデータベースのデータベース項目及びデータ抽出規則を特定するデータ抽出規則特定手段と、
特定したデータベース項目及びデータ抽出規則にて、一又は複数の前記電子文書ファイルから前記データベース項目及び対応するデータを抽出するデータ抽出手段と、
抽出されたデータベース項目ごとにデータ型を検出するデータ型検出手段と、
前記データベース項目ごとに、データ型が数値型であるか否かを判断する型判断手段と、
該型判断手段で、データ型が数値型であると判断されたデータベース項目について、集計指示を受け付けたか否かを判断する指示判断手段と、
該指示判断手段で集計指示を受け付けていないと判断した場合、抽出されたデータベース項目及び対応するデータを一覧表示し、前記指示判断手段で集計指示を受け付けたと判断した場合、データベース項目ごとの集計項目を加えて前記データベース項目及び対応するデータを一覧表示する表示手段と
を備えることを特徴とするデータベース生成装置。 In a database generation device that generates a new database based on data extracted from one or a plurality of electronic document files including table data,
Electronic document file acquisition means for acquiring one or more electronic document files;
A data extraction rule specifying means for specifying a database item and a data extraction rule of the database to be generated;
Data extraction means for extracting the database item and corresponding data from one or a plurality of the electronic document files with the specified database item and data extraction rule;
Data type detection means for detecting the data type for each extracted database item;
Type determination means for determining whether the data type is a numeric type for each database item;
An instruction determining means for determining whether or not an aggregation instruction has been accepted for the database item for which the data type is determined to be a numerical type by the type determining means;
When the instruction determining unit determines that the aggregation instruction is not received, the extracted database items and corresponding data are displayed in a list, and when the instruction determining unit determines that the aggregation instruction is received, the aggregation item for each database item And a display means for displaying a list of the database items and corresponding data.
前記データベース項目ごとに数値変換する数値変換手段と、
数値変換にエラーが生じたか否かを判断するエラー判断手段と、
該エラー判断手段でエラーが生じたと判断した場合、該データベース項目のデータ型が文字型であると検出し、エラーが生じていないと判断した場合、該データベース項目のデータ型が数値型であると検出する検出手段と
を備えることを特徴とする請求項1記載のデータベース生成装置。 The data type detecting means includes
Numerical value conversion means for converting numerical values for each database item;
An error determination means for determining whether or not an error has occurred in numerical conversion;
If it is determined by the error determination means that an error has occurred, the data type of the database item is detected as a character type. If it is determined that no error has occurred, the data type of the database item is a numeric type. The database generating apparatus according to claim 1, further comprising: a detecting unit that detects the database.
前記データベース項目、前記データ抽出規則及び抽出されたゆらぎ情報に基づいて、前記データ抽出規則の変更部分が存在するか否かを判断する判断手段と、
該判断手段で変更部分が存在すると判断した場合、同一のデータベース項目に対しては同一の、異なるデータベース項目に対しては異なるタグ情報を付与するタグ情報付与手段と
を備え、
前記データ抽出手段は、前記データ抽出規則の変更部分を反映して前記データベース項目及び対応するデータを抽出するようにしてあり、
前記表示手段は、前記データベース項目に付与されているタグ情報に従って前記データベース項目を配列して、前記データベース項目及び対応するデータを一覧表示するようにしてあることを特徴とする請求項1又は2記載のデータベース生成装置。 Fluctuation information extracting means for extracting fluctuation information relating to differences in table data including at least information relating to differences in position of table data extracted from different electronic document files and / or information relating to differences in database items extracted from different electronic document files; ,
Determining means for determining whether there is a changed portion of the data extraction rule based on the database item, the data extraction rule and the extracted fluctuation information;
Tag information providing means for assigning different tag information to the same database item and different database items when it is determined by the judging means that there is a changed part, and
The data extraction means is adapted to extract the database item and corresponding data reflecting the changed part of the data extraction rule,
The said display means arranges the said database item according to the tag information provided to the said database item, The said database item and corresponding data are displayed as a list, The list is displayed. Database generator.
一又は複数の前記電子文書ファイルを取得し、
生成するデータベースのデータベース項目及びデータ抽出規則を特定し、
特定したデータベース項目及びデータ抽出規則にて、一又は複数の前記電子文書ファイルから前記データベース項目及び対応するデータを抽出し、
抽出されたデータベース項目ごとにデータ型を検出し、
前記データベース項目ごとに、データ型が数値型であるか否かを判断し、
データ型が数値型であると判断されたデータベース項目について、集計指示を受け付けたか否かを判断し、
集計指示を受け付けていないと判断した場合、抽出されたデータベース項目及び対応するデータを一覧表示し、集計指示を受け付けたと判断した場合、データベース項目ごとの集計項目を加えて前記データベース項目及び対応するデータを一覧表示することを特徴とするデータベース生成方法。 In a database generation method that can be executed by a database generation device that generates a new database based on data extracted from one or a plurality of electronic document files including table data,
Obtaining one or more electronic document files;
Identify database items and data extraction rules for the database to be generated,
Extracting the database item and corresponding data from one or more electronic document files with the specified database item and data extraction rule,
Detect the data type for each extracted database item,
For each database item, determine whether the data type is a numeric type,
For database items that are determined to be numeric data type, determine whether or not the aggregation instruction has been accepted,
When it is determined that the aggregation instruction is not accepted, the extracted database items and corresponding data are displayed in a list. When it is determined that the aggregation instruction is accepted, the database item and the corresponding data are added by adding the aggregation item for each database item. A database generation method characterized by displaying a list.
数値変換にエラーが生じたか否かを判断し、
エラーが生じたと判断した場合、該データベース項目のデータ型が文字型であると検出し、エラーが生じていないと判断した場合、該データベース項目のデータ型が数値型であると検出することを特徴とする請求項4記載のデータベース生成方法。 Numeric conversion for each database item,
Determine whether an error has occurred in numeric conversion,
When it is determined that an error has occurred, it is detected that the data type of the database item is a character type, and when it is determined that no error has occurred, it is detected that the data type of the database item is a numeric type. The database generation method according to claim 4.
前記データベース項目、前記データ抽出規則及び抽出されたゆらぎ情報に基づいて、前記データ抽出規則の変更部分が存在するか否かを判断し、
変更部分が存在すると判断した場合、同一のデータベース項目に対しては同一の、異なるデータベース項目に対しては異なるタグ情報を付与し、
前記データ抽出規則の変更部分を反映して前記データベース項目及び対応するデータを抽出し、
前記データベース項目に付与されているタグ情報に従って前記データベース項目を配列して、前記データベース項目及び対応するデータを一覧表示することを特徴とする請求項4又は5記載のデータベース生成方法。 Fluctuation information relating to differences in table data including at least information relating to differences in position of table data extracted from different electronic document files and / or information relating to differences in database items extracted from different electronic document files;
Based on the database item, the data extraction rule and the extracted fluctuation information, determine whether there is a change part of the data extraction rule,
If it is determined that there is a changed part, the same database item is assigned the same, different database items are assigned different tag information,
Extracting the database item and corresponding data reflecting the changed part of the data extraction rules,
6. The database generation method according to claim 4, wherein the database items are arranged according to tag information given to the database items, and the database items and corresponding data are displayed in a list.
前記データベース生成装置を、
一又は複数の前記電子文書ファイルを取得する電子文書ファイル取得手段、
生成するデータベースのデータベース項目及びデータ抽出規則を特定するデータ抽出規則特定手段、
特定したデータベース項目及びデータ抽出規則にて、一又は複数の前記電子文書ファイルから前記データベース項目及び対応するデータを抽出するデータ抽出手段、
抽出されたデータベース項目ごとにデータ型を検出するデータ型検出手段、
前記データベース項目ごとに、データ型が数値型であるか否かを判断する型判断手段、
該型判断手段で、データ型が数値型であると判断されたデータベース項目について、集計指示を受け付けたか否かを判断する指示判断手段、及び
該指示判断手段で集計指示を受け付けていないと判断した場合、抽出されたデータベース項目及び対応するデータを一覧表示し、前記指示判断手段で集計指示を受け付けたと判断した場合、データベース項目ごとの集計項目を加えて前記データベース項目及び対応するデータを一覧表示する表示手段
として機能させることを特徴とするコンピュータプログラム。 In a computer program that can be executed by a database generation device that generates a new database based on data extracted from one or more electronic document files including table data,
The database generation device;
Electronic document file acquisition means for acquiring one or more electronic document files;
A data extraction rule specifying means for specifying a database item of the database to be generated and a data extraction rule;
Data extraction means for extracting the database item and corresponding data from one or a plurality of the electronic document files with the specified database item and data extraction rule;
Data type detection means for detecting the data type for each extracted database item;
Type determination means for determining whether the data type is a numeric type for each database item;
The type determining means determines whether or not the aggregation instruction is accepted for the database item whose data type is a numeric type, and the instruction determining means determines that the aggregation instruction is not accepted. In this case, the extracted database items and the corresponding data are displayed in a list, and when it is determined that the totaling instruction is received by the instruction determination unit, the database items and the corresponding data are displayed in a list by adding the totaling items for each database item. A computer program which functions as a display means.
前記データベース項目ごとに数値変換する数値変換手段、
数値変換にエラーが生じたか否かを判断するエラー判断手段、及び
該エラー判断手段でエラーが生じたと判断した場合、該データベース項目のデータ型が文字型であると検出し、エラーが生じていないと判断した場合、該データベース項目のデータ型が数値型であると検出する検出手段
として機能させることを特徴とする請求項7記載のコンピュータプログラム。 The data type detection means;
Numerical value conversion means for converting numerical values for each database item,
Error determination means for determining whether or not an error has occurred in numerical conversion, and when the error determination means determines that an error has occurred, the data type of the database item is detected as a character type, and no error has occurred The computer program according to claim 7, wherein the computer program is made to function as a detection unit that detects that the data type of the database item is a numeric type when it is determined.
異なる電子文書ファイルから抽出した表データの位置の相違に関する情報、及び/又は異なる電子文書ファイルから抽出したデータベース項目の相違に関する情報を少なくとも含む表データの相違に関するゆらぎ情報を抽出するゆらぎ情報抽出手段、
前記データベース項目、前記データ抽出規則及び抽出されたゆらぎ情報に基づいて、前記データ抽出規則の変更部分が存在するか否かを判断する判断手段、及び
該判断手段で変更部分が存在すると判断した場合、同一のデータベース項目に対しては同一の、異なるデータベース項目に対しては異なるタグ情報を付与するタグ情報付与手段
として機能させ、
前記データ抽出手段を、前記データ抽出規則の変更部分を反映して前記データベース項目及び対応するデータを抽出する手段として機能させ、
前記表示手段を、前記データベース項目に付与されているタグ情報に従って前記データベース項目を配列して、前記データベース項目及び対応するデータを一覧表示する手段として機能させることを特徴とする請求項7又は8記載のコンピュータプログラム。 The database generation device;
Fluctuation information extracting means for extracting fluctuation information relating to differences in table data including at least information relating to differences in position of table data extracted from different electronic document files and / or information relating to differences in database items extracted from different electronic document files;
Based on the database item, the data extraction rule, and the extracted fluctuation information, a determination unit that determines whether there is a changed part of the data extraction rule, and a case where the determination unit determines that the changed part exists , Function as tag information giving means to give the same database item to the same, different database items to give different tag information,
Causing the data extraction means to function as means for extracting the database item and corresponding data reflecting the changed part of the data extraction rule;
9. The display unit according to claim 7, wherein the database item is arranged according to tag information given to the database item, and functions as a unit that displays the database item and corresponding data as a list. Computer program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008265353A JP2010097262A (en) | 2008-10-14 | 2008-10-14 | Database creation device, database creation method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008265353A JP2010097262A (en) | 2008-10-14 | 2008-10-14 | Database creation device, database creation method, and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010097262A true JP2010097262A (en) | 2010-04-30 |
Family
ID=42258921
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008265353A Pending JP2010097262A (en) | 2008-10-14 | 2008-10-14 | Database creation device, database creation method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010097262A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708580A (en) * | 2011-03-28 | 2012-10-03 | 富士施乐株式会社 | Image processing apparatus and image processing method |
JP2012248049A (en) * | 2011-05-30 | 2012-12-13 | Nippon Telegr & Teleph Corp <Ntt> | Device, method, and program for document information analysis |
CN102883085A (en) * | 2011-07-12 | 2013-01-16 | 富士施乐株式会社 | Image processing apparatus, non-transitory computer readable medium storing program and image processing method |
-
2008
- 2008-10-14 JP JP2008265353A patent/JP2010097262A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708580A (en) * | 2011-03-28 | 2012-10-03 | 富士施乐株式会社 | Image processing apparatus and image processing method |
JP2012203783A (en) * | 2011-03-28 | 2012-10-22 | Fuji Xerox Co Ltd | Image processing apparatus and program |
JP2012248049A (en) * | 2011-05-30 | 2012-12-13 | Nippon Telegr & Teleph Corp <Ntt> | Device, method, and program for document information analysis |
CN102883085A (en) * | 2011-07-12 | 2013-01-16 | 富士施乐株式会社 | Image processing apparatus, non-transitory computer readable medium storing program and image processing method |
CN102883085B (en) * | 2011-07-12 | 2016-12-14 | 富士施乐株式会社 | Image processing apparatus and image processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4926004B2 (en) | Document processing apparatus, document processing method, and document processing program | |
JP2014528111A (en) | Workflow system and method for generating, distributing and publishing content | |
WO2008013889A2 (en) | Method and system for portable data aggregation | |
WO2017106610A1 (en) | Method and system for providing automated localized feedback for an extracted component of an lectronic document file | |
US7971135B2 (en) | Method and system for automatic data aggregation | |
JP2010097262A (en) | Database creation device, database creation method, and computer program | |
US10755033B1 (en) | Digital content editing and publication tools | |
JP5633188B2 (en) | Method and apparatus for extracting raster images from portable electronic documents | |
JP2008234552A (en) | Project management support device and method therefor | |
JP2009252185A (en) | Information searching device, information searching method, control program, and recording medium | |
JP5340689B2 (en) | Database generation apparatus, database generation method, and computer program | |
KR102467096B1 (en) | Method and apparatus for checking dataset to learn extraction model for metadata of thesis | |
JP4981723B2 (en) | Display processing apparatus, display processing method, display processing program, and recording medium | |
JP2010128894A (en) | Database generation device, method of generating database, and computer program | |
JP2013164506A (en) | Manual preparation support device and manual preparation support method | |
JP4693167B2 (en) | Form search device, form search method, program, and computer-readable storage medium | |
JP2014044555A (en) | Image processing apparatus, image processing system, and program | |
JP2009230450A (en) | Document attribute information register and program | |
JP6149697B2 (en) | Information processing apparatus and information processing program | |
JP2010128892A (en) | Database generation device, database generation method, and computer program | |
JP2762934B2 (en) | Test item design support system | |
JP2009157470A (en) | Electronic document processor and program | |
JP2010097264A (en) | Database generating device, database generating method, and computer program | |
JP2010244439A (en) | Apparatus, method and program for preparing check list | |
JP2023081564A (en) | Information representation pattern generation device and method |