WO2007066414A1 - プログラム、データ抽出装置、及び方法 - Google Patents

プログラム、データ抽出装置、及び方法 Download PDF

Info

Publication number
WO2007066414A1
WO2007066414A1 PCT/JP2005/022699 JP2005022699W WO2007066414A1 WO 2007066414 A1 WO2007066414 A1 WO 2007066414A1 JP 2005022699 W JP2005022699 W JP 2005022699W WO 2007066414 A1 WO2007066414 A1 WO 2007066414A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
extraction
condition
input
output
Prior art date
Application number
PCT/JP2005/022699
Other languages
English (en)
French (fr)
Inventor
Masataka Matsuura
Hiroya Hayashi
Masahiko Nagata
Kiyohide Omiya
Original Assignee
Fujitsu Limited
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Limited filed Critical Fujitsu Limited
Priority to PCT/JP2005/022699 priority Critical patent/WO2007066414A1/ja
Priority to JP2007549011A priority patent/JP5238105B2/ja
Publication of WO2007066414A1 publication Critical patent/WO2007066414A1/ja
Priority to US12/131,630 priority patent/US20080319985A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Definitions

  • 000 4 is a diagram for explaining a conventional data output method. Here, with reference to, a specific description will be given of the data output method.
  • the conventional data output method shown in (1) is, for example, the one performed at Tokad.
  • the noted JO represents the Nai that stores the act data in dos.
  • S represents a star that stores the data of the customers who are the owners of Ku and Tokad in the ranks.
  • the data output method shown in (3) uses SQ (c edQ e ang age) to connect (O) the desired ones from multiple existing NAYs and STAYs. An example of extracting a desired code from the above is shown.
  • the O phrase contains the It is described to specify by Nan. It is described in the SC clause of the data stored in the extracted data. The items described there are () of the customer, their (G), usage (SS), and
  • the condition for obtaining the desired data is determined and the search is performed. For this reason, the more the number of search items used for the purpose of extracting data, the longer the time required to obtain all the results, and the problem that efficient work cannot be performed.
  • the purpose is to provide a method for obtaining all the necessary types of data faster, even from a huge amount of data.
  • a program such as 00100 has a function of acquiring data, a function of inputting extraction conditions, and a function of extracting data, and a function of extracting data using input conditions and a function of extracting data. It realizes the function of outputting the output data to each output destination.
  • a program such as 001 12 is divided into a function for acquiring data, a function for inputting extraction conditions, and the number of conditions constituting the conditions input by this function, and only the part obtained by dividing.
  • the function to extract the data that satisfies the item from the data acquired by the acquisition function is realized.
  • the data output method described in 001 is applied to extract the data that satisfies the specified condition from the obtainable data, and the target data will differ in the number of cases. , When the input capability and the extraction condition are high and input, the data is output and the data obtained by the output is output to the output destination according to the condition that the data satisfies.
  • the data is converted into a form that is expressed by combining only the parts obtained by dividing it into parts, and by confirming whether or not the part is satisfied, the data that satisfies the condition is extracted.
  • the same part exists in different conditions by converting the conditions into a format that is represented by a combination of Even if it does, it is possible to avoid the necessity of determining whether or not the conditional partial data is satisfied. For this reason, data can be output with more load. It is a figure explaining the conventional data output method.
  • Fig. 2 is a diagram explaining the difference in the conditions for extracting different types of data according to the conventional data output method.
  • 3 is a diagram for explaining the configuration of the data according to the implementation mode.
  • FIG. 5 is a diagram showing an example of how to create a computer map that can realize data according to the implementation mode.
  • FIG. 13 is a diagram illustrating an example of a theory.
  • FIG. 19 It is a figure explaining the example of the data according to the implementation mode (part) 20 It is a figure explaining the application example of the data according to the implementation mode (part 2) 21 An example of the data according to the implementation mode It is a figure explaining (the 3). It is a figure explaining an example of data of a 22 execution mode (the 4). 23 is a diagram for explaining an example of using the data according to the implementation mode (No. 5).
  • FIG. 24 is a diagram for explaining an example of the data according to the implementation mode (No. 6).
  • FIG. 3 is a diagram illustrating the configuration of the data according to this embodiment.
  • the data is realized by inputting text data as input 2 to data 2 and distributing the data 2 by the specified 22. Therefore, extraction, data structure
  • the extraction 22 specifies, for each desired data 2, the condition that the data 2 satisfies and the name of that file.
  • the reason why the destination of data 2 can be arbitrarily specified is that data 2 can be used more quickly and in a desired form. Descending, described in ()
  • 00184 is a diagram for explaining data that can be data according to the present embodiment. Here, with reference to 4, the data will be explained in detail.
  • the character string method is used to extract the data 2 that satisfies the conditions specified in the extraction 22, and the output file name specified in the output condition that corresponds to the conditions is extracted. Output to a.
  • the data 2 satisfying Q e is the data 23 of the Cs Cs
  • the data 2 satisfying the Q e 2 is the data 23 of the Cs eS 2 Cs
  • the data 2 satisfying the Q e 3 is Is output as the image 233 of the image eS 3 Cs.
  • the data 2 to be output to the input data 2 to 23 to 3 are described in () to (6).
  • the combination method determines whether or not the character 2 specified in the extraction condition is present in the data 2 by going to the rear of the data 2 and then to the data. is there. In that case, scanning backwards from the beginning can be confirmed by checking only the rows that data 2 satisfies all the conditions defined in extraction 22. Therefore, regardless of the number of defined cases, data 2 can always be extracted quickly. Examples of such donations are 2.
  • the data of 002 22 is used.
  • display 22 faces and put the desired 22 on that face. Then, when the data is instructed, the created 22 is output to the data.
  • the extraction produces as shown in 3.
  • the te 9 is composed of the te g a and Z te g b.
  • the Z theory te g b has a structure in which a condition is expressed by a part, a is expressed by a combination of logical numbers attached to the condition, and a unique number is added to each expressed combination. It may be one of the matching logics te g a and Z te g b.
  • the condition g a and Z t g b can identify the reference (). In particular, however, it is possible to store in t g b, for each combination of logical numbers, the condition expressed by the combination, which indicates whether or not the condition is satisfied.
  • the logic of te g a is indicated by prefixing Z to the logic of te g b.
  • the combination to which the logic is assigned in 028 z te gb is X 2.
  • the combination 2 is the formula of the equation that indicates that the data 2 where the part of logic (oo o) is satisfied and the part of 2 (ac) is satisfied is the target.
  • the X in X 2 is a part of the logic, 2.
  • the formula represents the extraction process.
  • the logical formulas of logic Z4 and Z5 represent the contents of 3 and 2, respectively. 2 is Z5 Z2XZ3.
  • Extraction 2 corresponds to Z-theory Z5 and theories 3 445, and the () of 2 shown by 8 is shown by the te shown by 3 and its link state. 8 3 is 3 3
  • Extract 3 corresponds to the number as Z4 A6 (oo o 6 aac).
  • data can be classified by using the logical text that is generated by the logical number.
  • Numeral 95 shown in 00303 indicates the extraction, the logical number attached to the combination of the logical numbers expressing the condition, and the key 5 for storing two dishes satisfying the condition (the key (Notation) and a file (printed output conditions) are summarized. As a result, the data 2 satisfying these conditions is output to the output key after being output to the output key 5 with reference to the search 95.
  • 003 31 Hierarchy, keyword 8 CS
  • the acceptance state corresponding to the character positioned after in the search condition is included.
  • the auto is generated so as to move to the logical state if the detection exists in the data 2.
  • it When it is moved to a physical state, it will report according to the physical state.
  • the hit which is peculiar to the acceptance state after transition, It is generated at times.
  • the 0032 tag is for detecting the lines up to the element where the keyword matching () exists. If 22 is as shown in 8, the extraction will eventually produce as shown in 9. In 22 shown in 8, oo o
  • 003 is for managing the target search currently.
  • the extraction will eventually produce 7 as shown in. It is generated so that the name described in each of these spaces is used as a unit, as shown in. Therefore, it is generated by the start tag and the tag.
  • the states marked 4 and 2 correspond to the accepting state.
  • the shift to the acceptance state in which 004 is written means that the search code oo Co a code was detected.
  • hit 7 a is output for the node specified by that line, if that value is 99, and if the part (4) of round 4 is satisfied.
  • the hit 7a includes 4) in the number indicating the part to be matched, a report indicating the depth of the search query layer, and 99 in this report indicating the ability to confirm the relationship. .
  • moving to the accepting state in which 2 is represented means that the search station oo o is detected, so for the node specified in that scan, mari o, its ac ac is the same as that of aac.
  • Hit 7 bd is printed to make a match.
  • the reason for not giving information on those hits 7 bd is because of the keyword of the part corresponding to the logic number described in them.
  • the state at 003, shown in 9 is used. For example, when the character oo, which is the name, is detected by, and 7a is output by the ball, 7 shifts from the initial state in which is written to the state in which is written. Next, when the character o is detected by, moves from the state in which is to the state in which is 2. At this time, when the character Co a is detected by the tag, moves from the state in which is written to to the state in which 3 is written. Those of those of those
  • the 003 keyword is for detecting from the character data 2 that matches the keyword specified by the extraction condition. If 22 is as shown in 8, the extraction will eventually produce the quad as shown in 2. When the acceptance state corresponding to the character positioned after any of the words registered in it is moved to, and if it is possible to detect any of the round characters aac ac ac, 8 a to c are detected depending on the detected character. Is output.
  • Data structure 2 inputs data 2 continuously from input 2 without a predetermined amount, and determines the data to be used for matching according to the type of data 2. So if the data 2 is X data, the tag,
  • Data 2 If it is S data, use S 2 to output the items described in each case.
  • the extraction condition judgment 3 is notified of the node specified by the s, the data indicating the position where the s starts, and the sence indicating the character that is output. Those that are generated as hit information, for example, include it. Search each time, until the data 2 in those reports is detected. In X data, this corresponds to the output of tags that form a set of data, and in S data, it corresponds to the output of a certain number of tags. This is equivalent to the fact that the part stored in the argument is satisfied in the search string with the data structure 2.
  • Judgment 3 carries out the above knowledge, and carries out verification using a keyword each time the information from Structure 2 is notified until Structure 2 detects. As a result, if the data 2 satisfies 2, the numbers will be stored sequentially as the logic Z2 and Z3, and finally the logic Z5 will be stored. As a result, the target data 2 is stored only in the number where the logical expression satisfies the logical expression. Therefore, by referring to the Z-theory gb, it is possible to confirm the condition that the data 2 satisfies. Yes. In this way, in this embodiment, the condition that constitutes the extraction condition is expressed by this.
  • the row is defined as the part (divisional logic) obtained by the differentiation.
  • the matching characters are output separately, the identification of the person represented by the relationship, and the location of such a thing are determined separately.
  • Part 004 may be the same or may exist separately for other items.
  • the part oo o is also described everywhere. However, by subdividing that number of conditions, it is possible to leave them as one. As a result, it is possible to minimize the necessary confirmation part regardless of the extraction conditions and contents. , Are represented by a combination of multiple. For this reason, it will be possible to establish them more quickly.
  • Data 4 refers to Z theory g b and is satisfied by Data 2
  • 00444 is a diagram for explaining the handling method of the lock.
  • the data 2 is processed by the corresponding cache 5, cache 5, 52.
  • the cache 5 has a number of caches indicating the number of caches 5 secured by the extraction 22 and a pointer report for accessing the cache 52.
  • the key 52 is provided with the number of code indicated by the number of acquisitions and key numbers, and the code has a plurality of information related to the keys 5a to 5c in the corresponding key 5.
  • the individual seats 53a to 53c are stored respectively. The ones that store those 5 and 5 are connected to the data together with 5 Reserved on storage device 4. , Hierarchy CS
  • the keyword, and the logic test 9 are also stored in the storage device 4, for example.
  • 004 is a pointer to access the corresponding packet 5, the size of the data 2 that represents all possible sizes, and the size of the data that can be used to access the data 2. , And the output size that represents the size of the secured 5 bodies. It is the same as that of the major issues of the numbers assigned to the cards. Mari, Do's do correspond to. By doing so, it is possible to identify the code corresponding to the condition that the data 2 satisfies.
  • data 4 confirms that the condition that data 2 satisfies by referring to Z theory gb exists, and then confirms that condition by referring to Search 95.
  • search 95 Refer to keys 5 and 52.
  • the code corresponding to the confirmed condition is taken out from the key 52, and the data 2 is output to the key 5 determined by the individual key 53 stored in the code.
  • the size depends on the size of output data 2.
  • 0047 Data 6 monitors the size of each output 5, and if the size is less than a specified value, is searched when there is no data 2 to process by inputting. And outputs the data 2 stored in the cache 5 to the corresponding file. As a result, the data 2 that has been output so far is saved in the output file name specified by the output condition.
  • the three figures 23-233 are all stored on the same 23.
  • 004 485 is a diagram showing an example of how to create a computer map that can realize data. It may be realized by multiple computers (data processing devices), but here we will explain on the assumption that it is realized by the computer of the unit whose configuration is shown in 5.
  • the sample shown in 00495 is CP 5, female 52, input 53, output 54, external It has storage devices 55, 56 and a network 57, and these are connected by 58. However, it is not limited to this.
  • 00505 is to temporarily store the data.
  • the program or data stored in the local storage device 55 or 56 is temporarily stored.
  • CP 5 controls the whole program by reading the program to 52 and executing it.
  • the program may have been obtained via the network 57.
  • the 005 53 is, for example, connected to an input device such as a keyboard or a mouse, and has them. Then, the operation for the input device is detected and the result is notified to CP 5.
  • an input device such as a keyboard or a mouse
  • the 005 54 is, for example, display-connected, and has it.
  • the data sent by the CP 5 control is output on the display.
  • the network 57 is used for other communication via a network such as an intranet or the like.
  • the partial storage device 55 is, for example, a disk device. Mainly used for various programs.
  • the output 23 shown in 005 4 is recorded in the external storage device 55 in the configuration shown in 5
  • the storage device 4 shown in 4 corresponds to one of the external storage devices 55 and 52, for example.
  • the search conditions are realized by the respective units 5 to 53 and 55 to 58 except 54.
  • Data force structure 2 and data 6 are both For example, the input 53 and the output 54 are excluded, and they are realized by the respective units 5 52, 55 to 57. Both case judgment 3 and data 4 are input 53
  • 00575 is a logical chart executed by extraction.
  • the force of 2 2 is input 53, which is activated by instructing it via the network.
  • extract 22 is manually input via input 53 and via network 57.
  • Step 2 select the 22 saved items, analyze them, and identify the corresponding auto category.
  • Step 3 the specified type of OT will be generated and new. The result is
  • step 3 it is determined whether or not there is another extraction condition selected in extraction 22. If so, the decision is S and the process returns to step 2 above and another choice is selected. If it is not, the judgment is O, and in step 5, it is searched along with the formation of the logic test 9.
  • 00606 is a theoretical chart executed by force structure 2. See 6 below for a more detailed explanation of that reason. It is executed, for example, while the loading of two data 2 is instructed.
  • step 2 it is judged whether there is input 2 to input data 2. If data 2 does not exist, the judgment becomes O and the setting is performed again. Wait for that data 2 to occur. If not, then the determination is S and the process moves to step 22.
  • a predetermined amount of data 2 is input from input 2.
  • the input data 2 is selected, and the characters determined by the extraction are used to search for a character that matches the character registered in it.
  • step 24 it is determined whether or not the target character (s ,,, etc.) has been detected. If no other character can be detected, the determination becomes O and the process proceeds to step 27. Otherwise, the determination is S and the process moves to step 25.
  • step 25 the data extraction condition determination 3 is notified. Based on this knowledge, extraction condition judgment 3 performs matching using keyword 0, and if data 2 is detected accordingly, the data is notified. From this, in the next step 26, it is judged whether or not it has started. If so, the determination is S and the process moves to step 28. Otherwise, the determination is O and the process returns to step 23 above and the search is continued.
  • step 27 when the setting of step 24 is completed, it is determined whether or not the data 2 is detected by the search. If it is detected, the determination is S and the process proceeds to step 28. If not, the determination is O and the process returns to the above step and the search is continued.
  • step 28 the data 4 is notified that the data 2 has been detected.
  • step 29 the selected data 2 Determine No. If the optional data 2 exists, the judgment is S and the process returns to the above step 23, and the optional data 2 is selected to start the search. If not, the determination is O and the process returns to the above step. As a result, it is confirmed whether there is data 2 to be input to input 2.
  • 0067 7 is a logical chart executed by the extraction condition determination 3. Next, refer to 7 and explain in detail.
  • Step wait for the notification.
  • the determination becomes O and the process proceeds to step 42, and the notified data and the keyword are used for verification.
  • the judgment is S, and in step 44, the truth is set in the place of the logical te (Z logic te gb) signal, and then the process returns to step 4 above and shifts to the notification state. . Otherwise, the determination is O and the process moves to step 45.
  • step 45 it is judged whether or not the data 2 is detected. If it is detected as a result, the determination is S, and the data structure 2 is notified in step 46 to notify that fact, and then the process returns to step 4 above.
  • the process returns to step 42, and the verification is continued.
  • necessary information is exchanged between the data structure 2 case judgment 3 at any time, and the processing proceeds according to the information.
  • 07088 is a logical chart executed by data 4. See 8 below for more on that reason.
  • step 5 wait for notification of data structure 2 to data 2.
  • the determination becomes O and the process proceeds to step 52, and the reason 2 is referred to and the current condition 2 is determined by referring to the logical theory 9. After that, shift to step.
  • step 53 it is judged whether or not there is a condition that the data 2 satisfies. If there is such a condition, the determination becomes S and the process proceeds to step 54, where the search is performed.
  • the data 2 is output to the skipper 5 by referring to 95 (3), the cache 5, and the cache 52 (4), the corresponding individual tracer 53 is updated, and the process returns to the above step 5. As a result, the notification state is entered. If not, the determination is O and the process returns to step 5.
  • 007 9 to 24 are diagrams for explaining an application example of the above data. , 9 to 24, and specifically explain the effective usage. The data is shown in 9 to 24.
  • 007339 shows an example of using multiple data in multiple stages.
  • the data 9 3 is the data 9 3
  • the data of 9 of them is connected to the data 93 and output to another data, and the data is distributed to the two instruments 92.
  • the second instrument 92 outputs the aggregate result to each data, and the input data distributes the output to each of the three data and outputs it. These are also the same in the second 9.
  • 0074-2 shows an example of using data for data division. That data is the data of the Do stored in Nai 2.
  • the data is used to sort the data satisfying the extraction conditions into the ones in Nai 2 to 3.
  • the reason for allocating in that way is to deal with the fact that, for example, the conditions for Stars X to Z are different. By allocating in this way, the data can be processed in parallel in three systems, and the processing can be realized.
  • 007 52 shows an example of using the data to divide the data of the connected result. That is, the data of the star is concatenated. For the data, extract It is used to output to any of the 20 to 3 depending on the case.
  • 007 722 shows an example of using the data to divide the data of the aggregated results. That is, the result of the data of the star is aggregated. The data is used to output the data of the result satisfying the extractions to 3 to the data of 22 to 3 depending on the situation.
  • 007 723 is data used for the use of Kugugu service carried out by newspaper companies.
  • the data defines the service recorder and the requirements that the article data sent to the recorder should meet.
  • article data is input and is output to the corresponding file depending on the condition that the data satisfies.
  • the article data output to that file is regularly distributed to service recorders. Additions and deletions of service recorders, and changes of requests can be added and deleted of extraction conditions, and further correspondences of the contents can be handled.
  • 007 244 shows an example of using data in the Yew survey system.
  • the data is input to the data from the system of the time.
  • the conditions for extracting only the necessary data are defined.
  • the extraction sorts (itens) the data according to the extraction conditions.
  • the separated data are collated to be examined as study data and expanded into finer data.
  • the company name is added to the data with the car number of 24.
  • the collated data is aggregated and output by the aggregator, for example.
  • the data itself that distributes the output according to the extraction conditions is input from the outside, but the data that is actually distributed may be a specific one. It can be well-coded data. That's right, it is okay to record the data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 抽出するデータを指定するための抽出条件を1つ以上、入力可能として、1つ以上の抽出条件が入力された場合に、該抽出条件毎にデータの抽出を行い、抽出したデータはそれが満たす抽出条件に応じた出力先に出力する。

Description

明 細 書
プログラム、データ抽出装置、及び方法
技術分野
[0001] 本発明は、取得可能なデータのな力から指定された抽出条件を満たすデータを抽 出するための技術に関する。
背景技術
[0002] 取得可能なデータのなかから任意のデータを抽出することができるデータ抽出装置 は、現在、様々な用途に広く用いられている。インターネットで公開されている情報の 検索では、検索エンジンとして用いられている。ユーザはそのデータ抽出装置を用い ることにより、大量のデータのな力から所望のデータを迅速に得ることができる。
[0003] データ抽出装置は、予め定められた単位でデータを抽出する。その単位となるのは 、例えばファイル、或いはレコードである。文書、及びインターネット上の Webページ はファイルに相当する。顧客の利用実績 POS (Point Of Sales)データや HHT (Hand Held Terminal)データなどはレコード単位で管理されるのが普通である。
[0004] 図 1は、従来のデータ抽出方法を説明する図である。ここで、図 1を参照して、その データ抽出方法について具体的に説明する。
図 1に示す従来のデータ抽出方法は、例えばクレジットカード会社で行われる場合 のものである。表記した「JOURNAL」は、ファクトデータをレコード単位で格納したジ ヤーナルファイルを表している。「MASTER」は、クレジットカードの所有者である顧 客のデータをレコード単位で格納したマスタファイルを表している。それにより、図 1に 示すデータ抽出方法は、 SQL (Structured Query Language)を用いて、共に複数、 存在するジャーナルファイル、及びマスタファイルのな力から所望のものを連結 (JOI N)させ、その連結結果力も所望のレコードを抽出する場合の例を表して!/、る。
[0005] 連結させるジャーナルファイル、マスタファイルのそれぞれの条件は、 FROM句内 の WHERE句に記述されている。そこに記述された条件により、マスタファイルは現 在のものが選択され、ジャーナルファイルは 2004年のものが選択される。その FRO M句内の FROM句には、ファイル間におけるレコードの対応関係はクレジットカード ナンバーにより特定することが記述されている。連結結果力 抽出されるレコードに格 納されるデータの項目は、 SERECT句に記述されている。そこに記述された項目は 、顧客の指名 (V. NAME)、その年齢 (V. AGE)、利用回数 (V. SALES— NUM )、売上額 (V. SALES)である。連結結果力も抽出するレコードの条件は、 WHERE 句に記述されている。そこに記述された条件は、カードの種類がコールドカード、とい うものである。このようなことから、 2004年に利用し、現在もゴールドカードを持つ顧 客のレコードが検索結果として抽出される。
[0006] 連結結果力 抽出されるレコードを異ならせるには、 WHERE句に記述する抽出条 件を変更すれば良い。シルバーカードを持つ顧客のレコードを抽出させるのであれ ば、例えば図 2に示すように、「GOLD」の記述を「SILVER」に変更すれば良い。そ れにより、 2004年に利用し、現在もシルバーカードを持つ顧客のレコードが検索結 果として抽出される。
[0007] このように、従来のデータ抽出方法では、所望のデータを得るための抽出条件を決 定し、その抽出条件毎に検索を行わせるようになつていた。このため、データを抽出 する目的の数、つまり検索に使用する抽出条件の数が多くなるほど、全ての抽出結 果を得るまでに要する時間が長くなり、効率的な作業が行えなくなるという問題点が めつに。
[0008] 現在、デジタルデータで扱う情報の種類、及びその量は非常に増大しつつある。そ のため、今後は従来のデータ抽出方法では対応するのが非常に困難となるのが予 想される。このこともあって、膨大なデータのな力からでも必要な種類のデータを全て より迅速に得られるようにすることが重要であると考えられる。
特許文献 1 :特開 2002— 222194号公報
特許文献 2:特開 2005 - 70911号公報
特許文献 3:特開平 6 - 319906号公報
発明の開示
[0009] 本発明は、膨大なデータのな力からでも必要な種類のデータを全てより迅速に得ら れるようにする技術を提供することを目的とする。
本発明の第 1、及び第 2の態様のプログラムは共に、取得可能なデータのなかから 指定された抽出条件を満たすデータを抽出できるデータ抽出装置を実現させるため にコンピュータに実行させることを前提とし、それぞれ以下の機能を実現させる。
[0010] 第 1の態様のプログラムは、データを取得する機能と、抽出条件を入力する機能と、 入力する機能により一つ以上、入力された抽出条件を用いて、該抽出条件毎にデー タを抽出する機能と、抽出する機能により抽出条件毎に抽出されたデータをそれぞ れ異なる出力先に出力する機能と、を実現させる。
[0011] 第 2の態様のプログラムは、データを取得する機能と、抽出条件を入力する機能と、 入力する機能により入力された抽出条件を構成する条件式を複数の部分条件式に 分割し、該分割によって得られる部分条件式の組み合わせで表現する形式に該抽 出条件を変換して、該部分条件式単位で該部分条件式を満たすか否か確認するこ とにより、取得する機能により取得したデータのなかで該抽出条件を満たすデータを 抽出する機能と、を実現させる。
[0012] 本発明のデータ抽出方法は、取得可能なデータのな力から指定された抽出条件を 満たすデータを抽出するために適用されることが前提であり、対象となるデータが異 なる抽出条件を複数、入力可能とさせ、抽出条件が 1つ以上、入力された場合に、該 抽出条件毎にデータの抽出を行い、該抽出によって得たデータを、該データが満た す抽出条件に応じた出力先に出力する。
[0013] 本発明では、対象となるデータが異なる抽出条件を複数、入力可能とさせ、抽出条 件が 1つ以上、入力された場合に、抽出条件毎にデータの抽出を行い、それによつ て得たデータを、そのデータが満たす抽出条件に応じた出力先にそれぞれ出力する 。このため、ユーザは、複数の抽出条件を定義して入力することにより、 1度に複数の 抽出結果を得ることができる。それにより、必要な全ての抽出結果をより迅速に得るこ とができる。この結果、高い作業効率も容易に実現させることができる。
[0014] 本発明では、入力された抽出条件は、それを構成する条件式を複数の部分条件式 に分割し、その分割によって得られる部分条件式の組み合わせで表現する形式に変 換して、部分条件式単位でその部分条件式を満たすか否力確認することにより、デ ータのなかで抽出条件を満たすデータを抽出する。部分条件式の組み合わせで表 現する形式に抽出条件を変換することにより、異なる条件式に同じ部分条件式が存 在して!/ヽても、条件式毎に部分条件式をデータが満たすか否かの確認を行う必要性 を回避できるようになる。このため、より小さい負荷でデータ抽出を行えることとなる。 図面の簡単な説明
圆 1]従来のデータ抽出方法を説明する図である。
[図 2]従来のデータ抽出方法で異なる種類のデータを抽出させるための抽出条件の 相違を説明する図である。
圆 3]本実施の形態によるデータ抽出装置の昨日構成を説明する図である。
圆 4]本実施の形態によるデータ抽出装置 100が可能なデータ抽出を説明する図で ある。
圆 5]本実施の形態によるデータ集計装置を実現できるコンピュータのハードウェア 構成の一例を示す図である。
[図 6]XMLデータの構成例を説明する図である。
[図 7]CSVデータの構成例を説明する図である。
圆 8]抽出条件群の内容例を説明する図である。
[図 9]タグ DFA例を説明する図である。
圆 10]階層照合 NFA例を説明する図である。
[図 11]CSV解析 DFA例を説明する図である。
[図 12]キーワード DF A例を説明する図である。
圆 13]論理テーブル例を説明する図である。
圆 14]出力バッファの管理方法を説明する図である。
[図 15]抽出条件入力部 110が実行する処理のフローチャートである。
[図 16]データ入力構造検索部 120が実行する処理のフローチャートである。
[図 17]抽出条件判定部 130が実行する処理のフローチャートである。
[図 18]データ判定部 140が実行する処理のフローチャートである。
圆 19]本実施の形態によるデータ抽出装置の適用例を説明する図である (その 1)。 圆 20]本実施の形態によるデータ抽出装置の適用例を説明する図である (その 2)。 圆 21]本実施の形態によるデータ抽出装置の適用例を説明する図である (その 3)。 圆 22]本実施の形態によるデータ抽出装置の適用例を説明する図である (その 4)。 [図 23]本実施の形態によるデータ抽出装置の適用例を説明する図である (その 5)。
[図 24]本実施の形態によるデータ抽出装置の適用例を説明する図である (その 6)。 発明を実施するための最良の形態
[0016] 以下、本発明の実施の形態について、図面を参照しながら詳細に説明する。
図 3は、本実施の形態によるデータ抽出装置の機能構成を説明する図である。 そのデータ抽出装置 100は、入力装置 210からデータ 211としてテキストデータを 入力し、そのデータ 211を指定された抽出条件群 220により振り分けて出力するもの として実現されている。そのために、抽出条件入力部 110、データ入力構造検索部 1 20、抽出条件判定部 130、データ判定部 140、外部出力用の出力バッファ 150、及 びデータ出力部 160を備えている。ここでは便宜的に、入力装置 210から入力する データ 211として、図 6に示すような XML (extensible Markup Language )データ、及 び図 7に示すような CSV (Comma Separated Values)データのみを想定する。それら のデータは共にテキストデータである。
[0017] 抽出条件入力部 110によって入力される抽出条件群 220は、例えば図 8に示すよう な内容のものである。その図 8では、(1)〜(3)に分けてそれぞれ抽出条件、及び出 力条件を示している。そのように分けて示す抽出条件は全て、ユーザが所望のデー タ 211を抽出するためのものである。抽出条件と併せて示す出力条件は、その抽出 条件によって抽出されるデータ 211の出力先、及びそのファイル名を指定するもので ある。それに
より、抽出条件群 220は、所望のデータ 211別に、そのデータ 211が満たすべき抽出 条件、及びその出力先ファイル名を指定するものとなっている。そのようにデータ 211 の出力先を任意に指定できるようにしたのは、データ 211をより迅速に所望の形で利 用するのを可能とさせるためである。以降、(1)に記述された抽出条件は「抽出条件 1 」と表記する。これは他でも同様である。
[0018] 図 4は、本実施の形態によるデータ抽出装置 100が可能なデータ抽出を説明する 図である。ここで図 4を参照して、そのデータ抽出について具体的に説明する。
図 8に示す抽出条件群 220は、データ 211として XMLデータを想定したものである 。図 4では、 CSVデータを想定した抽出条件群 220を示している。「Query」は抽出 条件に相当し、「OutFile」は出力条件に相当する。 Query (抽出条件)として表記し た「 $ X」は、項目名「X」を表し、「 $―」は任意の項目名を表して!/、る。それにより、 例ぇば<3116 1で表記した「$ = =, 1, OR $ X= =,Xa,」は、項目名「X」の データが XIまたは Xaであるデータ 211が抽出の対象であることを示している。その 表記が「 $ _= = 'Xa' jとなっている Queryでは、任意の項目のデータとして Xaが 存在して!/、るデータ 211が抽出の対象であることを示して!/、る。そのデータ 211は X MLデータ、及び CSVデータの何れであっても、ファイルとしてまとめて入力させても 良いが、一つずつ順次、入力させても良い。一つずつ入力させる場合、 XMLデータ では図 6に示すようなものとなり、 CSVデータでは、図 7において、先頭に「000001」 〜「000007」を表記した行のようなものとなる。ここでは便宜的に、それらのデータの まとまりをレコードと呼ぶことにする。また、 2つの「'」の間に記述された文字列につい ては「キーワード」と呼ぶことにする。そのキーワードは、図 8に示す抽出条件群 220 では 2つの 」の間に記述された文字列が相当する。
[0019] 本実施の形態では、文字列照合方式を用いて、抽出条件群 220で指定された抽 出条件の何れかを満たすデータ 211を抽出し、満たす抽出条件に対応付けられた 出力条件で指定された出力先ファイル名のファイルに出力する。それにより、 Query 1を満たすデータ 211はファイル名「resultl. csv」のファイル 231として、 Query2を 満たすデータ 211はファイル名「result2. csv」のファイル 232として、 Query3を満 たすデータ 211はファイル名「result3. csv」のファイル 233として、それぞれ出力さ れる。入力されたデータ 211とファイル 231〜3の何れかに出力されるデータ 211の 対応関係は、図中に表記の(1)〜(6)により示して 、る。
[0020] 各抽出条件はそれぞれ単独で考慮されるため、抽出条件は全て任意に定義するこ とができる。このため、 XMLデータや CSVデータなどのデータ 211の種類毎に 1つ 以上の抽出条件を定義することもでき、また、その構造別に 1つ以上の抽出条件を定 義することもできるようになつている。従って、対象とするデータ 211間でスキーマがど のように相違して 、ても、その相違の影響は確実に回避させることができる。
[0021] 上述したようなことから、抽出条件間は排他関係としなくとも良い。それにより、 Quer ylと Query2では条件式 (論理式)「 $ X= = 'Xa'」を満たすデータ 211をそれぞれ 抽出する内容となっている。同様に Query2と Query3では条件式「 $ X= =,Xb'」 を満たすデータをそれぞれ抽出する内容となっている。この結果、ファイル 231、 232 には共に(4)を表記したデータ 211が出力され、ファイル 232、 233には共に(5)を 表記したデータ 211が出力されている。
[0022] このように、抽出条件群 220により複数の抽出条件が指定されると、抽出条件毎に それを満たすデータ 211を振り分けて指定の出力先に出力するようになっている。こ のた
め、ユーザは、抽出条件群 220として複数の抽出条件、及び出力条件を定義するだ けで 1度に複数の抽出結果を得ることができる。それにより、必要な全ての抽出結果 はより迅速に得ることができる。この結果、高い作業効率も容易に実現させることがで きる。
[0023] 上述したように、本実施の形態では文字列照合方式を採用している。その文字列 照合方式は、抽出条件で指定した文字列と対象のデータ 211との照合を、そのデー タ 211の先頭より後方に向力つて逐次、行っていくことにより、その文字列がデータ 2 11中に存在する力否かを調べるものである。その文字列照合方式では、先頭より後 方に向力つた走査を 1回、行うだけで、抽出条件群 220で定義された抽出条件の何 れをデータ 211が満たしている力確認することができる。そのため、定義された抽出 条件の数に係わらず、常に迅速に抽出すべきデータ 211を抽出することができる。そ の参考文献としては、例えば特許文献 1、及び 2が挙げられる。
[0024] 図 3の説明に戻る。
抽出条件入力部 110は、上述したような抽出条件群 220を入力し、抽出条件毎に、 その抽出条件を解析して対応のオートマトンを生成する。それにより、抽出条件が X MLデータ用のものであればタグ DFA (Deterministic Finite state Automaton) 170、 階層照合 NFA(Non- deterministic Finite state Automaton) 171、及びキーワード D FA180が生成される。抽出条件が CSVデータ用のものであれば CSV解析 DFA17 2、及びキーワード DFA180が生成される。論理テーブル 190は、キーワード DFA1 72と同様に、抽出条件が想定するデータ 211の種類に係わらず生成される。
[0025] 抽出条件群 220の作成は基本的に、ユーザによるデータ入力によって行われる。 本実施の形態によるデータ抽出装置 100と接続された端末装置で抽出条件群 220 を作成する場合、例えばユーザは抽出条件群 220作成用の画面を表示させ、その 画面上に所望の内容の抽出条件群 220を入力する。その入力後、データ抽出を指 示すると、作成された抽出条件群 220がデータ抽出装置 100に出力される。
[0026] 上記論理テーブル 190としては、抽出条件群 220が図 8に示す内容であった場合 、抽出条件入力部 110によって図 13に示すようなものが生成される。図 13に示すよう に、その!^理テープノレ 190 ίま、 Af^理テープノレ 190a、及び Zf^理テープノレ 19 Ob力 ら構成されている。
[0027] A論理テーブル 190aは、抽出条件を構成する条件式 (論理式)を関係演算子(図 8 中では「=」及び「<」が相当)で分解して、その条件式が表現する論理により細分ィ匕 し(図 8では抽出条件 2を構成する条件式「ZrootZCompanyZcode <
99」は「ZrootZCompanyZcode」「く 99」に分解される)、細分化した条件式( 部分条件式)毎に固有の論理番号を付した構成のものである。 Z論理テーブル 190b は、条件式、或いは抽出条件を部分条件式、或いは条件式に付した論理番号の組 み合わせで表現し、表現した組み合わせ毎に固有の論理番号を付した構成のもの である。組み合わせる論理番号は A論理テーブル 190a、及び Z論理テーブル 190b の何れのものであっても良い。その論理番号を用いて条件式、或いは抽出条件を表 現することにより、 A論理テーブル 190a、或いは Z論理テーブル 190bで参照すべき レコード (行)を特定できるようにさせている。特には図示していないが、その Z論理テ 一ブル 190bには、論理番号の組み合わせ毎に、その組み合わせで表現される条件 式、或 、は抽出条件が成立して 、るか否かを示す符号を格納できるようになって!/、る 。以降テーブル 190a、及び 190bでそれぞれ割り当てる論理番号を区別するために 、 A論理テーブル 190aの論理番号には「A」、 Z論理テーブル 190bの論理には「Z」 をそれぞれ先頭に付して表記する。
[0028] Z論理テーブル 190bで論理番号 Z1が割り当てられた組み合わせは「A1 XA2」で ある。その組み合わせ「A1 XA2」は、論理番号 A1の部分条件式(ZrootZorigin) が成立し、且つ論理番号 A2の部分条件式 ("atcg")が成立するデータ 211が抽出 対象であることを表す形式の論理式となっている。それにより、組み合わせ (論理式) 「八1 八2」中の「 」は、論理番号 Al、及び A2の部分条件式の論理積を行うことを 示す論理演算子となっている。その論理式は、抽出条件 1の内容を表している。同様 に、論理番号 Z4、及び Z5の各論理式はそれぞれ抽出条件 3、及び 2の内容を表し ている。抽出条件 2は Z5=Z2 X Z3になっている。ここで 190bのテーブル内で、 Z2 =A3 X A4により A3 = ZrootZCompanyZcodeゝ A4 = < 99に対応する。
[0029] また、 Z3=A1 X A5により、 Al = ZrootZ〇rigin、 A5 = "gtac,,に対応する。し たがって、抽出条件 2は、 Z論理番号 Z5と介して、 A論理番号 A3、 A4、 Al、 A5に対 応し、図 8で示す抽出条件 2の論理積 (AND)は、図 13で示す論理テーブルとその 要素間のリンク状態で示される。図 8の抽出条件 3は図 13の抽出条件 3、 Z論理番号 4、 A論理番号 Al、 A6の論理テーブルとその要素間のリンクで示される。すなわち、 抽出条件 3は Z4=A1 XA6 (Al = /root/origin, A6 = "aacg")として A論理番 号に対応している。すなわち、このような論理番号によって各抽出条件で形成される 論理テーブルを使って抽出条件毎のデータ判別が可能となる。
[0030] 図 13に示す検索結果判定情報 195は、抽出条件毎に、その抽出条件を表現する 論理番号の組み合わせに対して付された論理番号、その抽出条件を満たすデータ 2 11を格納すべき出力バッファ 150を示す番号(図中「出力バッファ No.」と表記)、及 びファイルディスクリプタ(対応付けられた出力条件)がまとめられたものである。それ により、何れかの抽出条件を満たすデータ 211は、検索結果判定情報 195を参照し て出力すべき出力バッファ 150に出力された後、出力すべきファイルに出力される。
[0031] 上記オートマトン(タグ DFA170、階層照合 NFA171、キーワード DFA180、 CSV 解析 DFA172)は検索条件中の文字列をデータ 211と照合するための状態遷移テ 一ブルである。状態間は遷移の方向を示す矢印で結んで表現される。先頭を初期状 態とし、この初期状態力 データ 211中の文字列に応じて順次、状態を遷移させる。 遷移させる状態には、検索条件中の文字列の最後に位置する文字に相当する受理 状態が 1つ以上、含まれている。それによりオートマトンは、データ 211中に検出すベ き文字列が存在していれば、何れかの受理状態に遷移するように生成される。受理 状態に遷移した場合、その受理状態に応じたヒット情報を出力するようになっている。 そのヒット情報は、遷移した受理状態に応じた特有のものであり、オートマトンの生成 時に併せて生成される。
[0032] 上記タグ DFA170は、キーワードと照合すべき文字列(要素内容)が存在する要素 までの検索パスを検出するためのものである。抽出条件群 220が図 8に示す内容で あった場合、抽出条件入力部 110によって図 9に示すようなタグ DFA170が最終的 に生成される。図 8に示す抽出条件群 220では、検索パスとして「ZrootZorigin」 及び「ZrootZCompanyZcode」が存在することから、それぞれがタグ名である文 字列「root」「origin」「Company」及び「code」をそれぞれ検出できるように生成され ている。それらの文字列の最後に位置する文字「t」「n」「y」及び「e」の何れかに相当 する受理状態まで遷移することで、その文字に対応する文字列が検出されたことを示 すヒット情報 170a〜dの何れかが出力される。
[0033] 階層照合 NFA171は、現在、対象とする検索パスを管理するためのものである。抽 出条件群 220が図 8に示す内容であった場合、抽出条件入力部 110によって図 10 に示すような階層照合 NFA171が最終的に生成される。その NFA171は、図 10に 示すように、何れかの検索パスに記述されたタグ名を単位とした状態遷移が行われる ように生成されている。このため、その状態遷移は開始タグ、及び終了タグによって発 生する。ここでは、「4」、及び「2」を表記した状態が受理状態に相当する。
[0034] 「4」を表記した受理状態に遷移したことは、検索パス「ZrootZCompanyZcode 」が検出されたことを意味する。それにより、その検索パスで指定されたノードでは、そ の値が 99未満か否か、つまり論理番号 A4の部分条件式 (論理)が成立するか否か の照合を行うためのヒット情報 171aが出力される。そのヒット情報 171aは、照合の対 象となる部分条件式を示す論理番号 (ここでは A4)、検索ノ スの階層の深さを示す 階層情報、及びその部分条件式で関係を確認すべき内容を示す比較情報 (ここでは く 99)を含むものである。同様に「2」を表記した受理状態に遷移したことは、検索パ ス「ZrootZorigin」が検出されたことを意味するから、その検索パスで指定されたノ ード、つまりタグ名「origin」のタグでは、その文字列が「atcg」「gtac」或いは「aacg」 の何れと一致する力否かの照合を行うためのヒット情報 171b— dが出力される。それ らのヒット情報 171b- dで比較情報を示して 、な 、のは、それらに表記した論理番号 に対応する部分条件式の照合はキーワード DFA180により行うためである。 [0035] 階層照合 NFA171における状態遷移は、図 9に示すタグ DFA170を用いて行わ れる。例えばタグ名である文字列「root」をタグ DFA170により検出すると、つまりタグ DFA170によりヒット情報 170aを出力すると、 NFA171では「0」を表記した初期状 態から「1」を表記した状態に遷移する。次にタグ DFA170により文字列「origin」を 検出すると、 NFA171では「1」を表記した状態から「2」を表記した状態に遷移する。 このとき、タグ DFA170により文字列「Company」を検出すると、 NFA171では「1」 を表記した状態から「3」を表記した状態に遷移する。それらの何れの文字列もタグ D FA170により検出できなければ、 NFA171では「1」を表記した状態から「0」を表記 した初期状態に遷移する。そのように遷移させることにより、階層照合 NFA171を用 いて検索パスに沿った階層の移動の有無を把握し、対象とする検索パスを管理する
[0036] CSV解析 DFA172は、キーワードと照合すべき文字列(要素内容)が存在する要 素までの検索パスを検出するためのものである。その要素が 2つのダブルコーテーシ ヨン間に存在する CSVデータ(図 7)では、抽出条件入力部 110によって図 11に示す ような CSV解析 DFA172が生成される。図 11中に表記した「Ox」はそれに続くシン ボルが 16進数表現であることを表している。
[0037] キーワード DFA180は、抽出条件により指定されたキーワードと一致する文字列を データ 211中力も検出するためのものである。抽出条件群 220が図 8に示す内容で あった場合、抽出条件入力部 110によって図 12に示すようなキーワード DFA180が 最終的に生成される。それに登録された何れかのキーワードの最後に位置する文字 に相当する受理状態まで遷移した場合、つまり文字列「aacg」「acgt」及び「gtac」の 何れかを検出できた場合、検出された文字列に応じてヒット情報 180a〜cの何れか が出力される。
[0038] データ入力構造検索部 120は、入力装置 210から所定量ずつ連続的にデータ 21 1を入力し、そのデータ 211の種類に応じて、照合に用いるオートマトンを決定する。 それ〖こより、データ 211が XMLデータであれば、タグ DFA170、及び階層照合 NF A 171を用 、て抽出条件の何れかに記述された検索パスの検出を行う。データ 211 力 S CSVデータであれば、 CSV解析 DFA172を用いて抽出条件の何れかに記述され た項目名の検出を行う。検索パス、或いは項目名を検出すると、その検索パスによつ て指定されたノード、或いはその項目名のセルが開始する位置を示すデータ位置情 報、及び検出された文字列を示すノード'セル情報を抽出条件判定部 130に通知す る。それらの情報は例えばヒット情報として生成するもの力、或いはそれを含むもので ある。それらの情報の通知は、データ 211の終端を検出するまで、検索パス、或いは 項目名を検出する度に行う。その終端の検出は、 XMLデータではルートタグと組に なる終了タグの検出に相当し、 CSVデータでは所定個数のセルの検出に相当する。 データ入力構造検索部 120による検索パス、或いは項目名の検出は、 A論理テープ ル 190aに格納された部分条件式が成立することの確認に相当する。
[0039] 抽出条件判定部 130は、データ入力構造検索部 120から通知されたデータ位置情 報が示すデータ位置より、キーワード DFA180を用いた照合を行う。その照合の結 果、そのデータ位置力 何れかのキーワードと一致する文字列、或いは関係演算子 が示す関係を満たす値 (図 8に示す抽出条件群 220では 99未満の値)が存在するこ とを確認すると、 Z論理テーブル 190bの該当論理番号の箇所にそのことを示す符号 (以降「真符号」と表記し、それと異なる符号を「偽符号」と表記する)を格納する。そ の確認ができる前にデータ 211の終端を検出した場合には、その終端の位置を示す データ位置情報をデータ入力構造検索部 120に通知する。それにより、構造検索部 120は、データ 211の終端を自身が検出した力否かに係わらず、その終端まで走査 が終了したことをデータ判定部 140に通知する。
[0040] 抽出条件判定部 130は、上記通知を行うか、或いは構造検索部 120が終端を検出 するまで、構造検索部 120から情報が通知される度にキーワード DFA180を用いた 照合を行う。この結果、データ 211が抽出条件 2を満たしている場合には、論理番号 Z2、及び Z3の符号として真符号が順次、格納され、最後に論理番号 Z5の符号とし て真符号が格納されることになる。そのようにして、対象とするデータ 211が論理式を 満たす論理番号の箇所にのみ真符号が格納されることから、 Z論理テーブル 190bを 参照することにより、データ 211が満たす抽出条件を確認できるようになつている。
[0041] このようにして本実施の形態では、抽出条件を構成する条件式をそれが表現する 論理により細分ィ匕し、その細分化によって得られた部分条件式 (細分化論理)単位で の照合を行うようにしている。それにより、一致する文字列、或いは検索パスの検出、 関係演算子で表す関係の確認、及びそのようなことを行うべき箇所の特定、などをそ れぞれ個別に実施している。そのようにすると、より柔軟に対応することが可能となり、 データ 211の種類やその構造などの情報がたとえ不足していたとしても、ユーザは得 られている情報から所望のデータ 211が満たす内容を抽出条件としてより容易に定 義できるようになる。このため、ユーザにとっての高い利便性が実現される。
[0042] 部分条件式 (細分化論理)は、同じ、或いは他の抽出条件で別に存在する場合が ある。図 8に示す例では、部分条件式「ZrootZorigin」は抽出条件 1〜3の何れに も記述されている。しかし、そのような複数の同じ記述は、条件式を細分化することに より、一つの部分条件式として残せば済むようになる。それにより、抽出条件の数や 内容に係わらず、成立するか否か確認すべき部分条件式は必要最小限に抑えること ができる。条件式、或いは抽出条件は複数の部分条件式の組み合わせで表現され る。このため、それらが成立するか否かはより迅速に行えることとなる。
[0043] データ判定部 140は、 Z論理テーブル 190bを参照して、データ 211が満たす抽出 条件を確認する。その確認により、何れかの抽出条件を満たしていることが判明する と、検索結果判定情報 195 (図 13)を参照して、出力すべき出力バッファ 150にデー タ 211を出力して格納する。
[0044] 図 14は、出力バッファの管理方法を説明する図である。
データ 211を対応する出力バッファ 150への出力は、出力バッファ情報 151、及び ノッファ情報 152により管理している。出力バッファ情報 151は、抽出条件群 220に より確保した出力バッファ 150の数を示す取得バッファ数情報、及びバッファ情報 15 2にアクセスするためのポインタ情報を備えている。そのノッファ情報 152は、取得バ ッファ数情報が示す数のレコードを備えたものであり、各レコードには、対応する出力 バッファ 150 (ここでは出力バッファ 150a〜cのうちの一つ)に関する複数の情報を有 する個別バッファ情報 153 (ここでは個別バッファ情報 153a〜cのうちの一つ)がそれ ぞれ格納されている。それら出力バッファ情報 151、及びバッファ情報 152を格納す るエリアは出カノ ッファ 150と共に、データ抽出装置 100に搭載、或いは接続された 記憶装置 1401上に確保されている。タグ DFA170、階層照合 NFA171、 CSV解 析 DFA172、キーワード DFA180、及び論理テーブル 190も例えばその記憶装置 1 401〖こ格糸内される。
[0045] その個別バッファ情報 153は、対応する出力バッファ 150にアクセスするためのポィ ンタ情報、そのデータ 211を格納可能な全サイズを表す全バッファサイズ、そのサイ ズのなかでデータ 211を格納可能な残りのサイズを表す残バッファサイズ、確保した 出力バッファ 150自体のサイズを表す出力バッファサイズ、を有している。各レコード に付した番号の大小関係は抽出条件の番号のそれと同じとさせている。つまり、レコ ード番号 0のレコードは抽出条件 1に対応している。それにより、データ 211が満たす 抽出条件に対応するレコードを特定できるようにさせている。
[0046] 上述したようなことから、データ判定部 140は、 Z論理テーブル 190bを参照してデ ータ 211が満たす抽出条件が存在していることを確認すると、検索結果判定情報 19 5を参照してその抽出条件を確認し、出カノ ッファ情報 151、及びバッファ情報 152 を参照する。それにより、確認した抽出条件に対応するレコードをバッファ情報 152 力も取り出し、そのレコードに格納された個別バッファ情報 153により指定される出力 バッファ 150にデータ 211を出力する。残バッファサイズは、出力するデータ 211の サイズにより更新する。
[0047] データ出力部 160は、各出力バッファ 150の例えば残バッファサイズを監視し、そ のサイズが所定値以下になる力、或いは入力装置 210から入力して処理するデータ 211が無くなった場合に、検索結果判定情報 195を参照して、出力バッファ 150に格 納されているデータ 211を対応するファイルに出力する。それにより、出力条件で指 定された出力先ファイル名のファイルに、これまでに抽出したデータ 211を保存する 。ここでは、 3つのファイル 231〜233は共に同じ出力装置 230上に保存させている。
[0048] 図 5は、データ抽出装置 100を実現できるコンピュータのハードウェア構成の一例を 示す図である。抽出装置 100は複数のコンピュータ (データ処理装置)により実現さ せても良いが、ここでは図 5に構成を示す 1台のコンピュータによって実現されている ことを前提として説明することとする。
[0049] 図 5に示すコンピュータは、 CPU51、メモリ 52、入力装置 53、出力装置 54、外部 記憶装置 55、媒体駆動装置 56、及びネットワーク接続装置 57を有し、これらがバス 58によって互いに接続された構成となっている。同図に示す構成は一例であり、これ に限定されるものではない。
[0050] メモリ 52は、データを一時的に格納する RAM等のメモリである。外部記憶装置 55 、若しくは媒体駆動装置 56がアクセスする可搬記録媒体 MDに記憶されて 、るプロ グラム、あるいはデータが一時的に格納される。 CPU51は、プログラムをメモリ 52に 読み出して実行することにより、全体の制御を行う。そのプログラムは、ネットワーク接 続装置 57によりネットワークを介して取得したものであっても良い。
[0051] 入力装置 53は、例えば、キーボード、マウス等の入力機器と接続されている力、或 いはそれらを有するものである。そのような入力機器に対するユーザの操作を検出し 、その検出結果を CPU51に通知する。
[0052] 出力装置 54は、例えばディスプレイと接続されている力、或いはそれを有するもの である。 CPU51の制御によって送られてくるデータをディスプレイ上に出力させる。 ネットワーク接続装置 57は、例えばイントラネットやインターネット等のネットワークを 介して、他の装置と通信を行うためのものである。外部記憶装置 55は、例えばハード ディスク装置である。主に各種データやプログラムの保存に用いられる。
[0053] 記憶媒体駆動装置 56は、フレキシブル 'ディスク、光ディスク(ここでは CD— ROM 、 CD-R,及び DVD等を含む)、或いは光磁気ディスク等の可搬型の記録媒体 MD にアクセスするものである。
[0054] 図 3に示す出力装置 230は、図 5に示す構成では外部記憶装置 55、記録媒体 MD が装着された媒体駆動装置 56、或いはネットワーク接続装置 57によりアクセス可能 な外部装置に相当する。入力装置 210は、記録媒体 MDが装着された媒体駆動装 置 56、或いはネットワーク接続装置 57によりアクセス可能な外部装置に相当する。抽 出条件群 220の入力は、入力装置 53、記録媒体 MDが装着された媒体駆動装置 5 6、或いはネットワーク接続装置 57により行うことができる。図 14に示す記憶装置 140 1は、例えば外部記憶装置 55、及びメモリ 52の少なくとも一方に相当する。
[0055] 検索条件入力部 110は、例えば出力装置 54を除く各部 51〜53、及び 55〜58に よって実現される。データ入力構造検索部 120、及びデータ出力部 160は共に、例 えば入力装置 53、及び出力装置 54を除く各部 51、 52、及び 55〜57によって実現 される。抽出条件判定部 130、及びデータ判定部 140は共に、例えば入力装置 53、 出力装置 54、及びネットワーク接続装置 57を除く各部 51、 52、 55、 56、及び 58〖こ よって実現される。
[0056] 次に、上述した各部 110、 120、 130、及び 140の動作について、図 15〜図 18に 示す各処理のフローチャートを参照して詳細に説明する。それらの処理は何れも、例 えば CPU51が、外部記憶装置 55、若しくは媒体駆動装置 56に装着された可搬記 録媒体 MDに記憶されて 、るプログラムをメモリ 52に読み出して実行することにより実 現される。
[0057] 図 15は、抽出条件入力部 110が実行する処理のフローチャートである。始めに図 1 5を参照して、その処理について詳細に説明する。その処理は、例えば抽出条件群 2 20の入力をユーザが入力装置 53、或いはネットワークを介して指示することで起動 される。その場合、抽出条件群 220は入力装置 53、或いはネットワーク接続装置 57 を介して入力される。
[0058] 先ず、ステップ 11では、抽出条件群 220を入力し、例えばメモリ 52に保存する。続 くステップ 12では、保存した抽出条件群 220のなかから 1抽出条件を選択して読み 出し、それを解析して対応するオートマトンの種類を特定する。その次に移行するス テツプ 13では、特定した種類のオートマトンを生成、或いは更新する。その生成、或 いは更
新により、抽出条件に記述された文字列が必要に応じてタグ DFA170、階層照合 N FA171、或いはキーワード DFA180に登録される。
[0059] ステップ 13に続くステップ 14では、抽出条件群 220のなかに選択していない他の 抽出条件が有るか否か判定する。そのような抽出条件が残っていた場合、判定は YE Sとなって上記ステップ 12に戻り、他の選択条件を選択する。そうでない場合には、 判定は NOとなり、ステップ 15で論理テーブル 190の生成と併せて検索結果判定情 報 195 (図 13)、出力バッファ情報 151、及びバッファ情報 152の生成を行い、抽出 条件数に応じた出力バッファ 150 (図 14)の確保を行った後、一連の処理を終了する 。このようにして、抽出条件群 220の入力により、必要なオートマトンの生成に併せて 、データ 211を出力すべき出力先に出力するための準備が行われる。
[0060] 図 16は、データ入力構造検索部 120が実行する処理のフローチャートである。次 に図 16を参照して、その処理について詳細に説明する。その処理は、例えばデータ 211の入力装置 210からの取り込みが指示されている間、実行される。
[0061] 先ず、ステップ 21では、入力装置 210から入力すべきデータ 211が有るか否か判 定する。そのようなデータ 211が無力つた場合、判定は NOとなり、再度、その判定を 行う。それにより、そのデータ 211が生じるのを待つ。一方、そうでない場合には、判 定は YESとなってステップ 22に移行する。
[0062] ステップ 22では、入力装置 210から所定量のデータ 211を入力する。続くステップ 23では、入力したデータ 211から一つを選択し、抽出条件入力部 110によって決定 したオートマトンを用いて、それに登録された文字列の何れかと一致する文字列の検 索を行う。
[0063] その検索は 1文字単位で行い、その検索が終了するとステップ 24に移行して、対象 となる文字列 (検索パス、項目名、など)を検出できた力否力判定する。そのような文 字列を検出できな力つた場合、判定は NOとなってステップ 27に移行する。そうでな い場合には、判定は YESとなってステップ 25に移行する。
[0064] ステップ 25では、データ位置情報等を抽出条件判定部 130に通知する。その通知 により、抽出条件判定部 13はキーワード DFA180を用いた照合を行い、その照合に よってデータ 211の終端を検出すると、そのデータ位置情報を通知する。このことか ら、次のステップ 26では、その通知が有ったか否か判定する。その通知が有った場 合、判定は YESとなってステップ 28に移行する。そうでない場合には、判定は NOと なって上記ステップ 23に戻り、検索を続行する。
[0065] 上記ステップ 24の判定が NOとなって移行するステップ 27では、検索によってデー タ 211の終端を検出したか否カゝ判定する。その終端を検出した場合、判定は YESと なってステップ 28に移行する。そうでない場合には、判定は NOとなって上記ステツ プ 23に戻り、検索を続行する。
[0066] ステップ 28では、データ 211の終端が検出されたことをデータ判定部 140に通知 する。続くステップ 29では、入力したデータ 211のなかで未選択のデータ 211が有る か否か判定する。未選択のデータ 211が存在する場合、判定は YESとなって上記ス テツプ 23に戻り、未選択のデータ 211を選択して検索を開始する。そうでない場合に は、判定は NOとなって上記ステップ 21に戻る。それにより、入力装置 210に入力す べきデータ 211が有るか否かの確認を行う。
[0067] 図 17は、抽出条件判定部 130が実行する処理のフローチャートである。次に図 17 を参照して、その処理について詳細に説明する。
先ず、ステップ 41では、レコードの終了通知が通知されるのを待つ。その通知を受 け取ると、判定が NOとなってステップ 42に移行し、通知されたデータ位置情報、及 びキーワード DFA180を用いた照合を行う。その次に移行するステップ 43では、キ 一ワード DFA180に登録されたキーワードの何れ力と一致する文字列をデータ 211 力 検出できた力否か判定する。そのような文字列を検出できた場合、判定は YESと なり、ステップ 44で論理テーブル 190 (Z論理テーブル 190b)の該当論理番号の箇 所に真符号を設定した後、上記ステップ 41に戻り、通知待ちの状態に移行する。そう でな 、場合には、判定は NOとなってステップ 45に移行する。
[0068] ステップ 45では、データ 211の終端を検出したか否力判定する。照合によってその 終端を検出した場合、判定は YESとなり、そのことを通知するためにデータ位置情報 をデータ入力構造検索部 120にステップ 46で通知した後、上記ステップ 41に戻る。 そうでない場合には、判定は NOとなって上記ステップ 42に戻り、照合を続行する。
[0069] 上述したようにして、データ入力構造検索部 120と抽出条件判定部 130の間では 必要な情報のやりとりが随時、行われ、その情報によってそれぞれ処理を進行させる 。それにより、 1データ 211毎に、それが成立する抽出条件を確認し、その確認結果 に応じた処理を行うようになって!/、る。
[0070] 図 18は、データ判定部 140が実行する処理のフローチャートである。最後に図 18 を参照して、その処理について詳細に説明する。
先ず、ステップ 51では、データ入力構造検索部 120からデータ 211の終端が通知 されるのを待つ。その通知を受け取ると、判定が NOとなってステップ 52に移行し、論 理テーブル 190を参照して、現在、対象としているデータ 211が満たす抽出条件を 判定する。その後はステップ 53に移行する。 [0071] ステップ 53では、データ 211が満たす抽出条件が有るか否か判定する。そのような 抽出条件が存在した場合、判定は YESとなってステップ 54に移行し、検索結果判定 情報 195 (図 13)、出力バッファ情報 151、及びバッファ情報 152 (図 14)を参照して データ 211を出力すべき出力バッファ 150に出力し、対応する個別バッファ情報 153 を更新した後、上記ステップ 51に戻る。それにより、通知待ちの状態に移行する。一 方、そうでない場合には、判定は NOとなってそのステップ 51に戻る。
[0072] 図 19〜図 24は、上記データ抽出装置の適用例を説明する図である。以降は、図 1 9〜図 24を参照して、その適用可能な利用法について具体的に説明する。図 19〜 図 24にお 、て、データ抽出装置は「抽出器」と表記して!/、る。
[0073] 図 19は、複数のデータ抽出装置 100を多段階で使用する場合の例を示している。
データ 1903を入力するデータ抽出装置 100は、そのデータ 1903を 2つの連結器 1 910に振り分けている。その二つの連結器 1910の一方は、マスタファイル 1901のデ ータをデータ 1903と連結させて別のデータ抽出装置 100に出力し、そのデータ抽出 装置 100は連結結果を 2つの集計器 1920に振り分けている。その 2つの集計器 192 0はそれぞれ異なるデータ抽出装置 100に集計結果を出力し、その集計結果を入力 するデータ抽出装置 100はそのデータをそれぞれ 3つのファイルに振り分けて出力し ている。これらは、二つの連結器 1910の他方側でも同様である。
[0074] 図 20は、入力データの振り分けにデータ抽出装置 100を使用する場合の例を示し ている。その入力データは、ジャーナルファイル 2000に格納された各レコードのデー タ
である。データ抽出装置 100は、抽出条件を満たすデータをジャーナルファイル 200 1〜3のうちの何れかに振り分けて出力するために用いられて 、る。そのように振り分 けるのは、例えばマスタ X〜Zとの連結条件がそれぞれ異なることに対応するためで ある。そのように振り分けると、データを 3系統で並行して処理することが可能となるこ とから、処理の高速ィ匕を実現できる。
[0075] 図 21は、連結結果のデータの振り分けにデータ抽出装置 100を使用する場合の 例を示している。その連結結果は、マスタとジャーナルのデータを連結させたもので ある。データ抽出装置 100は、抽出条件 1〜3の何れかを満たすデータを、その抽出 条件に応じてファイル 2101〜3のうちの何れかに出力するために用いられている。
[0076] 図 22は、集計結果のデータの振り分けにデータ抽出装置 100を使用する場合の 例を示している。その集計結果は、マスタとジャーナルのデータの連結結果に対して 集計操作を行ったものである。データ抽出装置 100は、抽出条件 1〜3の何れかを満 たす集計結果のデータを、その抽出条件に応じてファイル 2201〜3のうちの何れか に出力するために用いられて 、る。
[0077] 図 23は、新聞社等で実施されるクリッピングサービスの提供用にデータ抽出装置 1 00を使用する場合の例を示している。その場合、データ抽出装置 100にはサービス 登録者毎に、その登録者に送るべき記事データが満たす抽出条件を定義する。その 抽出装置 100には随時、記事データが入力され、その記事データが満たす抽出条 件に応じて対応するファイルに出力される。そのファイルに出力された記事データは 、定期的にサービス登録者に配信される。サービス登録者の追加、削除、或いは要 求の変更などは、抽出条件の追加、削除、或いは内容の変更によって対応すること ができる。
[0078] 図 24は、ハイウェイ利用調査システムにデータ抽出装置 100を使用する場合の例 を示している。その場合、ハイウェイのモニタシステムから随時、データがデータ抽出 装置 100に入力される。その抽出装置 100には、必要なデータのみを抽出するため の抽出条件を定義する。それにより、抽出装置 100は、抽出条件に従ってデータを 選別する(フィルタリングする)。選別されたデータは、連結器によりマスタデータと照 合され、より詳細なデータに展開される。例では、自動車の番号が「k 2104」のデー タに対して会社名「〇〇通運」が付加されている。マスタデータと照合されたデータは 集計器により、例えば会社毎に集計されて出力される。
[0079] なお、本実施の形態では、抽出条件によって出力先を振り分けるデータそのものを 外部から入力している力 そのデータは実際に振り分けるデータの生成用、或いは 特定用のものであっても良い。つまり符号ィ匕された圧縮データのようなものであっても 良い。そのようなデータの入力は、記録媒体 MDに記録して行うようにしても良い。

Claims

請求の範囲
[1] 取得可能なデータのな力から指定された抽出条件を満たすデータを抽出できるデ ータ抽出装置を実現させるためにコンピュータに実行させるプログラムであって、 前記データを取得する機能と、
前記抽出条件を入力する機能と、
前記入力する機能により一つ以上、入力された抽出条件を用いて、該抽出条件毎 にデータを抽出する機能と、
前記抽出する機能により前記抽出条件毎に抽出されたデータをそれぞれ異なる出 力先に出力する機能と、
を実現させるためのプログラム。
[2] 請求項 1記載のプログラムであって、
前記抽出する機能は、前記データに対する 1度の走査により、入力された抽出条件 のなかで該データが満たす抽出条件を特定して抽出する。
[3] 請求項 1記載のプログラムであって、
前記抽出する機能は、前記抽出条件を構成する条件式を複数の部分条件式に分 割し、該分割によって得られる部分条件式の組み合わせで表現する形式に各抽出 条件を変更することにより、該部分条件式単位で該部分条件式をデータが満たすか 否かの確認を行う。
[4] 請求項 3記載のプログラムであって、
前記抽出する機能は、前記抽出条件中に検出すべき文字列が存在していればい ずれかの受理状態に遷移するように生成されることを少なくとも含むオートマトンと、 該抽出条件の入力を受けて前記オートマトンの出力に基づいて形成される論理テー ブルと、を生成し、該論理テーブルに基づいて抽出条件の入力に対応した出力条件 を判定する。
[5] 請求項 4記載のプログラムであって、
前記オートマトンとして、前記抽出条件と一致する前記文字列を検出するタグ DFA と、該抽出条件で指定の階層を検出する階層照合 DFAと、該抽出条件中のキーヮ ードを検出するキーワード DFAと、を含み、前記論理テーブルは、該抽出条件を前 記部分条件式毎に分類した第一の論理番号テーブルと、該抽出条件毎に分類した 検索結果判定テーブルと、前記第一論理番号テーブルと前記検索結果判定テープ ルとを対応させる第二の論理番号テーブルと、を含む。
[6] 請求項 4記載のプログラムであって、
前記オートマトンとして、前記抽出条件入力の文字列を検出する CSV解析 DFAと 、抽出条件入力のキーワードを検出するキーワード DFAと、を含む。
[7] 請求項 1記載のプログラムであって、
前記条件入力手段は、前記抽出条件と併せて、該抽出条件と対応付けたデータの 出力先に関する出力条件を入力することができ、
前記データ出力手段は、前記出力条件に従って、該出力条件と対応付けられた抽 出条件を満たすデータを出力する。
[8] 取得可能なデータのな力から指定された抽出条件を満たすデータを抽出できるデ ータ抽
出装置を実現させるためにコンピュータに実行させるプログラムであって、 前記データを取得する機能と、
前記抽出条件を入力する機能と、
前記入力する機能により入力された前記抽出条件を構成する条件式を複数の部分 条件式に分割し、該分割によって得られる部分条件式の組み合わせで表現する形 式に該抽出条件を変換して、該部分条件式単位で該部分条件式を満たすか否か確 認することにより、前記取得する機能により取得したデータのなかで該抽出条件を満 たすデータを抽出する機能と、
を実現させるためのプログラム。
[9] 請求項 8記載のプログラムであって、
前記入力する機能は、一つ以上の前記抽出条件を入力することができ、 前記抽出する機能により前記抽出条件毎に抽出したデータはそれぞれ異なる出力 先に出力できる。
[10] 取得可能なデータのな力から指定された抽出条件を満たすデータを抽出するため のデータ抽出方法において、 前記抽出条件を構成する条件式論理を指定対象となるデータが異なる前記抽出 条件を複数、入力可能とさせ、
前記抽出条件が 1つ以上、入力された場合に、該抽出条件毎にデータの抽出を行 い、
該抽出によって得たデータを、該データが満たす抽出条件に応じた出力先にそれ ぞれ出力する、
ことを特徴とするデータ抽出方法。
[11] 取得可能なデータのな力から指定された抽出条件を満たすデータを抽出できるデ ータ抽出装置において、
前記データを取得するデータ取得手段と、
前記抽出条件を入力する条件入力手段と、
前記条件入力手段により一つ以上、入力された抽出条件を用いて、該抽出条件毎 にデータを抽出するデータ抽出手段と、
前記データ抽出手段が前記抽出条件毎に抽出したデータをそれぞれ異なる出力 先に出力するデータ出力手段と、
を具備することを特徴とするデータ抽出装置。
[12] 取得可能なデータのな力から指定された抽出条件を満たすデータを抽出できるデ ータ抽出装置において、
前記データを取得するデータ取得手段と、
前記抽出条件を入力する条件入力手段と、
前記条件入力手段により入力された前記抽出条件を構成する条件式を複数の部 分条件式に分割し、該分割によって得られる部分条件式の組み合わせで表現する 形式に該抽出条件を変換して、該部分条件式単位で該部分条件式を満たすか否か 確認することにより、前記データ取得手段が取得したデータのなかで該抽出条件を 満たすデータを抽出するデータ抽出手段と、
を具備することを特徴とするデータ抽出装置。
PCT/JP2005/022699 2005-12-09 2005-12-09 プログラム、データ抽出装置、及び方法 WO2007066414A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2005/022699 WO2007066414A1 (ja) 2005-12-09 2005-12-09 プログラム、データ抽出装置、及び方法
JP2007549011A JP5238105B2 (ja) 2005-12-09 2005-12-09 プログラム、及びデータ抽出方法
US12/131,630 US20080319985A1 (en) 2005-12-09 2008-06-02 Storage medium, data extraction apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2005/022699 WO2007066414A1 (ja) 2005-12-09 2005-12-09 プログラム、データ抽出装置、及び方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US12/131,630 Continuation US20080319985A1 (en) 2005-12-09 2008-06-02 Storage medium, data extraction apparatus and method

Publications (1)

Publication Number Publication Date
WO2007066414A1 true WO2007066414A1 (ja) 2007-06-14

Family

ID=38122567

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/022699 WO2007066414A1 (ja) 2005-12-09 2005-12-09 プログラム、データ抽出装置、及び方法

Country Status (3)

Country Link
US (1) US20080319985A1 (ja)
JP (1) JP5238105B2 (ja)
WO (1) WO2007066414A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013196404A (ja) * 2012-03-21 2013-09-30 Mitsubishi Denki Information Technology Corp データ処理装置及びデータ処理方法及びデータ処理プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9460063B2 (en) 2009-01-02 2016-10-04 Apple Inc. Identification, selection, and display of a region of interest in a document
JP7173315B2 (ja) * 2019-05-21 2022-11-16 日本電信電話株式会社 分析装置、分析システム、分析方法及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05225238A (ja) * 1992-02-07 1993-09-03 Nippon Steel Corp データベース検索システム
JPH06139291A (ja) * 1992-10-30 1994-05-20 Hitachi Ltd 情報検索方法およびシステム
JPH09245052A (ja) * 1996-03-05 1997-09-19 Mitsubishi Electric Corp 構造化文書処理装置
JP2000339346A (ja) * 1999-03-19 2000-12-08 Hitachi Ltd 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0510634B1 (en) * 1991-04-25 1999-07-07 Nippon Steel Corporation Data base retrieval system
US5761496A (en) * 1993-12-14 1998-06-02 Kabushiki Kaisha Toshiba Similar information retrieval system and its method
EP0667586A3 (en) * 1994-02-14 1996-08-28 Digital Equipment Corp Database creation system.
US5745745A (en) * 1994-06-29 1998-04-28 Hitachi, Ltd. Text search method and apparatus for structured documents
CH689288A5 (de) * 1994-10-21 1999-01-29 Komax Holding Ag Verfahren und Vorrichtung zum Bestuecken von Steckergehaeusen.
JP3040945B2 (ja) * 1995-11-29 2000-05-15 松下電器産業株式会社 文書検索装置
JP3113814B2 (ja) * 1996-04-17 2000-12-04 インターナショナル・ビジネス・マシーンズ・コーポレ−ション 情報検索方法及び情報検索装置
JP3531468B2 (ja) * 1998-03-30 2004-05-31 株式会社日立製作所 文書処理装置及び方法
EP1122651B1 (en) * 2000-02-03 2010-05-19 Hitachi, Ltd. Method and apparatus for retrieving and delivering documents, and recording media storing a program therefor
JP3303881B2 (ja) * 2001-03-08 2002-07-22 株式会社日立製作所 文書検索方法および装置
US20040010482A1 (en) * 2002-07-11 2004-01-15 Austin James R. Creation theory
US20040254919A1 (en) * 2003-06-13 2004-12-16 Microsoft Corporation Log parser
WO2005008542A1 (en) * 2003-07-11 2005-01-27 Computer Associates Think, Inc. Method and apparatus for generating csv-formatted extract file
JP4497882B2 (ja) * 2003-10-01 2010-07-07 キヤノン株式会社 情報出力装置及び方法、並びにプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05225238A (ja) * 1992-02-07 1993-09-03 Nippon Steel Corp データベース検索システム
JPH06139291A (ja) * 1992-10-30 1994-05-20 Hitachi Ltd 情報検索方法およびシステム
JPH09245052A (ja) * 1996-03-05 1997-09-19 Mitsubishi Electric Corp 構造化文書処理装置
JP2000339346A (ja) * 1999-03-19 2000-12-08 Hitachi Ltd 類似文書検索配送方法および装置並びに類似文書検索配送プログラムを格納した記憶媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013196404A (ja) * 2012-03-21 2013-09-30 Mitsubishi Denki Information Technology Corp データ処理装置及びデータ処理方法及びデータ処理プログラム

Also Published As

Publication number Publication date
US20080319985A1 (en) 2008-12-25
JP5238105B2 (ja) 2013-07-17
JPWO2007066414A1 (ja) 2009-05-14

Similar Documents

Publication Publication Date Title
US20160162504A1 (en) Information searching apparatus, information managing apparatus, information searching method, information managing method, and computer product
US7945600B1 (en) Techniques for organizing data to support efficient review and analysis
US7487174B2 (en) Method for storing text annotations with associated type information in a structured data store
CN102959578B (zh) 取证***、取证方法及取证程序
CN1584884B (zh) 检索结构化文档的数据的设备
WO2010047286A1 (ja) 検索システム、検索方法およびプログラム
US5970485A (en) News clipping method and system
CN102893281A (zh) 信息搜索设备、信息搜索方法、计算机程序和数据结构
CN104115145A (zh) 生成表示满足搜索准则的对象中的内容实例的标签的显示组的可视化
JP3625054B2 (ja) 技術文書検索装置
JPWO2007139039A1 (ja) 情報分類装置、情報分類方法、及び情報分類プログラム
CN112307303A (zh) 基于云计算的网络页面高效精准去重***
JP5238105B2 (ja) プログラム、及びデータ抽出方法
CN101388044A (zh) 匹配规则包含或运算符的并行多模式匹配的方法及***
CN101377816B (zh) 匹配规则包含位移指示符的并行多模式匹配的方法及***
JP2011008811A (ja) プログラム、及びデータ抽出方法
CN111445302A (zh) 商品排序方法、***及装置
JP5633589B2 (ja) プログラム、データ抽出装置、及び方法
JP3081093B2 (ja) 索引作成方法およびその装置と文書検索装置
CN116783587A (zh) 基于列表的数据搜索用数据存储
JP5954742B2 (ja) 文書を検索する装置及び方法
JP2006171800A (ja) データ集計装置、その方法、及びプログラム
JP2014199678A (ja) 抽出制御プログラム、抽出制御方法、及び抽出制御装置
JP2009098931A (ja) キーワード間の関連度算出システム及び関連度算出方法
KR20110021019A (ko) 검색식 추천 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007549011

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 05814239

Country of ref document: EP

Kind code of ref document: A1