WO2022123637A1 - 文書処理システムおよび文書処理方法 - Google Patents

文書処理システムおよび文書処理方法 Download PDF

Info

Publication number
WO2022123637A1
WO2022123637A1 PCT/JP2020/045521 JP2020045521W WO2022123637A1 WO 2022123637 A1 WO2022123637 A1 WO 2022123637A1 JP 2020045521 W JP2020045521 W JP 2020045521W WO 2022123637 A1 WO2022123637 A1 WO 2022123637A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
sentence
hierarchical
expression
document processing
Prior art date
Application number
PCT/JP2020/045521
Other languages
English (en)
French (fr)
Inventor
雄大 加藤
紀子 高谷
孝大 濱田
純也 澤崎
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to JP2021557560A priority Critical patent/JPWO2022123637A1/ja
Priority to PCT/JP2020/045521 priority patent/WO2022123637A1/ja
Priority to US17/599,041 priority patent/US11861305B2/en
Publication of WO2022123637A1 publication Critical patent/WO2022123637A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Definitions

  • the present invention generally relates to a technique for processing a document.
  • relationship extraction system which is a product of natural language processing, has been developed.
  • the relationship extraction system the relationship between words and phrases is extracted from the target sentence according to the relationship extraction rule.
  • rule editing is the work of generalizing relationship extraction rules to suit various sentences based on example sentences including relationships. Editing rules requires know-how, and one of the know-how is paraphrasing expressions. For example, paraphrase expressions expressing the relationship of influence include “influence”, “influence”, “influence”, and “influence”.
  • the present invention has been made in consideration of the above points, and is an attempt to propose a document processing system or the like that can easily obtain paraphrase expressions.
  • a first generation unit that generates hierarchical data indicating a syntax tree for each layer for each sentence based on sentence information including a plurality of sentences, and the first generation unit. From the plurality of hierarchical data generated by the unit, the hierarchical data of the second sentence similar to the hierarchical data of the first sentence generated by the first generation unit is acquired, and the hierarchical data of the first sentence is obtained. The difference between the data and the hierarchical data of the second sentence is extracted, and the first expression data which is the difference in the first sentence and the second expression data which is the difference in the second sentence are paraphrased as rule data.
  • a second generation unit generated by the second generation unit and a storage unit for storing the paraphrase rule data generated by the second generation unit in the storage device are provided.
  • the difference between the hierarchical data of the first sentence and the hierarchical data of the second sentence that is, the expression obtained by paraphrasing the first expression data of the first sentence and the first expression data. Since the second expression data of the second sentence is automatically generated as paraphrase rule data, the user can easily obtain the paraphrase expression.
  • the document processing system of the present embodiment automatically extracts paraphrase rules including paraphrase expressions (a first expression and a second expression that paraphrases the first expression) from a plurality of sentences.
  • paraphrase rules including paraphrase expressions (a first expression and a second expression that paraphrases the first expression) from a plurality of sentences.
  • the first expression and the second expression have the same meaning but different expressions.
  • Paraphrasing rules are data that retains the representation before and after paraphrasing.
  • the document processing system acquires a set of similar hierarchical data from the corpus and extracts the difference between the acquired hierarchical data as paraphrase rule data.
  • Hierarchical data is data (syntactic tree data) showing a syntax tree in which each sentence of the corpus is divided into layers. According to this configuration, when acquiring a set of hierarchical data having similar meanings, by using the syntax tree data divided for each hierarchy, clauses such as modifiers are eliminated, and the similarity of the hierarchical data is appropriately determined. Can be done. Further, for example, the document processing system extracts paraphrase rule data that satisfies the condition (paraphrase condition) for selecting the paraphrase rule data desired by the user.
  • the paraphrase rule data desired by the user can be selected even when the corpus is used. Further, for example, the document processing system extracts paraphrase rule data whose appearance frequency after paraphrase exceeds a threshold value. According to such a configuration, it is possible to avoid a situation in which paraphrase rule data having dissimilar meanings is registered.
  • this document processing system generates a plurality of relation extraction rules from example sentences using paraphrase rule data.
  • the relationship extraction rule is data showing a rule expressing a grammatical structure for extracting a relationship between words and phrases from a text (target sentence). According to such a configuration, the relationship extraction rule is easily generated, so that the user can easily use the relationship extraction system.
  • FIG. 1 is a diagram showing an example of a configuration related to the document processing system 100.
  • the document processing system 100 includes a document processing device 101, an input device 102, and an output device 103.
  • the document processing device 101 is, for example, a computer, such as a personal computer, a server device, or a tablet terminal.
  • the document processing device 101 includes a processor 110, a main storage device 120, an auxiliary storage device 130, and a communication device 140.
  • the processor 110 is a device that performs arithmetic processing.
  • the processor 110 is, for example, a CPU (Central Processing Unit), an MPU (Micro Processing Unit), a GPU (Graphics Processing Unit), an AI (Artificial Intelligence) chip, or the like.
  • the main storage device 120 is a device that stores programs, data, and the like.
  • the main storage device 120 is, for example, a ROM (Read Only Memory), a RAM (Random Access Memory), or the like.
  • the ROM is SRAM (Static Random Access Memory), NVRAM (Non Volatile RAM), mask ROM (Mask Read Only Memory), PROM (Programmable ROM), or the like.
  • the RAM is a DRAM (Dynamic Random Access Memory) or the like.
  • the auxiliary storage device 130 is a hard disk drive (Hard Disk Drive), a flash memory (Flash Memory), an SSD (Solid State Drive), an optical storage device, or the like.
  • the optical storage device is a CD (Compact Disc), a DVD (Digital Versatile Disc), or the like. Programs, data, etc. stored in the auxiliary storage device 130 are read into the main storage device 120 at any time.
  • the auxiliary storage device 130 stores corpus information 131, hierarchical information 132, paraphrase rule information 133, relationship extraction rule information 134, and the like.
  • the communication device 140 is a communication interface that communicates with other devices.
  • the communication device 140 is, for example, a NIC (Network Interface Card), a wireless communication module, a USB (Universal Serial Interface) module, a serial communication module, or the like.
  • the communication device 140 can also function as an input device that receives information from other devices that are communicably connected. Further, the communication device 140 can also function as an output device that transmits information to other devices that are communicably connected.
  • the functions of the document processing device 101 are, for example, the processor 110. May be realized by reading the program stored in the auxiliary storage device 130 into the main storage device 120 and executing it (software), or may be realized by hardware such as a dedicated circuit, or software and hardware. It may be realized in combination with clothing. Further, the document processing device 101 may further have functions such as an operating system, a device driver, a file system, and a DBMS (DataBase Management System) in addition to the above functions.
  • DBMS DataBase Management System
  • the first generation unit 121 generates hierarchical information 132 based on the corpus information 131.
  • the second generation unit 122 generates paraphrase rule information 133 based on the hierarchical information 132. More specifically, the second generation unit 122 includes a search unit 122A, an extraction unit 122B, a selection unit 122C, and a verification unit 122D.
  • the search unit 122A searches the hierarchical information 132 for the second hierarchical data similar to the first hierarchical data.
  • the extraction unit 122B extracts the difference between the first hierarchical data and the second hierarchical data as paraphrase rule data.
  • the selection unit 122C selects the paraphrase rule data desired by the user from the paraphrase rule data extracted by the extraction unit 122B.
  • the verification unit 122D verifies the paraphrase rule data selected by the selection unit 122C.
  • the third generation unit 123 generates the relation extraction rule information 134 based on the paraphrase rule information 133. More specifically, the third generation unit 123 includes an input unit 123A, a morphological analysis unit 123B, a dependency analysis unit 123C, a processing unit 123D, and a conversion unit 123E.
  • the input unit 123A inputs a target sentence (text) according to the operation of the input device 102.
  • the morphological analysis unit 123B divides the target sentence input by the input unit 123A into the minimum unit of meaning (morpheme).
  • the dependency analysis unit 123C analyzes the modification relationship between clauses based on the morpheme divided by the morphological element analysis unit 123B, and generates syntax tree data.
  • the processing unit 123D processes the syntax tree data generated by the morphological analysis unit 123B and the dependency analysis unit 123C into the syntax tree data (hereinafter, may be referred to as a paraphrase rule) for which the extraction target is set.
  • the conversion unit 123E converts the paraphrase rule data into the relation extraction rule data using the syntax tree data processed by the processing unit 123D.
  • the fourth generation unit 124 generates paraphrase rule data based on the paraphrase rule data stored in the paraphrase rule information 133.
  • the storage unit 125 includes hierarchical information 132 generated by the first generation unit 121, paraphrase rule information 133 generated by the second generation unit 122, and relationship extraction rule information 134 generated by the third generation unit 123.
  • the paraphrase rule information 133 and the like generated by the fourth generation unit 124 are stored in the auxiliary storage device 130.
  • the output unit 126 outputs all or part of the paraphrase rule information 133 information, all or part of the relation extraction rule information 134 information, and the like to the output device 103.
  • one function of the document processing device 101 may be divided into a plurality of functions, or the plurality of functions may be combined into one function. Further, a part of the functions of the document processing apparatus 101 may be provided as another function or may be included in other functions. Further, a part of the functions of the document processing apparatus 101 may be realized by another computer capable of communicating with the document processing apparatus 101.
  • the input device 102 is a user interface that receives information from the user.
  • the input device 102 is, for example, a keyboard, a mouse, a card reader, a touch panel, a tablet terminal, a notebook computer, or the like.
  • the output device 103 is a user interface that outputs various information (display output, audio output, print output, etc.).
  • the output device 103 is, for example, a display device for visualizing various information, an audio output device (speaker), a printing device, and the like.
  • the display device is an LCD (Liquid Crystal Display), a graphic card, or the like.
  • the document processing device 101 and the input device 102 are connected so as to be able to communicate with each other by wire or wirelessly.
  • the document processing device 101 and the input device 102 may be directly connected or indirectly (for example, via a network). Further, the document processing device 101 and the input device 102 may be provided integrally or separately.
  • the document processing device 101 and the output device 103 are connected so as to be able to communicate with each other by wire or wirelessly.
  • the document processing device 101 and the output device 103 may be directly connected or indirectly (for example, via a network). Further, the document processing device 101 and the output device 103 may be provided integrally or separately.
  • FIG. 2 is a diagram showing an example of corpus information 131 (corpus table 200).
  • the corpus information 131 is stored in the auxiliary storage device 130 by the user or the system administrator via the input device 102 before the operation of the document processing system 100 (for example, at the time of introduction).
  • the corpus table 200 stores large-scale sentence data (sentence data) used in text, voice, video, and the like.
  • sentence data used in text, voice, video, and the like.
  • the corpus table 200 stores various sentence data collected from WEB (World Wide Web) sites, papers, newspaper articles, and the like.
  • FIG. 3 is a diagram showing an example of hierarchical information 132 (hierarchical table 300).
  • the hierarchy table 300 corresponds to data (syntax tree data 310) indicating a syntax tree for each hierarchy generated from the statement data stored in the corpus table 200 and a vector (syntax tree vector 320) indicating the syntax tree. It is attached and remembered.
  • the syntax tree data 310 holds a tree structure for each layer in the XML (Extensible Markup Language) format.
  • the syntax tree vector 320 holds data in binary format.
  • the tag " ⁇ node ...>” indicates a node.
  • the node “give” in the first row indicates the parent node.
  • the node “interest rate” in the second row, the node “in the stock price” in the third row, and the node “influence” in the fourth row indicate child nodes.
  • attribute> ⁇ attribute value>
  • the attribute "lemma” indicates a headword.
  • the past tense "given” is the present tense "given”.
  • the attribute "case” indicates a particle.
  • the format for retaining data is not limited to the format described above, and may be another format.
  • the method of generating the syntax tree data 310 and the syntax tree vector 320 will be described later with reference to FIGS. 7A, 7B, and the like.
  • FIG. 4 is a diagram showing an example of paraphrase rule information 133 (paraphrase rule table 400).
  • a first expression (expression data 410-1) and a second expression (expression data 410-2) which is an expression obtained by paraphrasing the first expression are associated with each other. Is remembered.
  • the representation data 410 holds the tree structure of the representation data 410 in XML format. The method of generating the expression data 410 will be described later with reference to FIG. 8 and the like.
  • FIG. 5 is a diagram showing an example of the relationship extraction rule information 134 (relationship extraction rule table 500).
  • the relationship extraction rule table 500 stores the relationship (relationship data 510) set by the user and the relationship extraction rule (relationship extraction rule data 520) generated based on the paraphrase rule table 400 in association with each other. There is.
  • the relationship extraction rule data 520 holds a tree structure of the relationship extraction rule data 520.
  • node 1 indicates a parent node
  • “#A ⁇ number>” in the relationship extraction rule data 520 indicates that the target (word / phrase) is to be extracted when the relationship extraction rule is matched.
  • the relationship extraction rule data 521 shows that it matches the following syntax tree. -The headword of the parent node is "influence” and there is no particle.-The headword of the first child node is arbitrary and the particle is "ga.”-The headword of the second child node is arbitrary and the particle. Is "ni” -The headword of the third child node is "influence” and the particle is "o".
  • FIG. 6 is a diagram showing an example of processing related to the document processing apparatus 101.
  • the first generation unit 121 of the document processing apparatus 101 performs the hierarchical information generation process 621 that generates the hierarchical information 132 from the corpus information 131. More specifically, in the hierarchical information generation process 621, the first generation unit 121 generates hierarchical data in which each sentence data of the corpus information 131 is divided into layers of the syntax tree.
  • the hierarchical information generation process 621 will be described later with reference to FIGS. 7A and 7B.
  • the second generation unit 122 of the document processing device 101 performs the paraphrase rule information generation process 622 that generates the paraphrase rule information 133 from the hierarchical information 132.
  • the paraphrase rule information generation process 622 includes a search process 622A, an extraction process 622B, a selection process 622C, and a verification process 622D.
  • the search process 622A is, for example, a process performed by the search unit 122A.
  • the search process 622A will be described later using S801 and S802 of FIG.
  • the extraction process 622B is, for example, a process performed by the extraction unit 122B.
  • the extraction process 622B will be described later with reference to S803 and S804 of FIG.
  • the selection process 622C is, for example, a process performed by the selection unit 122C.
  • the selection process 622C will be described later with reference to S805 of FIG.
  • the verification process 622D is, for example, a process performed by the verification unit 122D.
  • the verification process 622D will be described later with reference to S806 to S809 of FIG.
  • the third generation unit 123 of the document processing apparatus 101 performs the relationship extraction rule information generation process 623 for generating the relationship extraction rule information 134 from the paraphrase rule information 133 and the example sentence 610 including the relationship.
  • the relationship extraction rule information generation process 623 includes an input process 623A, a morphological analysis process 623B, a dependency analysis process 623C, a processing process 623D, and a conversion process 623E.
  • the input process 623A is, for example, a process performed by the input unit 123A.
  • the input process 623A will be described later using S1001 in FIG.
  • the morphological analysis process 623B is, for example, a process performed by the morphological analysis unit 123B.
  • the morphological analysis process 623B will be described later using S1002 of FIG.
  • the dependency analysis process 623C is, for example, a process performed by the dependency analysis unit 123C.
  • the dependency analysis process 623C will be described later using S1002 in FIG.
  • the processing process 623D is, for example, a process performed by the processing unit 123D.
  • the processing process 623D will be described later using S1003 in FIG.
  • the conversion process 623E is, for example, a process performed by the conversion unit 123E.
  • the conversion process 623E will be described later using S1004 to S1006 of FIG.
  • the fourth generation unit 124 of the document processing device 101 performs an additional process 624 to generate the paraphrase rule information 133 from the paraphrase rule information 133.
  • the additional process 624 is, for example, a process performed by the fourth generation unit 124. The additional process 624 will be described later with reference to FIG.
  • FIG. 7A is a diagram showing an example of the hierarchical information generation process 621.
  • the hierarchical information generation process 621 is started, for example, at a timing instructed by the user via the input device 102.
  • the processes S701 to S705 are performed for each sentence data included in the corpus information 131.
  • FIG. 7B is a diagram showing a generation image of hierarchical data.
  • the document processing device 101 acquires one unprocessed sentence data from the corpus information 131.
  • the document processing apparatus 101 acquires the sentence data 711 "interest rates affect the stock price of Japan" shown in FIG. 7B.
  • the document processing device 101 performs parsing (morphological analysis and dependency analysis) on the sentence data acquired in S701, and generates syntactic tree data. For example, the document processing apparatus 101 generates syntax tree data 721 from sentence data 711.
  • the document processing device 101 generates syntax tree data for each layer. For example, the document processing apparatus 101 generates syntax tree data 731 and syntax tree data 732 for each layer from the syntax tree data 721. In this way, the document processing apparatus 101 can remove unnecessary clauses such as modifiers by dividing the syntax tree into layers, and makes it easy to acquire similar expression data.
  • the document processing device 101 generates a vector of syntax tree data for each layer. For example, the document processing apparatus 101 generates the vector 741 of the syntax tree data 731 and the vector 742 of the syntax tree data 732. In the document processing device 101, since the syntax tree data 731 includes one clause "give”, “interest rate”, “stock price”, and “influence”, the frequency "1" is set at the corresponding position of the clause in the vector 741. To set. The document processing device 101 enumerates all the clauses and fixes the positions of the clauses so that the vectors can be compared without holding the information for identifying the clauses.
  • the document processing device 101 stores hierarchical data.
  • the document processing apparatus 101 stores the syntax tree data 731 and the vector 741 of the syntax tree data 731 as hierarchical data 751 in the hierarchical information 132.
  • FIG. 8 is a diagram showing an example of the paraphrase rule information generation process 622.
  • the paraphrase rule information generation process 622 is performed following the hierarchical information generation process 621.
  • the processes S801 to S809 are performed for each layer data included in the layer information 132.
  • the document processing device 101 acquires one unprocessed hierarchical data from the hierarchical information 132.
  • the hierarchical data acquired by the document processing apparatus 101 in S801 will be referred to as the original data.
  • the document processing apparatus 101 acquires hierarchical data (hereinafter referred to as similar data) similar to the vector of the original data from the hierarchical information 132. For example, the document processing apparatus 101 calculates the degree of similarity between the original data and all the hierarchical data, and sets the most similar hierarchical data as the similar data.
  • the similarity may be a cosine similarity, an Euclidean distance, or a value calculated by another calculation method.
  • the document processing device 101 compares the syntax tree data between the original data and the similar data, and acquires the difference between the two data (the original data and the similar data). More specifically, the document processing apparatus 101 deletes the same node existing in both data. For example, the parent node of the original data is "A”, the child nodes are “B", “C", “D”, the parent node of similar data is “E”, and the child nodes are "B", "C”. In the case of, the common nodes "B" and "C" are deleted from both data.
  • the document processing device 101 extracts the difference between both data as paraphrase rule data.
  • paraphrase rule data the expression data which is the difference in the original data (the parent node "A” of the original data and the child node “D” of the original data) and the expression data which is the difference in the similar data ( The parent node "E") of similar data is extracted.
  • the document processing device 101 determines whether or not the paraphrase rule data extracted in S804 satisfies the paraphrase condition. When the document processing apparatus 101 determines that the paraphrase condition is satisfied, the process is transferred to S806, and when it is determined that the paraphrase condition is not satisfied, the document processing device 101 transfers the process to S801 when there is unprocessed hierarchical data, and the unprocessed layer. When there is no data, the paraphrase rule information generation process 622 is terminated.
  • Paraphrasing conditions include paraphrasing part of speech, such as paraphrasing verbs and adjectives.
  • the document processing device 101 sets the paraphrase condition when the parent node of both data is a verb and the parent node of both data is different. It is determined that the condition is satisfied.
  • the document processing device 101 may use the document processing device 101 when the parent node of both data is an adjective and the parent node of both data is different. It is determined that the paraphrase condition is satisfied.
  • the document processing device 101 acquires all the hierarchical data using one of the representation data of the paraphrase rule data determined in S805 to satisfy the paraphrase condition from the hierarchical information 132.
  • the paraphrase rule data determined by the document processing apparatus 101 to satisfy the paraphrase condition in S805 is the representation data of the original data (parent node "give” and child node "influence"), and represent similar data.
  • the data is paraphrase rule data (parent node "affects")
  • the expression data of the original data is acquired as one expression data will be described as an example.
  • the document processing device 101 acquires the first hierarchical data and the second hierarchical data using the representation data of the original data from the hierarchical information 132. ..
  • the appearance frequency is calculated in S807 for one of the expression data, the appearance frequency is the same regardless of whether it is the expression data of the original data or the expression data of similar data. May be either the representation data of the original data or the representation data of similar data.
  • the document processing device 101 paraphrases the syntax tree data of the hierarchical data extracted in S806 to calculate the appearance frequency.
  • the document processing device 101 satisfies the paraphrase condition in S805 for the syntax tree data (parent node “give” and child node “yen appreciation” "stock price” "influence”) of the extracted first hierarchical data.
  • Paraphrased rule data (parent node “influence” and child node “influence” -parent node “influence”) paraphrased using the paraphrase rule data (parent node “influence” and child node “strong yen” " Check if ) is included in the hierarchy information 132 in the stock price.
  • the document processing device 101 determines in S805 that the syntax tree data (parent node “give” and child node “life” "influence”) of the extracted second hierarchical data satisfies the paraphrase condition.
  • Paraphrasing rule data parent node “influence” and child node “influence” -parent node “influence”
  • paraphrased expression data parent node “influence” and child node “in life”
  • the document processing device 101 sets the number of cases in which the representation data in which the syntax tree data of the first hierarchy data is paraphrased by using the paraphrase rule data is included in the hierarchy information 132 and the syntax tree data of the second hierarchy data.
  • the number of cases in which the expression data paraphrased using the paraphrase rule data is included in the hierarchical information 132 is counted and used as the appearance frequency.
  • the document processing device 101 determines whether or not the appearance frequency is equal to or higher than the threshold value.
  • the processing is transferred to S809, and when it is determined that the appearance frequency is less than the threshold value, the processing is transferred to S801 when there is unprocessed hierarchical data. If there is no unprocessed hierarchical data, the paraphrase rule information generation process 622 is terminated.
  • the threshold value is set by the user via the input device 102 before the processing of S808 is performed.
  • the document processing device 101 stores the paraphrase rule data determined in S805 to satisfy the paraphrase condition in the paraphrase rule information 133, and if there is unprocessed hierarchical data, transfers the processing to S801 and unprocessed hierarchical data. If there is no paraphrase rule information generation process 622, the process is terminated.
  • FIG. 9 is a diagram showing an example of the additional processing 624.
  • the additional process 624 is performed at an appropriate timing.
  • the appropriate timing may be the timing at which the paraphrase rule information generation process 622 is completed, the timing instructed by the user, the periodic timing, or the timing specified in advance. It may be present, or it may be at other timings.
  • the processing of S902 to S907 is performed for each layer data included in the layer information 132.
  • the document processing device 101 acquires one unprocessed paraphrase rule data from the paraphrase rule information 133.
  • the case where the paraphrase rule data “AB” is acquired in S901 and the paraphrase rule data “AC” and the paraphrase rule data “BD” are already stored in the paraphrase rule information 133 is taken as an example. I will explain.
  • the document processing device 101 acquires the paraphrase rule data including the expression data "A" of the paraphrase rule data acquired in S901 from the paraphrase rule information 133.
  • the document processing device 101 processes the acquired paraphrase rule data in S903 and S904.
  • the document processing device 101 In S903, the document processing device 101 generates paraphrase rule data "BC" that is a combination of the expression data "C” and the expression data "B” that are not on the expression data "A" side of the paraphrase rule data acquired in S902.
  • the document processing device 101 verifies the paraphrase rule data "BC" generated in S903. More specifically, the document processing apparatus 101 performs the processing of S806 to S809.
  • the document processing device 101 acquires the paraphrase rule data including the expression data "B" of the paraphrase rule data acquired in S901 from the paraphrase rule information 133.
  • the document processing apparatus 101 processes S906 and S907 for each of the acquired paraphrase rule data.
  • the document processing device 101 generates paraphrase rule data "AD" that is a combination of the expression data "D” that is not on the expression data "B" side of the paraphrase rule data acquired in S905 and the expression data "A".
  • the document processing device 101 verifies the paraphrase rule data "AD" generated in S903. More specifically, the document processing apparatus 101 performs the processing of S806 to S809.
  • FIG. 10 is a diagram showing an example of the relationship extraction rule information generation process 623.
  • the relationship extraction rule information generation process 623 is started, for example, at the timing instructed by the user via the input device 102.
  • the document processing device 101 receives an example sentence from the user.
  • the example sentence 1010 is input by the user via the input device 102.
  • a mark (underlined in this example) is attached to the phrase that the user wants to extract.
  • the document processing device 101 performs syntax analysis and generates syntax tree data of the example sentence received in S1001.
  • the document processing apparatus 101 generates the syntax tree data 1020 of the example sentence 1010.
  • the document processing device 101 In S1003, the document processing device 101 generates syntax tree data (paraphrasing rule data) in which the underlined portion of the syntax tree data generated in S1002 is set as a wild card. For example, the document processing apparatus 101 sets the underlined portion of the syntax tree data 1020 to the wildcard "" and generates the paraphrase rule data 1030.
  • syntax tree data parphrasing rule data
  • the document processing device 101 acquires the paraphrase rule data from the paraphrase rule information 133.
  • the document processing apparatus 101 acquires the paraphrase rule data 1040 applicable to the paraphrase rule data 1030 generated from the example sentence 1010 from the paraphrase rule information 133.
  • the document processing apparatus 101 acquires the paraphrase rule data 1040 of the expression data including the node "affects" for which the wildcard is not set in the paraphrase rule data 1030.
  • the document processing device 101 applies the paraphrase rule data generated in S1003 to the paraphrase rule data acquired in S1004, and generates relationship extraction rule data.
  • the document processing apparatus 101 applies the paraphrase rule data 1030 to the paraphrase rule data 1040 to generate the relation extraction rule data 1050.
  • the document processing device 101 stores the relationship extraction rule data generated in S1005 in the relationship extraction rule information 134.
  • FIG. 11 is a diagram showing an example (screen 1100) of a screen for generating paraphrase rule data.
  • the screen 1100 is displayed on the output device 103 in response to the operation of the input device 102 by the user.
  • the screen 1100 includes a selection unit 1110, a selection unit 1120, a setting unit 1130, a start unit 1140, and a cancellation unit 1150.
  • the selection unit 1110 is an example of a user interface for the user to select the corpus information 131 for which the paraphrase rule data is to be generated from the plurality of corpus information 131.
  • the selection unit 1120 is an example of a user interface for selecting a paraphrase condition to be used for limitation from a plurality of paraphrase conditions when limiting the paraphrase rule data that the user wants to extract.
  • the setting unit 1130 is an example of a user interface for setting a threshold value of appearance frequency.
  • the start unit 1140 is an example of a user interface for instructing the user to start generating paraphrase rule data. When the start unit 1140 is pressed by the user, the hierarchical information generation process 621 is started.
  • the canceling unit 1150 is an example of a user interface for instructing the user to cancel the generation of paraphrase rule data.
  • FIG. 12 is a diagram showing an example (screen 1200) of a screen for displaying paraphrase rule data.
  • the screen 1200 is displayed on the output device 103 in response to the operation of the input device 102 by the user.
  • the screen 1200 includes a display unit 1210, a file output unit 1220, and an end unit 1230.
  • the display unit 1210 is an example of a user interface for the user to display the paraphrase rule data stored in the paraphrase rule information 133.
  • the file output unit 1220 is an example of a user interface for the user to output the paraphrase rule data stored in the paraphrase rule information 133 as a file.
  • the end unit 1230 is an example of a user interface for the user to close the screen 1200.
  • the user can confirm all or part of the paraphrase rule data stored in the paraphrase rule information 133, or output it as a file.
  • FIG. 13 is a diagram showing an example (screen 1300) of a screen for generating relationship extraction rule data.
  • the screen 1300 is displayed on the output device 103 in response to the operation of the input device 102 by the user.
  • the screen 1300 includes an input unit 1310 to an input unit 1340, an input addition unit 1350, a start unit 1360, and a cancel unit 1370.
  • the input unit 1310 is an example of a user interface for the user to input the relationship used for classifying the relationship extraction rule data.
  • the input unit 1320 is an example of a user interface for the user to input an example sentence.
  • the input unit 1330 is an example of a user interface for the user to input a first word / phrase extracted from an example sentence input to the input unit 1320.
  • the input unit 1340 is an example of a user interface for the user to input a second phrase extracted from the example sentence input to the input unit 1320.
  • the input addition unit 1350 is an example of a user interface for the user to add a field for inputting a phrase to be extracted.
  • the start unit 1360 is an example of a user interface for instructing the user to start generating the relation extraction rule data. When the start unit 1360 is pressed by the user, the relationship extraction rule information generation process 623 is started.
  • the canceling unit 1150 is an example of a user interface for instructing the user to cancel the generation of paraphrase rule data.
  • FIG. 14 is a diagram showing an example (screen 1400) of a screen for displaying the relationship extraction rule data.
  • the screen 1400 is displayed on the output device 103 in response to the operation of the input device 102 by the user.
  • the screen 1400 includes a display unit 1410, a file output unit 1420, and an end unit 1430.
  • the display unit 1410 is an example of a user interface for displaying the relationship extraction rule data stored in the relationship extraction rule information 134 for each relationship input by the user.
  • the file output unit 1420 is an example of a user interface for the user to output the relationship extraction rule data stored in the relationship extraction rule information 134 as a file.
  • the end unit 1430 is an example of a user interface for closing the screen 1400.
  • the user can confirm the relationship extraction rule data stored in the relationship extraction rule information 134 or output it as a file for each input relationship.
  • FIG. 15 is a diagram showing an example of how to use the paraphrase rule information 133 and the relationship extraction rule information 134.
  • the paraphrase rule information 133 can be used for information retrieval 1510.
  • the document processing apparatus 101 creates a search query (for example, "send mail") in which the search query (for example, "send mail”) is paraphrased.
  • the search is performed by a plurality of search queries, so that the user can obtain the desired information more easily.
  • the relation extraction rule information 134 is generated as described above and can be used for the relation extraction 1520.
  • the relationship extraction system 1521 matches the syntax tree data of the target sentence 1522 with the relationship extraction rule data, and extracts the matched phrase 1523.
  • the relation extraction system 1521 for example, the sentence generation system described in JP-A-2019-83040 may be adopted. Further, the relationship extraction system 1521 may be included in the document processing system 100, or may be communicably connected to the document processing device 101.
  • the method of using the paraphrase rule information 133 is not limited to the above-mentioned contents.
  • it may be used for simplification of expression data.
  • the document processing device 101 converts esoteric expression data (for example, "dismissing the minister") used in media such as newspaper articles and news for children and foreigners into plain expression data (for example, "Minister”). In other words, "stop.”).
  • esoteric expression data for example, "dismissing the minister” used in media such as newspaper articles and news for children and foreigners
  • plain expression data for example, "Minister”
  • stop plain expression data
  • the esoteric expression data is paraphrased into the plain expression data, so that the user can understand the contents more easily.
  • the vector value is the frequency of the clause, but the present invention is not limited to this, and the vector value may be the presence or absence of the clause. ..
  • the additional process 624 is performed for all the paraphrase rule data after the paraphrase rule information generation process 622 (verification process 622D for all hierarchical data) is completed has been described.
  • the invention is not limited to this, and the verification process 622D (S809) for each hierarchical data may be followed by the additional process 624 (for the paraphrased rule data to be stored).
  • each table is an example, and one table may be divided into two or more tables, or all or a part of the two or more tables is one table. You may.
  • the screen shown and described is an example, and any design may be used as long as the received information is the same.
  • the output of information is not limited to the display on the display.
  • the information output may be audio output by a speaker, output to a file, printing on a paper medium or the like by a printing device, or projection on a screen or the like by a projector. It may be, or it may be another aspect.
  • information such as programs, tables, and files that realize each function is recorded in a memory, a hard disk, a storage device such as an SSD (Solid State Drive), or an IC card, an SD card, a DVD, or the like. Can be placed on the medium.
  • SSD Solid State Drive
  • the above-described embodiment has, for example, the following characteristic configuration.
  • the document processing system (for example, the document processing system 100) is based on sentence information including a plurality of sentences (for example, corpus information 131, a plurality of sentence data), and hierarchical data (for example, hierarchical data (for example) showing a syntax tree for each sentence for each sentence.
  • a first generation unit for example, a first generation unit 121, a document processing device 101, a circuit
  • hierarchical data for example, hierarchical data (for example) showing a syntax tree for each sentence for each sentence.
  • a first generation unit for example, a first generation unit 121, a document processing device 101, a circuit
  • a plurality of hierarchical data generated by the first generation unit for example, a plurality of hierarchical data generated by the first generation unit.
  • the difference from the hierarchical data of the second sentence is extracted (see, for example, S803), and the first expression data which is the difference in the first sentence and the second expression data which is the difference in the second sentence are obtained.
  • the paraphrase rule data generated by the second generation unit (for example, the second generation unit 122, the document processing device 101, the circuit) generated as paraphrase rule data (for example, paraphrase rule data) and the second generation unit.
  • a storage unit for example, a storage unit 125, a document processing device 101, a circuit
  • a storage device for example, an auxiliary storage device 130, an external storage device capable of communicating with the document processing system 100.
  • the difference between the hierarchical data of the first sentence and the hierarchical data of the second sentence that is, the expression obtained by paraphrasing the first expression data of the first sentence and the first expression data. Since the second expression data of the second sentence is automatically generated as paraphrase rule data, the user can easily obtain the paraphrase expression.
  • the document processing system generates syntax tree data of an example sentence (for example, example sentence 610) in which a word / phrase desired by the user is marked (see, for example, S1002), and all the words / phrases in the generated syntax tree data are used.
  • the paraphrase rule data that is processed into syntax tree data set to a symbol (for example, a wild card) indicating that it matches a phrase (see, for example, S1003) and contains the processed syntax tree data as expression data is stored in the above storage device.
  • Extraction rule data for example, relationship extraction rule information 134, relationship extraction rule data obtained by acquiring from the stored paraphrase rule data (see, for example, S1004) and applying the above-processed syntax tree data to the acquired paraphrase rule data.
  • a third generation unit (for example, a third generation unit 123, a document processing device 101, a circuit) to be generated is provided.
  • extraction rule data for extracting a phrase desired by a user from an arbitrary sentence can be easily generated from paraphrase rule data.
  • the second generation unit determines whether or not the first expression data and the second expression data satisfy the conditions for selecting the paraphrase rule data desired by the user (for example, the paraphrase condition). If it is determined that the data is satisfied (see, for example, S805), the first expression data and the second expression data are generated as paraphrase rule data.
  • the second generation unit acquires the hierarchical data using the first expression data from the plurality of hierarchical data (see, for example, S806), and obtains the syntax tree data of the acquired hierarchical data in the second.
  • the paraphrased syntax tree data counts the number contained in the plurality of hierarchical data (see, for example, S807), and when the counted number exceeds the threshold value, the first expression data and the second expression data are described. Is generated as paraphrase rule data.
  • the document processing system acquires paraphrase rule data including the first expression data from the paraphrase rule data stored in the storage device (see, for example, S902), and the first paraphrase rule data in the acquired paraphrase rule data.
  • the third expression data on the side different from the expression data of the above and the second expression data are paraphrased as rule data (see, for example, S903), and the hierarchical data using the second expression data is a plurality of the above.
  • the syntax tree data of the acquired hierarchy data is paraphrased by the third expression data, and the number of the paraphrased syntax tree data included in the plurality of hierarchy data is counted.
  • a fourth generation unit (for example, a fourth generation unit) that generates the second expression data and the third expression data as paraphrase rule data. 124, document processing device 101, circuit).
  • the document processing system includes an output unit (for example, an output unit 126, a document processing device 101, and a circuit) that outputs all or part of the paraphrase rule data stored in the storage device.
  • an output unit for example, an output unit 126, a document processing device 101, and a circuit
  • the paraphrase rule data is output, so that the user can easily obtain the paraphrase rule data, for example.
  • the above-mentioned configuration may be appropriately changed, rearranged, combined, or omitted as long as it does not exceed the gist of the present invention.
  • 100 ... document processing system, 101 ... document processing device, 121 ... first generation unit, 122 ... second generation unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

複数の文を含む文情報をもとに、各文について階層ごとの構文木データを示す階層データを生成する第1の生成部と、第1の生成部により生成された複数の階層データから、第1の生成部により生成された第1の文の階層データと類似する第2の文の階層データを取得し、第1の文の階層データと第2の文の階層データとの差分を抽出し、第1の文における差分である第1の表現データと第2の文における差分である第2の表現データとを言い換え規則データとして生成する第2の生成部と、第2の生成部により生成された言い換え規則データを記憶装置に記憶する記憶部と、を設けるようにした。

Description

文書処理システムおよび文書処理方法
 本発明は、概して、文書を処理する技術に関する。
 近年、自然言語処理の製品である関係抽出システムが開発されている。関係抽出システムでは、関係抽出ルールに従って対象文から語句の関係が抽出される。
 関係抽出システムを利用するには、人手によるルール編集が必須となっている。ルール編集とは、関係を含む例文をもとに、様々な文に適合するように関係抽出ルールを汎用化していく作業である。ルールの編集には、ノウハウが必要であり、そのノウハウの1つに、表現の言い換えがある。例えば、影響の関係を表す言い換え表現としては、「影響する」、「影響を与える」、「影響を及ぼす」、「影響がある」等がある。
 この点、文に類似する用例を用例集から検索し、当該用例を模倣することにより当該文の言い換え文を生成する方法が開示されている(特許文献1を参照)。
特開2011-164772号公報
 特許文献1に記載の技術では、言い換え前後の用例集をユーザが登録する必要があり、言い換え対象は多数あることから、登録にかかるコストが大きくなってしまう。
 本発明は、以上の点を考慮してなされたもので、言い換え表現を容易に得ることができる文書処理システム等を提案しようとするものである。
 かかる課題を解決するため本発明においては、複数の文を含む文情報をもとに、各文について階層ごとの構文木を示す階層データを生成する第1の生成部と、前記第1の生成部により生成された複数の階層データから、前記第1の生成部により生成された第1の文の階層データと類似する第2の文の階層データを取得し、前記第1の文の階層データと前記第2の文の階層データとの差分を抽出し、前記第1の文における差分である第1の表現データと前記第2の文における差分である第2の表現データとを言い換え規則データとして生成する第2の生成部と、前記第2の生成部により生成された言い換え規則データを記憶装置に記憶する記憶部と、を設けるようにした。
 上記構成によれば、第1の文の階層データと第2の文の階層データとの差分、すなわち、第1の文の第1の表現データと当該第1の表現データを言い換えた表現である第2の文の第2の表現データとが言い換え規則データとして自動で生成されるので、ユーザは、言い換え表現を容易に得ることができるようになる。
 本発明によれば、利便性の高い文書処理システム等を提供することができる。
第1の実施の形態による文書処理システムに係る構成の一例を示す図である。 第1の実施の形態によるコーパス情報の一例を示す図である。 第1の実施の形態による階層情報の一例を示す図である。 第1の実施の形態による言い換え規則情報の一例を示す図である。 第1の実施の形態による関係抽出ルール情報の一例を示す図である。 第1の実施の形態による文書処理装置に係る処理の一例を示す図である。 第1の実施の形態による階層情報生成処理の一例を示す図である。 第1の実施の形態による階層データの生成イメージを示す図である。 第1の実施の形態による言い換え規則情報生成処理の一例を示す図である。 第1の実施の形態による追加処理の一例を示す図である。 第1の実施の形態による関係抽出ルール情報生成処理の一例を示す図である。 第1の実施の形態による画面の一例を示す図である。 第1の実施の形態による画面の一例を示す図である。 第1の実施の形態による画面の一例を示す図である。 第1の実施の形態による画面の一例を示す図である。 第1の実施の形態による利用方法の一例を示す図である。
(1)第1の実施の形態
 以下、本発明の一実施の形態を詳述する。ただし、本発明は、本実施の形態に限定されるものではない。
 本実施の形態の文書処理システムは、言い換え表現(第1の表現、および第1の表現を言い換えた第2の表現)を含む言い換え規則を複数の文から自動で抽出する。ここで、第1の表現と第2の表現とは、同じ意味であるが表現が異なるものをいう。言い換え規則は、言い換え前後の表現を保持するデータである。
 例えば、文書処理システムは、コーパスから類似する階層データの組を取得し、取得した階層データの差分を言い換え規則データとして抽出する。階層データは、コーパスの各文を階層ごとに分けた構文木を示すデータ(構文木データ)である。かかる構成によれば、意味が類似する階層データの組を取得する際に、階層ごとに分けた構文木データを用いることで修飾部等の文節がなくなり、階層データの類似を適切に判定することができる。また、例えば、本文書処理システムは、ユーザが所望する言い換え規則データを選定するための条件(言い換え条件)を満たす言い換え規則データを抽出する。かかる構成によれば、コーパスを用いた場合でもユーザ所望の言い換え規則データを選定することができる。また、例えば、文書処理システムは、言い換え後の出現頻度が閾値を超える言い換え規則データを抽出する。かかる構成によれば、意味が類似していない言い換え規則データを登録してしまう事態を回避することができる。
 また、本文書処理システムは、言い換え規則データを用いて例文から複数の関係抽出ルールを生成する。ここで、関係抽出ルールは、テキスト(対象文)から語句間の関係を抽出するための文法構造を表現したルールを示すデータである。かかる構成によれば、関係抽出ルールが容易に生成されるので、ユーザは、関係抽出システムを利用し易くなる。
 次に、本発明の実施の形態を図面に基づいて説明する。以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。特に限定しない限り、各構成要素は、単数でも複数でも構わない。
 なお、以下の説明では、図面において同一要素については、同じ番号を付し、説明を適宜省略する。また、同種の要素を区別しないで説明する場合には、枝番を含む参照符号のうちの共通部分(枝番を除く部分)を使用し、同種の要素を区別して説明する場合は、枝番を含む参照符号を使用することがある。例えば、表現データを特に区別しないで説明する場合には、「表現データ410」と記載し、個々の表現データを区別して説明する場合には、「表現データ410-1」、「表現データ410-2」のように記載することがある。
 図1は、文書処理システム100に係る構成の一例を示す図である。
 文書処理システム100は、文書処理装置101と、入力装置102と、出力装置103とを備える。
 文書処理装置101は、例えばコンピュータであり、パーソナルコンピュータ、サーバ装置、タブレット端末等である。文書処理装置101は、プロセッサ110と、主記憶装置120と、補助記憶装置130と、通信装置140とを備える。
 プロセッサ110は、演算処理を行う装置である。プロセッサ110は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、AI(Artificial Intelligence)チップ等である。
 主記憶装置120は、プログラム、データ等を記憶する装置である。主記憶装置120は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)等である。ROMは、SRAM(Static Random Access Memory)、NVRAM(Non Volatile RAM)、マスクROM(Mask Read Only Memory)、PROM(Programmable ROM)等である。RAMは、DRAM(Dynamic Random Access Memory)等である。
 補助記憶装置130は、ハードディスクドライブ(Hard Disk Drive)、フラッシュメモリ(Flash Memory)、SSD(Solid State Drive)、光学式記憶装置等である。光学式記憶装置は、CD(Compact Disc)、DVD(Digital Versatile Disc)等である。補助記憶装置130に格納されているプログラム、データ等は、主記憶装置120に随時読み込まれる。補助記憶装置130には、コーパス情報131、階層情報132、言い換え規則情報133、関係抽出ルール情報134等が記憶されている。
 通信装置140は、他の装置と通信する通信インターフェースである。通信装置140は、例えば、NIC(Network Interface Card)、無線通信モジュール、USB(Universal Serial Interface)モジュール、シリアル通信モジュール等である。通信装置140は、通信可能に接続する他の装置から情報を受信する入力装置として機能することもできる。また、通信装置140は、通信可能に接続する他の装置に情報を送信する出力装置として機能することもできる。
 文書処理装置101の機能(第1の生成部121、第2の生成部122、第3の生成部123、第4の生成部124、記憶部125、出力部126等)は、例えば、プロセッサ110が補助記憶装置130に格納されたプログラムを主記憶装置120に読み出して実行すること(ソフトウェア)により実現されてもよいし、専用の回路等のハードウェアにより実現されてもよいし、ソフトウェアとハードウェアとが組み合わされて実現されてもよい。また、文書処理装置101は、上記の機能に加えて、例えば、オペレーティングシステム、デバイスドライバ、ファイルシステム、DBMS(DataBase Management System)等の機能を更に備えていてもよい。
 第1の生成部121は、コーパス情報131に基づいて階層情報132を生成する。第2の生成部122は、階層情報132に基づいて言い換え規則情報133を生成する。より具体的には、第2の生成部122は、検索部122A、抽出部122B、選定部122C、および検証部122Dを備える。
 検索部122Aは、階層情報132から第1の階層データに類似する第2の階層データを検索する。抽出部122Bは、第1の階層データと第2の階層データとの差分を言い換え規則データとして抽出する。選定部122Cは、抽出部122Bにより抽出された言い換え規則データから、ユーザが所望する言い換え規則データを選定する。検証部122Dは、選定部122Cにより選定された言い換え規則データを検証する。
 第3の生成部123は、言い換え規則情報133に基づいて関係抽出ルール情報134を生成する。より具体的には、第3の生成部123は、入力部123A、形態素解析部123B、係り受け解析部123C、加工部123D、および変換部123Eを備える。
 入力部123Aは、入力装置102の操作に応じて対象文(テキスト)を入力する。形態素解析部123Bは、入力部123Aにより入力された対象文を意味の最小単位(形態素)に分割する。係り受け解析部123Cは、形態素解析部123Bにより分割された形態素をもとに、文節間の修飾関係を解析し、構文木データを生成する。加工部123Dは、形態素解析部123Bおよび係り受け解析部123Cにより生成された構文木データを、抽出の対象を設定した構文木データ(以下、言い換えルールと記すことがある)に加工する。変換部123Eは、加工部123Dにより加工された構文木データを用いて言い換え規則データを関係抽出ルールデータに変換する。
 第4の生成部124は、言い換え規則情報133に記憶されている言い換え規則データをもとに言い換え規則データを生成する。記憶部125は、第1の生成部121に生成された階層情報132、第2の生成部122により生成された言い換え規則情報133、第3の生成部123により生成された関係抽出ルール情報134、第4の生成部124により生成された言い換え規則情報133等を補助記憶装置130に記憶する。出力部126は、言い換え規則情報133の全部または一部の情報、関係抽出ルール情報134の全部または一部の情報等を出力装置103に出力する。
 なお、文書処理装置101の1つの機能は、複数の機能に分けられていてもよいし、複数の機能は、1つの機能にまとめられていてもよい。また、文書処理装置101の機能の一部は、別の機能として設けられてもよいし、他の機能に含められていてもよい。また、文書処理装置101の機能の一部は、文書処理装置101と通信可能な他のコンピュータにより実現されてもよい。
 入力装置102は、ユーザから情報を受け付けるユーザインターフェースである。入力装置102は、例えば、キーボード、マウス、カードリーダ、タッチパネル、タブレット端末、ノートパソコン等である。
 出力装置103は、各種の情報を出力(表示出力、音声出力、印字出力等)するユーザインターフェースである。出力装置103は、例えば、各種情報を可視化する表示装置、音声出力装置(スピーカ)、印字装置等である。表示装置は、LCD(Liquid Crystal Display)、グラフィックカード等である。
 文書処理装置101と入力装置102とは、有線または無線により通信可能に接続されている。文書処理装置101と入力装置102とは、直接的に接続されていてもよいし、間接的に(例えば、ネットワークを介して)接続されていてもよい。また、文書処理装置101と入力装置102とは、一体として設けられていてもよいし、別体として設けられていてもよい。
 文書処理装置101と出力装置103とは、有線または無線により通信可能に接続されている。文書処理装置101と出力装置103とは、直接的に接続されていてもよいし、間接的に(例えば、ネットワークを介して)接続されていてもよい。また、文書処理装置101と出力装置103とは、一体として設けられていてもよいし、別体として設けられていてもよい。
 図2は、コーパス情報131の一例(コーパステーブル200)を示す図である。なお、コーパス情報131は、入力装置102を介してユーザまたはシステム管理者により、文書処理システム100の運用前(例えば、導入時)に1または複数、補助記憶装置130に記憶されている。
 コーパステーブル200には、テキスト、音声、映像等で用いられている大規模な文のデータ(文データ)が記憶されている。例えば、コーパステーブル200には、WEB(World Wide Web)サイト、論文、新聞記事等から集められた様々な文データが記憶されている。
 図3は、階層情報132の一例(階層テーブル300)を示す図である。
 階層テーブル300には、コーパステーブル200に記憶されている文データから生成される階層ごとの構文木を示すデータ(構文木データ310)と当該構文木を示すベクトル(構文木ベクトル320)とが対応付けられて記憶されている。構文木データ310は、XML(Extensible Markup Language)形式で階層ごとの木構造を保持している。構文木ベクトル320は、バイナリ形式でデータを保持している。
 ここで、文書処理システム100における構文木においてタグ「<node・・・>」は、ノードを示す。例えば、階層テーブル300のレコード330では、1行目のノード「与える」が親ノードを示している。また、2行目のノード「金利が」と、3行目のノード「株価に」と、4行目のノード「影響を」とが子ノードを示している。
 また、タグ内の「<属性>=<属性値>」は、ノードに設定できる属性および属性値の定義を示す。例えば、属性「lemmma」は、見出し語を示す。なお、見出し語では、過去形「与えた」は、現在形「与える」とされる。また、例えば、属性「case」は、助詞を示す。
 なお、データを保持する形式は、上述した形式に限るものではなく、他の形式であってもよい。また、構文木データ310および構文木ベクトル320の生成方法については、図7A、図7B等を用いて後述する。
 図4は、言い換え規則情報133の一例(言い換え規則テーブル400)を示す図である。
 言い換え規則テーブル400は、言い換え規則データとして、第1の表現(表現データ410-1)と当該第1の表現を言い換えた表現である第2の表現(表現データ410-2)とが対応付けられて記憶されている。表現データ410は、XML形式で表現データ410の木構造を保持している。なお、表現データ410の生成方法については、図8等を用いて後述する。
 図5は、関係抽出ルール情報134の一例(関係抽出ルールテーブル500)を示す図である。
 関係抽出ルールテーブル500は、ユーザにより設定された関係(関係データ510)と、言い換え規則テーブル400をもとに生成された関係抽出ルール(関係抽出ルールデータ520)とが対応付けられて記憶されている。関係抽出ルールデータ520は、関係抽出ルールデータ520の木構造を保持している。
 ここで、関係抽出ルールデータ520における「(ノード1の条件(ノード2の条件)(ノード3の条件)・・・)」において、ノード1は、親ノードを示し、ノード2、ノード3、・・・は、子ノードを示す。関係抽出ルールデータ520における「.<属性>=<属性値>」は、ノードに設定できる属性と属性値の定義を示す。関係抽出ルールデータ520における「#a<数字>」は、関係抽出ルールがマッチした際に、抽出する対象(語句)であることを示す。
 例えば、関係抽出ルールデータ521は、下記の構文木にマッチすることを示している。
 ・親ノードの見出し語が「及ぼす」であり、助詞がない
 ・1つ目の子ノードの見出し語が任意であり、助詞が「が」である
 ・2つ目の子ノードの見出し語が任意であり、助詞が「に」である
 ・3つ目の子ノードの見出し語が「影響」であり、助詞が「を」である
 なお、関係抽出ルールデータ520の生成方法については、図10等を用いて後述する。
 図6は、文書処理装置101に係る処理の一例を示す図である。
 文書処理装置101の第1の生成部121は、コーパス情報131から階層情報132を生成する階層情報生成処理621を行う。より具体的には、階層情報生成処理621では、第1の生成部121は、コーパス情報131の各文データを構文木の階層ごとに分けた階層データを生成する。階層情報生成処理621については、図7Aおよび図7Bを用いて後述する。
 文書処理装置101の第2の生成部122は、階層情報132から言い換え規則情報133を生成する言い換え規則情報生成処理622を行う。言い換え規則情報生成処理622は、検索処理622A、抽出処理622B、選定処理622C、および検証処理622Dを含んで構成される。
 検索処理622Aは、例えば、検索部122Aにより行われる処理である。検索処理622Aについては、図8のS801およびS802を用いて後述する。抽出処理622Bは、例えば、抽出部122Bにより行われる処理である。抽出処理622Bについては、図8のS803およびS804を用いて後述する。選定処理622Cは、例えば、選定部122Cにより行われる処理である。選定処理622Cについては、図8のS805を用いて後述する。検証処理622Dは、例えば、検証部122Dにより行われる処理である。検証処理622Dについては、図8のS806~S809を用いて後述する。
 文書処理装置101の第3の生成部123は、言い換え規則情報133と、関係を含む例文610とから関係抽出ルール情報134を生成する関係抽出ルール情報生成処理623を行う。関係抽出ルール情報生成処理623は、入力処理623A、形態素解析処理623B、係り受け解析処理623C、加工処理623D、および変換処理623Eを含んで構成される。
 入力処理623Aは、例えば、入力部123Aにより行われる処理である。入力処理623Aについては、図10のS1001を用いて後述する。形態素解析処理623Bは、例えば、形態素解析部123Bにより行われる処理である。形態素解析処理623Bについては、図10のS1002を用いて後述する。係り受け解析処理623Cは、例えば、係り受け解析部123Cにより行われる処理である。係り受け解析処理623Cについては、図10のS1002を用いて後述する。加工処理623Dは、例えば、加工部123Dにより行われる処理である。加工処理623Dについては、図10のS1003を用いて後述する。変換処理623Eは、例えば、変換部123Eにより行われる処理である。変換処理623Eについては、図10のS1004~S1006を用いて後述する。
 文書処理装置101の第4の生成部124は、言い換え規則情報133から言い換え規則情報133を生成する追加処理624を行う。追加処理624は、例えば、第4の生成部124により行われる処理である。追加処理624については、図9を用いて後述する。
 図7Aは、階層情報生成処理621の一例を示す図である。階層情報生成処理621は、例えば、入力装置102を介してユーザにより指示されたタイミングで開始される。階層情報生成処理621では、コーパス情報131に含まれている各文データについて、S701~S705の処理が行われる。以下では、図7Bを適宜に参照してS701~S705の処理を説明する。図7Bは、階層データの生成イメージを示す図である。
 S701では、文書処理装置101は、コーパス情報131から未処理の文データを1つ取得する。例えば、文書処理装置101は、図7Bに示す文データ711「金利が日本の株価に影響を与える。」を取得する。
 S702では、文書処理装置101は、S701で取得した文データについて構文解析(形態素解析および係り受け解析)を行い、構文木データを生成する。例えば、文書処理装置101は、文データ711から構文木データ721を生成する。
 S703では、文書処理装置101は、階層ごとの構文木データを生成する。例えば、文書処理装置101は、構文木データ721から階層ごとの構文木データ731および構文木データ732を生成する。このように、文書処理装置101は、構文木を階層ごとに分けることで、修飾部等、不要な文節を取り除くことができ、類似する表現データを取得しやすくする。
 S704では、文書処理装置101は、階層ごとの構文木データのベクトルを生成する。例えば、文書処理装置101は、構文木データ731のベクトル741および構文木データ732のベクトル742を生成する。文書処理装置101は、構文木データ731には、文節「与える」「金利が」「株価に」「影響を」がそれぞれ1つ含まれるので、ベクトル741における文節の対応する位置に頻度「1」を設定する。なお、文書処理装置101は、全ての文節を列挙し、文節の位置を固定することで、文節を識別する情報を保持せずにベクトルを比較可能にしている。
 S705では、文書処理装置101は、階層データを記憶する。例えば、文書処理装置101は、構文木データ731および当該構文木データ731のベクトル741を階層データ751として階層情報132に記憶する。
 図8は、言い換え規則情報生成処理622の一例を示す図である。言い換え規則情報生成処理622は、階層情報生成処理621に続いて行われる。言い換え規則情報生成処理622では、階層情報132に含まれている各階層データについてS801~S809の処理が行われる。
 S801では、文書処理装置101は、階層情報132から未処理の階層データを1つ取得する。以下では、文書処理装置101がS801で取得した階層データを元データと記す。
 S802では、文書処理装置101は、階層情報132から元データのベクトルに類似する階層データ(以下、類似データと記す)を取得する。例えば、文書処理装置101は、元データと全ての階層データとの類似度を算出し、最も類似する階層データを類似データとする。類似度は、コサイン類似度であってもよいし、ユークリッド距離であってもよいし、その他の算出方法によって算出される値であってもよい。
 S803では、文書処理装置101は、元データと類似データとの構文木データを比較し、両データ(元データおよび類似データ)の差分を取得する。より具体的には、文書処理装置101は、両方のデータに存在する同一のノードを削除する。例えば、元データの親ノードが「A」であり、子ノードが「B」「C」「D」であり、類似データの親ノードが「E」であり、子ノードが「B」「C」であるケースの場合、共通のノード「B」「C」が両データから削除される。
 S804では、文書処理装置101は、両方のデータの差分を言い換え規則データとして抽出する。例えば、上記ケースの場合、言い換え規則データとして、元データにおける差分である表現データ(元データの親ノード「A」および元データの子ノード「D」)と、類似データにおける差分である表現データ(類似データの親ノード「E」)とが抽出される。
 S805では、文書処理装置101は、S804で抽出した言い換え規則データが言い換え条件を満たすか否かを判定する。文書処理装置101は、言い換え条件を満たすと判定した場合、S806に処理を移し、言い換え条件を満たさないと判定した場合、未処理の階層データがあるときはS801に処理を移し、未処理の階層データがないときは言い換え規則情報生成処理622を終了する。
 言い換え条件としては、動詞の言い換え、形容詞の言い換え等、品詞の言い換えが挙げられる。例えば、入力装置102を介してユーザにより動詞の言い換えが設定されているときは、文書処理装置101は、両データの親ノードが動詞であり、かつ、両データの親ノードが異なる場合、言い換え条件を満たすと判定する。また、例えば、入力装置102を介してユーザにより形容詞の言い換えが設定されているときは、文書処理装置101は、両データの親ノードが形容詞であり、かつ、両データの親ノードが異なる場合、言い換え条件を満たすと判定する。
 S806では、文書処理装置101は、S805で言い換え条件を満たすと判定した言い換え規則データの一方の表現データを使用している階層データを階層情報132から全て取得する。
 以下では、文書処理装置101は、S805で言い換え条件を満たすと判定した言い換え規則データが、元データの表現データが(親ノード「与える」および子ノード「影響を」)であり、類似データの表現データが(親ノード「影響する」)である言い換え規則データである場合に、一方の表現データとして元データの表現データを取得するケースを例に挙げて説明する。例えば、第1の階層データ(親ノード「与える」および子ノード「円高が」「株価に」「影響を」)、第2の階層データ(親ノード「与える」および子ノード「生活に」「影響を」)が階層情報132に含まれているときは、文書処理装置101は、元データの表現データを使用している第1の階層データおよび第2の階層データを階層情報132から取得する。
 なお、一方の表現データに関してS807において出現頻度が算出されるが、元データの表現データであっても、類似データの表現データであっても出現頻度は同じ値となるので、一方の表現データとしては、元データの表現データと類似データの表現データとの何れが用いられてもよい。
 S807では、文書処理装置101は、S806で抽出した階層データの構文木データを言い換えて出現頻度を算出する。
 例えば、文書処理装置101は、抽出した第1の階層データの構文木データ(親ノード「与える」および子ノード「円高が」「株価に」「影響を」)を、S805で言い換え条件を満たすと判定した言い換え規則データ(親ノード「与える」および子ノード「影響を」-親ノード「影響する」)を用いて言い換えた表現データ(親ノード「影響する」および子ノード「円高が」「株価に」)が階層情報132に含まれているかを確認する。
 また、例えば、文書処理装置101は、抽出した第2の階層データの構文木データ(親ノード「与える」および子ノード「生活に」「影響を」)を、S805で言い換え条件を満たすと判定した言い換え規則データ(親ノード「与える」および子ノード「影響を」-親ノード「影響する」)を用いて言い換えた表現データ(親ノード「影響する」および子ノード「生活に」)が階層情報132に含まれているかを確認する。
 そして、文書処理装置101は、第1の階層データの構文木データを言い換え規則データを用いて言い換えた表現データが階層情報132に含まれている件数と、第2の階層データの構文木データを言い換え規則データを用いて言い換えた表現データが階層情報132に含まれている件数とを計数して出現頻度とする。
 S808では、文書処理装置101は、出現頻度が閾値以上であるか否かを判定する。文書処理装置101は、出現頻度が閾値以上であると判定した場合、S809に処理を移し、出現頻度が閾値未満であると判定した場合、未処理の階層データがあるときはS801に処理を移し、未処理の階層データがないときは言い換え規則情報生成処理622を終了する。なお、閾値については、S808の処理が行われる前までに、入力装置102を介してユーザにより設定されている。
 S809では、文書処理装置101は、S805で言い換え条件を満たすと判定した言い換え規則データを言い換え規則情報133に記憶し、未処理の階層データがあるときはS801に処理を移し、未処理の階層データがないときは言い換え規則情報生成処理622を終了する。
 図9は、追加処理624の一例を示す図である。追加処理624は、適宜のタイミングで行われる。適宜のタイミングは、言い換え規則情報生成処理622が終了したタイミングであってもよいし、ユーザに指示されたタイミングであってもよいし、周期的であってもよいし、予め指定されたタイミングであってもよいし、その他のタイミングであってもよい。追加処理624では、階層情報132に含まれている各階層データについてS902~S907の処理が行われる。
 S901では、文書処理装置101は、言い換え規則情報133から未処理の言い換え規則データを1つ取得する。以下では、S901で言い換え規則データ「A-B」が取得され、言い換え規則情報133に言い換え規則データ「A-C」および言い換え規則データ「B-D」が既に記憶されているケースを例に挙げて説明する。
 S901で言い換え規則データ「A-B」が取得された場合、表現データ「A」と表現データ「B」とは意味が類似し、表現データ「A」と表現データ「C」とは意味が類似しているため、表現データ「B」と表現データ「C」とが類似している可能性がある。S902~S904では、言い換え規則データ「B-C」について意味が類似しているかを検証し、検証で類似していると判断した場合、言い換え規則データ「B-C」を言い換え規則情報133に記憶する。
 S902では、文書処理装置101は、言い換え規則情報133から、S901で取得された言い換え規則データの表現データ「A」を含む言い換え規則データを取得する。文書処理装置101は、取得した各言い換え規則データについて、S903およびS904の処理を行う。
 S903では、文書処理装置101は、S902取得した言い換え規則データの表現データ「A」側でない表現データ「C」と表現データ「B」とを組み合わせた言い換え規則データ「B-C」を生成する。
 S904では、文書処理装置101は、S903で生成した言い換え規則データ「B-C」を検証する。より具体的には、文書処理装置101は、S806~S809の処理を行う。
 また、S901で言い換え規則データ「A-B」が取得された場合、表現データ「A」と表現データ「B」とは意味が類似し、表現データ「B」と表現データ「D」とは意味が類似しているため、表現データ「A」と表現データ「D」とが類似している可能性がある。S905~S907では、言い換え規則データ「A-D」について意味が類似しているかを検証し、検証で類似していると判断した場合、言い換え規則データ「A-D」を言い換え規則情報133に記憶する。
 S905では、文書処理装置101は、言い換え規則情報133から、S901で取得された言い換え規則データの表現データ「B」を含む言い換え規則データを取得する。文書処理装置101は、取得した各言い換え規則データについて、S906およびS907の処理を行う。
 S906では、文書処理装置101は、S905取得した言い換え規則データの表現データ「B」側でない表現データ「D」と表現データ「A」とを組み合わせた言い換え規則データ「A-D」を生成する。
 S907では、文書処理装置101は、S903で生成した言い換え規則データ「A-D」を検証する。より具体的には、文書処理装置101は、S806~S809の処理を行う。
 図10は、関係抽出ルール情報生成処理623の一例を示す図である。関係抽出ルール情報生成処理623は、例えば、入力装置102を介してユーザにより指示されたタイミングで開始される。
 S1001では、文書処理装置101は、ユーザから例文を受け付ける。例えば、入力装置102を介してユーザにより例文1010が入力される。例文1010には、ユーザが抽出したい語句にマーク(本例では、下線)が付されている。
 S1002では、文書処理装置101は、構文解析を行い、S1001で受け付けた例文の構文木データを生成する。例えば、文書処理装置101は、例文1010の構文木データ1020を生成する。
 S1003では、文書処理装置101は、S1002で生成した構文木データの下線部をワイルドカードに設定した構文木データ(言い換えルールデータ)を生成する。例えば、文書処理装置101は、構文木データ1020の下線部をワイルドカード「~」に設定し、言い換えルールデータ1030を生成する。
 S1004では、文書処理装置101は、言い換え規則情報133から言い換え規則データを取得する。文書処理装置101は、例文1010から生成した言い換えルールデータ1030に適用可能な言い換え規則データ1040を言い換え規則情報133から取得する。例えば、文書処理装置101は、言い換えルールデータ1030においてワイルドカードが設定されていないノード「影響する」を含む表現データの言い換え規則データ1040を取得する。
 S1005では、文書処理装置101は、S1003で生成した言い換えルールデータをS1004で取得した言い換え規則データに適用し、関係抽出ルールデータを生成する。例えば、文書処理装置101は、言い換えルールデータ1030を言い換え規則データ1040に適用し、関係抽出ルールデータ1050を生成する。
 S1006では、文書処理装置101は、S1005で生成した関係抽出ルールデータを関係抽出ルール情報134に記憶する。
 図11は、言い換え規則データを生成するための画面の一例(画面1100)を示す図である。画面1100は、ユーザによる入力装置102の操作に応じて出力装置103に表示される。
 画面1100は、選択部1110と、選択部1120と、設定部1130と、開始部1140と、キャンセル部1150とを含んで構成される。選択部1110は、複数のコーパス情報131から、言い換え規則データを生成する対象とするコーパス情報131をユーザが選択するためのユーザインターフェースの一例である。選択部1120は、ユーザが抽出したい言い換え規則データを限定する際に、複数の言い換え条件から、限定に用いる言い換え条件を選択するためのユーザインターフェースの一例である。
 設定部1130は、出現頻度の閾値を設定するためのユーザインターフェースの一例である。開始部1140は、言い換え規則データの生成の開始をユーザが指示するためのユーザインターフェースの一例である。開始部1140がユーザにより押下されると、階層情報生成処理621が開始される。キャンセル部1150は、言い換え規則データの生成のキャンセルをユーザが指示するためのユーザインターフェースの一例である。
 図12は、言い換え規則データを表示するための画面の一例(画面1200)を示す図である。画面1200は、ユーザによる入力装置102の操作に応じて出力装置103に表示される。
 画面1200は、表示部1210と、ファイル出力部1220と、終了部1230とを備える。表示部1210は、言い換え規則情報133に記憶されている言い換え規則データをユーザが表示するためのユーザインターフェースの一例である。ファイル出力部1220は、言い換え規則情報133に記憶されている言い換え規則データをファイルとしてユーザが出力するためのユーザインターフェースの一例である。終了部1230は、画面1200をユーザが閉じるためのユーザインターフェースの一例である。
 画面1200によれば、ユーザは、言い換え規則情報133に記憶されている言い換え規則データの全部または一部を確認したり、ファイルとして出力したりすることができる。
 図13は、関係抽出ルールデータを生成するための画面の一例(画面1300)を示す図である。画面1300は、ユーザによる入力装置102の操作に応じて出力装置103に表示される。
 画面1300は、入力部1310~入力部1340と、入力追加部1350と、開始部1360と、キャンセル部1370とを備える。入力部1310は、関係抽出ルールデータの分類に用いる関係をユーザが入力するためのユーザインターフェースの一例である。入力部1320は、例文をユーザが入力するためのユーザインターフェースの一例である。入力部1330は、入力部1320に入力した例文から抽出する第1の語句をユーザが入力するためのユーザインターフェースの一例である。入力部1340は、入力部1320に入力した例文から抽出する第2の語句をユーザが入力するためのユーザインターフェースの一例である。
 入力追加部1350は、抽出する語句を入力する欄をユーザが追加するためのユーザインターフェースの一例である。開始部1360は、関係抽出ルールデータの生成の開始をユーザが指示するためのユーザインターフェースの一例である。開始部1360がユーザにより押下されると、関係抽出ルール情報生成処理623が開始される。キャンセル部1150は、言い換え規則データの生成のキャンセルをユーザが指示するためのユーザインターフェースの一例である。
 図14は、関係抽出ルールデータを表示するための画面の一例(画面1400)を示す図である。画面1400は、ユーザによる入力装置102の操作に応じて出力装置103に表示される。
 画面1400は、表示部1410と、ファイル出力部1420と、終了部1430とを備える。表示部1410は、関係抽出ルール情報134に記憶されている関係抽出ルールデータを、ユーザが入力した関係ごとにユーザが表示するためのユーザインターフェースの一例である。ファイル出力部1420は、関係抽出ルール情報134に記憶されている関係抽出ルールデータをファイルとしてユーザが出力するためのユーザインターフェースの一例である。終了部1430は、画面1400を閉じるためのユーザインターフェースの一例である。
 画面1400によれば、ユーザは、入力した関係ごとに、関係抽出ルール情報134に記憶されている関係抽出ルールデータを確認したり、ファイルとして出力したりすることができる。
 図15は、言い換え規則情報133および関係抽出ルール情報134の利用方法の一例を示す図である。
 言い換え規則情報133については、情報検索1510に利用可能である。例えば、文書処理装置101は、検索クエリ(例えば、「メールを送信する」)を言い換えた検索クエリ(例えば、「メールを送る」)を作成する。この構成によれば、複数の検索クエリで検索が行われるので、ユーザは、所望の情報をより容易に得ることができるようになる。
 また、言い換え規則情報133については、上述したように関係抽出ルール情報134を生成して関係抽出1520に利用可能である。関係抽出1520では、関係抽出システム1521は、対象文1522の構文木データと関係抽出ルールデータとをマッチングさせ、マッチした語句1523を抽出する。なお、関係抽出システム1521については、例えば、特開2019-83040号公報に記載の文章生成システムを採用してもよい。また、関係抽出システム1521は、文書処理システム100に含まれていてもよいし、文書処理装置101と通信可能に接続されていてもよい。
 また、言い換え規則情報133の利用方法については、上述の内容に限らない。例えば、表現データの平易化に利用されてもよい。この場合、文書処理装置101は、子ども向け、外国人向け等の新聞記事、ニュースといった媒体で用いられる難解な表現データ(例えば、「大臣を罷免する」)を平易な表現データ(例えば、「大臣をやめさせる」)に言い換える。この構成によれば、難解な表現データが平易な表現データに言い換えられるので、ユーザは、内容をより容易に理解できるようになる。
 本実施の形態によれば、利便性の高い文書処理システムを提供することができる。
(2)付記
 上述の実施の形態には、例えば、以下のような内容が含まれる。
 上述の実施の形態においては、本発明を文書処理システムに適用するようにした場合について述べたが、本発明はこれに限らず、この他種々のシステム、装置、方法、プログラムに広く適用することができる。
 また、上述の実施の形態においては、S704では、ベクトルの値を文節の頻度とする場合について述べたが、本発明はこれに限らず、ベクトルの値を文節の有無とするようにしてもよい。
 また、上述の実施の形態においては、S802では、最も類似するデータを類似データとする場合について述べたが、本発明はこれに限らず、所定の閾値より高いデータを類似データとするようにしてもよい。この場合、S901の処理(追加処理624)は、行われなくてもよい。なお、所定の閾値は、S802の処理の前までにユーザにより設定される。
 また、上述の実施の形態においては、言い換え規則情報生成処理622(全ての階層データについての検証処理622D)が終わった後に、全ての言い換え規則データについて追加処理624を行う場合について述べたが、本発明はこれに限らず、各階層データについての検証処理622D(S809)に続けて(記憶する言い換え規則データについて)追加処理624を行うようにしてもよい。
 また、上述の実施の形態において、各テーブルの構成は一例であり、1つのテーブルは、2以上のテーブルに分割されてもよいし、2以上のテーブルの全部または一部が1つのテーブルであってもよい。
 また、上述の実施の形態において、説明の便宜上、XXテーブルを用いて各種のデータを説明したが、データ構造は限定されるものではなく、XX情報等と表現してもよい。
 また、上述の実施の形態において、図示および説明した画面は、一例であり、受け付ける情報が同じであるならば、どのようなデザインであってもよい。
 また、上述の実施の形態において、情報の出力は、ディスプレイへの表示に限るものではない。情報の出力は、スピーカによる音声出力であってもよいし、ファイルへの出力であってもよいし、印刷装置による紙媒体等への印刷であってもよいし、プロジェクタによるスクリーン等への投影であってもよいし、その他の態様であってもよい。
 また、上記の説明において、各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記憶装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
 上述した実施の形態は、例えば、以下の特徴的な構成を有する。
 文書処理システム(例えば、文書処理システム100)は、複数の文を含む文情報(例えば、コーパス情報131、複数の文データ)をもとに、各文について階層ごとの構文木を示す階層データ(例えば、階層情報132、階層データ)を生成する第1の生成部(例えば、第1の生成部121、文書処理装置101、回路)と、上記第1の生成部により生成された複数の階層データから、上記第1の生成部により生成された第1の文の階層データと類似する第2の文の階層データを取得し(例えば、S802参照)、上記第1の文の階層データと上記第2の文の階層データとの差分を抽出し(例えば、S803参照)、上記第1の文における差分である第1の表現データと上記第2の文における差分である第2の表現データとを言い換え規則データ(例えば、言い換え規則データ)として生成する第2の生成部(例えば、第2の生成部122、文書処理装置101、回路)と、上記第2の生成部により生成された言い換え規則データを記憶装置(例えば、補助記憶装置130、文書処理システム100と通信可能な外部の記憶装置)に記憶する記憶部(例えば、記憶部125、文書処理装置101、回路)と、を備える。
 上記構成によれば、第1の文の階層データと第2の文の階層データとの差分、すなわち、第1の文の第1の表現データと当該第1の表現データを言い換えた表現である第2の文の第2の表現データとが言い換え規則データとして自動で生成されるので、ユーザは、言い換え表現を容易に得ることができるようになる。
 上記文書処理システムは、ユーザが所望する語句にマークが付された例文(例えば、例文610)の構文木データを生成し(例えば、S1002を参照)、生成した構文木データにおける語句を、全ての語句に合致することを示す記号(例えば、ワイルドカード)に設定した構文木データに加工し(例えば、S1003参照)、加工した構文木データを表現データとして含んでいる言い換え規則データを上記記憶装置に記憶されている言い換え規則データから取得し(例えば、S1004参照)、取得した言い換え規則データに上記加工した構文木データを適用した抽出ルールデータ(例えば、関係抽出ルール情報134、関係抽出ルールデータ)を生成する第3の生成部(例えば、第3の生成部123、文書処理装置101、回路)を備える。
 上記構成によれば、例えば、ユーザが所望する語句を任意の文から抽出するための抽出ルールデータを言い換え規則データから容易に生成することができる。
 上記第2の生成部は、上記第1の表現データと上記第2の表現データとが、ユーザが所望する言い換え規則データを選定するための条件(例えば、言い換え条件)を満たすか否かを判定し(例えば、S805参照)、満たすと判定した場合、上記第1の表現データと上記第2の表現データとを言い換え規則データとして生成する。
 上記構成では、例えば、文情報として、新聞、雑誌、本等に含まれる文が大量に集積されたコーパスが用いられたとしても、条件に合った文を手動で選定する必要がなく、ユーザが所望する言い換え規則データを適切に生成できるようになる。
 上記第2の生成部は、上記第1の表現データを使用している階層データを上記複数の階層データから取得し(例えば、S806参照)、取得した階層データの構文木データを上記第2の表現データで言い換え、言い換えた構文木データが、上記複数の階層データに含まれる数を計数し(例えば、S807参照)、計数した数が閾値を超える場合、上記第1の表現データと上記第2の表現データとを言い換え規則データとして生成する。
 上記構成によれば、例えば、2つの表現データの意味が類似していない言い換え規則データを登録してしまう事態を回避できるようになる。
 上記文書処理システムは、上記記憶装置に記憶されている言い換え規則データから、上記第1の表現データが含まれる言い換え規則データを取得し(例えば、S902参照)、取得した言い換え規則データにおける上記第1の表現データとは異なる側の第3の表現データと、上記第2の表現データとを言い換え規則データとし(例えば、S903参照)、上記第2の表現データを使用している階層データを上記複数の階層データから取得し(例えば、S806参照)、取得した階層データの構文木データを上記第3の表現データで言い換え、言い換えた構文木データが、上記複数の階層データに含まれる数を計数し(例えば、S807参照)、計数した数が閾値を超える場合、上記第2の表現データと上記第3の表現データとを言い換え規則データとして生成する第4の生成部(例えば、第4の生成部124、文書処理装置101、回路)を備える。
 上記構成では、例えば、言い換え規則データを効率的に生成することができる。
 上記文書処理システムは、上記記憶装置に記憶されている言い換え規則データの全部または一部を出力する出力部(例えば、出力部126、文書処理装置101、回路)を備える。
 上記構成では、言い換え規則データが出力されるので、例えば、ユーザは、言い換え規則データを容易に得ることができる。
 また上述した構成については、本発明の要旨を超えない範囲において、適宜に、変更したり、組み替えたり、組み合わせたり、省略したりしてもよい。
 100……文書処理システム、101……文書処理装置、121……第1の生成部、122……第2の生成部。
 

Claims (7)

  1.  複数の文を含む文情報をもとに、各文について階層ごとの構文木を示す階層データを生成する第1の生成部と、
     前記第1の生成部により生成された複数の階層データから、前記第1の生成部により生成された第1の文の階層データと類似する第2の文の階層データを取得し、前記第1の文の階層データと前記第2の文の階層データとの差分を抽出し、前記第1の文における差分である第1の表現データと前記第2の文における差分である第2の表現データとを言い換え規則データとして生成する第2の生成部と、
     前記第2の生成部により生成された言い換え規則データを記憶装置に記憶する記憶部と、
     を備える文書処理システム。
  2.  ユーザが所望する語句にマークが付された例文の構文木データを生成し、生成した構文木データにおける語句を、全ての語句に合致することを示す記号に設定した構文木データに加工し、加工した構文木データを表現データとして含んでいる言い換え規則データを前記記憶装置に記憶されている言い換え規則データから取得し、取得した言い換え規則データに前記加工した構文木データを適用した抽出ルールデータを生成する第3の生成部を備える、
     請求項1に記載の文書処理システム。
  3.  前記第2の生成部は、前記第1の表現データと前記第2の表現データとが、ユーザが所望する言い換え規則データを選定するための条件を満たすか否かを判定し、満たすと判定した場合、前記第1の表現データと前記第2の表現データとを言い換え規則データとして生成する、
     請求項1に記載の文書処理システム。
  4.  前記第2の生成部は、前記第1の表現データを使用している階層データを前記複数の階層データから取得し、取得した階層データの構文木データを前記第2の表現データで言い換え、言い換えた構文木データが、前記複数の階層データに含まれる数を計数し、計数した数が閾値を超える場合、前記第1の表現データと前記第2の表現データとを言い換え規則データとして生成する、
     請求項1に記載の文書処理システム。
  5.  前記記憶装置に記憶されている言い換え規則データから、前記第1の表現データが含まれる言い換え規則データを取得し、取得した言い換え規則データにおける前記第1の表現データとは異なる側の第3の表現データと、前記第2の表現データとを言い換え規則データとし、前記第2の表現データを使用している階層データを前記複数の階層データから取得し、取得した階層データの構文木データを前記第3の表現データで言い換え、言い換えた構文木データが、前記複数の階層データに含まれる数を計数し、計数した数が閾値を超える場合、前記第2の表現データと前記第3の表現データとを言い換え規則データとして生成する第4の生成部を備える、
     請求項1に記載の文書処理システム。
  6.  前記記憶装置に記憶されている言い換え規則データの全部または一部を出力する出力部を備える、
     請求項1に記載の文書処理システム。
  7.  第1の生成部が、複数の文を含む文情報をもとに、各文について階層ごとの構文木を示す階層データを生成することと、
     第2の生成部が、前記第1の生成部により生成された複数の階層データから、前記第1の生成部により生成された第1の文の階層データと類似する第2の文の階層データを取得し、前記第1の文の階層データと前記第2の文の階層データとの差分を抽出し、前記第1の文における差分である第1の表現データと前記第2の文における差分である第2の表現データとを言い換え規則データとして生成することと、
     記憶部が、前記第2の生成部により生成された言い換え規則データを記憶装置に記憶することと、
     を備える文書処理方法。
     
PCT/JP2020/045521 2020-12-07 2020-12-07 文書処理システムおよび文書処理方法 WO2022123637A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021557560A JPWO2022123637A1 (ja) 2020-12-07 2020-12-07
PCT/JP2020/045521 WO2022123637A1 (ja) 2020-12-07 2020-12-07 文書処理システムおよび文書処理方法
US17/599,041 US11861305B2 (en) 2020-12-07 2020-12-07 Word processing system and word processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/045521 WO2022123637A1 (ja) 2020-12-07 2020-12-07 文書処理システムおよび文書処理方法

Publications (1)

Publication Number Publication Date
WO2022123637A1 true WO2022123637A1 (ja) 2022-06-16

Family

ID=81973324

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/045521 WO2022123637A1 (ja) 2020-12-07 2020-12-07 文書処理システムおよび文書処理方法

Country Status (3)

Country Link
US (1) US11861305B2 (ja)
JP (1) JPWO2022123637A1 (ja)
WO (1) WO2022123637A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100189785A1 (en) 2008-08-20 2010-07-29 Bioenergy, Inc. Use of D-ribose for fatigued subjects
WO2022123637A1 (ja) * 2020-12-07 2022-06-16 株式会社日立製作所 文書処理システムおよび文書処理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006190226A (ja) * 2005-01-07 2006-07-20 Advanced Telecommunication Research Institute International 用言自動換言装置、用言換言方法及び用言換言処理プログラム
JP2011008754A (ja) * 2009-05-29 2011-01-13 Toshiba Corp 文書処理装置およびプログラム
JP2011008602A (ja) * 2009-06-26 2011-01-13 Fuji Xerox Co Ltd 情報処理装置及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0473864A1 (en) * 1990-09-04 1992-03-11 International Business Machines Corporation Method and apparatus for paraphrasing information contained in logical forms
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
DE202005022113U1 (de) * 2004-10-12 2014-02-05 University Of Southern California Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
US8825466B1 (en) * 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
JP5039158B2 (ja) 2010-02-05 2012-10-03 株式会社東芝 文書処理プログラムおよび文書処理装置
US8694303B2 (en) * 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
CN107870900B (zh) * 2016-09-27 2023-04-18 松下知识产权经营株式会社 提供翻译文的方法、装置以及记录介质
WO2022123637A1 (ja) * 2020-12-07 2022-06-16 株式会社日立製作所 文書処理システムおよび文書処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006190226A (ja) * 2005-01-07 2006-07-20 Advanced Telecommunication Research Institute International 用言自動換言装置、用言換言方法及び用言換言処理プログラム
JP2011008754A (ja) * 2009-05-29 2011-01-13 Toshiba Corp 文書処理装置およびプログラム
JP2011008602A (ja) * 2009-06-26 2011-01-13 Fuji Xerox Co Ltd 情報処理装置及びプログラム

Also Published As

Publication number Publication date
JPWO2022123637A1 (ja) 2022-06-16
US20220350964A1 (en) 2022-11-03
US11861305B2 (en) 2024-01-02

Similar Documents

Publication Publication Date Title
US8799776B2 (en) Semantic processor for recognition of whole-part relations in natural language documents
US8484238B2 (en) Automatically generating regular expressions for relaxed matching of text patterns
US9009590B2 (en) Semantic processor for recognition of cause-effect relations in natural language documents
Argamon et al. Stylistic text classification using functional lexical features
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
WO2022123637A1 (ja) 文書処理システムおよび文書処理方法
Hay et al. Representation learning of writing style
JP2009238255A (ja) 普遍言語による表現を生成するシステムおよびこれに用いられる変換規則を記録した記録媒体
Shukla et al. Natural Language Processing: Unlocking the Power of Text and Speech Data
Moreno-Jiménez et al. Literary natural language generation with psychological traits
Klahold et al. Computer aided writing
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
KR102390009B1 (ko) Ai기반 구문분석 연구노트 생성 시스템
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
KR102072708B1 (ko) 텍스트 콘텐츠의 장르를 추론하는 방법 및 컴퓨터 프로그램
JP5528376B2 (ja) 文書平易化装置およびプログラム
Mollá Towards semantic-based overlap measures for question-answering
Van Delden et al. Combining finite state automata and a greedy learning algorithm to determine the syntactic roles of commas
Murthy et al. A New Approach to Tagging in Indian Languages.
JP2003202893A (ja) 統計的言語モデルを作成するためのコーパス処理装置及び方法並びにプログラム
JP4390039B2 (ja) 検索システムおよびその方法
King That ain’t how I speak: Personalizing natural language processing
Freihat et al. ALP: An Arabic Linguistic Pipeline

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2021557560

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20965023

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20965023

Country of ref document: EP

Kind code of ref document: A1