WO2019082362A1 - 単語意味関係推定装置および単語意味関係推定方法 - Google Patents

単語意味関係推定装置および単語意味関係推定方法

Info

Publication number
WO2019082362A1
WO2019082362A1 PCT/JP2017/038791 JP2017038791W WO2019082362A1 WO 2019082362 A1 WO2019082362 A1 WO 2019082362A1 JP 2017038791 W JP2017038791 W JP 2017038791W WO 2019082362 A1 WO2019082362 A1 WO 2019082362A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
unit
vector
database
feature amount
Prior art date
Application number
PCT/JP2017/038791
Other languages
English (en)
French (fr)
Inventor
隼人 内出
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to CN201780096022.4A priority Critical patent/CN111226223B/zh
Priority to US16/648,473 priority patent/US11328006B2/en
Priority to JP2019549790A priority patent/JP6678834B2/ja
Priority to EP17929667.8A priority patent/EP3683694A4/en
Priority to PCT/JP2017/038791 priority patent/WO2019082362A1/ja
Publication of WO2019082362A1 publication Critical patent/WO2019082362A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the present invention relates to a technique for estimating semantic relationships between words.
  • a thesaurus that classifies words in consideration of upper-lower relationships etc. is a language resource to absorb the fluctuation of language expression in the document and solve the problem of polysemy or synonym, and is used in various language processing applications. Ru. On the other hand, it is conventionally attempted to automatically create a thesaurus from text data because it is costly to manually create a thesaurus.
  • Non-Patent Document 1 there is proposed a learning method of a statistical model which estimates semantic relations between words using an existing thesaurus as a correct answer.
  • Non-Patent Document 1 as a feature quantity used for learning of a statistical model for estimating a semantic relationship such as upper-lower peer relationship between two words (hereinafter referred to as a word pair), a word is a multidimensional numerical value It is disclosed to use a word vector converted to a vector.
  • a technique for converting into a word vector is, for example, a dense multidimensional numerical vector representing the meaning of a word by utilizing the positional relationship of words in a sentence in consideration of context disclosed in Non-Patent Document 2 The method of converting to is applied.
  • Non-Patent Document 2 When the method disclosed in Non-Patent Document 2 is applied as a technology for converting into a word vector, words having different meanings appearing in similar contexts, such as antinyms, can be converted into similar word vectors and become antinyms. There has been a problem that the correct semantic relationship may not be estimated for word pairs including words.
  • Patent Document 1 calculates a plurality of types of similarities by calculating context-based similarity, notation-based similarity and pattern-based similarity for any word pair in text.
  • a word semantic relation extraction device is disclosed that generates feature vectors that cause the element s to identify semantic relations between words.
  • the present invention has been made to solve the above-mentioned problems, and it is possible to obtain an effective feature quantity for identifying semantic relationships between words, and to estimate the semantic relationship between two words that can be antinyms. Intended to improve.
  • the word semantic relation estimation apparatus extracts from the database a word search unit for searching each database for the input word pair, and a word vector corresponding to each word searched by the word search unit.
  • a word vector extraction unit, a character vector conversion unit converting characters forming a word pair into a character vector, a word vector of each word extracted by the word vector extraction unit, and a character vector converted by the character vector conversion unit
  • the image processing apparatus includes a feature amount acquisition unit that acquires a feature amount by combining, and an estimation unit that estimates a semantic relationship between each word from the feature amount acquired by the feature amount acquisition unit.
  • the present invention it is possible to acquire an effective feature amount that identifies the semantic relationship between words. This can improve the accuracy of estimating the semantic relationship between two words that can be antinyms.
  • FIG. 1 is a block diagram showing a configuration of a word semantic relationship estimation device according to Embodiment 1;
  • FIG. 2A and FIG. 2B are diagrams showing an example of a hardware configuration of the word semantic relationship estimation device according to the first embodiment.
  • 5 is a flowchart showing the operation of the word semantic relationship estimation device according to Embodiment 1;
  • FIG. 7 is a block diagram showing a configuration of a word semantic relationship estimation device according to Embodiment 2; 7 is a flowchart showing the operation of the word semantic relationship estimation device according to Embodiment 2;
  • FIG. 16 is a block diagram showing a configuration of a word semantic relationship estimation device according to Embodiment 3.
  • 15 is a flowchart showing the operation of the word semantic relationship estimation device according to Embodiment 3; It is the figure which showed the high order subordinate relation of the word registered into the thesaurus.
  • FIG. 1 is a block diagram showing the configuration of the word semantic relationship estimation device 100 according to the first embodiment.
  • the word semantic relation estimation apparatus 100 includes a word search unit 101, a word vector extraction unit 102, a word vector database (database) 103, a character vector conversion unit 104, a feature amount acquisition unit 105, and an estimation unit 106. Further, an input device 200 and a display device 300 are connected to the word semantic relationship estimation device 100.
  • the input device 200 is configured of, for example, a mouse or a keyboard.
  • the display device 300 includes, for example, a display.
  • the word search unit 101 searches the word vector database 103 for each word constituting two words (hereinafter referred to as a word pair) which can be antinyms input from the input device 200.
  • the word search unit 101 outputs the search result to the word vector extraction unit 102.
  • the word vector extraction unit 102 extracts, from the word vector database 103, a word vector corresponding to each word searched by the word search unit 101.
  • the word vector extraction unit 102 outputs the extracted word vector to the feature amount acquisition unit 105.
  • the word vector database 103 is a database created using text data and the like on the WEB. In order to create the word vector database 103, known techniques disclosed in the above-mentioned Non-Patent Document 2 can be used.
  • the word vector database 103 is configured by associating various words with word vectors corresponding to the words.
  • the word vector database 103 may be configured by being provided by an external device.
  • the character vector conversion unit 104 converts the characters forming the word pair input from the input device 200 into multi-dimensional vectors to obtain character vectors.
  • the character vector conversion unit 104 outputs the acquired character vector to the feature amount acquisition unit 105.
  • a method of generating a character vector a known technique disclosed in Non-Patent Document 2 can be used.
  • the character vector conversion unit 104 may refer to a character vector database (not shown) in which characters and character vectors are stored in association with each other, or a character vector at the time of learning of an estimator constructed using a machine learning algorithm described later. You may learn
  • the feature amount acquisition unit 105 combines the word vector of the two words extracted by the word vector extraction unit 102 with the character vector converted by the character vector conversion unit 104. For example, when the feature amount acquiring unit 105 combines a word vector (100 dimensions) and a character vector (50 dimensions), a 150-dimensional vector is created.
  • the feature quantity acquisition unit 105 combines the word vector and the character vector to create a feature quantity in which the character vector representing the meaning of the character is added to the word vector.
  • the feature amount acquisition unit 105 creates a feature amount by adding a character vector to a word vector, it is possible to distinguish a difference in meaning from a character vector for a word pair including a word that can be an opposite word whose difference is difficult to distinguish with the word vector alone. Become.
  • the words “stable” and “unstable” are words used in similar contexts. Therefore, for example, when the words “stable” and “unstable” are converted into word vectors by applying the method disclosed in Non-Patent Document 2, the two words are converted into similar word vectors, and the word vectors are converted. It is difficult to determine the difference in meaning of two words from.
  • the character quantity acquisition unit 105 combines the word vector of two words with the character vector, whereby the character vector of “not” between the two words is confirmed as a difference, The difference in the meaning of two words can be determined from the vector.
  • the feature amount acquisition unit 105 outputs the feature amount obtained by the combination to the estimation unit 106.
  • the estimation unit 106 inputs the feature amount input from the feature amount acquisition unit 105 to the estimator, and estimates the semantic relationship of the word pair.
  • the estimator constructs a thesaurus that specifies the semantic relationship between words such as WordNet as supervised data by supervised learning.
  • the estimation unit 106 constructs a binary classifier that estimates the upper-lower peer relation label of the input word pair as “1” and estimates the other as “0”.
  • a multiclass classifier may be used, such as an upper relation label, a lower relation label, and a peer relation label.
  • any method can be applied. For example, the One versus Rest (One-against-the-Rest) method disclosed in Reference 1 shown below can be applied. ⁇ Reference 1 J. Weston and C. Watkins, “Multi-class support vector machines", Royal Holloway Technical Report CSD-TR-98-04, 1998.
  • the word semantic relationship estimation apparatus 100 showed the structure provided with the word vector database 103, it is not limited to the said structure.
  • the word search unit 101 or the word vector extraction unit 102 accesses a storage device (not shown) present on the cloud via a communication interface (not shown) instead of the word vector database 103. It may be configured to
  • FIG. 2A and FIG. 2B are diagrams showing an example of a hardware configuration of the word semantic relationship estimation device 100 according to the first embodiment.
  • the word vector database 103 in the word semantic relation estimation apparatus 100 is realized by the storage 100 a.
  • Each function of the word search unit 101, the word vector extraction unit 102, the character vector conversion unit 104, the feature amount acquisition unit 105, and the estimation unit 106 in the word semantic relationship estimation device 100 is realized by a processing circuit. That is, the word semantic relationship estimation device 100 includes a processing circuit for realizing each of the above functions.
  • the processing circuit may be the processing circuit 100b which is dedicated hardware as shown in FIG. 2A, or may be the processor 100c executing a program stored in the memory 100d as shown in FIG. 2B. Good.
  • the processing circuit 100b may One circuit, a composite circuit, a programmed processor, a parallel programmed processor, an application specific integrated circuit (ASIC), a field-programmable gate array (FPGA), or a combination thereof is applicable.
  • the functions of the word search unit 101, the word vector extraction unit 102, the character vector conversion unit 104, the feature amount acquisition unit 105, and the estimation unit 106 may be realized by processing circuits, or the functions of the respective units are integrated into one. It may be realized by a processing circuit.
  • the function of each unit is software, firmware, or It is realized by a combination of software and firmware.
  • the software or firmware is described as a program and stored in the memory 100 d.
  • the processor 100c realizes each function of the word search unit 101, the word vector extraction unit 102, the character vector conversion unit 104, the feature amount acquisition unit 105, and the estimation unit 106 by reading and executing the program stored in the memory 100d. Do.
  • the word search unit 101, the word vector extraction unit 102, the character vector conversion unit 104, the feature amount acquisition unit 105, and the estimation unit 106 when executed by the processor 100c, each step shown in FIG. And a memory 100d for storing a program to be executed. These programs can also be said to cause a computer to execute the procedure or method of the word search unit 101, the word vector extraction unit 102, the character vector conversion unit 104, the feature amount acquisition unit 105, and the estimation unit 106.
  • the processor 100 c refers to, for example, a central processing unit (CPU), a processing device, an arithmetic device, a processor, a microprocessor, a microcomputer, or a digital signal processor (DSP).
  • the memory 100d may be, for example, a nonvolatile or volatile semiconductor memory such as a random access memory (RAM), a read only memory (ROM), a flash memory, an erasable programmable ROM (EPROM), or an electrically EPROM (EEPROM). It may be a hard disk, a magnetic disk such as a flexible disk, or an optical disk such as a mini disk, a CD (Compact Disc), a DVD (Digital Versatile Disc), or the like.
  • RAM random access memory
  • ROM read only memory
  • EPROM erasable programmable ROM
  • EEPROM electrically EPROM
  • It may be a hard disk, a magnetic disk such as a flexible disk, or an optical disk such as a mini disk, a CD (
  • the functions of the word search unit 101, the word vector extraction unit 102, the character vector conversion unit 104, the feature amount acquisition unit 105, and the estimation unit 106 are partially realized by dedicated hardware, and some are software or firmware. It may be realized by As described above, the processing circuit in the word semantic relationship estimation device 100 can realize each of the functions described above by hardware, software, firmware, or a combination thereof.
  • FIG. 3 is a flowchart showing the operation of the word semantic relationship estimation device 100 according to the first embodiment.
  • the word search unit 101 searches each word forming the input word pair from the word vector database 103 (step ST2).
  • the word search unit 101 determines, for each word, whether one or more search results in step ST2 exist (step ST3).
  • step ST3 for example, when the word pair is composed of a first word and a second word, there are one or more search results for the first word, and a search for the second word It is determined whether there are one or more results. If one or more search results do not exist (step ST3; NO), the word search unit 101 ends the process.
  • step ST4 when one or more search results exist (step ST3; YES), the word search unit 101 outputs the search results to the word vector extraction unit 102 (step ST4).
  • step ST4 for example, when there are one or more search results for the first word and one or more search results for the second word, the search result for the first word and the second The search result of the word is output to the word vector extraction unit 102.
  • the word vector extraction unit 102 extracts a word vector corresponding to the word of the search result input in step ST4 from the word vector database 103 (step ST5).
  • the word vector extraction unit 102 outputs the word vector extracted in step ST5 to the feature amount acquisition unit 105.
  • the character vector conversion unit 104 divides the words forming the word pair input in step ST1 into character units and converts them into character vectors (step ST6).
  • the character vector conversion unit 104 outputs the converted character vector to the feature amount acquisition unit 105.
  • the feature amount acquiring unit 105 combines the word vector extracted in step ST5 and the character vector converted in step ST6 to acquire a feature amount (step ST7).
  • the feature amount acquisition unit 105 outputs the feature amount acquired in step ST7 to the estimation unit 106.
  • the estimation unit 106 estimates the semantic relationship between the words from the feature amount input from the feature amount acquisition unit 105 using the word meaning estimator constructed in advance (step ST8).
  • the estimation unit 106 outputs the information indicating the semantic relation between the words estimated in step ST8 to the display device 300 (step ST9), and the process ends.
  • the word search unit 101 for searching the word vector database 103 for each word constituting the input word pair, and the word vector corresponding to each searched word , A word vector extraction unit 102 extracted from the word vector database 103, a character vector conversion unit 104 converting the characters constituting the word pair into a character vector, a word vector of each extracted word, and a converted character vector And the estimation unit 106 for estimating the semantic relationship between each word from the acquired feature amount, and therefore a word vector representing the meaning of the word.
  • a character vector representing the meaning of characters as a feature quantity to estimate the semantic relationship between words. This makes it possible to accurately estimate the semantic relationship between two words that can be an antinym that makes it difficult to estimate the semantic relationship with the word vector alone.
  • FIG. 4 is a block diagram showing the configuration of the word semantic relationship estimation device 100A according to the second embodiment.
  • the word semantic relation estimation apparatus 100A is configured by adding an estimator switching unit 107 to the word semantic relation estimation apparatus 100 according to the first embodiment shown in FIG. Further, in place of the feature acquisition unit 105 and the estimation unit 106 of the word semantic relationship estimation apparatus 100 according to the first embodiment shown in FIG. 1, a feature acquisition unit 105 a and an estimation unit 106 a are provided.
  • parts identical or corresponding to the constituent elements of word semantic relationship estimation apparatus 100 according to Embodiment 1 will be assigned the same reference numerals as those used in Embodiment 1, and the description will be omitted or simplified. .
  • the word pairs input to the input device 200 may include words that do not exist in the word vector database 103, that is, unknown words.
  • the word semantic relationship estimation device 100 shown in Embodiment 1 can not estimate the semantic relationship between words because the word vector of the unknown word is not extracted. Therefore, in the word semantic relationship estimation device 100A of the second embodiment, when an unknown word is included in a word pair, the estimator switching unit 107 switches the estimator used for estimation in the estimation unit 106a.
  • the word search unit 101 searches the word vector database 103 for each word constituting a word pair.
  • the word search unit 101 determines whether one or more search results exist for each word.
  • the word search unit 101 outputs the determination result to the estimator switching unit 107. Further, when it is determined that one or more search results exist for each word, the word search unit 101 outputs the search results to the word vector extraction unit 102.
  • the estimator switching unit 107 includes a first estimator that uses a word vector and a character vector as feature amounts, and a second estimator that uses only a character vector as a feature amount. It is determined which to apply to the estimation unit 106a. That is, when the determination result that one or more search results exist is input from the word search unit 101, the estimator switching unit 107 determines to apply the first estimator, and one search result is obtained. When the determination result that the above does not exist is input, it is determined to apply the second estimator. The estimator switching unit 107 instructs the estimation unit 106 a to apply the determined estimator.
  • the feature amount acquisition unit 105a When a word vector is input from the word vector extraction unit 102, the feature amount acquisition unit 105a combines the word vector with the character vector converted by the character vector conversion unit 104 to acquire a feature amount. On the other hand, when the word vector is not input from the word vector extraction unit 102, the feature amount acquisition unit 105a acquires the character vector converted by the character vector conversion unit 104 as the feature amount.
  • the estimation unit 106 a switches between the first estimator and the second estimator based on the estimator switching instruction input from the estimator switching unit 107.
  • the estimation unit 106 a switches to the first estimator, the feature amount is obtained by combining the word vector and the character vector input from the feature amount acquisition unit 105 using the first estimator. Estimate the semantic relationship between words.
  • the estimation unit 106a switches to the second estimator, the estimation unit 106a estimates the semantic relationship between the words from the feature amounts of the character vector input from the feature amount acquisition unit 105 using the second estimator. .
  • a processor that executes a program stored in the processing circuit 100b shown in FIG. 2A or the memory 100d shown in FIG. 2B in the estimator switching unit 107, the feature acquisition unit 105a and the estimation unit 106a in the word semantic relationship estimation device 100A. It is 100c.
  • FIG. 5 is a flowchart showing the operation of the word semantic relationship estimation device 100A of the invention according to the second embodiment.
  • the same steps as those in the word semantic relationship estimation device 100 of the invention according to the first embodiment are given the same reference symbols as the reference symbols shown in FIG. 3, and the explanation will be omitted or simplified.
  • the estimator switching unit 107 determines the first estimator in the estimation unit 106a based on the determination result. It decides application of (step ST11).
  • the estimator switching unit 107 instructs the estimation unit 106 a to apply the first estimator.
  • the estimating unit 106a switches the estimating unit 106a based on the instruction from the estimator switching unit 107 (step ST12). Thereafter, the word semantic relationship estimation device 100A performs the processing from step ST4 to step ST7.
  • the estimator switching unit 107 determines whether the second search unit 106a determines the second search unit based on the determination result. The application of the estimator of is determined (step ST13). The estimator switching unit 107 instructs the estimation unit 106 a to apply the second estimator. The estimation unit 106a switches the estimation unit 106a based on the instruction from the estimation unit switching unit 107 (step ST14).
  • the character vector conversion unit 104 divides each word constituting the word pair input in step ST1 into character units and converts it into a character vector (step ST15).
  • the character vector conversion unit 104 outputs the converted character vector to the feature amount acquisition unit 105.
  • the feature amount acquisition unit 105 acquires the character vector converted in step ST15 as a feature amount (step ST16).
  • the feature amount acquisition unit 105 outputs the acquired feature amount to the estimation unit 106a.
  • the estimation unit 106a uses the estimator switched in step ST12 or step ST14 to estimate the semantic relationship between words from the feature amount acquired in step ST7 or step ST16 (step ST17).
  • the estimation unit 106a outputs information indicating the semantic relationship between the words estimated in step ST17 to the display device 300 (step ST9), and ends the process.
  • the feature amount acquisition unit 105a includes an estimator switching unit 107 that switches between a first estimator that estimates a semantic relationship and a second estimator that estimates a semantic relationship between each word using only character vectors as feature amounts.
  • the word search unit 101 searches each word from the word vector database 103, the feature amount obtained by combining the word vector and the character vector is acquired, and when each word can not be searched from the word vector database, the character vector Is acquired as the feature amount, and the estimation unit 106a applies the first estimator or the second estimator according to the switching of the estimator switching unit 107, Since the semantic relationship between each word is estimated from the feature amount acquired by the feature acquisition unit 105a, even when an unknown word is included in the input word pair, it is possible to switch between the words by switching the estimator. The semantic relationship of can be estimated.
  • FIG. 6 is a block diagram showing the configuration of the word semantic relationship estimation device 100B according to the third embodiment.
  • the word semantic relation estimation apparatus 100B is configured by adding an additional search unit 108 to the word semantic relation estimation apparatus 100A of the second embodiment shown in FIG. Further, in place of the estimator switching unit 107 of the word semantic relationship estimation device 100A of the second embodiment shown in FIG. 4, an estimator switching unit 107a is provided.
  • parts identical or corresponding to the constituent elements of word semantic relationship estimation apparatus 100A according to Embodiment 2 will be assigned the same codes as those used in Embodiment 2 to omit or simplify the description. .
  • the word pairs input to the input device 200 may include words that do not exist in the word vector database 103, that is, unknown words.
  • the word semantic relationship estimation device 100A described in the second embodiment switches the estimators of the estimation unit 106a, and estimates the semantic relationship between the words using the character vector as a feature amount.
  • the word semantic relationship estimation device 100B according to the third embodiment further adds, to the word vector database, a word whose partial match with the character string constituting the unknown word by the additional search unit 108 when the unknown word is included in the word pair. Search from 103.
  • the word search unit 101 searches the word vector database 103 for each word constituting a word pair. When it is determined that one or more search results exist, the word search unit 101 notifies that to the estimator switching unit 107a, and outputs the search results to the word vector extraction unit 102. On the other hand, when it is determined that one or more search results do not exist, the word search unit 101 outputs each word constituting the word pair to the additional search unit 108.
  • the additional search unit 108 acquires a partial word from each word input from the word search unit 101.
  • the additional search unit 108 searches the word vector database 103 for the acquired partial word.
  • the additional search unit 108 outputs the determination result as to whether or not one or more search results exist to the estimator switching unit 107a. When it is determined that one or more search results exist, the additional search unit 108 outputs the search results to the word vector extraction unit 102.
  • the estimator switching unit 107a determines a first estimator that uses a word vector and a character vector as feature amounts according to the search result input from the word search unit 101 and the search result input from the additional search unit 108. It is determined which one of the second estimator that uses only the vector as the feature amount to be applied to the estimation unit 106a. That is, the estimator switching unit 107a refers to the search result input from the word search unit 101, and when one or more search results exist, refers to the search result input from the additional search unit 108, and searches the search result. If there is one or more cases, it is decided to apply the first estimator.
  • the estimator switching unit 107a refers to the search result input from the word search unit 101, and one or more search results do not exist. And, with reference to the search result input from the additional search unit 108, when there is one or more search results, it is decided to apply the second estimator.
  • the estimator switching unit 107a instructs the estimating unit 106a to apply the determined estimator.
  • the word vector extraction unit 102 extracts, from the word vector database 103, a word vector corresponding to the word searched in the word search unit 101 or the partial word searched in the additional search unit 108.
  • the word vector extraction unit 102 outputs the extracted word vector to the feature amount acquisition unit 105 a.
  • the feature amount acquisition unit 105a when a word vector is input from the word vector extraction unit 102, the feature amount acquisition unit 105a combines the word vector with the character vector converted by the character vector conversion unit 104. And acquire the feature amount. On the other hand, when the word vector is not input from the word vector extraction unit 102, the feature amount acquisition unit 105a acquires the character vector converted by the character vector conversion unit 104 as the feature amount.
  • estimation section 106a switches between the first and second estimators based on the estimator switching instruction input from estimator switching section 107a.
  • the estimation unit 106 a switches to the first estimator, the feature amount is obtained by combining the word vector and the character vector input from the feature amount acquisition unit 105 using the first estimator. Estimate the semantic relationship between words.
  • the estimation unit 106a switches to the second estimator, the estimation unit 106a estimates the semantic relationship between the words from the feature amounts of the character vector input from the feature amount acquisition unit 105 using the second estimator. .
  • the estimator switching unit 107a, the feature acquisition unit 105a, the estimation unit 106a and the additional search unit 108 in the word semantic relationship estimation device 100B are stored in the processing circuit 100b shown in FIG. 2A or the memory 100d shown in FIG. 2B. It is a processor 100c that executes a program.
  • the additional search unit 108 searches the word vector database 103 for the word “temporary freezing” not registered in the word vector database 103 will be described as an example.
  • the additional search unit 108 acquires, for example, a partial word in units of two characters for “temporary freezing”.
  • the additional search unit 108 acquires the character strings "instant cooling" and "frozen” that constitute "instant freezing” as partial words.
  • the additional search unit 108 searches the word vector database 103 for partial words of “instant cooling” and “frozen”.
  • "frozen" is registered in the word vector database 103.
  • the additional search unit 108 refers to the word vector database 103, and acquires a partial word "frozen” as a search result.
  • the additional search unit 108 determines that one or more search results exist.
  • the additional search unit 108 extracts the word vector "frozen” in place of the word "temporary freezing".
  • the additional search unit 108 searches for another word whose meaning is close to the unknown word, using the characters constituting the unknown word as a clue, and the word vector extraction unit 102 converts another word whose meaning is near to the unknown word into a word vector .
  • the additional search unit 108 acquires a partial word in units of two characters.
  • the partial word may be acquired by changing the number of characters such as a partial word in units of three characters.
  • the word vector extraction unit 102 may extract an average vector of word vectors of partial words as a word vector.
  • the word vector extraction unit 102 calculates the average vector by giving a weight according to the number of characters of the matched partial word, assuming that the word with the large number of characters matches closer to the meaning of the unknown word. You may
  • FIG. 7 is a flowchart showing the operation of the word semantic relationship estimation device 100B of the invention according to the third embodiment.
  • the same steps as those in the word semantic relationship estimation device 100A of the invention according to the second embodiment are given the same reference symbols as the reference symbols shown in FIG. 5, and the explanation will be omitted or simplified.
  • step ST3 when word search unit 101 determines that one or more search results exist (step ST3; YES), processing in steps ST11, ST12 and ST4 to step ST7 is performed as in the second embodiment. .
  • step ST3; NO when the word search unit 101 determines that there is not one or more search results in step ST3 (step ST3; NO), the word search unit 101 outputs each word constituting the word pair to the additional search unit 108 Do.
  • the additional search unit 108 acquires a partial word from the word input from the word search unit 101 (step ST21).
  • the additional search unit 108 searches the word vector database 103 for the partial word acquired in step ST21 (step ST22).
  • step ST23 determines whether one or more search results exist (step ST23).
  • the estimator switching unit 107a determines application of the first estimator to the estimating unit 106a based on the determination result (step ST24).
  • the estimator switching unit 107a instructs the estimation unit 106a to apply the first estimator.
  • the estimating unit 106a switches the estimating unit 106a based on the instruction from the estimator switching unit 107a (step ST25).
  • the additional search unit 108 outputs the search result to the word vector extraction unit 102 (step ST26). Thereafter, the word semantic relationship estimation device 100B performs the processing from step ST5 to step ST7.
  • step ST23 when it is determined that one or more search results do not exist (step ST23; NO), the processing from step ST13 to step ST16 is performed.
  • the estimation unit 106a uses the estimator switched in step ST12, step ST25 or step ST14 to estimate the semantic relationship between words from the feature amount acquired in step ST7 or step ST16 (step ST27).
  • the estimation unit 106a outputs information indicating the semantic relationship between the words estimated in step ST27 to the display device 300 (step ST9), and ends the process.
  • the word search unit 101 when the word search unit 101 can not search each word from the word vector database 103, the word search unit 101 partially matches the characters constituting the unknown word included in the word pair.
  • the additional search unit 108 searches a word from the word vector database 103, and the estimator switching unit 107a searches the word vector database 103 for a word partially matching the characters constituting the unknown word.
  • the first estimation unit and the second estimation unit are switched based on whether the additional retrieval unit 108 searches the word vector database 103 for a word that partially matches the character forming the unknown word.
  • the feature quantity combining the word vector and the character vector is acquired, and the word partially matching the character forming the unknown word is used as the word Since the character vector is acquired as the feature amount when the search is not possible from the database for Kutur, the character constituting the unknown word is used as a clue and the word vector of another word having a meaning close to the unknown word is used.
  • the semantic relationship between words can be estimated.
  • the word semantic relationship estimating apparatus 100A shown in the second embodiment is configured by adding the additional search unit 108, but the word semantic relationship shown in the first embodiment is described.
  • the additional search unit 108 may be added to the estimation device 100.
  • the word search unit 101 if the word search unit 101 can not search each word from the word vector database 103, the word search unit 101 additionally searches the word vector database 103 for a word that partially matches the characters constituting the unknown word included in the word pair.
  • the search unit 108 is provided, and the word vector extraction unit 102 is configured to search the word vector database 103 for a word vector corresponding to a word that partially matches the characters constituting the unknown word searched by the additional search unit 108. According to this configuration, it is possible to estimate the semantic relationship between the words by using the word vector of another word whose meaning is similar to the unknown word, with the characters constituting the unknown word as a clue.
  • the estimation units 106 and 106a including an estimator using thesaurus as teacher data estimate the semantic relationship between words.
  • the estimation unit 106 106 a estimates the semantic relationship of the input word pair based on the structure information of the thesaurus, it estimates the distance between upper and lower relationships of the word pair, that is, the extraction degree. Show the configuration to be Thereby, for example, when creating a sentence that paraphrased the input sentence, it is possible to adjust the extraction degree of the word to be replaced.
  • the estimation units 106 and 106a input the feature quantities acquired by the feature quantity acquisition units 105 and 105a to the estimator shown in the first to third embodiments to estimate the semantic relationship of the word pair.
  • the extraction degree of the semantic relation of the estimated word pair is estimated.
  • the extraction degree of the semantic relationship of the word pair is the distance of the upper-lower relationship of the word pair.
  • the estimation units 106 and 106a obtain the extraction degree of the semantic relationship of the word pair from the structure information on the thesaurus.
  • FIG. 8 is a diagram showing upper and lower relationships of words registered in the thesaurus.
  • the extraction degree of the word “fish” and the word “horse mackerel” is “1”.
  • the degree of extraction of “food” and the word “horse mackerel” defined above the word “fish” is “2”.
  • the estimation units 106 and 106a obtain the extraction degree of the semantic relationship of the word pair based on the definition shown in FIG. 8, for example.
  • the estimation units 106 and 106a obtain the degree of extraction of the word and output it as an estimation result.
  • the extraction degree can be used as an index for selecting a word to be replaced, and the word to be replaced can be selected.
  • the estimation units 106 and 106a estimate the semantic relationship between the respective words whose semantic relationship has been estimated based on the structure information of the teacher data of the estimator that estimates the semantic relationship between the words. Since the extraction degree indicating the distance between the upper order and the lower order is estimated, it is possible to replace the word in which the structure information of the thesaurus is reflected.
  • the present invention allows free combination of each embodiment, modification of any component of each embodiment, or omission of any component of each embodiment. It is.
  • the word semantic relationship estimation apparatus is suitable for being used in an information retrieval system which is required to appropriately handle an antinym, for example, in a technique of handling a natural language such as a document retrieval technique.
  • 100, 100A, 100B Word Semantic Relation Estimator 101 Word Search Unit, 102 Word Vector Extraction Unit, 103 Word Vector Database, 104 Character Vector Conversion Unit, 105, 105a Feature Amount Acquisition Unit, 106, 106a Estimation Unit, 107, 107a Estimator switching unit, 108 additional search unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

入力された単語ペアを構成する各単語を、データベースから検索する単語検索部(101)と、検索された各単語に対応する単語ベクトルを、単語ベクトルデータベース(103)から抽出する単語ベクトル抽出部(102)と、単語ペアを構成する文字を文字ベクトルに変換する文字ベクトル変換部(104)と、抽出された各単語の単語ベクトルと、変換された文字ベクトルとを結合して特徴量を取得する特徴量取得部(105)と、取得された特徴量から各単語間の意味関係を推定する推定部(106)とを備える

Description

単語意味関係推定装置および単語意味関係推定方法
 この発明は、単語間の意味的な関係を推定する技術に関するものである。
 近年、パソコンおよびインターネットの普及により、ユーザがアクセス可能な電子化文書の量が増大している。大規模な文書情報の中から、ユーザの所望する文書を効率的に発見するための技術が求められている。文書検索技術に代表される、自然言語を扱う技術では、言語の曖昧性、すなわち多義性または同義性を適切に扱うことが求められる。多義性は、同一の単語に対して複数の意味が存在することであり、ノイズの原因となる。一方、同義性は、同一の意味を持つ単語が複数存在することであり、漏れの原因、すなわち情報の見落としの原因となる。
 上位下位関係等を考慮して単語を分類したシソーラスは、文書における言語表現の揺れを吸収し、多義性または同義性の問題を解決するための言語資源であり、各種の言語処理アプリケーションで使用される。一方、シソーラスを人手によって作成するためにはコストがかかることから、従来より、テキストデータから自動でシソーラスを作成することが試みられている。非特許文献1では、既存のシソーラスを正解として用いて、単語間の意味関係を推定する統計モデルの学習方式が提案されている。
 また、非特許文献1では、2つの単語(以下、単語ペアと記載する)間の上位下位同位関係のような意味関係を推定する統計モデルの学習に用いる特徴量として、単語を多次元の数値ベクトルに変換した単語ベクトルを利用することが開示されている。ここで、単語ベクトルに変換する技術は、例えば非特許文献2に開示された、文脈を考慮して文中の単語の位置関係を利用することにより、単語の意味を表す密な多次元の数値ベクトルに変換する方式が適用されている。単語ベクトルに変換する技術として、非特許文献2に開示された方式を適用した場合、対義語のように、類似した文脈で出現する意味の異なる単語が、類似する単語ベクトルに変換され、対義語となり得る単語を含む単語ペアについて、正しい意味関係が推定されない場合があるという問題があった。
 この問題を解消するための技術として、特許文献1には、テキスト中の任意の単語ペアについて、文脈ベース類似度、表記ベース類似度およびパターンベース類似度を計算し、計算した複数種類の類似度を要素する素性ベクトルを生成して単語間の意味関係を識別する単語意味関係抽出装置が開示されている。
WO2014/033799
Julie Weeds et al., "Learning to Distinguish Hypernyms and Co-Hyponyms", COLING, 2014. Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean, "Efficient Estimation of Word Representations in Vector Space", ICLR 2013.
 しかし、上述した特許文献1に開示された技術では、類似度を算出する方法がスパースであり、当該類似度を要素とする素性ベクトルが有効な特徴量となり得ない場合があるという課題があった。
 この発明は、上記のような課題を解決するためになされたもので、単語間の意味関係を識別する有効な特徴量を取得し、対義語となり得る2つの単語間の意味関係を推定する精度を向上させることを目的とする。
 この発明に係る単語意味関係推定装置は、入力された単語ペアを構成する各単語を、データベースから検索する単語検索部と、単語検索部が検索した各単語に対応する単語ベクトルを、データベースから抽出する単語ベクトル抽出部と、単語ペアを構成する文字を文字ベクトルに変換する文字ベクトル変換部と、単語ベクトル抽出部が抽出した各単語の単語ベクトルと、文字ベクトル変換部が変換した文字ベクトルとを結合して特徴量を取得する特徴量取得部と、特徴量取得部が取得した特徴量から各単語間の意味関係を推定する推定部とを備えるものである。
 この発明によれば、単語間の意味関係を識別する有効な特徴量を取得することができる。これにより、対義語となり得る2つの単語間の意味関係を推定する精度を向上させることができる。
実施の形態1に係る単語意味関係推定装置の構成を示すブロック図である。 図2A、図2Bは、実施の形態1に係る単語意味関係推定装置のハードウェア構成例を示す図である。 実施の形態1に係る単語意味関係推定装置の動作を示すフローチャートである。 実施の形態2に係る単語意味関係推定装置の構成を示すブロック図である。 実施の形態2に係る単語意味関係推定装置の動作を示すフローチャートである。 実施の形態3に係る単語意味関係推定装置の構成を示すブロック図である。 実施の形態3に係る単語意味関係推定装置の動作を示すフローチャートである。 シソーラスに登録された単語の上位下位関係を示した図である。
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、実施の形態1に係る単語意味関係推定装置100の構成を示すブロック図である。
 単語意味関係推定装置100は、単語検索部101、単語ベクトル抽出部102、単語ベクトルデータベース(データベース)103、文字ベクトル変換部104、特徴量取得部105および推定部106を備える。
 また、単語意味関係推定装置100には、入力装置200および表示装置300が接続されている。入力装置200は、例えばマウスまたはキーボートで構成される。表示装置300は、例えばディスプレイで構成される。
 単語検索部101は、入力装置200から入力された対義語となり得る2つの単語(以下、単語ペアと記載する)を構成する各単語を、単語ベクトルデータベース103から検索する。単語検索部101は、検索結果を単語ベクトル抽出部102に出力する。単語ベクトル抽出部102は、単語ベクトルデータベース103から、単語検索部101が検索した各単語に対応する単語ベクトルを抽出する。単語ベクトル抽出部102は、抽出した単語ベクトルを特徴量取得部105に出力する。単語ベクトルデータベース103は、WEB上のテキストデータ等を用いて作成されるデータベースである。単語ベクトルデータベース103の作成には、上述した非特許文献2で開示されている公知の技術を利用することができる。単語ベクトルデータベース103は、種々の単語と、当該単語に対応する単語ベクトルとを対応付けて構成している。単語ベクトルデータベース103は、外部装置が備えて構成してもよい。
 文字ベクトル変換部104は、入力装置200から入力された単語ペアを構成する文字について、多次元のベクトルに変換して文字ベクトルを取得する。文字ベクトル変換部104は、取得した文字ベクトルを特徴量取得部105に出力する。文字ベクトルの生成方法には、非特許文献2で開示されている公知の技術を利用することができる。文字ベクトル変換部104は、文字と文字ベクトルとを対応付けて記憶した文字ベクトルデータベース(図示しない)を参照してもよいし、後述する機械学習アルゴリズムを用いて構築する推定器の学習時に文字ベクトルを学習してもよい。
 特徴量取得部105は、単語ベクトル抽出部102が抽出した2つの単語の単語ベクトルと、文字ベクトル変換部104が変換した文字ベクトルとを結合する。例えば、特徴量取得部105は、単語ベクトル(100次元)と、文字ベクトル(50次元)とを結合すると、150次元のベクトルが作成される。特徴量取得部105は、単語ベクトルと文字ベクトルとを結合することにより、単語ベクトルに文字の意味を表す文字ベクトルを追加した特徴量を作成する。特徴量取得部105が単語ベクトルに文字ベクトルを追加した特徴量を作成することにより、単語ベクトルのみでは違いを判別し難い対義語となり得る単語を含む単語ペアについて文字ベクトルから意味の違いが判別可能となる。
 例えば、「安定」と「不安定」との単語は、類似する文脈で用いられる単語である。そのため、例えば非特許文献2で開示された方式を適用して、「安定」および「不安定」との単語を単語ベクトルに変換すると、当該2つの単語は類似した単語ベクトルに変換され、単語ベクトルから2つの単語の意味の違いを判別することが難しい。
 一方、この実施の形態1では、特徴量取得部105が2つの単語の単語ベクトルと、文字ベクトルとを結合することにより、2つの単語間の「不」の文字ベクトルが差異として確認され、文字ベクトルから2つの単語の意味の違いを判別することができる。特徴量取得部105は、結合によって得られた特徴量を推定部106に出力する。
 推定部106は、特徴量取得部105から入力された特徴量を推定器に入力し、単語ペアの意味関係を推定する。ここで、推定器は、WordNet等の単語間の意味関係を明示したシソーラスを教師データとして教師あり学習により構築する。具体的には、推定部106は入力された単語ペアについて上位下位同位関係ラベルを「1」と推定し、それ以外を「0」と推定する2値分類器を構築する。このとき、上位関係ラベル、下位関係ラベル、同位関係ラベルのように、多クラス分類器としてもよい。推定器の学習方法は、任意の方法を適用することができる。例えば、以下に示す参考文献1に開示されている、One versus Rest(One-against-the-Rest)法を適用することができる。
・参考文献1
J. Weston and C. Watkins, "Multi-class support vector machines", Royal Holloway Technical Report CSD-TR-98-04, 1998.
 なお、図1では、単語意味関係推定装置100が単語ベクトルデータベース103を備える構成を示したが、当該構成に限定されるものではない。単語意味関係推定装置100は、単語ベクトルデータベース103に替えて、クラウド上に存在する記憶装置(図示しない)に、通信インタフェース(図示しない)を介して単語検索部101または単語ベクトル抽出部102がアクセスするように構成してもよい。
 次に、単語意味関係推定装置100のハードウェア構成例を説明する。
 図2Aおよび図2Bは、実施に形態1に係る単語意味関係推定装置100のハードウェア構成例を示す図である。
 単語意味関係推定装置100における単語ベクトルデータベース103は、ストレージ100aにより実現される。単語意味関係推定装置100における単語検索部101、単語ベクトル抽出部102、文字ベクトル変換部104、特徴量取得部105および推定部106の各機能は、処理回路により実現される。即ち、単語意味関係推定装置100は、上記各機能を実現するための処理回路を備える。当該処理回路は、図2Aに示すように専用のハードウェアである処理回路100bであってもよいし、図2Bに示すようにメモリ100dに格納されているプログラムを実行するプロセッサ100cであってもよい。
 図2Aに示すように、単語検索部101、単語ベクトル抽出部102、文字ベクトル変換部104、特徴量取得部105および推定部106が専用のハードウェアである場合、処理回路100bは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-programmable Gate Array)、またはこれらを組み合わせたものが該当する。単語検索部101、単語ベクトル抽出部102、文字ベクトル変換部104、特徴量取得部105および推定部106の各部の機能それぞれを処理回路で実現してもよいし、各部の機能をまとめて1つの処理回路で実現してもよい。
 図2Bに示すように、単語検索部101、単語ベクトル抽出部102、文字ベクトル変換部104、特徴量取得部105および推定部106がプロセッサ100cである場合、各部の機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアはプログラムとして記述され、メモリ100dに格納される。プロセッサ100cは、メモリ100dに記憶されたプログラムを読み出して実行することにより、単語検索部101、単語ベクトル抽出部102、文字ベクトル変換部104、特徴量取得部105および推定部106の各機能を実現する。即ち、単語検索部101、単語ベクトル抽出部102、文字ベクトル変換部104、特徴量取得部105および推定部106は、プロセッサ100cにより実行されるときに、後述する図3に示す各ステップが結果的に実行されることになるプログラムを格納するためのメモリ100dを備える。また、これらのプログラムは、単語検索部101、単語ベクトル抽出部102、文字ベクトル変換部104、特徴量取得部105および推定部106の手順または方法をコンピュータに実行させるものであるともいえる。
 ここで、プロセッサ100cとは、例えば、CPU(Central Processing Unit)、処理装置、演算装置、プロセッサ、マイクロプロセッサ、マイクロコンピュータ、またはDSP(Digital Signal Processor)などのことである。
 メモリ100dは、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable ROM)、EEPROM(Electrically EPROM)等の不揮発性または揮発性の半導体メモリであってもよいし、ハードディスク、フレキシブルディスク等の磁気ディスクであってもよいし、ミニディスク、CD(Compact Disc)、DVD(Digital Versatile Disc)等の光ディスクであってもよい。
 なお、単語検索部101、単語ベクトル抽出部102、文字ベクトル変換部104、特徴量取得部105および推定部106の各機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。このように、単語意味関係推定装置100における処理回路は、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせによって、上述の各機能を実現することができる。
 次に、単語意味関係推定装置100の動作について説明する。
 図3は、実施の形態1に係る単語意味関係推定装置100の動作を示すフローチャートである。
 入力装置200から単語ペアが入力されると(ステップST1)、単語検索部101は、入力された単語ペアを構成する各単語を、単語ベクトルデータベース103から検索する(ステップST2)。単語検索部101は、各単語について、ステップST2の検索結果が一件以上存在するか否か判定を行う(ステップST3)。ステップST3の判定処理は、例えば単語ペアが第1の単語と第2の単語とで構成されていた場合に、第1の単語について検索結果が一件以上存在し、且つ第2の単語について検索結果が一件以上存在したか否かの判定を行うものである。検索結果が一件以上存在しない場合(ステップST3;NO)、単語検索部101は処理を終了する。
 一方、検索結果が一件以上存在する場合(ステップST3;YES)、単語検索部101は検索結果を単語ベクトル抽出部102に出力する(ステップST4)。ステップST4の処理は、例えば、第1の単語について検索結果が一件以上存在し、且つ第2の単語について検索結果が一件以上存在した場合に、第1の単語の検索結果と、第2の単語の検索結果とを、単語ベクトル抽出部102に出力する。単語ベクトル抽出部102は、ステップST4で入力された検索結果の単語に対応する単語ベクトルを、単語ベクトルデータベース103から抽出する(ステップST5)。単語ベクトル抽出部102は、ステップST5で抽出した単語ベクトルを、特徴量取得部105に出力する。
 文字ベクトル変換部104は、ステップST1で入力された単語ペアを構成する単語を文字単位に分割し、文字ベクトルに変換する(ステップST6)。文字ベクトル変換部104は、変換した文字ベクトルを特徴量取得部105に出力する。
 特徴量取得部105は、ステップST5で抽出された単語ベクトルと、ステップST6で変換された文字ベクトルとを結合して特徴量を取得する(ステップST7)。特徴量取得部105は、ステップST7で取得した特徴量を推定部106に出力する。推定部106は、予め構築した単語意味推定器を用いて、特徴量取得部105から入力された特徴量から単語間の意味関係を推定する(ステップST8)。推定部106は、ステップST8で推定した単語間の意味関係を示す情報を表示装置300に出力し(ステップST9)、処理を終了する。
 以上のように、この実施の形態1によれば、入力された単語ペアを構成する各単語を、単語ベクトルデータベース103から検索する単語検索部101と、検索された各単語に対応する単語ベクトルを、単語ベクトルデータベース103から抽出する単語ベクトル抽出部102と、単語ペアを構成する文字を文字ベクトルに変換する文字ベクトル変換部104と、抽出された各単語の単語ベクトルと、変換された文字ベクトルとを結合して特徴量を取得する特徴量取得部105と、取得された特徴量から各単語間の意味関係を推定する推定部106とを備えるように構成したので、単語の意味を表す単語ベクトルに加え、文字の意味を表す文字ベクトルを特徴量とし、単語間の意味関係を推定することができる。これにより、意味関係の推定が単語ベクトルのみでは困難な対義語となる得る2つの単語間の意味関係を精度よく推定することができる。
実施の形態2.
 この実施の形態2では、未知語を含む単語ペアから、単語間の意味関係を推定する構成を示す。
 図4は、実施の形態2に係る単語意味関係推定装置100Aの構成を示すブロック図である。
 単語意味関係推定装置100Aは、図1で示した実施の形態1の単語意味関係推定装置100に、推定器切替部107を追加して構成している。また、図1で示した実施の形態1の単語意味関係推定装置100の特徴量取得部105および推定部106に替えて、特徴量取得部105aおよび推定部106aを設けて構成している。
 以下では、実施の形態1に係る単語意味関係推定装置100の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
 入力装置200に入力された単語ペアには、単語ベクトルデータベース103に存在しない単語、すなわち未知語が含まれる場合がある。実施の形態1で示した単語意味関係推定装置100は、単語ペアに未知語が含まれる場合、当該未知語の単語ベクトルが抽出されないため、単語間の意味関係を推定することができない。そこで、この実施の形態2の単語意味関係推定装置100Aは、単語ペアに未知語が含まれる場合に、推定器切替部107が推定部106aにおいて推定に用いられる推定器の切り替えを行う。
 まず、単語検索部101は、実施の形態1と同様に単語ペアを構成する各単語を単語ベクトルデータベース103から検索する。単語検索部101は、各単語について検索結果が一件以上存在するか否か判定を行う。単語検索部101は、判定結果を推定器切替部107に出力する。また、単語検索部101は、各単語について検索結果が一件以上存在したと判定した場合には、単語ベクトル抽出部102に検索結果を出力する。
 推定器切替部107は、単語検索部101の判定結果に応じて、単語ベクトルおよび文字ベクトルを特徴量とする第1の推定器と、文字ベクトルのみを特徴量とする第2の推定器とのいずれを、推定部106aに適用するか決定する。すなわち、推定器切替部107は、単語検索部101から検索結果が一件以上存在したとの判定結果が入力された場合には、第1の推定器を適用すると決定し、検索結果が一件以上存在しなかったとの判定結果が入力された場合には、第2の推定器を適用すると決定する。推定器切替部107は、決定した推定器の適用を、推定部106aに指示する。
 特徴量取得部105aは、単語ベクトル抽出部102から単語ベクトルが入力された場合には、当該単語ベクトルと、文字ベクトル変換部104で変換された文字ベクトルとを結合して特徴量を取得する。一方、特徴量取得部105aは、単語ベクトル抽出部102から単語ベクトルが入力されない場合には、文字ベクトル変換部104で変換された文字ベクトルを特徴量として取得する。
 推定部106aは、推定器切替部107から入力された推定器の切り替え指示に基づいて、第1の推定器と第2の推定器との切り替えを行う。推定部106aは、第1の推定器に切り替えた場合、当該第1の推定器を用いて、特徴量取得部105から入力された単語ベクトルと文字ベクトルとを結合して得られた特徴量から単語間の意味関係を推定する。また、推定部106aは、第2の推定器に切り替えた場合、当該第2の推定器を用いて、特徴量取得部105から入力された文字ベクトルの特徴量から単語間の意味関係を推定する。
 次に、単語意味関係推定装置100Aのハードウェア構成例を説明する。なお、実施の形態1と同一の構成の説明は省略する。
 単語意味関係推定装置100Aにおける推定器切替部107、特徴量取得部105aおよび推定部106aは、図2Aで示した処理回路100b、または図2Bで示したメモリ100dに格納されるプログラムを実行するプロセッサ100cである。
 次に、単語意味関係推定装置100Aの動作について、図5のフローチャートを参照しながら説明する。
 図5は、実施の形態2に係る発明の単語意味関係推定装置100Aの動作を示すフローチャートである。
 以下では、実施の形態1に係る発明の単語意味関係推定装置100と同一のステップには、図3で示した符号と同一の符号を付し、説明を省略または簡略化する。
 ステップST3において、単語検索部101が、検索結果が一件以上存在すると判定した場合(ステップST3;YES)、推定器切替部107は当該判定結果に基づいて、推定部106aに第1の推定器の適用を決定する(ステップST11)。推定器切替部107は、第1の推定器の適用を、推定部106aに指示する。推定部106aは、推定器切替部107からの指示に基づいて、推定部106aの切り替えを行う(ステップST12)。その後、単語意味関係推定装置100Aは、ステップST4からステップST7の処理を行う。
 一方、ステップST3において、単語検索部101が、検索結果が一件以上存在しないと判定した場合(ステップST3;NO)、推定器切替部107は当該判定結果に基づいて、推定部106aに第2の推定器の適用を決定する(ステップST13)。推定器切替部107は、第2の推定器の適用を、推定部106aに指示する。推定部106aは、推定器切替部107からの指示に基づいて、推定部106aの切り替えを行う(ステップST14)。
 文字ベクトル変換部104は、ステップST1で入力された単語ペアを構成する各単語を文字単位に分割し、文字ベクトルに変換する(ステップST15)。文字ベクトル変換部104は、変換した文字ベクトルを特徴量取得部105に出力する。特徴量取得部105は、ステップST15で変換された文字ベクトルを特徴量として取得する(ステップST16)。特徴量取得部105は、取得した特徴量を推定部106aに出力する。
 推定部106aは、ステップST12またはステップST14で切り替えた推定器を用いて、ステップST7またはステップST16において取得された特徴量から単語間の意味関係を推定する(ステップST17)。推定部106aは、ステップST17で推定した単語間の意味関係を示す情報を表示装置300に出力し(ステップST9)、処理を終了する。
 以上のように、この実施の形態2によれば、単語検索部101が各単語を単語ベクトルデータベース103から検索したか否かに基づいて、単語ベクトルと文字ベクトルとを特徴量として各単語間の意味関係を推定する第1の推定器と、文字ベクトルのみを特徴量として各単語間の意味関係を推定する第2の推定器とを切り替える推定器切替部107を備え、特徴量取得部105aは、単語検索部101が各単語を単語ベクトルデータベース103から検索した場合に、単語ベクトルと文字ベクトルとを結合した特徴量を取得し、各単語を単語ベクトルデータベースから検索できなかった場合に、文字ベクトルを特徴量として取得し、推定部106aは、推定器切替部107の切り替えに応じて第1の推定器または第2の推定器を適用し、特徴量取得部105aが取得した特徴量から各単語間の意味関係を推定するように構成したので、入力された単語ペアに未知語が含まれていた場合にも、推定器の切り替えにより単語間の意味関係を推定することができる。
実施の形態3.
 この実施の形態3では、入力された単語ペアに未知語が含まれていた場合に、当該未知語を構成する文字列に部分一致する単語を検索し、単語間の意味関係を推定する構成を示す。
 図6は、実施の形態3に係る単語意味関係推定装置100Bの構成を示すブロック図である。
 単語意味関係推定装置100Bは、図4で示した実施の形態2の単語意味関係推定装置100Aに、追加検索部108を追加して構成している。また、図4で示した実施の形態2の単語意味関係推定装置100Aの推定器切替部107に替えて、推定器切替部107aを設けて構成している。
 以下では、実施の形態2に係る単語意味関係推定装置100Aの構成要素と同一または相当する部分には、実施の形態2で使用した符号と同一の符号を付して説明を省略または簡略化する。
 入力装置200に入力された単語ペアには、単語ベクトルデータベース103に存在しない単語、すなわち未知語が含まれる場合がある。実施の形態2で示した単語意味関係推定装置100Aは、単語ペアに未知語が含まれる場合、推定部106aの推定器の切り替えを行い、文字ベクトルを特徴量として単語間の意味関係を推定した。一方、この実施の形態3の単語意味関係推定装置100Bは、単語ペアに未知語が含まれる場合に、さらに追加検索部108が未知語を構成する文字列に部分一致する単語を、単語ベクトルデータベース103から検索する。
 まず、単語検索部101は、実施の形態1と同様に単語ペアを構成する各単語を単語ベクトルデータベース103から検索する。単語検索部101は、検索結果が一件以上存在すると判定した場合に、その旨を推定器切替部107aに通知し、単語ベクトル抽出部102に検索結果を出力する。一方、単語検索部101は、検索結果が一件以上存在しないと判定した場合に、追加検索部108に単語ペアを構成する各単語を出力する。
 追加検索部108は、単語検索部101から入力された各単語から部分単語を取得する。追加検索部108は、取得した部分単語を単語ベクトルデータベース103から検索する。追加検索部108は、検索結果が一件以上存在するか否かの判定結果を推定器切替部107aに出力する。また、追加検索部108は、検索結果が一件以上存在したと判定した場合には、単語ベクトル抽出部102に検索結果を出力する。
 推定器切替部107aは、単語検索部101から入力された検索結果および追加検索部108から入力された検索結果に応じて、単語ベクトルおよび文字ベクトルを特徴量とする第1の推定器と、文字ベクトルのみを特徴量とする第2の推定器とのいずれを推定部106aに適用するか決定する。すなわち、推定器切替部107aは、単語検索部101から入力された検索結果を参照し、検索結果が一件以上存在した場合、および追加検索部108から入力された検索結果を参照し、検索結果が一件以上存在した場合、第1の推定器を適用すると決定する、一方、推定器切替部107aは、単語検索部101から入力された検索結果を参照し、検索結果が一件以上存在しない、且つ追加検索部108から入力された検索結果を参照し、検索結果が一件以上存在しない場合、第2の推定器を適用すると決定する。推定器切替部107aは、決定した推定器の適用を、推定部106aに指示する。
 単語ベクトル抽出部102は、単語ベクトルデータベース103から、単語検索部101において検索された単語、または追加検索部108において検索された部分単語に対応する単語ベクトルを抽出する。単語ベクトル抽出部102は、抽出した単語ベクトルを特徴量取得部105aに出力する。
 特徴量取得部105aは、実施の形態2と同様に、単語ベクトル抽出部102から単語ベクトルが入力された場合には、当該単語ベクトルと、文字ベクトル変換部104で変換された文字ベクトルとを結合して特徴量を取得する。一方、特徴量取得部105aは、単語ベクトル抽出部102から単語ベクトルが入力されない場合には、文字ベクトル変換部104で変換された文字ベクトルを特徴量として取得する。
 推定部106aは、実施の形態2と同様に、推定器切替部107aから入力された推定器の切り替え指示に基づいて、第1の推定器と第2の推定器との切り替えを行う。推定部106aは、第1の推定器に切り替えた場合、当該第1の推定器を用いて、特徴量取得部105から入力された単語ベクトルと文字ベクトルとを結合して得られた特徴量から単語間の意味関係を推定する。また、推定部106aは、第2の推定器に切り替えた場合、当該第2の推定器を用いて、特徴量取得部105から入力された文字ベクトルの特徴量から単語間の意味関係を推定する。
 次に、単語意味関係推定装置100Bのハードウェア構成例を説明する。なお、実施の形態1と同一の構成の説明は省略する。
 単語意味関係推定装置100Bにおける推定器切替部107a、特徴量取得部105a、推定部106aおよび追加検索部108は、図2Aで示した処理回路100b、または図2Bで示したメモリ100dに格納されるプログラムを実行するプロセッサ100cである。
 次に、追加検索部108の処理を、具体例を挙げて説明する。
 追加検索部108が、単語ベクトルデータベース103に登録されていない「瞬冷凍」という単語について、単語ベクトルデータベース103を検索する場合を例に説明する。追加検索部108は、「瞬冷凍」について、例えば2文字単位の部分単語を取得する。追加検索部108は、「瞬冷凍」を構成する文字列「瞬冷」および「冷凍」を部分単語として取得する。追加検索部108は、「瞬冷」および「冷凍」との部分単語を、単語ベクトルデータベース103から検索する。ここでは、単語ベクトルデータベース103に「冷凍」が登録されているものとする。追加検索部108は、単語ベクトルデータベース103を参照し、「冷凍」の部分単語を検索結果として取得する。追加検索部108は、検索結果が一件以上存在すると判定する。
 このように、追加検索部108は、「瞬冷凍」という単語に替えて、「冷凍」の単語ベクトルを抽出する。追加検索部108は、未知語を構成する文字を手掛かりに、未知語に意味が近い別の単語を検索し、単語ベクトル抽出部102は未知語に意味が近い別の単語を単語ベクトルに変換する。
 なお、追加検索部108は、上述した例では2文字単位の部分単語を取得する例を示したが、3文字単位の部分単語等、文字数を変化させて部分単語を取得してもよい。その結果、追加検索部108が、各文字数で複数の部分単語を検索結果として取得した場合、単語ベクトル抽出部102が部分単語の単語ベクトルの平均ベクトルを単語ベクトルとして抽出してもよい。また、平均ベクトルを用いる場合、単語ベクトル抽出部102は、文字数が多く一致した単語がより未知語の意味に近いとし、一致した部分単語の文字数に応じた重みを付して、平均ベクトルを算出してもよい。
 次に、単語意味関係推定装置100Bの動作について説明する。
 図7は、実施の形態3に係る発明の単語意味関係推定装置100Bの動作を示すフローチャートである。
 以下では、実施の形態2に係る発明の単語意味関係推定装置100Aと同一のステップには、図5で示した符号と同一の符号を付し、説明を省略または簡略化する。
 ステップST3において、単語検索部101が、検索結果が一件以上存在すると判定した場合(ステップST3;YES)、実施の形態2と同様にステップST11,ステップST12およびステップST4からステップST7の処理を行う。一方、ステップST3において、単語検索部101が、検索結果が一件以上存在しないと判定した場合(ステップST3;NO)、単語検索部101は単語ペアを構成する各単語を追加検索部108に出力する。追加検索部108は、単語検索部101から入力された単語から部分単語を取得する(ステップST21)。追加検索部108は、ステップST21で取得した部分単語を単語ベクトルデータベース103から検索する(ステップST22)。追加検索部108は、検索結果が一件以上存在するか否か判定を行う(ステップST23)。
 検索結果が一件以上存在すると判定した場合(ステップST23;YES)、推定器切替部107aは当該判定結果に基づいて、推定部106aに第1の推定器の適用を決定する(ステップST24)。推定器切替部107aは、第1の推定器の適用を、推定部106aに指示する。推定部106aは、推定器切替部107aからの指示に基づいて、推定部106aの切り替えを行う(ステップST25)。追加検索部108は検索結果を単語ベクトル抽出部102に出力する(ステップST26)。その後、単語意味関係推定装置100Bは、ステップST5からステップST7の処理を行う。
 一方、検索結果が一件以上存在しないと判定した場合(ステップST23;NO)、ステップST13からステップST16の処理を行う。推定部106aは、ステップST12、ステップST25またはステップST14で切り替えた推定器を用いて、ステップST7またはステップST16において取得された特徴量から単語間の意味関係を推定する(ステップST27)。推定部106aは、ステップST27で推定した単語間の意味関係を示す情報を表示装置300に出力し(ステップST9)、処理を終了する。
 以上のように、この実施の形態3によれば、単語検索部101が、各単語を単語ベクトルデータベース103から検索できなかった場合に、単語ペアに含まれる未知語を構成する文字に部分一致する単語を、単語ベクトルデータベース103から検索する追加検索部108を備え、推定器切替部107aは、追加検索部108が未知語を構成する文字に部分一致する単語を単語ベクトルデータベース103から検索したか否かに基づいて、第1の推定器と第2の推定器とを切り替え、特徴量取得部105aは、追加検索部108が未知語を構成する文字に部分一致する単語を単語ベクトルデータベース103から検索した場合に、単語ベクトルと文字ベクトルとを結合した特徴量を取得し、未知語を構成する文字に部分一致する単語を単語ベクトルデータベース103から検索できなかった場合に、文字ベクトルを特徴量として取得するように構成したので、未知語を構成する文字を手掛かりとして、未知語に意味の近い別の単語の単語ベクトルを用いて単語間の意味関係を推定することができる。
 なお、上述した実施の形態3では、実施の形態2で示した単語意味関係推定装置100Aに追加検索部108を追加して構成する場合を示したが、実施の形態1で示した単語意味関係推定装置100に追加検索部108を追加して構成してもよい。
 この場合、単語検索部101が、各単語を単語ベクトルデータベース103から検索できなかった場合に、単語ペアに含まれる未知語を構成する文字に部分一致する単語を、単語ベクトルデータベース103から検索する追加検索部108を備え、単語ベクトル抽出部102は、追加検索部108が検索した未知語を構成する文字に部分一致する単語に対応する単語ベクトルを、単語ベクトルデータベース103から検索するように構成する。当該構成により、未知語を構成する文字を手掛かりとして、未知語に意味の近い別の単語の単語ベクトルを用いて単語間の意味関係を推定することができる。
実施の形態4.
 上述した実施の形態1から実施の形態3では、シソーラスを教師データとした推定器を備える推定部106,106aが単語間の意味関係を推定する構成を示した。この実施の形態4では、当該シソーラスの構造情報に基づいて、推定部106,106aが入力された単語ペアの意味関係を推定する際に、単語ペアの上位下位関係の距離、すなわち抽出度合いを推定する構成を示す。これにより、例えば、入力された文章を言い換えた文を作成する場合に、置き換える単語の抽出度合いを調節することができる。
 推定部106,106aは、実施の形態1から実施の形態3で示した、特徴量取得部105,105aで取得された特徴量を推定器に入力して単語ペアの意味関係を推定する処理に加えて、推定した単語ペアの意味関係の抽出度合いを推定する。ここで、単語ペアの意味関係の抽出度合いとは、単語ペアの上位下位関係の距離である。推定部106,106aは、単語ペアの意味関係の抽出度合いを、シソーラス上の構造情報から求める。
 図8は、シソーラスに登録された単語の上位下位関係を示した図である。
 図8の例では、単語「魚」の直下に定義されている単語「アジ」に着目すると、単語「魚」と単語「アジ」との抽出度合いは「1」となる。単語「魚」の上位に定義された「食べ物」と単語「アジ」との抽出度合いは「2」となる。推定部106,106aは、例えば、図8で示した定義に基づいて、単語ペアの意味関係の抽出度合いを求める。
 単語意味関係推定装置100,100A,100Bの推定結果を用いて、言い換え文を作成する場合に、抽出度合いが高い上位の単語で置き換えると、質問応答の際に必要な情報が抜け落ちる場合がある。例えば、「マグロをおいしく冷凍保存するにはどうすればいい?」との文を、「食べ物をおいしく冷凍保存するにはどうすればいい?」と言い換えた文を作成する場合を考える。上記の言い換えでは、「マグロ」を「食べ物」に置き換えている。図8で示した定義を参照すると、単語「マグロ」と単語「食べ物」との抽出度合いは「2」である。この例のように抽出度合いが高い関係の単語を用いて言い替えを行うと、言い換える前の文が「魚に関する質問文」であるのに対して、言い換え後の文では「魚」の情報が欠落する。
 推定部106,106aが、単語の抽出度合いを求めて推定結果として出力する。これにより、置き換える単語を選択する指標として当該抽出度合いを利用し、置き換える単語を選別することができる。
 上述した「マグロをおいしく冷凍保存するにはどうすればいい?」との文の言い換え結果を、抽出度合いと共に示す。
(1)抽出度合い「2」の場合(抽出度合い高)の言い換え例
言い換え前:マグロをおいしく冷凍保存するにはどうすればいい?
言い換え後:食べ物をおいしく冷凍保存するにはどうすればいい?
(2)抽出度合い「1」の場合(抽出度合い普通)の言い換え例
言い換え前:マグロをおいしく冷凍保存するにはどうすればいい?
言い換え後:魚をおいしく冷凍保存するにはどうすればいい?
 以上のように、この実施の形態4によれば、推定部106,106aは、各単語間の意味関係を推定する推定器の教師データの構造情報に基づいて、意味関係を推定した各単語間の上位下位関係の距離を示す抽出度合いを推定するように構成したので、シソーラスの構造情報を反映させた単語の置き換えを行うことができる。
 上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、各実施の形態の任意の構成要素の変形、または各実施の形態の任意の構成要素の省略が可能である。
 この発明に係る単語意味関係推定装置は、例えば、文書検索技術等の自然言語を扱う技術において、対義語を適切に扱うことが求められる情報検索システムに用いられるのに適している。
 100,100A,100B 単語意味関係推定装置、101 単語検索部、102 単語ベクトル抽出部、103 単語ベクトルデータベース、104 文字ベクトル変換部、105,105a 特徴量取得部、106,106a 推定部、107,107a 推定器切替部、108 追加検索部。

Claims (6)

  1.  入力された単語ペアを構成する各単語を、データベースから検索する単語検索部と、
     前記単語検索部が検索した前記各単語に対応する単語ベクトルを、前記データベースから抽出する単語ベクトル抽出部と、
     前記単語ペアを構成する文字を文字ベクトルに変換する文字ベクトル変換部と、
     前記単語ベクトル抽出部が抽出した前記各単語の単語ベクトルと、前記文字ベクトル変換部が変換した前記文字ベクトルとを結合して特徴量を取得する特徴量取得部と、
     前記特徴量取得部が取得した前記特徴量から前記各単語間の意味関係を推定する推定部とを備えた単語意味関係推定装置。
  2.  前記単語検索部が前記各単語を前記データベースから検索したか否かに基づいて、前記単語ベクトルと前記文字ベクトルとを特徴量として前記各単語間の意味関係を推定する第1の推定器と、前記文字ベクトルのみを特徴量として前記各単語間の意味関係を推定する第2の推定器とを切り替える推定器切替部を備え、
     前記特徴量取得部は、前記単語検索部が前記各単語を前記データベースから検索した場合に、前記単語ベクトルと前記文字ベクトルとを結合した特徴量を取得し、各単語を前記データベースから検索できなかった場合に、前記文字ベクトルを特徴量として取得し、
     前記推定部は、前記推定器切替部の切り替えに応じて前記第1の推定器または前記第2の推定器を適用し、前記特徴量取得部が取得した特徴量から前記各単語間の意味関係を推定することを特徴とする請求項1記載の単語意味関係推定装置。
  3.  前記単語検索部が、前記各単語を前記データベースから検索できなかった場合に、前記単語ペアに含まれる未知語を構成する文字に部分一致する単語を、前記データベースから検索する追加検索部を備え、
     前記単語ベクトル抽出部は、前記追加検索部が検索した前記未知語を構成する文字に部分一致する単語に対応する単語ベクトルを、前記データベースから検索することを特徴とする請求項1記載の単語意味関係推定装置。
  4.  前記単語検索部が、前記各単語を前記データベースから検索できなかった場合に、前記単語ペアに含まれる未知語を構成する文字に部分一致する単語を、前記データベースから検索する追加検索部を備え、
     前記推定器切替部は、前記追加検索部が前記未知語を構成する文字に部分一致する単語を前記データベースから検索したか否かに基づいて、前記第1の推定器と前記第2の推定器とを切り替え、
     前記特徴量取得部は、前記追加検索部が前記未知語を構成する文字に部分一致する単語を前記データベースから検索した場合に、前記単語ベクトルと前記文字ベクトルとを結合した特徴量を取得し、前記未知語を構成する文字に部分一致する単語を前記データベースから検索できなかった場合に、前記文字ベクトルを特徴量として取得することを特徴とする請求項2記載の単語意味関係推定装置。
  5.  前記推定部は、前記各単語間の意味関係を推定する推定器の教師データの構造情報に基づいて、前記意味関係を推定した前記各単語間の上位下位関係の距離を示す抽出度合いを推定することを特徴とする請求項1記載の単語意味関係推定装置。
  6.  単語検索部が、入力された単語ペアを構成する各単語を、データベースから検索するステップと、
     単語ベクトル抽出部が、前記検索された前記各単語に対応する単語ベクトルを、前記データベースから抽出するステップと、
     文字ベクトル変換部が、前記単語ペアを構成する文字を文字ベクトルに変換するステップと、
     特徴量取得部が、前記抽出された前記各単語の単語ベクトルと、前記変換された前記文字ベクトルとを結合して特徴量を取得するステップと、
     推定部が、前記取得された前記特徴量から前記各単語間の意味関係を推定するステップとを備えた単語意味関係推定方法。
PCT/JP2017/038791 2017-10-26 2017-10-26 単語意味関係推定装置および単語意味関係推定方法 WO2019082362A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201780096022.4A CN111226223B (zh) 2017-10-26 2017-10-26 单词语义关系估计装置和单词语义关系估计方法
US16/648,473 US11328006B2 (en) 2017-10-26 2017-10-26 Word semantic relation estimation device and word semantic relation estimation method
JP2019549790A JP6678834B2 (ja) 2017-10-26 2017-10-26 単語意味関係推定装置および単語意味関係推定方法
EP17929667.8A EP3683694A4 (en) 2017-10-26 2017-10-26 DEVICE AND METHOD FOR DEDUCTING A SEMANTIC RELATIONSHIP BETWEEN WORDS
PCT/JP2017/038791 WO2019082362A1 (ja) 2017-10-26 2017-10-26 単語意味関係推定装置および単語意味関係推定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/038791 WO2019082362A1 (ja) 2017-10-26 2017-10-26 単語意味関係推定装置および単語意味関係推定方法

Publications (1)

Publication Number Publication Date
WO2019082362A1 true WO2019082362A1 (ja) 2019-05-02

Family

ID=66246318

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/038791 WO2019082362A1 (ja) 2017-10-26 2017-10-26 単語意味関係推定装置および単語意味関係推定方法

Country Status (5)

Country Link
US (1) US11328006B2 (ja)
EP (1) EP3683694A4 (ja)
JP (1) JP6678834B2 (ja)
CN (1) CN111226223B (ja)
WO (1) WO2019082362A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210094445A (ko) * 2020-01-19 2021-07-29 베이징 시아오미 파인콘 일렉트로닉스 컴퍼니 리미티드 정보 처리 방법, 장치 및 저장 매체
CN113343704A (zh) * 2021-04-15 2021-09-03 山东师范大学 一种基于词嵌入向量的文本检索方法及***
JP2022514842A (ja) * 2018-12-29 2022-02-16 新華三大数据技術有限公司 エンティティ意味関係分類

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11217227B1 (en) 2019-11-08 2022-01-04 Suki AI, Inc. Systems and methods for generating disambiguated terms in automatically generated transcriptions including instructions within a particular knowledge domain
US11538465B1 (en) 2019-11-08 2022-12-27 Suki AI, Inc. Systems and methods to facilitate intent determination of a command by grouping terms based on context

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222427A (ja) * 1999-02-02 2000-08-11 Mitsubishi Electric Corp 関連語抽出装置、関連語抽出方法及び関連語抽出プログラムが記録された記録媒体
WO2014002776A1 (ja) * 2012-06-25 2014-01-03 日本電気株式会社 同義語抽出システム、方法および記録媒体
WO2014033799A1 (ja) 2012-08-27 2014-03-06 株式会社日立製作所 単語意味関係抽出装置
JP2014238726A (ja) * 2013-06-07 2014-12-18 日本電信電話株式会社 反義分類モデル学習装置、反義分類装置、方法、及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
US8571850B2 (en) * 2007-09-13 2013-10-29 Microsoft Corporation Dual cross-media relevance model for image annotation
JP5254888B2 (ja) * 2009-06-05 2013-08-07 日本電信電話株式会社 言語資源情報生成装置、方法、プログラム、および記録媒体
CN101763402B (zh) * 2009-12-30 2012-07-04 哈尔滨工业大学 多语言信息检索一体化检索方法
JP6705318B2 (ja) * 2016-07-14 2020-06-03 富士通株式会社 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム
CN106776544B (zh) * 2016-11-24 2020-05-05 四川无声信息技术有限公司 人物关系识别方法及装置和分词方法
US20180203921A1 (en) * 2017-01-17 2018-07-19 Xerox Corporation Semantic search in document review on a tangible user interface
CN107247704B (zh) * 2017-06-09 2020-09-08 阿里巴巴集团控股有限公司 词向量处理方法、装置以及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000222427A (ja) * 1999-02-02 2000-08-11 Mitsubishi Electric Corp 関連語抽出装置、関連語抽出方法及び関連語抽出プログラムが記録された記録媒体
WO2014002776A1 (ja) * 2012-06-25 2014-01-03 日本電気株式会社 同義語抽出システム、方法および記録媒体
WO2014033799A1 (ja) 2012-08-27 2014-03-06 株式会社日立製作所 単語意味関係抽出装置
JP2014238726A (ja) * 2013-06-07 2014-12-18 日本電信電話株式会社 反義分類モデル学習装置、反義分類装置、方法、及びプログラム

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
J. WESTONC. WATKINS: "Multi-class support vector machines", ROYAL HOLLOWAY TECHNICAL REPORT CSD-TR-98-04, 1998
JULIE WEEDS ET AL.: "Learning to Distinguish Hypernyms and Co-Hyponyms", COLING, 2014
KASAHARA, KANAME ET AL.: "A method for judging degree of antonymy between words", PROCEEDINGS OF THE 15TH ANNUAL CONFERENCE OF JSAI 2001, 22 May 2001 (2001-05-22), pages 1 - 2, XP055678119 *
TOMAS MIKOLOVKAI CHENGREG CORRADOJEFFREY DEAN: "Efficient Estimation of Word Representations in Vector Space", ICLR, 2013

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022514842A (ja) * 2018-12-29 2022-02-16 新華三大数据技術有限公司 エンティティ意味関係分類
JP7202465B2 (ja) 2018-12-29 2023-01-11 新華三大数据技術有限公司 エンティティ意味関係分類
KR20210094445A (ko) * 2020-01-19 2021-07-29 베이징 시아오미 파인콘 일렉트로닉스 컴퍼니 리미티드 정보 처리 방법, 장치 및 저장 매체
JP2021114277A (ja) * 2020-01-19 2021-08-05 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド 情報処理方法、装置及び記憶媒体
JP7059326B2 (ja) 2020-01-19 2022-04-25 ペキン シャオミ パインコーン エレクトロニクス カンパニー, リミテッド 情報処理方法、装置及び記憶媒体
US11475219B2 (en) 2020-01-19 2022-10-18 Beijing Xiaomi Pinecone Electronics Co., Ltd. Method for processing information, and storage medium
KR102544453B1 (ko) 2020-01-19 2023-06-16 베이징 시아오미 파인콘 일렉트로닉스 컴퍼니 리미티드 정보 처리 방법, 장치 및 저장 매체
CN113343704A (zh) * 2021-04-15 2021-09-03 山东师范大学 一种基于词嵌入向量的文本检索方法及***

Also Published As

Publication number Publication date
JPWO2019082362A1 (ja) 2020-02-27
US20200234009A1 (en) 2020-07-23
EP3683694A4 (en) 2020-08-12
JP6678834B2 (ja) 2020-04-08
CN111226223B (zh) 2023-10-20
CN111226223A (zh) 2020-06-02
US11328006B2 (en) 2022-05-10
EP3683694A1 (en) 2020-07-22

Similar Documents

Publication Publication Date Title
WO2019082362A1 (ja) 単語意味関係推定装置および単語意味関係推定方法
JP5346279B2 (ja) 検索による注釈付与
KR102342066B1 (ko) 뉴럴 네트워크 모델을 이용한 기계 번역 방법, 장치 및 그 장치를 학습시키기 위한 방법
CA2950676C (en) Methods and systems for mapping data items to sparse distributed representations
JP5661813B2 (ja) セマンティックオブジェクトの特徴付けおよび検索
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
JP6537340B2 (ja) 要約生成装置、要約生成方法、及び要約生成プログラム
CN109325242B (zh) 基于词对和翻译判断句子是否对齐的方法、装置及设备
US11645447B2 (en) Encoding textual information for text analysis
Zhang et al. Exploiting parallel news streams for unsupervised event extraction
US20240061875A1 (en) Identifying content items in response to a text-based request
Dubuisson Duplessis et al. Utterance retrieval based on recurrent surface text patterns
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
JP2020154668A (ja) 同義語判定方法、同義語判定プログラム、および、同義語判定装置
JP5355483B2 (ja) 略語完全語復元装置とその方法と、プログラム
US20190095525A1 (en) Extraction of expression for natural language processing
JP6899973B2 (ja) 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム
JP2015018372A (ja) 表現抽出モデル学習装置、表現抽出モデル学習方法、および、コンピュータ・プログラム
US11755671B2 (en) Projecting queries into a content item embedding space
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
CN110019096A (zh) 索引文件的生成方法及装置
JP2009211277A (ja) 文書データ分類装置、文書データ分類方法、そのプログラム及び記録媒体
US10936901B2 (en) Information processing device and non-transitory computer readable recording medium
JP7000181B2 (ja) 言語処理方法及び言語処理システム
Bakhteev et al. A monolingual approach to detection of text reuse in Russian-English collection

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2019549790

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2017929667

Country of ref document: EP

Effective date: 20200416

NENP Non-entry into the national phase

Ref country code: DE