WO2020003928A1 - エンティティ特定システム - Google Patents

エンティティ特定システム Download PDF

Info

Publication number
WO2020003928A1
WO2020003928A1 PCT/JP2019/022218 JP2019022218W WO2020003928A1 WO 2020003928 A1 WO2020003928 A1 WO 2020003928A1 JP 2019022218 W JP2019022218 W JP 2019022218W WO 2020003928 A1 WO2020003928 A1 WO 2020003928A1
Authority
WO
WIPO (PCT)
Prior art keywords
phrase
entity
unit
combination
phrases
Prior art date
Application number
PCT/JP2019/022218
Other languages
English (en)
French (fr)
Inventor
優太朗 白水
Original Assignee
株式会社Nttドコモ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Nttドコモ filed Critical 株式会社Nttドコモ
Priority to US17/041,927 priority Critical patent/US20210142007A1/en
Priority to JP2020527332A priority patent/JP7066844B2/ja
Publication of WO2020003928A1 publication Critical patent/WO2020003928A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Definitions

  • the present invention relates to an entity identification system that identifies an entity linked to a phrase in a sentence.
  • Patent Document 1 discloses that a document in a Web page including personal name information collected from a database on the Internet is analyzed to extract another expression (nickname or the like) of a celebrity.
  • the entity linked to the phrase is specified based on the context, the link probability, and the like.
  • One embodiment of the present invention has been made in view of the above, and has as its object to provide an entity specifying system that can specify an entity suitable for the context of a sentence.
  • an entity specifying system includes an input unit for inputting a sentence, and a phrase extracting unit for extracting one or more words from the sentence input by the input unit.
  • a candidate conversion unit for converting at least one of the phrases extracted by the phrase extraction unit into one or more candidate words of an entity linked to the phrase, and one or more candidates converted by the candidate conversion unit
  • a combination generating unit that generates one or more combinations of phrases corresponding to a sentence, each including one of the phrases, and a score of the similarity between the phrases included in the combination for each of the combinations generated by the combination generating unit.
  • a score calculation unit that calculates a score based on the score of the combination calculated by the score calculation unit. From phrase complement, comprises a entity specifying unit for specifying a phrase entities that are linked, the.
  • the phrase of the entity linked to the phrase included in the text is specified based on the similarity between the words corresponding to the text. Therefore, according to the entity identification system according to the embodiment of the present invention, an entity suitable for the context of a sentence can be identified.
  • the phrase of the entity linked to the phrase included in the text is specified based on the similarity between the phrases corresponding to the text, so that the entity suitable for the context of the text is specified. can do.
  • FIG. 2 is a diagram illustrating a hardware configuration of an entity identification system according to the embodiment of the present invention.
  • FIG. 1 shows an entity identification system 10 according to the present embodiment.
  • the entity specifying system 10 is a device (system) that inputs a text (text, character string) and specifies an entity linked to a phrase included in the input text. That is, the entity specifying system 10 is a device that performs entity linking.
  • a Japanese sentence will be described as an example.
  • an entity can be similarly specified even in a sentence other than Japanese. For example, when the phrase “Federal Court” is included in the text, the entity specifying system 10 determines that “Federal Court” in the text is “United States Federal Court”, “Federal Court (Germany)”, “Federal Court” Court (Switzerland) ”or“ Federal Court of Australia ”entity.
  • Identification of an entity by the entity identification system 10 may be performed, for example, as preprocessing for extracting a named entity from a sentence, or may be performed for dissolving the meaning of a word in a sentence. Further, the entity may be specified for a purpose other than the above.
  • the entity specifying system 10 is realized by, for example, a server device. Further, the entity specifying system 10 may be a part of any client-server type system (for example, an interactive system) or may be a single device.
  • the entity identification system 10 includes an input unit 11, a phrase extraction unit 12, a candidate conversion unit 13, a combination generation unit 14, a score calculation unit 15, and an entity identification unit 16. Is done.
  • the input unit 11 is a functional unit for inputting a sentence including a phrase to be specified as an entity.
  • the input unit 11 receives and inputs a sentence transmitted from the terminal to the entity specifying system 10, for example.
  • the input unit 11 may receive a voice from the terminal, perform voice recognition on the received voice, acquire a text as a result of the voice recognition, and input the text (ie, input with voice data).
  • the input unit 11 can perform voice recognition using any conventional voice recognition method.
  • the input unit 11 may automatically generate and input a sentence in the form of voice data or text data in accordance with a user's instruction based on a preset generation rule.
  • the input unit 11 can input a sentence by any method other than the above.
  • the input unit 11 outputs the input sentence to the phrase extracting unit 12.
  • the phrase extracting unit 12 is a functional unit that extracts one or more phrases from the text input by the input unit 11.
  • the phrase extracted by the phrase extracting unit 12 includes a phrase to which an entity is linked. Further, the phrase extracted by the phrase extraction unit 12 may include a phrase that is not a target to which the entity is linked. A phrase to which an entity is not linked as described later can also be used for specifying the entity.
  • the extracted phrase may be a word unit, a phrase composed of a plurality of words, or a character string of an arbitrary unit. One or more words may be extracted, or a plurality of words may be extracted.
  • the phrase extracting unit 12 extracts a phrase as follows, for example.
  • the phrase extracting unit 12 inputs a sentence from the input unit 11.
  • the phrase extracting unit 12 extracts a phrase using morphological analysis.
  • the phrase extracting unit 12 divides the input sentence into morphemes by morphological analysis.
  • the morphological analysis itself can be performed by a conventional method.
  • the phrase extracting unit 12 may extract all morphemes obtained by dividing a sentence as a phrase. Alternatively, some of the morphemes may be extracted as words.
  • the phrase extracting unit 12 may extract a morpheme as a phrase based on the part of speech given to each morpheme by morphological analysis. For example, a part of speech (for example, a noun) extracted as a phrase or a part of speech not extracted as a phrase may be set in advance.
  • the phrase extracting unit 12 may be configured to input a corpus and extract a phrase from a sentence based on the input corpus.
  • the corpus for example, an online encyclopedia (for example, Wikipedia) or an online dictionary can be used.
  • the input of the corpus is performed, for example, by the operation of the administrator of the entity identification system 10.
  • the phrase extracting unit 12 may calculate the frequency of appearance of the phrase appearing in the corpus, and extract the phrase based on the frequency of appearance of the phrase. For example, of the words obtained by the morphological analysis, words having a frequency equal to or higher than a predetermined appearance frequency may be excluded from words to be extracted as general words.
  • the phrase extracting unit 12 may extract a phrase using a dictionary for phrase extraction stored in advance instead of or in addition to the morphological analysis.
  • the dictionary for phrase extraction is a list of phrases to be extracted.
  • the dictionary for extracting words and phrases may be artificially created by a manager of the entity identification system 10 or the like. Alternatively, the dictionary for phrase extraction may be generated based on the corpus described above. For example, among words appearing in the corpus, a list of words having a frequency less than a predetermined frequency may be used as a dictionary for extracting words.
  • the phrase extracting unit 12 compares each phrase included in the dictionary for phrase extraction with the input sentence, matches character strings, and extracts the phrase included in the sentence.
  • the phrase extracting unit 12 outputs the extracted phrase to the candidate conversion unit 13.
  • FIG. 2 (a) shows an example of a phrase extracted by morphological analysis from a sentence "The United States Supreme Court governs the federal court of the United States government.”
  • FIG. 2B shows an example of a phrase extracted from the sentence by the dictionary for phrase extraction.
  • the "U.S. Supreme Court” is divided into three words “United States”, “Supreme” and “Course” when using morphological analysis, but when using a dictionary for extracting words, If the phrase “U.S. Supreme Court” is included, it becomes a single phrase “U.S. Supreme Court.”
  • a description will be given using an example of a phrase when a dictionary for phrase extraction is used.
  • the candidate conversion unit 13 is a functional unit that converts at least one of the phrases extracted by the phrase extraction unit 12 into one or more candidate phrases of an entity linked to the phrase.
  • the candidate conversion unit 13 converts a phrase into a candidate phrase of an entity as follows, for example.
  • the candidate conversion unit 13 stores in advance a phrase that can appear in a sentence and a phrase indicating an entity that can be linked to the phrase in association with each other.
  • the phrase indicating the stored entity is a conversion candidate of a phrase in a sentence, that is, a candidate phrase of an entity linked to a phrase that may appear in the sentence.
  • the candidate conversion unit 13 responds to the phrase “Federal court”, “Federal court (Germany)”, “Federal court (Switzerland)”
  • a phrase indicating an entity such as "Australia Federal Court" is associated and stored in advance. For one word that may appear in the text, the number of candidate words for the entity may be one or more.
  • the above information may be artificially created by a manager of the entity identification system 10 or the like.
  • the information may be generated based on the corpus described above. For example, it may be generated based on the anchor text included in the corpus. Alternatively, it may be generated based on a character string distance between words (for example, a cosine distance described later) determined based on the corpus.
  • the candidate conversion unit 13 inputs a phrase from the phrase extraction unit 12.
  • the candidate conversion unit 13 checks, for each phrase input from the phrase extraction unit 12, whether or not the above-described information stored in advance includes the phrase.
  • the candidate conversion unit 13 converts a phrase included in the information stored in advance into a phrase indicating an entity associated with the phrase in the information.
  • the candidate conversion unit 13 outputs to the combination generation unit 14 the entity candidate words after conversion for each word extracted by the word extraction unit 12.
  • the candidate conversion unit 13 may also output to the combination generation unit 14 the words (not converted) that are not included in the information stored in advance among the words input from the word extraction unit 12.
  • Terms that are not included in the stored information are terms that are not specific to the entity.
  • the combination generation unit 14 is a functional unit that generates one or more combinations of phrases corresponding to a sentence, each including one of the one or more phrases converted by the candidate conversion unit 13.
  • the combination generation unit 14 inputs a phrase from the candidate conversion unit 13.
  • the combination generating unit 14 generates a combination of words for each sentence input by the input unit 11, that is, for each sentence including a word to be specified as an entity.
  • the combination generating unit 14 includes, for each combination, one of the candidate words of the entity converted by the candidate conversion unit 13 for each word extracted by the word extraction unit 12.
  • the combination generating unit 14 generates a combination of phrases of all entity candidates. As a result, a combination of products of the number of words and phrases of the converted entity candidate is generated. If there are a plurality of candidate words for a plurality of entities with respect to any one of the words, the above combinations are also plural.
  • FIG. 4 shows an example of the combination.
  • the combination generation unit 14 may use only some of the phrases of the converted entity candidates input from the candidate conversion unit 13 to generate a combination. Specifically, the combination generation unit 14 may filter the phrase according to the character string length of the phrase of the entity candidate or the frequency of occurrence of the phrase in the corpus, and use the filtered phrase for generating the combination. . For example, when the character string length of the phrase of the entity candidate is within a preset range, or the appearance frequency of the phrase in the corpus is equal to or more than a preset value, or the If the rank is higher than a predetermined rank, the word may be used to generate a combination.
  • the reason why the character string length is used for the filtering is that, for example, a candidate word having an extremely short or long mechanically extracted character string length may not be appropriate as a word indicating an entity.
  • filtering may be performed using both the character string length of the phrase of the entity candidate and the appearance frequency of the phrase in the corpus. With this filtering, for example, of the plurality of candidates converted from the phrase “Federal court”, only two of “Federal court in the United States” and “Federal court (Germany)” are determined based on the frequency of occurrence in the corpus. It may be used to generate a combination.
  • Filtering of candidate words may be performed according to the number of combinations of words in the case where filtering is not performed. For example, it may be performed when the number of combinations of words and phrases when filtering is not performed is equal to or greater than a preset threshold. As a result, when it is considered that the calculation amount needs to be reduced, the filtering can be appropriately performed.
  • the filtering of the word candidates may be performed by the candidate conversion unit 13.
  • the candidate conversion unit 13 may store the candidate words after filtering as conversion words in advance.
  • the combination generating unit 14 may use the candidate phrases of all of the phrases extracted by the phrase extracting unit 12 for generating the combinations, or use the candidate words of some of the phrases for the generation of the combinations. You may. Specifically, the combination generation unit 14 may determine a phrase to be used for generating a combination based on the part of speech of the phrase extracted by the phrase extraction unit 12 or the appearance frequency of the phrase appearing in the corpus. For example, the part of speech may be used in the same manner as when the phrase is extracted by the phrase extracting unit 12. Alternatively, when the frequency of occurrence of the word in the corpus is equal to or higher than a preset value or equal to or higher than a predetermined order among the extracted words, the word of the candidate of the entity of the word is used for generating a combination.
  • the phrase used for generating the combination may be determined based on both the part of speech of the phrase and the frequency of appearance of the phrase appearing in the corpus. Thus, for example, among the candidates for the three phrases “U.S. Supreme Court,” “U.S. Government,” and “Federal Court,” only the candidates for the two phrases “U.S. Supreme Court” and “Federal Court” May be used. By reducing the number of combinations of words and phrases as described above, the amount of calculation can be reduced as in the case of the above-described filtering. Note that the determination of a phrase used for generating a combination (corresponding to the extraction of a phrase by the phrase extracting unit 12) may be performed by one of the phrase extracting unit 12 and the combination generating unit 14 on a uniform basis.
  • the generation of a combination using only a part of the words extracted by the word extraction unit 12 may be performed according to the number of word combinations when all the words are used for the generation of the combination. For example, when the number of combinations of words in the case where all the words are used for generating a combination is equal to or more than a preset threshold, only some of the words may be used for generating the combination. As a result, when it is considered that the calculation amount needs to be reduced, the words and phrases can be appropriately reduced. In this case, in order to make the reduction of the words by the combination generation unit 14 significant, the words are extracted by the word extraction unit 12 without using the part of speech of the words or the frequency of appearance of the words appearing in the corpus. Or, even if it is used, it may be performed based on a different (loose) criterion from the phrase reduction by the combination generation unit 14.
  • the combination generation unit 14 may generate a combination including the phrase.
  • the combination generation unit 14 outputs information indicating the generated combination to the score calculation unit 15.
  • the score calculation unit 15 is a functional unit that calculates a score for each combination generated by the combination generation unit 14 based on a similarity score between words included in the combination.
  • the score calculation unit 15 may be configured to input a corpus and calculate a similarity score between words and phrases based on the input corpus.
  • the score calculation unit 15 calculates a score for each combination as follows, for example.
  • the score calculation unit 15 inputs information indicating a combination from the combination generation unit 14.
  • the score calculation unit 15 specifies a score of similarity between two words included in the combination.
  • the similarity score of a phrase is calculated, for example, as follows.
  • the score calculation unit 15 inputs a corpus and calculates a similarity score between two phrases based on the corpus.
  • the calculation of the similarity score between words based on the corpus can be performed by a method of analyzing words by machine learning such as Word2Vec. When Word2Vec is used, the cosine distance between word vectors indicating the characteristics of a phrase can be used as the similarity. Alternatively, the similarity may be calculated based on the co-occurrence probability between words and phrases.
  • the similarity based on the corpus may be calculated in advance for all combinations of words and phrases and stored in the score calculation unit 15.
  • the similarity between words may be calculated by a method other than those described above, or a similarity generated in advance by another device or artificially may be used.
  • the score calculation unit 15 calculates a similarity score between all two phrases included in the combination.
  • the score calculation unit 15 calculates a score for the entire combination from the similarity scores. For example, the score calculation unit 15 calculates the score for the entire combination by adding the similarity scores of all the two phrases included in the combination.
  • the score calculation unit 15 calculates scores for all combinations.
  • the score calculation unit 15 outputs information indicating the combination and the calculated score to the entity identification unit 16.
  • the entity specifying unit 16 is a functional unit that specifies a word of an entity to be linked from one or more candidate words based on the score of the combination calculated by the score calculating unit 15.
  • the entity specifying unit 16 inputs information indicating the combination and the score from the score calculating unit 15.
  • the score indicates the validity of the candidate phrase of the entity included in the combination to the sentence. For example, the higher the similarity score between the above two terms, the higher the similarity, the higher the score of the combination, the higher the score of the combination, the more appropriate the sentence of the candidate word of the entity included in the combination. Is high.
  • the entity identifying unit 16 changes the candidate phrase of the entity included in the combination having the highest validity (for example, the highest score) among the combinations into the corresponding phrase. Identify the phrase of the linked entity. Further, the entity specifying unit 16 may compare the score with a preset threshold and specify the entity when the score is equal to or larger than the threshold. If the score is less than the threshold, the entity identifying unit 16 may determine that no entity (in the candidates) is linked to the phrase. As described above, the entity specifying unit 16 does not specify an entity for each word included in the sentence, but performs an operation for all the words included in the sentence based on the score (combination consistency). , To identify the terms of the linked entities at once.
  • the entity specifying unit 16 outputs the phrase of the specified entity to a system or a module in which the phrase is used.
  • the output of the phrase of the specified entity may be performed by an arbitrary method. The above is the function of the entity identification system 10 according to the present embodiment.
  • a sentence including a word to be specified as an entity is input by the input unit 11 (S01).
  • a phrase is extracted from the text by the phrase extracting unit 12 (S02).
  • the candidate conversion unit 13 converts the phrase in the sentence into a candidate phrase of an entity linked to the phrase (S03).
  • the combination generation unit 14 generates a combination of words and phrases corresponding to the sentence, each including the converted words (S04).
  • the score calculation unit 15 calculates a score for each combination based on the similarity score between the terms included in the combination (S05). Subsequently, based on the combination score, the entity specifying unit 16 specifies and outputs the word of the entity linked from the candidate word (S06).
  • the above is the processing executed by the entity specifying system 10 according to the present embodiment.
  • the phrase of the entity linked to the phrase included in the text is specified based on the similarity between the words corresponding to the text. Therefore, according to the present embodiment, an entity suitable for the context of a sentence can be specified. Also, if the similarity between words is calculated in advance, the entity can be specified by a relatively simple process as compared with the conventional entity specification. That is, according to the present embodiment, the processing load in specifying the entity can be reduced.
  • a phrase may be extracted from a sentence based on a corpus. According to this configuration, it is possible to appropriately extract a phrase to be specified as an entity. However, it is not always necessary to use a corpus to extract words.
  • similarity between words and phrases may be calculated based on the corpus as described above. According to this configuration, similarity between words and phrases can be calculated appropriately and reliably, and as a result, an entity suitable for the context of a sentence can be specified appropriately and reliably. However, the similarity between words does not necessarily have to be based on the corpus.
  • each functional block may be realized using one device physically or logically combined, or directly or indirectly (for example, two or more devices physically or logically separated). , Wired, wireless, etc.) and using these multiple devices.
  • the functional block may be realized by combining one device or the plurality of devices with software.
  • Functions include judgment, decision, judgment, calculation, calculation, processing, derivation, investigation, search, confirmation, reception, transmission, output, access, resolution, selection, selection, establishment, comparison, assumption, expectation, deemed, Broadcasting, notifying, communicating, forwarding, configuring, reconfiguring, allocating, mapping, assigning, etc., but not limited to these I can't.
  • a functional block that makes transmission function is called a transmitting unit (transmitting unit) or a transmitter (transmitter).
  • the realization method is not particularly limited.
  • the entity specifying system 10 may function as a computer that performs information processing of the present disclosure.
  • FIG. 6 is a diagram illustrating an example of a hardware configuration of the entity specifying system 10 according to an embodiment of the present disclosure.
  • the above-described entity identification system 10 may be physically configured as a computer device including a processor 1001, a memory 1002, a storage 1003, a communication device 1004, an input device 1005, an output device 1006, a bus 1007, and the like.
  • the term “apparatus” can be read as a circuit, a device, a unit, or the like.
  • the hardware configuration of the entity identification system 10 may be configured to include one or more devices shown in the drawing, or may be configured to exclude some devices.
  • the functions of the entity identification system 10 are performed by reading predetermined software (program) on hardware such as the processor 1001 and the memory 1002 so that the processor 1001 performs an operation and controls communication by the communication device 1004, This is realized by controlling at least one of data reading and writing in the storage 1002 and the storage 1003.
  • the processor 1001 controls the entire computer by operating an operating system, for example.
  • the processor 1001 may be configured by a central processing unit (CPU: Central Processing Unit) including an interface with a peripheral device, a control device, an arithmetic device, a register, and the like.
  • CPU Central Processing Unit
  • each function in the entity identification system 10 described above may be realized by the processor 1001.
  • the processor 1001 reads out a program (program code), a software module, data, and the like from at least one of the storage 1003 and the communication device 1004 to the memory 1002, and executes various processes according to these.
  • a program program code
  • a program that causes a computer to execute at least part of the operation described in the above embodiment is used.
  • each function in the entity identification system 10 may be realized by a control program stored in the memory 1002 and operated by the processor 1001.
  • Processor 1001 may be implemented by one or more chips.
  • the program may be transmitted from a network via a telecommunication line.
  • the memory 1002 is a computer-readable recording medium, and is configured by at least one of a ROM (Read Only Memory), an EPROM (Erasable Programmable ROM), an EEPROM (Electrically Erasable Programmable ROM), a RAM (Random Access Memory), and the like. May be done.
  • the memory 1002 may be called a register, a cache, a main memory (main storage device), or the like.
  • the memory 1002 can store a program (program code), a software module, and the like that can be executed to execute information processing according to an embodiment of the present disclosure.
  • the storage 1003 is a computer-readable recording medium, for example, an optical disk such as a CD-ROM (Compact Disc ROM), a hard disk drive, a flexible disk, a magneto-optical disk (eg, a compact disk, a digital versatile disk, a Blu-ray). (Registered trademark) disk, smart card, flash memory (eg, card, stick, key drive), floppy (registered trademark) disk, magnetic strip, or the like.
  • the storage 1003 may be called an auxiliary storage device.
  • the storage medium included in the entity identification system 10 may be, for example, a database including at least one of the memory 1002 and the storage 1003, a server, or another appropriate medium.
  • the communication device 1004 is hardware (transmission / reception device) for performing communication between computers via at least one of a wired network and a wireless network, and is also referred to as, for example, a network device, a network controller, a network card, a communication module, or the like.
  • the input device 1005 is an input device (for example, a keyboard, a mouse, a microphone, a switch, a button, a sensor, and the like) that receives an external input.
  • the output device 1006 is an output device that performs output to the outside (for example, a display, a speaker, an LED lamp, and the like). Note that the input device 1005 and the output device 1006 may have an integrated configuration (for example, a touch panel).
  • the devices such as the processor 1001 and the memory 1002 are connected by a bus 1007 for communicating information.
  • the bus 1007 may be configured using a single bus, or may be configured using a different bus for each device.
  • the entity identification system 10 includes hardware such as a microprocessor, a digital signal processor (DSP), an ASIC (Application Specific Integrated Circuit), a PLD (Programmable Logic Device), and an FPGA (Field Programmable Gate Array). And some or all of the functional blocks may be realized by the hardware.
  • the processor 1001 may be implemented using at least one of these hardware.
  • the input and output information and the like may be stored in a specific place (for example, a memory), or may be managed using a management table. Information and the like input and output can be overwritten, updated, or added. The output information or the like may be deleted. The input information or the like may be transmitted to another device.
  • the determination may be made based on a value represented by 1 bit (0 or 1), a Boolean value (Boolean: true or false), or a comparison of numerical values (for example, a predetermined value). Value).
  • Each aspect / embodiment described in the present disclosure may be used alone, may be used in combination, or may be switched and used in execution.
  • the notification of the predetermined information (for example, the notification of “X”) is not limited to explicitly performed, and is performed implicitly (for example, not performing the notification of the predetermined information). Is also good.
  • software, instructions, information, and the like may be transmitted and received via a transmission medium.
  • a transmission medium For example, if the software uses at least one of wired technology (coaxial cable, fiber optic cable, twisted pair, digital subscriber line (DSL), etc.) and wireless technology (infrared, microwave, etc.), the website, When transmitted from a server or other remote source, at least one of these wired and / or wireless technologies is included within the definition of a transmission medium.
  • system and “network” used in this disclosure are used interchangeably.
  • information, parameters, and the like described in the present disclosure may be represented using an absolute value, may be represented using a relative value from a predetermined value, or may be represented using another corresponding information. May be represented.
  • At least one of the server and the client may be called a transmitting device, a receiving device, a communication device, or the like.
  • At least one of the server and the client may be a device mounted on the moving body, the moving body itself, or the like.
  • the moving object may be a vehicle (for example, a car, an airplane, etc.), an unmanned moving object (for example, a drone, a self-driving car, etc.), or a robot (maned or unmanned). ).
  • At least one of the server and the client includes a device that does not necessarily move during a communication operation.
  • at least one of the base station and the mobile station may be an IoT (Internet of Things) device such as a sensor.
  • IoT Internet of Things
  • the server in the present disclosure may be replaced with a client terminal.
  • a configuration in which communication between a server and a client terminal is replaced with communication between a plurality of user terminals for example, D2D (Device-to-Device), V2X (Vehicle-to-Everything), etc.
  • the client terminal may have the function of the server described above.
  • the client terminal in the present disclosure may be read by the server.
  • the server may have the function of the client terminal.
  • determining may encompass a wide variety of operations.
  • Judgment '', ⁇ decision '' for example, judgment (judging), calculation (calculating), calculation (computing), processing (processing), derivation (deriving), investigating (investigating), searching (looking up, search, inquiry) (E.g., searching in a table, database, or another data structure), ascertaining may be considered “determined", “determined”, and the like.
  • determining” and “determining” refer to receiving (eg, receiving information), transmitting (eg, transmitting information), input (output), accessing (accessing) (for example, accessing data in the memory) may be regarded as “determined” or “determined”.
  • ⁇ judgment '' and ⁇ decision '' means that resolving, selecting, choosing, choosing, establishing, comparing, etc. are regarded as ⁇ judgment '' and ⁇ decided ''. May be included. That is, “judgment” and “decision” may include deeming any operation as “judgment” and “determined”. “Judgment (determination)” may be read as “assuming”, “expecting”, “considering”, or the like.
  • connection means any direct or indirect connection or coupling between two or more elements that It may include the presence of one or more intermediate elements between the two elements “connected” or “coupled.”
  • the coupling or connection between the elements may be physical, logical, or a combination thereof.
  • connection may be read as “access”.
  • two elements may be implemented using at least one of one or more wires, cables, and printed electrical connections, and as some non-limiting and non-exhaustive examples, in the radio frequency domain. , Can be considered “connected” or “coupled” to each other, such as by using electromagnetic energy having wavelengths in the microwave and light (both visible and invisible) regions.
  • the term “A and B are different” may mean that “A and B are different from each other”.
  • the term may mean that “A and B are different from C”.
  • Terms such as “separate” and “coupled” may be construed similarly to “different.”

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

文章の文脈に適したエンティティを特定する。 エンティティ特定システム10は、文章を入力する入力部11と、入力された文章から1つ以上の語句を抽出する語句抽出部12と、抽出された語句のうち少なくとも何れかについて、当該語句にリンクされるエンティティの1つ以上の候補の語句に変換する候補変換部13と、変換された1つ以上の語句の何れかをそれぞれ含む、文章に対応する語句の組み合わせを1つ以上生成する組み合わせ生成部14と、生成された各組み合わせについて、組み合わせに含まれる語句同士の類似性のスコアに基づいてスコアを算出するスコア算出部15と、算出された組み合わせのスコアに基づいて、1つ以上の候補の語句から、リンクされるエンティティの語句を特定するエンティティ特定部16とを備える。

Description

エンティティ特定システム
 本発明は、文章中の語句にリンクされるエンティティを特定するエンティティ特定システムに関する。
 文章中の語句(キーワード)と、当該語句に対応するエンティティとを対応付けるエンティティリンキングが知られている。エンティティは、文章中における当該語句の概念(文章中において当該語句が示すもの)である。例えば、特許文献1には、インターネット上のデータベースから集められた人名情報を含むWebページ中の文書を解析し、有名人の別表現(愛称等)を抽出することが示されている。
特開2008-130034号公報
 従来のエンティティリンキングでは、文脈及びリンク確率等に基づいて、語句にリンクされるエンティティが特定されていた。しかしながら、従来の方法では、エンティティ候補から適切なエンティティを特定することが困難な場合があった。
 本発明の一実施形態は、上記に鑑みてなされたものであり、文章の文脈に適したエンティティを特定することができるエンティティ特定システムを提供することを目的とする。
 上記の目的を達成するために、本発明の一実施形態に係るエンティティ特定システムは、文章を入力する入力部と、入力部によって入力された文章から1つ以上の語句を抽出する語句抽出部と、語句抽出部によって抽出された語句のうち少なくとも何れかについて、当該語句にリンクされるエンティティの1つ以上の候補の語句に変換する候補変換部と、候補変換部によって変換された1つ以上の語句の何れかをそれぞれ含む、文章に対応する語句の組み合わせを1つ以上生成する組み合わせ生成部と、組み合わせ生成部によって生成された各組み合わせについて、組み合わせに含まれる語句同士の類似性のスコアに基づいてスコアを算出するスコア算出部と、スコア算出部によって算出された組み合わせのスコアに基づいて、1つ以上の候補の語句から、リンクされるエンティティの語句を特定するエンティティ特定部と、を備える。
 本発明の一実施形態に係るエンティティ特定システムでは、文章に対応する語句同士の類似性に基づいて、文章に含まれる語句にリンクされるエンティティの語句が特定される。従って、本発明の一実施形態に係るエンティティ特定システムによれば、文章の文脈に適したエンティティを特定することができる。
 本発明の一実施形態によれば、文章に対応する語句同士の類似性に基づいて、文章に含まれる語句にリンクされるエンティティの語句が特定されるため、文章の文脈に適したエンティティを特定することができる。
本発明の実施形態に係るエンティティ特定システムの構成を示す図である。 文章から抽出される語句の例を示す図である。 文章中の語句から変換されるエンティティの候補の語句の例を示す図である。 語句の組み合わせの例を示す図である。 本発明の実施形態に係るエンティティ特定システムで実行される処理を示すフローチャートである。 本発明の実施形態に係るエンティティ特定システムのハードウェア構成を示す図である。
 以下、図面と共に本発明に係るエンティティ特定システムの実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
 図1に本実施形態に係るエンティティ特定システム10を示す。エンティティ特定システム10は、文章(テキスト、文字列)を入力して、入力した文章に含まれる語句にリンクされるエンティティを特定する装置(システム)である。即ち、エンティティ特定システム10は、エンティティリンキングを行う装置である。なお、本実施形態では、日本語の文章を例として説明する。但し、日本語以外の文章であっても、同様にエンティティを特定することができる。例えば、文章中に「連邦裁判所」との語句が含まれていた場合に、エンティティ特定システム10は、当該文章中における「連邦裁判所」が、「アメリカ合衆国連邦裁判所」「連邦裁判所(ドイツ)」「連邦裁判所(スイス)」「オーストラリア連邦裁判所」の何れのエンティティを指しているかを特定する。
 エンティティ特定システム10によるエンティティの特定は、例えば、文章から固有表現を抽出する前処理として行われてもよいし、文章中の語句の語義曖昧性解消のために行われてもよい。また、上記以外の目的でエンティティの特定が行われてもよい。エンティティ特定システム10は、例えば、サーバ装置によって実現される。また、エンティティ特定システム10は、何らかのクライアント-サーバ型システム(例えば、対話システム)の一部であってもよいし、単体の装置であってもよい。
 引き続いて、本実施形態に係るエンティティ特定システム10の機能を説明する。図1に示すようにエンティティ特定システム10は、入力部11と、語句抽出部12と、候補変換部13と、組み合わせ生成部14と、スコア算出部15と、エンティティ特定部16とを備えて構成される。
 入力部11は、エンティティの特定対象の語句を含む文章を入力する機能部である。入力部11は、例えば、端末からエンティティ特定システム10に対して送信される文章を受信して入力する。あるいは、入力部11は、端末から音声を受信して、受信した音声を音声認識して、音声認識の結果である文章を取得して入力してもよい(即ち、音声データでの入力)。この場合、入力部11は、従来の任意の音声認識方法を用いて音声認識を行うことができる。また、入力部11は、予め設定された生成ルールに基づいて、ユーザの指示に応じて自動的に文章を音声データ又はテキストデータの形式で生成して入力することとしてもよい。また、入力部11は、上記以外の任意の方法で文章を入力することができる。入力部11は、入力した文章を語句抽出部12に出力する。
 語句抽出部12は、入力部11によって入力された文章から1つ以上の語句を抽出する機能部である。語句抽出部12によって抽出される語句は、エンティティがリンクされる対象となる語句を含む。また、語句抽出部12によって抽出される語句は、エンティティがリンクされる対象とならない語句を含んでいてもよい。後述するようにエンティティがリンクされる対象とならない語句も、エンティティの特定に用いられ得る。抽出される語句は、単語単位でもよいし、複数の単語からなる語句であってもよく、任意の単位の文字列でよい。抽出される語句は、1つ以上であってもよいし、複数であってもよい。語句抽出部12は、例えば、以下のように語句を抽出する。
 語句抽出部12は、入力部11から文章を入力する。例えば、語句抽出部12は、形態素解析を用いて語句を抽出する。この場合、語句抽出部12は、入力した文章を形態素解析によって形態素に分割する。形態素解析自体は、従来の方法によって行うことができる。語句抽出部12は、文章を分割して得られた形態素全てを語句として抽出してもよい。あるいは、形態素のうちの一部を語句として抽出してもよい。具体的には、語句抽出部12は、形態素解析によって各形態素に付与された品詞に基づいて形態素を語句として抽出してもよい。例えば、語句として抽出する品詞(例えば、名詞)あるいは語句として抽出しない品詞を予め設定しておいてもよい。
 また、語句抽出部12は、コーパスを入力して、入力したコーパスに基づいて文章から語句を抽出することとしてもよい。コーパスとしては、例えば、オンライン百科事典(例えば、ウィキペディア)又はオンライン辞書等を用いることができる。コーパスの入力は、例えば、エンティティ特定システム10の管理者の操作によって行われる。具体的には、語句抽出部12は、コーパスに出現する語句の出現頻度を算出して、語句の出現頻度に基づいて語句を抽出してもよい。例えば、形態素解析によって得られた語句のうち、予め設定された出現頻度以上の語句を、一般的な語句であるとして抽出する語句から除外することとしてもよい。
 また、語句抽出部12は、形態素解析にかえて、あるいは加えて予め記憶した語句抽出用の辞書を用いて語句を抽出してもよい。語句抽出用の辞書は、抽出すべき語句をリスト化したものである。語句抽出用の辞書は、エンティティ特定システム10の管理者等によって人工的に作成されたものであってもよい。あるいは、語句抽出用の辞書は、上述したコーパスに基づいて生成されたものであってもよい。例えば、コーパスに出現する語句のうち、予め設定された出現頻度未満の語句のリストを語句抽出用の辞書としてもよい。語句抽出部12は、語句抽出用の辞書に含まれる各語句と入力した文章とを比較して、文字列のマッチングを行い、文章に含まれる語句を抽出する。語句抽出部12は、抽出した語句を候補変換部13に出力する。
 図2(a)に「合衆国最高裁判所は米政府の連邦裁判所を統括する」との文章から形態素解析によって抽出された語句の例を示す。図2(b)に当該文章から語句抽出用の辞書によって抽出された語句の例を示す。例えば、「合衆国最高裁判所」は、形態素解析を用いた場合では、「合衆国」「最高」「裁判所」の3語の語句に分割されるが、語句抽出用の辞書を用いた場合では、辞書に「合衆国最高裁判所」との語句が含まれていれば、「合衆国最高裁判所」の1語の語句となる。以下では、語句抽出用の辞書を用いた場合の語句の例を用いて説明する。
 候補変換部13は、語句抽出部12によって抽出された語句のうち少なくとも何れかについて、当該語句にリンクされるエンティティの1つ以上の候補の語句に変換する機能部である。候補変換部13は、例えば、以下のように語句をエンティティの候補の語句に変換する。
 候補変換部13は、予め文章中に出現し得る語句と当該語句にリンクされ得るエンティティを示す語句とを対応付けて記憶しておく。記憶されるエンティティを示す語句は、文章中の語句の変換候補、即ち、文章中に出現し得る語句にリンクされるエンティティの候補の語句である。例えば、候補変換部13は、図3に示すように「連邦裁判所」との文章中に出現し得る語句に対して、「アメリカ合衆国連邦裁判所」「連邦裁判所(ドイツ)」「連邦裁判所(スイス)」「オーストラリア連邦裁判所」等のエンティティを示す語句を対応付けて予め記憶しておく。文章中に出現し得る語句1つに対して、エンティティの候補の語句は1つであってもよいし、複数であってもよい。
 上記の情報は、エンティティ特定システム10の管理者等によって人工的に作成されたものであってもよい。あるいは、上記の情報は、上述したコーパスに基づいて生成されたものであってもよい。例えば、コーパスに含まれるアンカーテキストに基づいて生成されたものであってもよい。あるいは、コーパスに基づいて決定された語句間の文字列距離(例えば、後述するコサイン距離)に基づいて生成されたものであってもよい。
 候補変換部13は、語句抽出部12から語句を入力する。候補変換部13は、語句抽出部12から入力した語句毎に、予め記憶した上記の情報に当該語句が含まれているか否かを確認する。候補変換部13は、予め記憶した情報に含まれている語句を、当該情報において当該語句に対応付けられたエンティティを示す語句に変換する。候補変換部13は、語句抽出部12によって抽出された語句毎に変換した後のエンティティの候補の語句を組み合わせ生成部14に出力する。また、語句抽出部12から入力した語句のうち、予め記憶した情報に含まれていないものについても、候補変換部13は当該(変換がされない)語句を組み合わせ生成部14に出力してもよい。記憶した情報に含まれていない語句は、エンティティの特定の対象とならない語句である。
 組み合わせ生成部14は、候補変換部13によって変換された1つ以上の語句の何れかをそれぞれ含む、文章に対応する語句の組み合わせを1つ以上生成する機能部である。
 組み合わせ生成部14は、候補変換部13から語句を入力する。組み合わせ生成部14は、入力部11によって入力された文章毎、即ち、エンティティの特定対象の語句を含む文章毎に語句の組み合わせを生成する。組み合わせ生成部14は、1つの組み合わせに対して、語句抽出部12によって抽出された語句毎に、候補変換部13によって変換されたエンティティの候補の語句の何れか1つを含める。組み合わせ生成部14は、全てのエンティティの候補の語句の組み合わせを生成する。これによって、変換後のエンティティの候補の語句の数の積の組み合わせが生成される。何れかの語句に対して複数のエンティティの候補の語句の数があれば、上記の組み合わせも複数になる。組み合わせの例を図4に示す。
 組み合わせ生成部14は、候補変換部13から入力された変換後のエンティティの候補の語句のうち、一部の語句のみを組み合わせの生成に用いることとしてもよい。具体的には、組み合わせ生成部14は、エンティティの候補の語句の文字列長又はコーパス中の当該語句の出現頻度によって、当該語句をフィルタリングし、フィルタリングした語句を組み合わせの生成に用いることとしてもよい。例えば、組み合わせ生成部14は、エンティティの候補の語句の文字列長が予め設定した範囲内である場合、あるいは、コーパス中の当該語句の出現頻度が予め設定した値以上、又は変換された語句のうち予め設定した順位以上である場合に語句を組み合わせの生成に用いることとしてもよい。文字列長をフィルタリングに用いるのは、例えば、機械的に抽出された文字列長が極端に短い又は長い候補の語句は、エンティティを示す語句として適切ではない場合があるためである。また、エンティティの候補の語句の文字列長及びコーパス中の当該語句の出現頻度の両方を用いてフィルタリングを行ってもよい。このフィルタリングによって、例えば、「連邦裁判所」という語句から変換された複数の候補のうち、コーパス中の出現頻度に基づいて、「アメリカ合衆国連邦裁判所」と「連邦裁判所(ドイツ)」との2つだけが組み合わせの生成に用いられてもよい。
 フィルタリングによって語句の候補の数を減らし、それによって語句の組み合わせの数を減らすことで計算量を削減することができる。例えば、文章中から3つの語句が抽出でき、それらの語句に対する候補の語句の数がそれぞれ3つ、5つ、3つであるとすると、生成される組み合わせの数は3×5×3=45通りとなる。語句の候補をそれぞれ1つずつフィルタリングによって除外すれば、生成される組み合わせの数は2×4×2=16通りとなり、計算量を半分以下にすることができる。
 候補の語句のフィルタリングは、フィルタリングを行わない場合の語句の組み合わせの数に応じて行われてもよい。例えば、フィルタリングを行わない場合の語句の組み合わせの数が、予め設定した閾値以上になる場合に行うこととしてもよい。これによって、計算量の削減が必要であると考えられる場合に適切にフィルタリングを行うことができる。また、語句の候補のフィルタリングは、候補変換部13によって行われてもよい。また、候補変換部13は、フィルタリング後の候補の語句を、変換用の語句として予め記憶しておいてもよい。
 組み合わせ生成部14は、語句抽出部12によって抽出された全ての語句のエンティティの候補の語句を組み合わせの生成に用いてもよいし、一部の語句のエンティティの候補の語句を組み合わせの生成に用いてもよい。具体的には、組み合わせ生成部14は、語句抽出部12によって抽出された語句の品詞、又はコーパスに出現する語句の出現頻度に基づいて、組み合わせの生成に用いる語句を決定してもよい。例えば、語句抽出部12による語句の抽出の際と同様に品詞が用いられてもよい。あるいは、コーパス中の当該語句の出現頻度が予め設定した値以上、又は抽出された語句のうち予め設定した順位以上である場合に、当該語句のエンティティの候補の語句を組み合わせの生成に用いることとしてもよい。また、語句の品詞、及びコーパスに出現する語句の出現頻度の両方に基づいて、組み合わせの生成に用いる語句を決定してもよい。これによって、例えば、「合衆国最高裁判所」、「米政府」及び「連邦裁判所」の3つの語句に対する候補のうち、「合衆国最高裁判所」及び「連邦裁判所」の2つの語句に対する候補だけが組み合わせの生成に用いられてもよい。上記のように語句の組み合わせの数を減らすことで、上述したフィルタリングと同様に計算量を削減することができる。なお、組み合わせの生成に用いる語句の決定(語句抽出部12による語句の抽出に相当)は、語句抽出部12及び組み合わせ生成部14の何れか一方のみで一律の基準で行われることとしてもよい。
 語句抽出部12によって抽出された語句の一部のみを用いた組み合わせの生成は、全ての語句を組み合わせの生成に用いる場合の語句の組み合わせの数に応じて行われてもよい。例えば、全ての語句を組み合わせの生成に用いる場合の語句の組み合わせの数が、予め設定した閾値以上になる場合に一部の語句のみを組み合わせの生成に用いることとしてもよい。これによって、計算量の削減が必要であると考えられる場合に適切に語句の削減を行うことができる。なお、この場合、組み合わせ生成部14による語句の削減を意義のあるものとするため、語句抽出部12による語句の抽出は、語句の品詞、又はコーパスに出現する語句の出現頻度を用いずに行うか、用いたとしても組み合わせ生成部14による語句の削減とは異なる(ゆるい)基準で行うこととしてもよい。
 候補変換部13から入力された語句に、エンティティの候補の語句に変換されていない語句が含まれている場合には、組み合わせ生成部14は、当該語句を含めて組み合わせを生成してもよい。組み合わせ生成部14は、生成した組み合わせを示す情報をスコア算出部15に出力する。
 スコア算出部15は、組み合わせ生成部14によって生成された各組み合わせについて、組み合わせに含まれる語句同士の類似性のスコアに基づいてスコアを算出する機能部である。スコア算出部15は、コーパスを入力して、入力したコーパスに基づいて語句同士の類似性のスコアを算出こととしてもよい。スコア算出部15は、例えば、以下のように各組み合わせについてスコアを算出する。
 スコア算出部15は、組み合わせ生成部14から組み合わせを示す情報を入力する。スコア算出部15は、組み合わせに含まれる2つの語句同士の類似性のスコアを特定する。語句の類似性のスコアは、例えば、以下のように算出される。スコア算出部15は、コーパスを入力して、コーパスに基づいて2つの語句同士の類似性のスコアを算出する。コーパスに基づく語句同士の類似性のスコアの算出は、例えば、Word2Vec等の機械学習によって語句の解析を行う手法によって行うことができる。Word2Vecを用いる場合には、語句の特徴を示す単語ベクトル同士のコサイン距離を類似度とすることができる。あるいは、語句間の共起確率に基づいて、類似度が算出されてもよい。なお、コーパスに基づく類似度は、全ての語句の組み合わせについて予め算出されてスコア算出部15に記憶されていてもよい。また、語句同士の類似度は、上記以外の方法で算出されてもよく、あるいは、予め他の装置よって又は人工的に生成されたものが用いられてもよい。
 スコア算出部15は、組み合わせに含まれる全ての2つの語句同士の類似性のスコアを算出する。スコア算出部15は、それらの類似性のスコアから、組み合わせ全体に対するスコアを算出する。例えば、スコア算出部15は、組み合わせに含まれる全ての2つの語句同士の類似性のスコアを足し合わせて、組み合わせ全体に対するスコアを算出する。スコア算出部15は、全ての組み合わせについてスコアを算出する。スコア算出部15は、組み合わせを示す情報及び算出したスコアをエンティティ特定部16に出力する。
 エンティティ特定部16は、スコア算出部15によって算出された組み合わせのスコアに基づいて、1つ以上の候補の語句から、リンクされるエンティティの語句を特定する機能部である。
 エンティティ特定部16は、スコア算出部15から組み合わせを示す情報及びスコアを入力する。スコアは、組み合わせに含まれるエンティティの候補の語句の文章に対する妥当性を示すものである。例えば、上記の2つの語句同士の類似性のスコアの値が高い程、類似性が高いものであった場合、組み合わせのスコアが高い程、組み合わせに含まれるエンティティの候補の語句の文章に対する妥当性が高いことを示している。
 エンティティ特定部16は、各組み合わせのうち、スコアが、上記の妥当性が最も高いことを示すものである(例えば、スコアが最も高い)組み合わせに含まれるエンティティの候補の語句を、対応する語句にリンクされるエンティティの語句として特定する。また、エンティティ特定部16は、スコアと予め設定された閾値とを比較して、スコアが閾値以上である場合にエンティティを特定することとしてもよい。スコアが閾値未満である場合、エンティティ特定部16は、語句にリンクされるエンティティが(候補の中には)ないとしてもよい。上記のようにエンティティ特定部16は、文章に含まれる語句一つ一つに対してエンティティを特定するのではなく、スコア(組み合わせの整合性)に基づいて文章に含まれる全ての語句に対して、リンクされるエンティティの語句を一度に特定する。
 エンティティ特定部16は、特定したエンティティの語句を、当該語句が用いられるシステム又はモジュール等に出力する。なお、特定したエンティティの語句の出力は、任意の方法で行われてもよい。以上が、本実施形態に係るエンティティ特定システム10の機能である。
 引き続いて、図5のフローチャートを用いて、本実施形態に係るエンティティ特定システム10で実行される処理(エンティティ特定システム10が行う動作方法)を説明する。本処理では、入力部11によって、エンティティの特定対象の語句を含む文章が入力される(S01)。続いて、語句抽出部12によって、文章から語句が抽出される(S02)。続いて、候補変換部13によって、文章中の語句が、当該語句にリンクされるエンティティの候補の語句に変換される(S03)。続いて、組み合わせ生成部14によって、変換された語句をそれぞれ含む、文章に対応する語句の組み合わせが生成される(S04)。続いて、スコア算出部15によって、各組み合わせについて、組み合わせに含まれる語句同士の類似性のスコアに基づいてスコアが算出される(S05)。続いて、エンティティ特定部16によって、組み合わせのスコアに基づいて、候補の語句からリンクされるエンティティの語句が特定されて出力される(S06)。以上が、本実施形態に係るエンティティ特定システム10で実行される処理である。
 本実施形態では、文章に対応する語句同士の類似性に基づいて、文章に含まれる語句にリンクされるエンティティの語句が特定される。従って、本実施形態によれば、文章の文脈に適したエンティティを特定することができる。また、語句同士の類似性を予め算出しておけば、従来のエンティティの特定と比べて比較的簡易な処理でエンティティを特定することができる。即ち、本実施形態によれば、エンティティの特定における処理負荷を低減することができる。
 また、上述したようにコーパスに基づいて文章から語句を抽出することとしてもよい。この構成によれば、エンティティの特定対象となる語句を適切に抽出することができる。但し、語句の抽出には、必ずしもコーパスを用いる必要はない。
 また、上述したようにコーパスに基づいて語句同士の類似性を算出することとしてもよい。この構成によれば、適切かつ確実に語句同士の類似性を算出することができ、その結果、適切かつ確実に文章の文脈に適したエンティティを特定することができる。但し、語句同士の類似性は、必ずしもコーパスに基づいたものとしなくてもよい。
 なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した1つの装置を用いて実現されてもよいし、物理的又は論理的に分離した2つ以上の装置を直接的又は間接的に(例えば、有線、無線などを用いて)接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記1つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。
 機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知(broadcasting)、通知(notifying)、通信(communicating)、転送(forwarding)、構成(configuring)、再構成(reconfiguring)、割り当て(allocating、mapping)、割り振り(assigning)などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック(構成部)は、送信部(transmitting unit)又は送信機(transmitter)と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。
 例えば、本開示の一実施の形態におけるエンティティ特定システム10は、本開示の情報処理を行うコンピュータとして機能してもよい。図6は、本開示の一実施の形態に係るエンティティ特定システム10のハードウェア構成の一例を示す図である。上述のエンティティ特定システム10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、バス1007などを含むコンピュータ装置として構成されてもよい。
 なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。エンティティ特定システム10のハードウェア構成は、図に示した各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
 エンティティ特定システム10における各機能は、プロセッサ1001、メモリ1002などのハードウェア上に所定のソフトウェア(プログラム)を読み込ませることによって、プロセッサ1001が演算を行い、通信装置1004による通信を制御したり、メモリ1002及びストレージ1003におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。
 プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置(CPU:Central Processing Unit)によって構成されてもよい。例えば、上述のエンティティ特定システム10における各機能は、プロセッサ1001によって実現されてもよい。
 また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、データなどを、ストレージ1003及び通信装置1004の少なくとも一方からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、エンティティ特定システム10における各機能は、メモリ1002に格納され、プロセッサ1001において動作する制御プログラムによって実現されてもよい。上述の各種処理は、1つのプロセッサ1001によって実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。
 メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)などの少なくとも1つによって構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)などと呼ばれてもよい。メモリ1002は、本開示の一実施の形態に係る情報処理を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュールなどを保存することができる。
 ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップなどの少なくとも1つによって構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。エンティティ特定システム10が備える記憶媒体は、例えば、メモリ1002及びストレージ1003の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。
 通信装置1004は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。
 入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプなど)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
 また、プロセッサ1001、メモリ1002などの各装置は、情報を通信するためのバス1007によって接続される。バス1007は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。
 また、エンティティ特定システム10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つを用いて実装されてもよい。
 本開示において説明した各態様/実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。
 入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
 判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
 本開示において説明した各態様/実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)ことによって行われてもよい。
 以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。
 ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。
 また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術(同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL:Digital Subscriber Line)など)及び無線技術(赤外線、マイクロ波など)の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。
 本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。
 また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。
 サーバ及びクライアントの少なくとも一方は、送信装置、受信装置、通信装置などと呼ばれてもよい。なお、サーバ及びクライアントの少なくとも一方は、移動体に搭載されたデバイス、移動体自体などであってもよい。当該移動体は、乗り物(例えば、車、飛行機など)であってもよいし、無人で動く移動体(例えば、ドローン、自動運転車など)であってもよいし、ロボット(有人型又は無人型)であってもよい。なお、サーバ及びクライアントの少なくとも一方は、必ずしも通信動作時に移動しない装置も含む。例えば、基地局及び移動局の少なくとも一方は、センサなどのIoT(Internet of Things)機器であってもよい。
 また、本開示におけるサーバは、クライアント端末で読み替えてもよい。例えば、サーバ及びクライアント端末間の通信を、複数のユーザ端末間の通信(例えば、D2D(Device-to-Device)、V2X(Vehicle-to-Everything)などと呼ばれてもよい)に置き換えた構成について、本開示の各態様/実施形態を適用してもよい。この場合、上述のサーバが有する機能をクライアント端末が有する構成としてもよい。
 同様に、本開示におけるクライアント端末は、サーバで読み替えてもよい。この場合、上述のクライアント端末が有する機能をサーバが有する構成としてもよい。
 本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)(例えば、テーブル、データベース又は別のデータ構造での探索)、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断(決定)」は、「想定する(assuming)」、「期待する(expecting)」、「みなす(considering)」などで読み替えられてもよい。
 「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、2又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された2つの要素間に1又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、2つの要素は、1又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光(可視及び不可視の両方)領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。
 本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。
 本開示において、「含む(include)」、「含んでいる(including)」及びそれらの変形が使用されている場合、これらの用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
 本開示において、例えば、英語でのa, an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。
 本開示において、「AとBが異なる」という用語は、「AとBが互いに異なる」ことを意味してもよい。なお、当該用語は、「AとBがそれぞれCと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。
 10…エンティティ特定システム、11…入力部、12…語句抽出部、13…候補変換部、14…組み合わせ生成部、15…スコア算出部、16…エンティティ特定部、1001…プロセッサ、1002…メモリ、1003…ストレージ、1004…通信装置、1005…入力装置、1006…出力装置、1007…バス。

Claims (3)

  1.  文章を入力する入力部と、
     前記入力部によって入力された文章から1つ以上の語句を抽出する語句抽出部と、
     前記語句抽出部によって抽出された語句のうち少なくとも何れかについて、当該語句にリンクされるエンティティの1つ以上の候補の語句に変換する候補変換部と、
     前記候補変換部によって変換された1つ以上の語句の何れかをそれぞれ含む、前記文章に対応する語句の組み合わせを1つ以上生成する組み合わせ生成部と、
     前記組み合わせ生成部によって生成された各組み合わせについて、組み合わせに含まれる語句同士の類似性のスコアに基づいてスコアを算出するスコア算出部と、
     前記スコア算出部によって算出された組み合わせのスコアに基づいて、前記1つ以上の候補の語句から、前記リンクされるエンティティの語句を特定するエンティティ特定部と、
    を備えるエンティティ特定システム。
  2.  前記語句抽出部は、コーパスを入力して、入力したコーパスに基づいて文章から語句を抽出する請求項1に記載のエンティティ特定システム。
  3.  前記語句抽出部は、コーパスを入力して、入力したコーパスに基づいて語句同士の類似性のスコアを算出する請求項1又は2に記載のエンティティ特定システム。
PCT/JP2019/022218 2018-06-28 2019-06-04 エンティティ特定システム WO2020003928A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/041,927 US20210142007A1 (en) 2018-06-28 2019-06-04 Entity identification system
JP2020527332A JP7066844B2 (ja) 2018-06-28 2019-06-04 エンティティ特定システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018123451 2018-06-28
JP2018-123451 2018-06-28

Publications (1)

Publication Number Publication Date
WO2020003928A1 true WO2020003928A1 (ja) 2020-01-02

Family

ID=68984866

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/022218 WO2020003928A1 (ja) 2018-06-28 2019-06-04 エンティティ特定システム

Country Status (3)

Country Link
US (1) US20210142007A1 (ja)
JP (1) JP7066844B2 (ja)
WO (1) WO2020003928A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021197138A (ja) * 2020-06-09 2021-12-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド エンティティ・リンキング方法、装置、機器、及び記憶媒体
JP7453199B2 (ja) 2021-10-20 2024-03-19 Lineヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160124939A1 (en) * 2014-10-31 2016-05-05 International Business Machines Corporation Disambiguation in mention detection
JP2017199139A (ja) * 2016-04-26 2017-11-02 日本放送協会 キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7865356B2 (en) * 2004-07-15 2011-01-04 Robert Bosch Gmbh Method and apparatus for providing proper or partial proper name recognition
US7788084B2 (en) * 2006-09-19 2010-08-31 Xerox Corporation Labeling of work of art titles in text for natural language processing
US8364470B2 (en) * 2008-01-15 2013-01-29 International Business Machines Corporation Text analysis method for finding acronyms
JP2012038239A (ja) * 2010-08-11 2012-02-23 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
JP6260294B2 (ja) * 2014-01-21 2018-01-17 富士通株式会社 情報検索装置、情報検索方法および情報検索プログラム
KR102450853B1 (ko) * 2015-11-30 2022-10-04 삼성전자주식회사 음성 인식 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160124939A1 (en) * 2014-10-31 2016-05-05 International Business Machines Corporation Disambiguation in mention detection
JP2017199139A (ja) * 2016-04-26 2017-11-02 日本放送協会 キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021197138A (ja) * 2020-06-09 2021-12-27 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド エンティティ・リンキング方法、装置、機器、及び記憶媒体
JP7317791B2 (ja) 2020-06-09 2023-07-31 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド エンティティ・リンキング方法、装置、機器、及び記憶媒体
US11727216B2 (en) 2020-06-09 2023-08-15 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device, and storage medium for linking entity
JP7453199B2 (ja) 2021-10-20 2024-03-19 Lineヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Also Published As

Publication number Publication date
JPWO2020003928A1 (ja) 2021-03-11
US20210142007A1 (en) 2021-05-13
JP7066844B2 (ja) 2022-05-13

Similar Documents

Publication Publication Date Title
US20210216580A1 (en) Method and apparatus for generating text topics
CN107025217B (zh) 同义转换文生成方法、装置、记录介质以及机器翻译***
US11907671B2 (en) Role labeling method, electronic device and storage medium
US11288460B2 (en) Translation support system, etc
RU2644071C2 (ru) Курирование многоязычных коммерческих признаков и синтез транслитерации
JPWO2020021845A1 (ja) 文書分類装置及び学習済みモデル
CN110096599B (zh) 知识图谱的生成方法及装置
US11227116B2 (en) Translation device, translation method, and program
US10853569B2 (en) Construction of a lexicon for a selected context
WO2020003928A1 (ja) エンティティ特定システム
WO2020054451A1 (ja) 対話装置
US10325024B2 (en) Contextual analogy response
WO2020039808A1 (ja) 機械翻訳制御装置
JP2018081495A (ja) 対訳文対出力装置
JP2019139629A (ja) 機械翻訳装置、翻訳学習済みモデル及び判定学習済みモデル
US20230141191A1 (en) Dividing device
WO2019187668A1 (ja) 文章マッチングシステム
WO2019208280A1 (ja) 文章マッチングシステム
JP7477359B2 (ja) 文章作成装置
CN111368083A (zh) 基于意图混淆的文本分类方法、装置、设备及存储介质
WO2019187463A1 (ja) 対話サーバ
US10325025B2 (en) Contextual analogy representation
JP7512288B2 (ja) 単語重み計算システム
US20220245363A1 (en) Generation device and normalization model
US20230015324A1 (en) Retrieval device

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2020527332

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19826567

Country of ref document: EP

Kind code of ref document: A1