WO2016120904A1 - 意図推定装置及び意図推定方法 - Google Patents

意図推定装置及び意図推定方法 Download PDF

Info

Publication number
WO2016120904A1
WO2016120904A1 PCT/JP2015/000367 JP2015000367W WO2016120904A1 WO 2016120904 A1 WO2016120904 A1 WO 2016120904A1 JP 2015000367 W JP2015000367 W JP 2015000367W WO 2016120904 A1 WO2016120904 A1 WO 2016120904A1
Authority
WO
WIPO (PCT)
Prior art keywords
intention
execution order
unit
sentence
feature quantity
Prior art date
Application number
PCT/JP2015/000367
Other languages
English (en)
French (fr)
Inventor
イ 景
悠介 小路
石井 純
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to CN201580074585.4A priority Critical patent/CN107209758A/zh
Priority to US15/546,801 priority patent/US10460034B2/en
Priority to DE112015006069.3T priority patent/DE112015006069T5/de
Priority to PCT/JP2015/000367 priority patent/WO2016120904A1/ja
Priority to JP2016554689A priority patent/JP6328260B2/ja
Publication of WO2016120904A1 publication Critical patent/WO2016120904A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Definitions

  • the present invention relates to an intention estimation apparatus and an intention estimation method for recognizing text input using a voice or a keyboard to estimate a user's intention and executing an operation intended by the user.
  • Such technology is effective when the intention included in the utterance content is one.
  • an utterance including a plurality of intentions such as compound sentences is input by a speaker, it is difficult to correctly estimate the plurality of intentions.
  • the utterance “I want to stop by Tokyo Tower, but stop by Sky Tree first.” There are two intentions: setting the transit point for Tokyo Tower, which is a facility, and setting the transit point for Sky Tree, which is a facility.
  • There is an intention and it is difficult to estimate these two intentions by using the above intention estimation model.
  • Patent Document 1 proposes a method for estimating the position of an appropriate division point of an input text based on intention estimation and the probability of compound sentence division for an utterance including a plurality of intentions.
  • Patent Document 1 simply outputs the result of estimating a plurality of intentions based on the division points, and cannot estimate the execution order of machine commands corresponding to the estimated plurality of intentions. There was a problem that the user's intention could not be accurately estimated.
  • the present invention has been made to solve the above-described problems, and an object thereof is to provide an intention estimation apparatus and an intention estimation method that can accurately estimate a user's intention.
  • the intention estimation apparatus includes a morpheme analyzer that performs morpheme analysis on a compound sentence including a plurality of intentions, a syntax analysis of the compound sentence that has been analyzed by the morpheme analyzer, and a first simple sentence and a second sentence.
  • a syntax analysis part that divides the sentence into simple sentences, a first intention included in the first simple sentence, and an intention estimator that estimates the second intention included in the second simple sentence
  • a feature quantity extraction unit that extracts a morpheme indicating the execution order of operations as a first feature quantity, and extracts a morpheme indicating an execution order of operations included in the second simple sentence as a second feature quantity; and feature quantity extraction Execution for estimating the execution order of the first operation corresponding to the first intention and the second operation corresponding to the second intention based on the first feature amount and the second feature amount extracted by the unit And an order estimation unit.
  • the intention estimation method includes a step of morphological analysis of a compound sentence including a plurality of intentions, a step of parsing the compound sentence subjected to morphological analysis and dividing it into a plurality of single sentences, and a plurality of single sentences respectively. Included in each of a plurality of simple sentences, a step of extracting a morpheme indicating an operation execution order included in each of a plurality of single sentences as a feature quantity, and included in each of a plurality of single sentences based on a feature quantity included in each of the plurality of single sentences. And estimating the execution order of each operation corresponding to the intended intention.
  • the intention estimation apparatus and the intention estimation method of the present invention since the execution order of operations corresponding to the intention is estimated based on the feature amount extracted from the single sentence, it is possible to accurately estimate the user's intention.
  • FIG. 5 is a diagram illustrating an example of an intention estimation model according to Embodiment 1.
  • FIG. 6 is a diagram illustrating an example of a feature amount extraction rule according to Embodiment 1.
  • FIG. An example of the kind of execution order which concerns on Embodiment 1 is shown.
  • 6 is a diagram illustrating an example of an execution order estimation model according to Embodiment 1.
  • FIG. 2 is a diagram illustrating a hardware configuration example of an intention estimation apparatus 1 according to Embodiment 1.
  • FIG. 6 is a diagram illustrating an example of learning data according to Embodiment 1.
  • FIG. 6 is a flowchart for explaining execution order estimation model generation processing according to the first embodiment; 6 is a diagram showing an example of interaction according to Embodiment 1.
  • FIG. 5 is a flowchart for explaining intention estimation processing according to Embodiment 1; It is a figure which shows the score of each feature-value with respect to each execution order which concerns on Embodiment 1.
  • FIG. 6 is a diagram illustrating a calculation formula for obtaining a product of scores according to Embodiment 1.
  • FIG. It is a figure which shows the final score with respect to each execution order which concerns on Embodiment 1.
  • FIG. It is a figure which shows the structural example of the intention estimation apparatus 1B which concerns on Embodiment 2.
  • FIG. 10 is a flowchart for explaining an execution order estimation model generation process according to the second embodiment.
  • FIG. 10 is a diagram showing an example of interaction according to the second embodiment.
  • 10 is a flowchart for explaining intention estimation processing according to Embodiment 2; It is a figure which shows the final score with respect to each execution order which concerns on Embodiment 2.
  • Embodiment 1 FIG. Embodiment 1 of the present invention will be described below with reference to the drawings.
  • FIG. 1 is a diagram illustrating a configuration example of an intention estimation apparatus 1 according to the first embodiment.
  • the intention estimation apparatus 1 includes a voice input unit 101, a voice recognition unit 102, a morpheme analysis unit 103, a syntax analysis unit 104, an intention estimation model storage unit 105, an intention estimation unit 106, and a feature amount extraction rule storage unit.
  • the voice input unit 101 accepts voice input.
  • the speech recognition unit 102 recognizes speech data corresponding to the speech input input to the speech input unit 101, converts the speech data into text data, and outputs the text data to the morpheme analysis unit 103.
  • the text data is a compound sentence including a plurality of intentions.
  • a compound sentence is composed of a plurality of simple sentences, and one simple sentence includes one intention.
  • the morpheme analysis unit 103 performs morpheme analysis on the text data converted by the speech recognition unit 102 and outputs the result to the syntax analysis unit 104.
  • the morpheme analysis is a natural language processing technique in which a text is divided into morphemes (the smallest unit having meaning in a language) and parts of speech are identified using a dictionary. For example, a simple sentence “go to Tokyo Tower” is divided into morphemes such as “Tokyo Tower / proprietary nouns, go / case particles, go / verbs”. A morpheme may be expressed as an independent word or a feature.
  • the syntax analysis unit 104 analyzes the structure of a sentence in units of phrases or clauses (syntactic analysis) based on the grammatical rules for the text data analyzed by the morpheme analysis unit 103.
  • the syntax analysis unit 103 divides the text into a plurality of single sentences and outputs the morphological analysis results of each single sentence to the intention estimation unit 106 and the feature amount extraction unit 108.
  • a syntax analysis method for example, a CYK (Cocke-Younger-Kasami) method or the like can be used.
  • the text (compound sentence) is described as including two simple sentences 1 and 2; however, the text is not limited to this, and may be composed of three or more simple sentences.
  • the parsing unit 103 does not need to output data corresponding to all the divided single sentences to the intention estimation unit 106 and the feature amount extraction unit 108.
  • the single sentence 1 and the single sentence 2 are input to the input text (compound sentence). Even if single sentence 3 is included, only single sentence 1 and single sentence 2 may be output.
  • the intention estimation model storage unit 105 stores an intention estimation model for performing intention estimation using morphemes as features.
  • the main intention indicates the classification or function of the intention.
  • the main intention corresponds to an upper layer machine command (destination setting, listening to music, etc.) that the user first operates.
  • the slot name and slot value indicate information necessary for executing the main intention.
  • FIG. 2 is a diagram illustrating an example of the intention estimation model according to the first embodiment.
  • the intention estimation unit 106 estimates the intentions included in the plurality of single sentences using the intention estimation model based on the morphological analysis results of the plurality of single sentences input from the syntax analysis unit 104, and sends the results to the command execution unit 111. Output.
  • a maximum entropy method can be used as the intention estimation method. That is, the intention estimation unit 106 uses a statistical method to estimate how likely the intention corresponding to the input morpheme is from a large amount of collected morpheme and intention sets.
  • the feature quantity extraction rule storage unit 107 is used to estimate the execution order, and stores feature quantity extraction rules (feature quantity extraction conditions) that are rules for extracting morphemes in simple sentences as feature quantities.
  • FIG. 3 is a diagram showing an example of the feature amount extraction rule according to the first embodiment.
  • the appearance position condition means the appearance position (start of sentence, sentence end, etc.) of a morpheme in a single sentence
  • the part of speech condition means the part of speech of the morpheme existing at the appearance position.
  • the part of speech of a morpheme that appears at the beginning of a sentence in a simple sentence is a time noun and a case particle
  • the morpheme is extracted as a feature quantity.
  • the part of speech of a morpheme that appears at the end of a sentence in a simple sentence is a connected particle, the morpheme is extracted as a feature quantity.
  • the feature quantity extraction unit 108 uses a morpheme indicating the execution order of operations included in each single sentence as a feature quantity using a feature quantity extraction rule based on the morpheme analysis results of a plurality of single sentences input from the syntax analysis unit 104. Extract. That is, the feature quantity extraction unit 108 extracts each feature quantity from the position of the morpheme and the part of speech of the morpheme in a plurality of simple sentences. For example, for a simple sentence “go to Tokyo Tower first”, the morpheme analysis unit 103 reads “first / hour noun + case particle, Tokyo Tower / proprietary noun, to / case particle, go / verb” and so on. Morphological analysis is performed.
  • the feature quantity extraction unit 108 extracts the “first” morpheme as a feature quantity according to the feature quantity extraction rule shown in FIG. To do. Then, the feature quantity extraction unit 108 outputs the extracted feature quantities to the execution order estimation unit 110.
  • the execution order estimation model storage unit 109 stores an execution order estimation model (execution order estimation information) used to estimate the execution order of a plurality of single sentences included in the text.
  • FIG. 4 shows an example of the types of execution order according to the first embodiment.
  • the execution order of a plurality of simple sentences means in which order the operations corresponding to the intention of each simple sentence are executed.
  • simple sentence 1 is executed first (single sentence 1 priority: No. 1) or simple sentence 2 is executed first ( Single sentence 2 priority: No. 2), whether single sentence 1 and single sentence 2 are executed simultaneously (execution simultaneously: No. 3), whether only single sentence 1 is executed (only single sentence 1 is executed: No. 4), or only single sentence 2 is executed (Simple sentence 2 only: No. 5).
  • FIG. 5 is a diagram illustrating an example of the execution order estimation model according to the first embodiment.
  • the execution order estimation model includes information (execution information) in which an execution order type of an operation corresponding to each intention of a plurality of single sentences is associated with a score of a feature amount included in each of the plurality of single sentences.
  • Executid information For example, if there is a feature amount “so” in the single sentence 1, the score of “single sentence 1 priority” is 0.07, the score of “single sentence 2 priority” is 0.25, and the execution score is 0.03, and the single sentence 1 The score of only execution is 0.05, and the score of execution of only single sentence 2 is 0.6.
  • software may calculate according to the content of the feature-value, or a user may set arbitrarily.
  • a feature amount “So” in the single sentence 1 it is highly likely that the intention included in the single sentence 2 connected to the single sentence 1 is executed.
  • the single sentence 2 priority score is the second highest. If there is a feature amount “te” in the single sentence 2, the score of the “single sentence 1 priority” is 0.2, the score of the single sentence 2 priority is 0.2, the execution score is 0.2, and only the single sentence 1 is executed. Is 0.2, and the execution score for single sentence 2 is 0.2.
  • the execution order estimation unit 110 estimates the execution order of operations corresponding to each intention included in a plurality of single sentences based on the feature quantities in each single sentence extracted by the feature quantity extraction unit 108, and the command execution unit 111 Output to. For example, if the text “I want to go to Tokyo Tower, but go to Sky Tree first” is entered, the feature amount of simple sentence 1 “I want to go to Tokyo Tower” and simple sentence 2 “Go to Sky Tree first” The order of execution with the priority of the single sentence 2 is estimated by using the feature amount of “by the side”. Details of the execution order estimation algorithm will be described later.
  • the command execution unit 111 includes the intentions included in each of the plurality of single sentences based on the intentions included in the plurality of single sentences estimated by the intention estimation unit 106 and the execution order of the operations estimated by the execution order estimation unit 110.
  • the response generation unit 112 generates a response corresponding to the machine command executed by the command execution unit 111.
  • the response may be generated in the form of text data, or a synthesized sound may be generated as voice data.
  • voice data for example, a synthesized sound such as “Set Skytree as a transit location. Set Tokyo Tower as a transit location” may be used.
  • the notification unit 113 notifies a user such as a driver of the response generated by the response generation unit 112. That is, the notification unit 113 notifies the user that the command execution unit 111 has executed a plurality of machine commands.
  • the notification mode may be anything as long as the user can recognize the notification, such as notification by display, notification by voice, or notification by vibration.
  • FIG. 6 is a diagram illustrating a hardware configuration example of the intention estimation apparatus 1 according to the first embodiment.
  • the intention estimation device 1 includes a processing device 150 such as a CPU (Central Processing Unit), a storage device 160 such as a ROM (Read Only Memory) and a hard disk device, and an input device 170 such as a keyboard and a microphone.
  • the output device 180 such as a speaker or a display is connected via a bus.
  • the CPU may have its own memory.
  • the voice input unit 101 shown in FIG. 1 is realized by the input device 170, and the notification unit 113 is realized by the output device 180.
  • the data stored in the intention estimation model storage unit 105, the feature quantity extraction rule storage unit 107, the execution order estimation model storage unit 109, and the learning data storage unit 114 described later are stored in the storage device 160, respectively.
  • the “ ⁇ unit” such as the generation unit 115 is also stored in the storage device 160 as a program.
  • the processing device 150 implements the functions in the “ ⁇ units” by appropriately reading and executing the program stored in the storage device 160. That is, by combining the hardware that is the processing device 150 and the software that is the above-described program, the above-described “ ⁇ unit” functions are realized.
  • the function is realized by one processing device 150, but a plurality of processing devices are used by, for example, performing a part of the function by a processing device in an external server. A function may be realized. Therefore, “a processor” as the processing device 150 is a concept including not only one processing device but also a plurality of processing devices.
  • the operation of the intention estimation apparatus 1 according to Embodiment 1 will be described. First, the operation related to the generation process of the execution order estimation model will be described.
  • FIG. 7 is a diagram showing a configuration example of the intention estimation apparatus 1 for explaining the generation process of the execution order estimation model according to the first embodiment.
  • the learning data storage unit 114 stores learning data in which an execution order is assigned to a plurality of sentence examples.
  • FIG. 8 is a diagram showing an example of learning data according to the first embodiment.
  • the learning data is data in which an execution order is given to a plurality of sentence examples (No. 1, No. 2, No. 3,). For example, sentence No. 1 “Go on the highway because time is strict” is divided into simple sentence 1 “Because time is severe” and simple sentence 2 “Go on the highway”, and the execution order is “Execute only single sentence 2” Is done. This execution order is given in advance by the learning data creator.
  • the execution order estimation model generation unit 115 learns the correspondence of the execution order stored in the learning data storage unit 114 using a statistical method.
  • the execution order estimation model generation unit 115 generates an execution order estimation model using the feature amount extracted by the feature amount extraction unit 108 and the execution order stored in the learning data storage unit 114.
  • FIG. 9 is a flowchart for explaining execution order estimation model generation processing according to the first embodiment.
  • the morpheme analysis unit 103 performs morpheme analysis on the simple sentence 1 and the simple sentence 2 in each sentence example of the learning data stored in the learning data storage unit 114 (step ST1). For example, sentence No. 1, the morphological analysis unit 103 performs morphological analysis on the simple sentence 1 “Because time is severe” and simple sentence 2 “Go on the expressway”.
  • the morpheme analysis unit 103 outputs the result of the morpheme analysis to the feature amount extraction unit 108 via the syntax analysis unit 104.
  • the feature quantity extraction unit 108 performs a feature quantity extraction process on the single sentence 1 and the single sentence 2 subjected to the morphological analysis based on the feature quantity extraction rules stored in the feature quantity extraction rule storage unit 107 (step ST2). For example, sentence No. In other words, the feature amount extraction unit 108 extracts feature amounts “so” and “te”. Further, the feature quantity extraction unit 108 adds single sentence position information to the extracted feature quantities (step ST3). For example, the feature quantity extraction unit 108 adds the single sentence position information “single sentence 1” to the feature quantity “no” extracted from the single sentence 1 so that it becomes “single sentence 1_no”.
  • the feature quantity extraction unit 108 adds the single sentence position information “single sentence 2” to the feature quantity “te” extracted from the single sentence 2 so as to be “single sentence 2_te”.
  • the feature quantity to which the single sentence position information is added may be expressed as a feature quantity with single sentence position information.
  • the feature quantity extraction unit 108 outputs information on the extracted feature quantity to the execution order estimation model generation unit 115.
  • the execution order estimation model generation unit 115 generates an execution order estimation model based on the feature amount and the execution order included in the learning data (step ST4). For example, in the case of the feature quantities “single sentence 1_no” and “single sentence 2_te”, the execution order estimation model generation unit 115 executes the execution order included in the learning data “execute only the single sentence 2” as shown in FIG. Therefore, it is determined that the feature quantity “single sentence 2_te” has a higher score than the feature quantity “single sentence 1_de”. The execution order estimation model generation unit 115 performs the same processing as described above on all sentence examples included in the learning data, and finally generates an execution order estimation model as shown in FIG.
  • FIG. 10 is a diagram showing an example of dialogue according to the first embodiment.
  • FIG. 11 is a flowchart for explaining intention estimation processing according to the first embodiment.
  • the speech recognition apparatus 1 utters “Please tell me when it beeps” (S1).
  • the user speaks “I want to go to XX” (U1).
  • the utterance from the speech recognition apparatus 1 is represented as “S”
  • the utterance from the user is represented as “U”. The same applies to the following.
  • the speech recognition unit 102 performs speech recognition processing on the user input (step ST01) and converts it into text data.
  • the morpheme analysis unit 103 performs a morpheme analysis process on the converted text data (step ST02).
  • the syntax analysis unit 104 performs a syntax analysis process on the text data subjected to morphological analysis (step ST03). If the text data is a compound sentence, the compound sentence is divided into a plurality of simple sentences. When the text data is not a compound sentence (step ST04-No), the process proceeds to the process after step ST05, and when the text data is a compound sentence (step ST04-Yes), the process proceeds to a process after step ST07.
  • the syntax analysis unit 104 outputs simple text data subjected to morphological analysis to the intention estimation unit 106.
  • the intention estimation unit 106 uses the intention estimation model to execute intention estimation processing on the input single sentence (step ST05).
  • the command execution unit 111 executes a machine command corresponding to the intention estimation result by the intention estimation unit 106 (step ST06). For example, the command execution unit 111 executes an operation of setting the facility xx as the destination. Then, the response generation unit 112 generates a synthesized sound corresponding to the machine command executed by the command execution unit 111. As the synthesized sound, for example, “XX has been set as the destination”. The notification unit 113 notifies the user of the synthesized sound generated by the response generation unit 112 through a speaker or the like. As a result, as shown in “S2” in FIG. 10, a notification such as “XX is the destination” is given to the user.
  • step ST01 when the user speaks as indicated by “U2”, the speech recognition unit 102 performs speech recognition processing on the user input and converts it into text data, and the morpheme analysis unit 103 performs morpheme analysis on the text data. Processing is performed (steps ST01 and ST02).
  • the syntax analysis unit 104 performs a syntax analysis process on the text data (step ST03).
  • text data related to user input is as follows: simple sentence 1 (first simple sentence) “I want to go to XX first” and simple sentence 2 (second simple sentence) , Divided into multiple single sentences. Therefore, the syntax analysis unit 104 outputs the text data of each single sentence subjected to the morphological analysis to the intention estimation unit 106 and the feature amount extraction unit 108, and the processes after step ST07 are performed.
  • the intention estimation unit 106 performs intention estimation processing for each of the single sentence 1 and the single sentence 2 using the intention estimation model (step ST07).
  • the feature quantity extraction unit 108 performs feature quantity extraction processing for each of the single sentence 1 and the single sentence 2 using the feature quantity extraction rule (step ST08).
  • the feature quantity extraction unit 108 extracts the first feature quantity for the single sentence 1, that is, the feature quantities “single sentence 1_first” and “single sentence 1_but”, and for the single sentence 2.
  • the feature quantity extraction unit 108 outputs information on the feature quantity extracted for each simple sentence to the execution order estimation unit 110.
  • the execution order estimation unit 110 estimates the execution order of each single sentence based on the information related to the feature amount output from the feature amount extraction unit 108 and the execution order estimation model stored in the execution order estimation model storage unit 109. (Step ST09). Hereinafter, details of the estimation of the execution order will be described.
  • the execution order estimation unit 110 obtains a score of each feature quantity for each execution order by comparing the feature quantity output from the feature quantity extraction unit 108 with the execution order estimation model.
  • FIG. 12 is a diagram showing the score of each feature quantity with respect to each execution order according to the first embodiment.
  • the score of the feature quantity “single sentence 1_first” is 0.45
  • the score of the feature quantity “single sentence 1_but” is 0.2
  • the score of the feature quantity “single sentence 2 — Yappari” is 0.1
  • the score of the feature quantity “single sentence 2 — first” is 0.2.
  • the score of each feature amount can be obtained for other execution orders.
  • the execution order estimation unit 110 obtains a product of scores of each feature amount in each execution order.
  • FIG. 13 is a diagram illustrating a calculation formula for obtaining a product of scores according to the first embodiment.
  • Si is a score of the i-th feature amount with respect to the execution order of the estimation target.
  • S is a final score representing the product of Si with respect to the execution order of the estimation target.
  • FIG. 14 is a diagram showing a final score for each execution order according to the first embodiment.
  • the execution order estimation unit 110 calculates the final score shown in FIG. 14 using the calculation formula shown in FIG. In this example, for the execution order “single sentence 1 priority”, the score of the feature quantity “single sentence 1_first” is 0.45, the score of the feature quantity “single sentence 1_but” is 0.2, and the feature quantity “ Since the score of “single sentence 2 — Yappa” is 0.1 and the score of feature quantity “single sentence 2 — first” is 0.2, the final score S, which is the product of these, is calculated as 1.8e-3. Similarly, final scores are also calculated for the other execution orders.
  • the execution order estimation unit 110 estimates the execution order “single sentence 2 priority” having the highest score among the calculated final scores of each execution order as an appropriate execution order. In other words, the execution order estimation unit 110 estimates the execution order of each operation based on the scores of the plurality of feature amounts included in the execution order estimation model, and more specifically, by the product of the scores of the plurality of feature amounts. The execution order of each operation is estimated based on the obtained final score.
  • the command execution unit 111 is based on each intention included in the plurality of single sentences estimated by the intention estimation unit 106 and the execution order of the plurality of single sentences estimated by the execution order estimation unit 110.
  • a machine command corresponding to the intention included in each of the plurality of single sentences is executed (step ST10).
  • An operation corresponding to the first intention may be expressed as a first operation
  • an operation corresponding to the second intention may be expressed as a second operation.
  • the response generation unit 112 sets the synthesized sound “ ⁇ corresponding to the machine command executed by the command execution unit 111 as a stopover. Is generated and the notification unit 113 notifies the user of the synthesized sound (step ST11).
  • the syntax analysis unit 104 divides the input compound sentence into a plurality of single sentences, and the feature amount extraction unit 108 extracts the feature amounts included in each of the plurality of single sentences, and determines the execution order. Since the execution order of processing corresponding to the intention included in each of a plurality of single sentences is determined by the unit 110 based on the extracted feature quantity, the intention can be estimated based on the execution order of the intention, and the user's intention can be accurately determined. Can be estimated.
  • command execution unit 111 executes machine commands corresponding to the intentions included in each of the plurality of single sentences based on the execution order of the plurality of single sentences estimated by the execution order estimation unit 110, the operation burden on the user is reduced. It becomes possible to do.
  • the execution order estimation unit 110 uses the main intention feature amount (main intention feature amount) obtained from the intention estimation unit 106 in addition to the feature amount obtained from the feature amount extraction unit 108 to determine the execution order. presume. The description of the main intention feature amount will be described later.
  • FIG. 15 is a diagram illustrating a configuration example of the intention estimation apparatus 1B according to the second embodiment.
  • the intention estimation apparatus 1B according to the second embodiment is intended in that it includes an execution order estimation model storage unit 109B and an execution order estimation unit 110B instead of the execution order estimation model storage unit 109 and the execution order estimation unit 110 according to the first embodiment. Different from the estimation device 1. Since other configurations are the same as those in the first embodiment, the same reference numerals as those in FIG.
  • the execution order estimation model storage unit 109B stores an execution order estimation model (execution order estimation information) used to estimate the execution order of a plurality of single sentences included in the text.
  • FIG. 16 is a diagram illustrating an example of an execution order estimation model according to the second embodiment.
  • each execution order type is associated with a feature amount score included in each of a plurality of single sentences, and each execution order type and each of a plurality of single sentences are associated with each other. Is the information in which the score of the main intention feature amount included in the is associated.
  • “single sentence 1_route addition” and “single sentence 2_destination setting” are main intention feature quantities.
  • the main intention feature amount represents the main intention extracted from the intention estimation result by the intention estimation unit 106 to which single sentence position information is added. For example, “single sentence 1_addition of transit point” indicates that the intention included in the single sentence 1 is “addition of transit point”. “Simple sentence 2_destination setting” indicates that the intention included in simple sentence 2 is “destination setting”.
  • the score in the execution order “single sentence 1 priority” is 0.2, and the score in the execution order “single sentence 2 priority” is 0.25.
  • the score in the execution order “simultaneous execution” is 0.2
  • the score in the execution order “single sentence 1 only” is 0.25
  • the score in the execution order “single sentence 1 only” is 0.1.
  • the score in the execution order “single sentence 2 priority” is 0.45.
  • the score for “execution at the same time” is 0.05, the score for the execution order “execute only single statement 1” is 0.1, and the score for the execution order “execute only single statement 1” is 0.3.
  • the score of the execution order “single sentence 2 priority” increases.
  • FIG. 17 is a diagram illustrating a configuration example of the intention estimation apparatus 1B for explaining the generation process of the execution order estimation model according to the second embodiment.
  • FIG. 18 is a flowchart for explaining an execution order estimation model generation process according to the second embodiment.
  • the morpheme analysis unit 103 performs morpheme analysis on the simple sentence 1 and the simple sentence 2 in each sentence example of the learning data shown in FIG. 8 (step ST001). For example, sentence No. 1, the morphological analysis unit 103 performs morphological analysis on the simple sentence 1 “Because time is severe” and simple sentence 2 “Go on the expressway”. The morpheme analysis unit 103 outputs the result of the morpheme analysis to the feature amount extraction unit 108 and the intention estimation unit 106 via the syntax analysis unit 104.
  • the feature quantity extraction unit 108 performs feature quantity extraction processing on the single sentence 1 and the single sentence 2 subjected to morphological analysis based on the feature quantity extraction rules stored in the feature quantity extraction rule storage unit 107 (step ST002). For example, sentence No. In other words, the feature amount extraction unit 108 extracts feature amounts “so” and “te”. Further, the feature quantity extraction unit 108 adds single sentence position information to the extracted feature quantities (step ST003). For example, the feature quantity extraction unit 108 adds the single sentence position information “single sentence 1” to the feature quantity “no” extracted from the single sentence 1 so that it becomes “single sentence 1_no”.
  • the feature quantity extraction unit 108 adds the single sentence position information “single sentence 2” to the feature quantity “te” extracted from the single sentence 2 so as to be “single sentence 2_te”.
  • the feature amount extraction unit 108 outputs information on the extracted feature amount to the execution order estimation model generation unit 115B.
  • the intention estimation unit 106 estimates the intentions included in the single sentence 1 and the single sentence 2 subjected to the morphological analysis, and extracts them as main intention feature quantities (step ST004). For example, sentence No. In other words, the intention estimation unit 106 extracts the main intention feature quantity “route setting” from the single sentence 1, and extracts the main intention feature quantity “destination setting” from the single sentence 2. In addition, the intention estimation unit 106 adds the single sentence position information “single sentence 1” to the main intention feature amount extracted from the single sentence 1 so that “single sentence 1_route location setting” is obtained. Moreover, the intention estimation part 106 adds single sentence position information to the extracted main intention feature-value (step ST005).
  • the intention estimation unit 106 adds the single sentence position information “single sentence 1” to the main intention feature amount extracted from the single sentence 1 to make “single sentence 1_route location setting”. In addition, the intention estimation unit 106 adds the single sentence position information “single sentence 2” to the main intention feature amount extracted from the single sentence 2 to make “single sentence 2_destination setting”. The intention estimation unit 106 outputs information regarding the extracted feature amount to the execution order estimation model generation unit 115B.
  • the execution order estimation model generation unit 115B generates an execution order estimation model based on the feature amount, the main intention feature amount, and the execution order included in the learning data (step ST006).
  • the execution order estimation model generation unit 115B performs the same processing as described above on all sentence examples included in the learning data, and finally generates an execution order estimation model as shown in FIG.
  • FIG. 19 is a diagram showing an example of dialogue according to the second embodiment.
  • FIG. 20 is a flowchart for explaining intention estimation processing according to the second embodiment.
  • the speech recognition apparatus 1 utters “Please tell me when it beeps” (S11). On the other hand, the user utters “Stop first and go to ⁇ ⁇ ” (U22).
  • the speech recognition unit 102 performs speech recognition processing on user input to convert it into text data
  • the morpheme analysis unit 103 performs morpheme analysis processing on the text data (steps ST0001 and ST0002).
  • syntax analysis section 104 performs syntax analysis processing on the text data (step ST0003).
  • the text data related to the user input includes a plurality of single sentences such as single sentence 1 (first simple sentence) “go to XX first” and simple sentence 2 (second simple sentence) “go to ⁇ ”. It is divided into.
  • the syntax analysis unit 104 outputs the text data of each single sentence subjected to the morphological analysis to the intention estimation unit 106 and the feature amount extraction unit 108, and the processes after step ST07 are performed.
  • the processing in step ST0005 and step ST0006 is the same as that described in FIG.
  • the intention estimation unit 106 performs intention estimation processing on the single sentence 1 and the single sentence 2 using the intention estimation model (step ST0007).
  • the feature quantity extraction unit 108 performs feature quantity extraction processing for each of the single sentence 1 and the single sentence 2 using the feature quantity extraction rule (step ST0008).
  • the feature quantity extraction unit 108 extracts feature quantities “single sentence 1_first” and “single sentence 1_te” for the single sentence 1. Note that there is no feature quantity extracted for the single sentence 2.
  • Single sentence position information is also given to the feature amount.
  • the feature quantity extraction unit 108 outputs information on the feature quantity extracted for each simple sentence to the execution order estimation unit 110B.
  • the execution order estimation unit 110B extracts a main intention feature quantity from the intention of each single sentence estimated by the intention estimation unit 106 (step ST0009).
  • Single sentence position information is also given to the main intention feature.
  • the execution order estimation unit 110B has been described as performing the main intended feature quantity extraction process, but the present invention is not limited thereto.
  • the intention estimation unit 106 may perform main intention feature amount extraction processing and output the extracted information to the execution order estimation unit 110B.
  • the execution order estimation unit 110B estimates the execution order of operations corresponding to the intention of each single sentence based on the information on the feature quantity output from the feature quantity extraction unit 108 and the extracted information on the main intention feature quantity ( Step ST0010). Similar to the first embodiment, the execution order estimation unit 110B compares the feature quantity and the main intention feature quantity with the execution order estimation model to obtain the score of the feature quantity and the main intention feature quantity for each execution order. Then, the execution order estimation unit 110B obtains the product of the feature amount and the main intention feature amount score in each execution order using the calculation formula shown in FIG. That is, the execution order estimation unit 110B estimates the execution order of operations based on the final score obtained by multiplying the scores of a plurality of feature amounts included in each single sentence and the score of the main intention feature amount.
  • FIG. 21 is a diagram showing a final score for each execution order according to the second embodiment.
  • the score of the feature quantity “single sentence 1_first” is 0.45
  • the score of the feature quantity “single sentence 1_te” is 0.2
  • the main intention feature Since the score of the quantity “single sentence 1_route setting” is 0.2 and the score of the main intention feature quantity “single sentence 2_destination setting” is 0.1, the final score S that is the product of these is 1.8e ⁇ 3 is calculated.
  • final scores are also calculated for the other execution orders.
  • the execution order estimation unit 110 estimates the execution order “single sentence 2 priority” having the highest score among the calculated final scores of each execution order as an appropriate execution order.
  • the command execution unit 111 is based on each intention included in the plurality of single sentences estimated by the intention estimation unit 106 and the execution order of the plurality of single sentences estimated by the execution order estimation unit 110.
  • a machine command corresponding to the intention included in each of the plurality of single sentences is executed (step ST0011).
  • the response generation unit 112 sets the synthesized sound “ ⁇ corresponding to the machine command executed by the command execution unit 111 as the destination. ”Is generated, and the notification unit 113 notifies the user of the synthesized sound (step ST0012).
  • the execution order estimation unit 110B uses the main intention feature amount obtained from the intention estimation unit 106 in addition to the feature amount extracted by the feature amount extraction unit 108. Since the execution order of the operations corresponding to the intentions included in is estimated, it is possible to estimate the user's intentions more accurately than in the first embodiment.
  • the navigation device can usually perform the route setting operation only after performing the destination setting operation, in the first embodiment, “go first to OO and go to ⁇ ⁇ . ", The machine command cannot be properly executed, and as a result, the user's intention cannot be estimated accurately.
  • the execution order estimation unit 110B considers the execution order “single sentence 2” in consideration of the main intention feature amount. Since “priority” is determined, the machine command can be appropriately executed, and the user's intention can be accurately estimated.
  • 1, 1B intention estimation device 101 speech input unit, 102 speech recognition unit, 103 morphological analysis unit, 104 syntax analysis unit, 105 intention estimation model storage unit, 106 intention estimation unit, 107 feature quantity extraction rule storage unit, 108 feature quantity Extraction unit, 109, 109B execution order estimation model storage unit, 110, 110B execution order estimation unit, 111 command execution unit, 112 response generation unit, 113 notification unit, 114 learning data storage unit, 115, 115B execution order estimation model generation Unit, 150 processing device, 160 storage device, 170 input device, 180 output device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

 意図推定装置は、複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、形態素解析部による形態素解析された複文を構文解析して第1の単文と第2の単文とに分割する構文解析部と、第1の単文に含まれる第1の意図と、第2の単文に含まれる第2の意図とを推定する意図推定部と、第1の単文に含まれる操作の実行順序を示す形態素を第1の特徴量として抽出するとともに、第2の単文に含まれる操作の実行順序を示す形態素を第2の特徴量として抽出する特徴量抽出部と、特徴量抽出部により抽出された第1の特徴量と第2の特徴量とに基づき、第1の意図に対応する第1の操作と第2の意図に対応する第2の操作の実行順序を推定する実行順序推定部とを備えるので、ユーザーの意図を正確に推定することが可能となる。

Description

意図推定装置及び意図推定方法
 本発明は、音声やキーボードなどを用いて入力されたテキストを認識して使用者の意図を推定し、使用者の意図する操作を実行するための意図推定装置及び意図推定方法に関するものである。
 近年、人間の自由発話を認識し、その認識結果を用いて機械等の操作を実行する技術が知られている。この技術は、携帯電話やナビゲーション装置などの音声インタフェースとして利用され、入力音声の認識結果の意図を推定するものであり、多様な文例及び対応する意図から統計的手法を用いて学習した意図推定モデルを使用することにより、使用者の多様な言い回しに対応できる。
 このような技術においては、発話内容に含まれる意図が1つである場合には有効である。しかしながら、発話者により、複文のような複数の意図を含む発話が入力された場合に、正しく複数の意図を推定することは困難であった。例えば、「東京タワーも寄りたいが、先にスカイツリーへ寄って。」という発話では、施設である東京タワーを経由地設定するという意図と、施設であるスカイツリーを経由地設定するという2つの意図があり、上記の意図推定モデルの使用では、これら2つの意図を推定することは困難であった。
 このような問題に対し、例えば特許文献1では、複数の意図を含む発話に対し、入力テキストの適切な分割点の位置を意図推定及び複文分割の確率により推定する手法が提案されている。
特開2000-200273号公報
 しかしながら、特許文献1の技術では、分割点により複数の意図を推定した結果をそのまま出力するだけであって、推定した複数の意図に対応する機械コマンドの実行順序までを推定することができず、ユーザーの意図を正確に推定することができないという課題があった。
 本発明は、上述した課題を解決するためになされたものであり、ユーザーの意図を正確に推定できる意図推定装置及び意図推定方法を提供することを目的とする。
 本発明に係る意図推定装置は、複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、形態素解析部による形態素解析された複文を構文解析して第1の単文と第2の単文とに分割する構文解析部と、第1の単文に含まれる第1の意図と、第2の単文に含まれる第2の意図とを推定する意図推定部と、第1の単文に含まれる操作の実行順序を示す形態素を第1の特徴量として抽出するとともに、第2の単文に含まれる操作の実行順序を示す形態素を第2の特徴量として抽出する特徴量抽出部と、特徴量抽出部により抽出された第1の特徴量と第2の特徴量とに基づき、第1の意図に対応する第1の操作と第2の意図に対応する第2の操作の実行順序を推定する実行順序推定部とを備えることを特徴とする。
 また、本発明に係る意図推定方法は、複数の意図が含まれる複文を形態素解析するステップと、形態素解析された複文を構文解析して複数の単文に分割するステップと、複数の単文それぞれに含まれる意図を推定するステップと、複数の単文それぞれに含まれる、操作の実行順序を示す形態素を特徴量として抽出するステップと、複数の単文それぞれに含まれる特徴量に基づき、複数の単文それぞれに含まれる意図に対応する各操作の実行順序を推定するステップと、を有することを特徴とする。
 本発明の意図推定装置及び意図推定方法によれば、単文から抽出した特徴量に基づいて意図に対応する操作の実行順序を推定するので、ユーザーの意図を正確に推定することが可能となる。
実施の形態1に係る意図推定装置1の構成例を示す図である。 実施の形態1に係る意図推定モデルの1例を示す図である。 実施の形態1に係る特徴量抽出ルールの1例を示す図である。 実施の形態1に係る実行順序の種類の1例を示す。 実施の形態1に係る実行順序推定モデルの1例を示す図である。 実施の形態1に係る意図推定装置1のハードウェア構成例を示す図である。 実施の形態1に係る実行順序推定モデルの生成処理を説明するための意図推定装置1の構成例を示す図である。 実施の形態1に係る学習用データの例を示す図である。 実施の形態1に係る実行順序推定モデルの生成処理を説明するためのフローチャートである。 実施の形態1に係る対話例を示す図である。 実施の形態1に係る意図推定処理を説明するためのフローチャートである。 実施の形態1に係る各実行順序に対する各特徴量のスコアを示す図である。 実施の形態1に係るスコアの積を求める計算式を示す図である。 実施の形態1に係る各実行順序に対する最終スコアを示す図である。 実施の形態2に係る意図推定装置1Bの構成例を示す図である。 実施の形態2に係る実行順序推定モデルの1例を示す図である。 実施の形態2に係る実行順序推定モデルの生成処理を説明するための意図推定装置1Bの構成例を示す図である。 実施の形態2に係る実行順序推定モデルの生成処理を説明するためのフローチャートである。 実施の形態2に係る対話例を示す図である。 実施の形態2に係る意図推定処理を説明するためのフローチャートである。 実施の形態2に係る各実行順序に対する最終スコアを示す図である。
実施の形態1.
 以下図面を用いて本発明の実施の形態1を説明する。
 図1は実施の形態1に係る意図推定装置1の構成例を示す図である。意図推定装置1は、音声入力部101と、音声認識部102と、形態素解析部103と、構文解析部104と、意図推定モデル記憶部105と、意図推定部106と、特徴量抽出ルール記憶部(特徴量抽出条件記憶部)107と、特徴量抽出部108と、実行順序推定モデル記憶部(実行順序推定情報記憶部)109と、実行順序推定部(実行順序決定部)110と、コマンド実行部(操作実行部)111と、応答生成部112と、通知部113とを備える。
 音声入力部101は、音声の入力を受け付ける。
 音声認識部102は、音声入力部101に入力された音声入力に対応する音声データを音声認識した上でテキストデータに変換し、形態素解析部103に出力する。以下の説明では、テキストデータは複数の意図が含まれる複文であるものとする。複文は、複数の単文から構成され、1つの単文には1つの意図が含まれる。
 形態素解析部103は、音声認識部102により変換されたテキストデータに対して形態素解析を行い、その結果を構文解析部104に出力する。ここで、形態素解析とは、テキストを形態素(言語で意味を持つ最小単位)に区切り、辞書を利用して品詞を識別する自然言語処理技術である。例えば、「東京タワーへ行く」という単文に対しては、「東京タワー/固有名詞、へ/格助詞、行く/動詞」のような形態素に区切られる。なお、形態素は、自立語、素性と表現してもよい。
 構文解析部104は、形態素解析部103により形態素解析されたテキストデータに対して、文法規則によって文の構造を句や文節を単位として解析(構文解析)を行う。構文解析部103は、テキストデータに対応するテキストが複数の意図を含む複文である場合、複数の単文に分割して各単文の形態素解析結果を意図推定部106及び特徴量抽出部108に出力する。構文解析手法として、例えば、CYK(Cocke-Younger-Kasami)法等を用いることができる。
 なお、ここでの説明では、テキスト(複文)は2つの単文1及び単文2を含むものとして説明を行うが、これに限るものではなく、3以上の単文から構成されていてもよい。なお、構文解析部103は、分割した全ての単文に対応するデータを意図推定部106及び特徴量抽出部108に出力する必要はなく、例えば、入力されたテキスト(複文)に単文1、単文2及び単文3が含まれる場合であっても、単文1及び単文2のみを出力の対象としてもよい。
 意図推定モデル記憶部105は、形態素を特徴として意図推定を行うための意図推定モデルを記憶する。意図は、「<主意図>[<スロット名>=<スロット値>、・・・]」のような形で表現することができる。ここで、主意図とは、意図の分類または機能を示すものである。ナビゲーション装置の例では、主意図とは、ユーザーが最初に操作する上位層の機械コマンド(目的地設定、音楽を聞く等)に対応する。スロット名およびスロット値は、主意図を実行するために必要な情報を示す。例えば、「目的地を東京タワーに設定する」という単文に含まれる意図は、「<目的地設定>[<施設>=<東京タワー>]」のように表すことができ、「目的地を設定したい」という単文に含まれる意図は、「<目的地設定>[<施設>=<NULL>]」のように表現できる。この場合、目的地は設定されるが、具体的な施設名は決定されない。
 図2は実施の形態1に係る意図推定モデルの1例を示す図である。図2に示すように、意図推定モデルは、「目的地設定[{施設=東京タワー}]」や「経由地設定[{施設=東京タワー}]」等の意図に対する各形態素のスコアを表すものである。図2に示すように、形態素「行く」や「目的地」については、目的地設定を意図している可能性が高いので、意図「目的地設定[{施設=東京タワー}]」のスコアが高くなる。一方で、形態素「経由地」については、経由地設定を意図している可能性が高いので、意図「経由地設定[{施設=東京タワー}]」のスコアが高くなる。
 意図推定部106は、構文解析部104から入力された複数の単文の形態素解析結果に基づき、意図推定モデルを使って複数の単文に含まれる意図をそれぞれ推定し、その結果をコマンド実行部111に出力する。ここで、意図推定の方式としては、例えば最大エントロピー法が利用できる。つまり、意図推定部106は、統計的手法を利用して、大量に収集した形態素と意図の組から、入力された形態素に対応する意図がどれだけ尤もらしいかを推定する。
 特徴量抽出ルール記憶部107は、実行順序を推定するために用いられ、単文中にある形態素を特徴量として抽出するためのルールである特徴量抽出ルール(特徴量抽出条件)が記憶される。
 図3は実施の形態1に係る特徴量抽出ルールの1例を示す図である。図3に示すように、特徴量抽出ルールは、出現位置条件と品詞条件とが対応づけてられている。出現位置条件とは、単文中の形態素の出現位置(文頭、文末等)を意味し、品詞条件とは当該出現位置に存在する形態素の品詞を意味する。図3において、単文中の文頭に出現する形態素の品詞が時名詞及び格助詞であれば、当該形態素は特徴量として抽出される。また、単文中の文末に出現する形態素の品詞が接続助詞であれば、当該形態素は特徴量として抽出される。
 特徴量抽出部108は、構文解析部104から入力された複数の単文の形態素解析結果に基づき、特徴量抽出ルールを用いて、各単文中に含まれる操作の実行順序を示す形態素を特徴量として抽出する。つまり、特徴量抽出部108は、複数の単文中における形態素の位置及び形態素の品詞からそれぞれの特徴量を抽出する。例えば、「先に東京タワーへ行く」という単文に対しては、形態素解析部103により「先に/時名詞+格助詞、東京タワー/固有名詞、へ/格助詞、行く/動詞」のように形態素解析される。このうち、「先に」という形態素は時名詞及び格助詞により構成されるので、特徴量抽出部108は、図3に示す特徴量抽出ルールに従い、形態素である「先に」を特徴量として抽出する。そして、特徴量抽出部108は、抽出した特徴量を、実行順序推定部110に出力する。
 実行順序推定モデル記憶部109は、テキストに含まれる複数の単文の実行順序を推定するために用いられる実行順序推定モデル(実行順序推定情報)を記憶する。
 図4は実施の形態1に係る実行順序の種類の1例を示す。図4に示すように、複数の単文の実行順序とは、各単文の意図に対応する操作をいずれの順序で実行するかということを意味する。例えば、テキストに単文1及び単文2が含まれる場合、実行順序の種類(種別)は、単文1を先に実行するか(単文1優先:No.1)、単文2を先に実行するか(単文2優先:No.2)、単文1と単文2とを同時に実行するか(同時に実行:No.3)、単文1のみ実行するか(単文1のみ実行:No.4)、単文2のみ実行するか(単文2のみ実行:No.5)、に分けられる。
 図5は実施の形態1に係る実行順序推定モデルの1例を示す図である。図5に示すように、実行順序推定モデルは、複数の単文それぞれの意図に対応する操作の実行順序の種別と、複数の単文それぞれに含まれる特徴量のスコアとが対応付けられた情報(実行順序情報)を表す。例えば、単文1中に特徴量「ので」がある場合、「単文1優先」のスコアは0.07、「単文2優先」のスコアは0.25、同時に実行のスコアは0.03、単文1のみ実行のスコアは0.05、単文2のみ実行のスコアは0.6となる。このスコアの付与の仕方については、ソフトウェアが特徴量の内容に応じて算出してもいいし、ユーザーが任意に設定してもよい。上記例のように、単文1中に特徴量「ので」がある場合、単文1につながる単文2に含まれる意図を実行する可能性が高く、そういったことから、単文2のみ実行のスコアが1番目に高く、単文2優先のスコアが2番目に高くなる。また、単文2中に特徴量「て」がある場合、「単文1優先」のスコアは0.2、単文2優先のスコアは0.2、同時に実行のスコアは0.2、単文1のみ実行のスコアは0.2、単文2のみ実行のスコアは0.2となる。図5に示す他の特徴量「先に」、「だけど」、「やっぱり」、「まず」についても同様で、スコアが付与される。
 実行順序推定部110は、特徴量抽出部108で抽出された各単文における特徴量に基づき、複数の単文に含まれる各意図に対応する操作の実行順序を推定し、その結果をコマンド実行部111に出力する。例えば、「東京タワーも寄りたいが、先にスカイツリーへ寄って。」というテキストが入力されると、単文1「東京タワーも寄りたいが」の特徴量と、単文2「先にスカイツリーへ寄って」の特徴量とを用いることにより、単文2優先との実行順序を推定する。実行順序の推定アルゴリズムの詳細については後述する。
 コマンド実行部111は、意図推定部106により推定された複数の単文に含まれるそれぞれの意図と、実行順序推定部110により推定された操作の実行順序とに基づき、複数の単文それぞれに含まれる意図に対応する機械コマンド(操作)を実行する。例えば、「東京タワーも寄りたいが、先にスカイツリーへ寄って。」というテキストが入力された場合、意図推定部106からは、単文1の意図として「<経由地設定>[<施設>=<東京タワー>]」が入力され、単文2の意図として「<経由地設定>[<施設>=<スカイツリー>]」が入力される。また、実行順序推定部110からは、単文2優先との実行順序が入力される。そして、コマンド実行部111は、単文2の意図に対応する機械コマンド(スカイツリーの経由地設定操作)を実行してから、単文1の意図に対応する機械コマンド(東京タワーの経由地設定操作)を実行する。
 応答生成部112は、コマンド実行部111により実行された機械コマンドに対応する応答を生成する。応答については、テキストデータの形式で生成してもよいし、音声データとして合成音を生成してもよい。音声データを生成する場合、例えば、「スカイツリーを経由地に設定します。東京タワーを経由地に設定します。」のような合成音であればよい。
 通知部113は、応答生成部112で生成された応答を、ドライバー等の使用者に通知する。つまり、通知部113は、コマンド実行部111により複数の機械コマンドが実行されたことをユーザーに通知する。なお、通知の態様については、表示による通知、音声による通知、または振動による通知等、使用者が通知を認識できるものであれば何でもよい。
 次に、意図推定装置1のハードウェア構成について説明する。
 図6は実施の形態1に係る意図推定装置1のハードウェア構成例を示す図である。意図推定装置1は、CPU(Central Processing Unit)等の処理装置(Processor)150と、ROM(Read Only Memory)やハードディスク装置等の記憶装置(Memory)160と、キーボードやマイク等の入力装置170と、スピーカやディスプレイ等の出力装置180とがバス接続された構成となっている。なお、CPUは、自身にメモリを備えていてもよい。
 図1に示す音声入力部101は、入力装置170により実現され、通知部113は出力装置180により実現される。
 意図推定モデル記憶部105、特徴量抽出ルール記憶部107、実行順序推定モデル記憶部109、後述する学習用データ記憶部114に記憶されるデータ等はそれぞれ記憶装置160に記憶される。また、音声認識部102、形態素解析部103、構文解析部104、意図推定部106、特徴量抽出部108、実行順序推定部110、コマンド実行部111、応答生成部112、後述する実行順序推定モデル生成部115等の「~部」についても、プログラムとして記憶装置160に記憶される。
 処理装置150は、記憶装置160に記憶されるプログラムを適宜読みだして実行することにより、上記「~部」における機能を実現する。つまり、処理装置150であるハードウェアと上記プログラムであるソフトウェアとを組み合わせることにより、上記「~部」の機能を実現する。また、図6の例では1つの処理装置150により機能を実現する構成となっているが、例えば一部機能を外部のサーバー内にある処理装置で担う等して、複数の処理装置を用いて機能を実現してもよい。そのため、処理装置150としての「a processor」とは、1つの処理装置のみならず、複数の処理装置をも含む概念である。なお、これら「~部」の機能は、ハードウェアとソフトウェアとの組み合わせに限らず、処理装置150に上記プログラムをインプリメントし、いわゆるシステムLSIのように、ハードウェア単体で実現するようにしてもよい。このようなハードウェアとソフトウェアの組み合わせ、及び、ハードウェア単体の両者を含めた上位の概念として、Processing Circuitryと表現してもよい。
 実施の形態1に係る意図推定装置1の動作について説明する。まずは、実行順序推定モデルの生成処理に関する動作について説明する。
 図7は実施の形態1に係る実行順序推定モデルの生成処理を説明するための意図推定装置1の構成例を示す図である。
 図7において、学習用データ記憶部114は、複数の文例に対して実行順序が付与された学習用データを記憶する。
 図8は実施の形態1に係る学習用データの例を示す図である。図8に示すように、学習用データは、複数の文例(No.1、No.2、No.3、・・・)に対して実行順序が付与されたデータである。例えば、文例No.1の「時間が厳しいので、高速道路で行って」については、単文1「時間が厳しいので」と単文2「高速道路で行って」に分けられ、実行順序として「単文2のみ実行」が付与される。この実行順序については、予め学習データ作成者により付与される。
 図7に戻って、実行順序推定モデル生成部115は、学習用データ記憶部114に記憶される実行順序の対応関係を統計的な手法で学習する。実行順序推定モデル生成部115は、特徴量抽出部108で抽出された特徴量と、学習用データ記憶部114に記憶される実行順序を用いて、実行順序推定モデルを生成する。
 図9は実施の形態1に係る実行順序推定モデルの生成処理を説明するためのフローチャートである。まず、形態素解析部103が、学習用データ記憶部114に記憶される学習用データの各文例における単文1及び単文2に対して形態素解析を行う(ステップST1)。例えば、文例No.1について言えば、形態素解析部103は単文1「時間が厳しいので」及び単文2「高速道路で行って」に対して形態素解析を行う。形態素解析部103は、形態素解析した結果を、構文解析部104を介して特徴量抽出部108へ出力する。
 特徴量抽出部108が、特徴量抽出ルール記憶部107に記憶される特徴量抽出ルールに基づき、形態素解析された単文1及び単文2に対して特徴量抽出処理を行う(ステップST2)。例えば、文例No.1で言えば、特徴量抽出部108は特徴量「ので」と「て」を抽出する。また、特徴量抽出部108は、抽出した特徴量にそれぞれ単文位置情報を追加する(ステップST3)。例えば、特徴量抽出部108は、単文1から抽出した特徴量「ので」については、単文位置情報「単文1」を追加して、「単文1_ので」のようにする。また、特徴量抽出部108は、単文2から抽出した特徴量「て」については、単文位置情報「単文2」を追加して、「単文2_て」のようにする。ここで、単文位置情報を追加した特徴量を、単文位置情報付特徴量のように表現してもよい。特徴量抽出部108は、抽出した特徴量に関する情報を実行順序推定モデル生成部115に出力する。
 実行順序推定モデル生成部115は、特徴量と、学習用データに含まれる実行順序とに基づいて、実行順序推定モデルを生成する(ステップST4)。実行順序推定モデル生成部115は、例えば、特徴量「単文1_ので」と「単文2_て」の場合、学習用データに含まれる実行順序は図8に示すように「単文2のみ実行」であるので、特徴量「単文1_ので」よりも特徴量「単文2_て」の方がよりスコアが高いと判断する。実行順序推定モデル生成部115は、学習用データに含まれる全ての文例に対して上記と同様の処理を行い、最終的に図5に示すような実行順序推定モデルを生成する。
 次に、実行順序推定モデルを用いた意図推定処理に関する動作について説明する。
 図10は実施の形態1に係る対話例を示す図である。図11は実施の形態1に係る意図推定処理を説明するためのフローチャートである。
 まず、図10に示すように、音声認識装置1が「ピッと鳴ったらお話ください」と発話する(S1)。それに対し、ユーザーが「××へ行きたい。」と発話する(U1)。なお、ここでは音声認識装置1からの発話を「S」と表し、ユーザーからの発話を「U」と表す。以下も同様である。
 図11において、U1で示すようにユーザーが発話すると、音声認識部102がユーザー入力に対して音声認識処理を行い(ステップST01)、テキストデータに変換する。形態素解析103部は、変換されたテキストデータに対し、形態素解析処理を行う(ステップST02)。構文解析部104は、形態素解析されたテキストデータに対し構文解析処理を実施し(ステップST03)、当該テキストデータが複文である場合、当該複文を複数の単文に分割する。テキストデータが複文でない場合(ステップST04-No)、ステップST05以降の処理に移り、テキストデータが複文である場合(ステップST04-Yes)、ステップST07以降の処理に移る。
 U1の入力例は単文であるため、ここではステップST05に移る。そのため、構文解析部104は、形態素解析された単文のテキストデータを意図推定部106に出力する。意図推定部106は、意図推定モデルを利用して、入力された単文に対し意図推定処理を実行する(ステップST05)。ここでは、「<目的地設定>[<施設>=<××>]」のように意図を推定する。
 コマンド実行部111は、意図推定部106による意図推定結果に対応する機械コマンドを実行する(ステップST06)。例えば、コマンド実行部111は、施設××を目的地に設定するという操作を実行する。そして、応答生成部112は、コマンド実行部111により実行された機械コマンドに対応する合成音を生成する。合成音としては、例えば、「××を目的地に設定しました。」となる。通知部113は、応答生成部112で生成された合成音を、スピーカ等によりユーザーに通知する。その結果、図10の「S2」に示すように、「××を目的地にしました。」のような通知をユーザーに行う。
 次に、図10において、ユーザーが「U2」に示すように「先に○○へ寄りたいのだけど、やっぱりまず△△へ寄る。」と発話した場合について説明する。
 図11において、ユーザーが「U2」に示すように発話すると、音声認識部102がユーザー入力に対して音声認識処理を行ってテキストデータに変換し、形態素解析部103がテキストデータに対して形態素解析処理を行う(ステップST01、ST02)。次に、構文解析部104がテキストデータに対して構文解析処理を行う(ステップST03)。ここで、ユーザー入力に関するテキストデータは、単文1(第1の単文)「先に○○へ寄りたいのだけど」と、単文2(第2の単文)「やっぱりまず△△へ寄る」のように、複数の単文に分割される。そのため、構文解析部104は形態素解析された各単文のテキストデータを意図推定部106及び特徴量抽出部108へ出力し、ステップST07以降の処理がなされることになる。
 意図推定部106は、意図推定モデルを利用し、単文1及び単文2に対して、それぞれ意図推定処理を実施する(ステップST07)。ここでの例では、意図推定部106は、単文1に対して「<経由地設定>[<施設>=<○○>]」の意図を推定し、単文2に対して「<経由地設定>[<施設>=<△△>]」の意図を推定する。
 特徴量抽出部108は、特徴量抽出ルールを用いて、単文1及び単文2に対して、それぞれ特徴量抽出処理を実施する(ステップST08)。ここでの例では、特徴量抽出部108は、単文1に対しての第1の特徴量、すなわち、特徴量「単文1_先に」、「単文1_だけど」を抽出し、単文2に対しての第2の特徴量、すなわち、特徴量「単文2_やっぱり」、「単文2_まず」を抽出する。なお、ここでは特徴量に対して単文位置情報も付与されている。特徴量抽出部108は、各単文に対して抽出した特徴量に関する情報を実行順序推定部110に出力する。
 実行順序推定部110は、特徴量抽出部108から出力された特徴量に関する情報と、実行順序推定モデル記憶部109に記憶される実行順序推定モデルとに基づいて、各単文の実行順序を推定する(ステップST09)。以下、実行順序の推定について詳細を説明する。
 まず、実行順序推定部110は、特徴量抽出部108から出力された特徴量と、実行順序推定モデルと照らし合わせて、各実行順序に対する各特徴量のスコアを求める。
 図12は実施の形態1に係る各実行順序に対する各特徴量のスコアを示す図である。図12に示すように、実行順序「単文1優先」に対しては、特徴量「単文1_先に」のスコアは0.45となり、特徴量「単文1_だけど」のスコアは0.2となり、特徴量「単文2_やっぱり」のスコアは0.1となり、特徴量「単文2_まず」のスコアは0.2となる。他の実行順序についても、同様に、各特徴量のスコアが求まる。
 次に、実行順序推定部110は、各実行順序における、各特徴量のスコアの積を求める。
 図13は実施の形態1に係るスコアの積を求める計算式を示す図である。図13において、Siは、推定対象の実行順序に対するi番目の特徴量のスコアである。Sは、推定対象の実行順序に対するSiの積を表す最終スコアである。
 図14は実施の形態1に係る各実行順序に対する最終スコアを示す図である。実行順序推定部110は、図13に示す計算式を用いて、図14に示す最終スコアを算出する。ここでの例では、実行順序「単文1優先」については、特徴量「単文1_先に」のスコアは0.45で、特徴量「単文1_だけど」のスコアは0.2で、特徴量「単文2_やっぱり」のスコアは0.1で、特徴量「単文2_まず」のスコアは0.2となるので、これらの積である最終スコアSは1.8e-3と算出される。同様に、他の実行順序についても、それぞれ最終スコアが算出される。
 実行順序推定部110は、算出した推定対象となる各実行順序の最終スコアのうち、最もスコアが高い実行順序「単文2優先」を適切な実行順序として推定する。つまり、実行順序推定部110は、実行順序推定モデルに含まれる複数の特徴量のスコアに基づき、各操作の実行順序を推定するものであり、さらに言うと、複数の特徴量のスコアの積により得られた最終スコアに基づき各操作の実行順序を推定する。
 図11に戻って、コマンド実行部111は、意図推定部106により推定された複数の単文に含まれるそれぞれの意図と、実行順序推定部110により推定された複数の単文の実行順序とに基づき、複数の単文それぞれに含まれる意図に対応する機械コマンドを実行する(ステップST10)。
 ここでの例では、意図推定部106により、単文1に対して「<経由地設定>[<施設>=<○○>]」の意図を推定し、単文2に対して「<経由地設定>[<施設>=<△△>]」の意図が推定される。また、実行順序推定部110により実行順序「単文2優先」が適切な実行順序として推定される。そのため、コマンド実行部111は、まず、単文2の意図「<経由地設定>[<施設>=<△△>]」に対応する機械コマンド(△△の経由地設定操作)を実行し、その後、単文1の意図「<経由地設定>[<施設>=<○○>]」に対応する機械コマンド(○○の経由地設定操作)を実行する。第1の意図に対応する操作を第1の操作、第2の意図に対応する操作を第2の操作と表現してもよい。
 応答生成部112は、図10のS3に示すように、コマンド実行部111により実行された機械コマンドに対応する合成音「△△を経由地に設定します。○○を経由地に設定します。」を生成し、通知部113によりユーザーに当該合成音が通知される(ステップST11)。
 以上より、実施の形態1によれば、構文解析部104が入力された複文を複数の単文に分割し、特徴量抽出部108が複数の単文それぞれに含まれる特徴量を抽出し、実行順序決定部110が抽出された特徴量に基づいて複数の単文それぞれに含まれる意図に対応する処理の実行順序を決定するので、意図の実行順序までをふまえて意図推定が可能となり、ユーザーの意図を正確に推定することができる。
 また、コマンド実行部111が、実行順序推定部110により推定された複数の単文の実行順序に基づき、複数の単文それぞれに含まれる意図に対応する機械コマンドを実行するので、ユーザーによる操作負担を軽減することが可能となる。
実施の形態2.
 以下図面を用いて本発明の実施の形態2について説明する。実施の形態2では、実行順序推定部110は、特徴量抽出部108から得た特徴量に加え、意図推定部106から得た主意図の特徴量(主意図特徴量)を用いて実行順序を推定する。主意図特徴量の説明については後述する。
 図15は実施の形態2に係る意図推定装置1Bの構成例を示す図である。実施の形態2の意図推定装置1Bは、実施の形態1の実行順序推定モデル記憶部109及び実行順序推定部110の代わりに実行順序推定モデル記憶部109B及び実行順序推定部110Bを備える点において意図推定装置1と異なる。他の構成については、実施の形態1と同様であるので、図1と同一の符号を付してその説明を省略する。
 実行順序推定モデル記憶部109Bは、テキストに含まれる複数の単文の実行順序を推定するために用いられる実行順序推定モデル(実行順序推定情報)を記憶する。
 図16は実施の形態2に係る実行順序推定モデルの1例を示す図である。図16に示すように、実行順序推定モデルは、各実行順序の種別と、複数の単文それぞれに含まれる特徴量のスコアとが対応づけられ、さらに、各実行順序の種別と、複数の単文それぞれに含まれる主意図特徴量のスコアとが対応づけられた情報である。
 図16において、特徴量「単文1_ので」、特徴量「単文2_て」、特徴量「単文1_先に」、特徴量「単文1_だけど」、特徴量「単文2_やっぱり」、特徴量「単文2_まず」、のスコアについては、実施の形態1と同様のため説明を省略する。
 図16において、「単文1_経由地追加」、「単文2_目的地設定」は主意図特徴量である。主意図特徴量とは、意図推定部106による意図推定結果から抽出された主意図に単文位置情報が付与されたものを表す。例えば、「単文1_経由地追加」であれば、単文1に含まれる意図が「経由地追加」であることを示す。「単文2_目的地設定」であれば、単文2に含まれる意図が「目的地設定」であることを示す。
 図16の例では、主意図特徴量「単文1_経由地追加」については、実行順序「単文1優先」でのスコアは0.2となり、実行順序「単文2優先」でのスコアは0.25となり、実行順序「同時に実行」でのスコアは0.2となり、実行順序「単文1のみ実行」でのスコアは0.25となり、実行順序「単文1のみ実行」でのスコアは0.1となる。また、主意図特徴量「単文2_目的地設定」については、実行順序「単文1優先」でのスコアは0.1となり、実行順序「単文2優先」でのスコアは0.45となり、実行順序「同時に実行」でのスコアは0.05となり、実行順序「単文1のみ実行」でのスコアは0.1となり、実行順序「単文1のみ実行」でのスコアは0.3となる。ナビゲーション装置では、通常、目的地と経由地を設定する場合、先に目的地を設定してから経由地を設定する操作を行う。そのため、主意図特徴量「単文2_目的地設定」については、実行順序「単文2優先」のスコアが大きくなる。
 実施の形態2に係る意図推定装置1Bの動作について説明する。まずは、実行順序推定モデルの生成処理に関する動作について説明する。
 図17は実施の形態2に係る実行順序推定モデルの生成処理を説明するための意図推定装置1Bの構成例を示す図である。図18は実施の形態2に係る実行順序推定モデルの生成処理を説明するためのフローチャートである。
 まず、形態素解析部103が、図8に示す学習用データの各文例における単文1及び単文2に対して形態素解析を行う(ステップST001)。例えば、文例No.1について言えば、形態素解析部103は単文1「時間が厳しいので」及び単文2「高速道路で行って」に対して形態素解析を行う。形態素解析部103は、形態素解析した結果を、構文解析部104を介して特徴量抽出部108及び意図推定部106へ出力する。
 特徴量抽出部108が、特徴量抽出ルール記憶部107に記憶される特徴量抽出ルールに基づき、形態素解析された単文1及び単文2に対して特徴量抽出処理を行う(ステップST002)。例えば、文例No.1で言えば、特徴量抽出部108は特徴量「ので」と「て」を抽出する。また、特徴量抽出部108は、抽出した特徴量にそれぞれ単文位置情報を追加する(ステップST003)。例えば、特徴量抽出部108は、単文1から抽出した特徴量「ので」については、単文位置情報「単文1」を追加して、「単文1_ので」のようにする。また、特徴量抽出部108は、単文2から抽出した特徴量「て」については、単文位置情報「単文2」を追加して、「単文2_て」のようにする。特徴量抽出部108は、抽出した特徴量に関する情報を実行順序推定モデル生成部115Bに出力する。
 次に、意図推定部106が、形態素解析された単文1及び単文2に含まれる意図を推定し、主意図特徴量として抽出する(ステップST004)。例えば文例No.4で言えば、意図推定部106は、単文1から主意図特徴量「経由地設定」を抽出し、単文2から主意図特徴量「目的地設定」を抽出する。また、意図推定部106は、単文1から抽出した主意図特徴量に単文位置情報「単文1」を追加して、「単文1_経由地設定」のようにする。また、意図推定部106は、抽出した主意図特徴量に単文位置情報を追加する(ステップST005)。例えば、意図推定部106は、単文1から抽出した主意図特徴量に単文位置情報「単文1」を追加して、「単文1_経由地設定」のようにする。また、意図推定部106は、単文2から抽出した主意図特徴量に単文位置情報「単文2」を追加して、「単文2_目的地設定」のようにする。意図推定部106は、抽出した特徴量に関する情報を実行順序推定モデル生成部115Bに出力する。
 実行順序推定モデル生成部115Bは、特徴量と、主意図特徴量と、学習用データに含まれる実行順序とに基づいて、実行順序推定モデルを生成する(ステップST006)。実行順序推定モデル生成部115Bは、学習用データに含まれる全ての文例に対して上記と同様の処理を行い、最終的に図16に示すような実行順序推定モデルを生成する。
 次に、実行順序推定モデルを用いた意図推定処理に関する動作について説明する。
 図19は実施の形態2に係る対話例を示す図である。図20は実施の形態2に係る意図推定処理を説明するためのフローチャートである。
 図19に示すように、音声認識装置1が「ピッと鳴ったらお話ください」と発話する(S11)。それに対し、ユーザーが「先に○○へ寄って、△△へ行く。」と発話する(U22)。
 まず、音声認識部102がユーザー入力に対して音声認識処理を行ってテキストデータに変換し、形態素解析部103がテキストデータに対して形態素解析処理を行う(ステップST0001、ST0002)。次に、構文解析部104がテキストデータに対して構文解析処理を行う(ステップST0003)。ここで、ユーザー入力に関するテキストデータは、単文1(第1の単文)「先に○○へ寄って」と、単文2(第2の単文)「△△へ行く」のように、複数の単文に分割される。構文解析部104は形態素解析された各単文のテキストデータを意図推定部106及び特徴量抽出部108へ出力し、ステップST07以降の処理がなされることになる。ステップST0005及びステップST0006の処理については、実施の形態1における図11の説明と同様のため省略する。
 意図推定部106は、意図推定モデルを利用し、単文1及び単文2に対して、それぞれ意図推定処理を実施する(ステップST0007)。ここでの例では、意図推定部106は、単文1に対して「<経由地設定>[<施設>=<○○>]」の意図を推定し、単文2に対して「<目的地設定>[<施設>=<△△>]」の意図を推定する。
 特徴量抽出部108は、特徴量抽出ルールを用いて、単文1及び単文2に対して、それぞれ特徴量抽出処理を実施する(ステップST0008)。ここでの例では、特徴量抽出部108は、単文1に対して、特徴量「単文1_先に」、「単文1_て」を抽出する。なお、単文2については抽出される特徴量はない。特徴量には単文位置情報も付与されている。特徴量抽出部108は、各単文に対して抽出した特徴量に関する情報を実行順序推定部110Bに出力する。
 実行順序推定部110Bは、意図推定部106により推定された各単文の意図から、主意図特徴量を抽出する(ステップST0009)。例えば、実行順序推定部110Bは、単文1の意図「<経由地設定>[<施設>=<○○>]」から主意図特徴量「単文1_経由地設定」を抽出し、単文2の意図「<目的地設定>[<施設>=<△△>]」から主意図特徴量「単文2_目的地設定」を抽出する。主意図特徴量には単文位置情報も付与されている。なお、ここでは実行順序推定部110Bが、主意図特徴量の抽出処理を行うものとして説明したが、これに限らない。例えば、意図推定部106において主意図特徴量の抽出処理を行い、抽出した情報を実行順序推定部110Bに出力するようにしてもよい。
 実行順序推定部110Bは、特徴量抽出部108から出力された特徴量に関する情報と、抽出した主意図特徴量に関する情報とに基づいて、各単文の意図に対応する操作の実行順序を推定する(ステップST0010)。実行順序推定部110Bは、実施の形態1と同様に、特徴量及び主意図特徴量と、実行順序推定モデルとを照らし合わせて、各実行順序に対する特徴量及び主意図特徴量のスコアを求める。そして、実行順序推定部110Bは、図13に示す計算式を用いて、各実行順序における、特徴量及び主意図特徴量のスコアの積を求める。つまり、実行順序推定部110Bは、各単文に含まれる複数の特徴量のスコアと、主意図特徴量のスコアの積により得られた最終スコアに基づき、操作の実行順序を推定する。
 図21は実施の形態2に係る各実行順序に対する最終スコアを示す図である。ここでの例では、実行順序「単文1優先」については、特徴量「単文1_先に」のスコアは0.45で、特徴量「単文1_て」のスコアは0.2で、主意図特徴量「単文1_経由地設定」のスコアは0.2で、主意図特徴量「単文2_目的地設定」のスコアは0.1となるので、これらの積である最終スコアSは1.8e-3と算出される。同様に、他の実行順序についても、それぞれ最終スコアが算出される。
 実行順序推定部110は、算出した推定対象となる各実行順序の最終スコアのうち、最もスコアが高い実行順序「単文2優先」を適切な実行順序として推定する。
 図20に戻って、コマンド実行部111は、意図推定部106により推定された複数の単文に含まれるそれぞれの意図と、実行順序推定部110により推定された複数の単文の実行順序とに基づき、複数の単文それぞれに含まれる意図に対応する機械コマンドを実行する(ステップST0011)。
 ここでの例では、意図推定部106により、単文1に対して「<経由地設定>[<施設>=<○○>]」の意図を推定し、単文2に対して「<目的地設定>[<施設>=<△△>]」の意図が推定される。また、実行順序推定部110により実行順序「単文2優先」が適切な実行順序として推定される。そのため、コマンド実行部111は、まず、単文2の意図「<目的地設定>[<施設>=<△△>]」に対応する機械コマンド(△△の目的地設定操作)を実行し、その後、単文1の意図「<経由地設定>[<施設>=<○○>]」に対応する機械コマンド(○○の経由地設定操作)を実行する。
 応答生成部112は、図19のS02に示すように、コマンド実行部111により実行された機械コマンドに対応する合成音「△△を目的地に設定します。○○を経由地に設定します。」を生成し、通知部113によりユーザーに当該合成音が通知される(ステップST0012)。
 以上より、実施の形態2によれば、実行順序推定部110Bは、特徴量抽出部108により抽出された特徴量に加え、意図推定部106から得た主意図特徴量も用いて複数の単文それぞれに含まれる意図に対応する操作の実行順序を推定するので、実施の形態1と比較して、より正確にユーザーの意図を推定することが可能となる。
 例えば、上述したような「先に○○へ寄って、△△に行く。」のような発話がなされた場合、実施の形態1のように、実行順序推定部110が実行順序の決定に主意図特徴量を用いなければ、図21において、特徴量は「単文1_先に」、「単文1_て」のみになるので、「単文1優先」の最終スコアが最も高い値となる。そうすると、単文1の意図「<経由地設定>[<施設>=<○○>]」に対応する機械コマンド(○○の経由地設定操作)を実行し、その後、単文2の意図「<目的地設定>[<施設>=<△△>]」に対応する機械コマンド(△△の目的地設定操作)を実行しようとする。
 しかしながら、通常、ナビゲーション装置では、目的地の設定操作を行ってからしか経由地の設定操作を行うことができないため、実施の形態1では、「先に○○へ寄って、△△に行く。」との発話に対し、適切に機械コマンドの実行ができず、結果として、ユーザーの意図を正確に推定できないことになってしまう。
 一方で、実行順序の推定に特徴量及び主意図特徴量を用いる実施の形態2においては、実行順序推定部110Bは、上述のように、主意図特徴量を加味して実行順序を「単文2優先」に決定するので、適切に機械コマンドを実行することができ、ユーザーの意図を正確に推定できる。
 なお、これまで説明した意図推定装置1、1Bの機能の一部は他の装置で実行されるようにしてもよい。例えば、一部の機能を、外部に設けられたサーバー等により実行するようにしてもよい。
1、1B 意図推定装置、101 音声入力部、102 音声認識部、103 形態素解析部、104 構文解析部、105 意図推定モデル記憶部、106 意図推定部、107 特徴量抽出ルール記憶部、108 特徴量抽出部、109、109B 実行順序推定モデル記憶部、110、110B 実行順序推定部、111 コマンド実行部、112 応答生成部、113 通知部、114 学習用データ記憶部、115、115B 実行順序推定モデル生成部、150 処理装置、160 記憶装置、170 入力装置、180 出力装置

Claims (9)

  1.  複数の意図が含まれる複文に対して形態素解析を行う形態素解析部と、
     前記形態素解析部による形態素解析された前記複文を構文解析して第1の単文と第2の単文とに分割する構文解析部と、
     前記第1の単文に含まれる第1の意図と、前記第2の単文に含まれる第2の意図とを推定する意図推定部と、
     前記第1の単文に含まれる操作の実行順序を示す形態素を第1の特徴量として抽出するとともに、前記第2の単文に含まれる操作の実行順序を示す形態素を第2の特徴量として抽出する特徴量抽出部と、
     前記特徴量抽出部により抽出された前記第1の特徴量と前記第2の特徴量とに基づき、前記第1の意図に対応する第1の操作と前記第2の意図に対応する第2の操作の実行順序を推定する実行順序推定部と、を備えることを特徴とする意図推定装置。
  2.  前記第1の操作と前記第2の操作の実行順序の種別と、前記第1の特徴量と前記第2の特徴量を含む複数の特徴量のスコアとが対応付けて実行順序情報として記憶される実行順序情報記憶部を備え、
     前記実行順序推定部は、前記実行順序情報に含まれる前記複数の特徴量のスコアに基づき前記第1の操作と前記第2の操作の実行順序を推定することを特徴とする請求項1に記載の意図推定装置。
  3.  前記実行順序推定部は、前記実行順序情報を用いて前記第1の特徴量のスコアと前記第2の特徴量のスコアとを求め、前記第1の特徴量のスコアと前記第2の特徴量のスコアとの積により得られた最終スコアに基づき前記第1の操作と前記第2の操作の実行順序を推定することを特徴とする請求項2に記載の意図推定装置。
  4.  前記特徴量抽出部は、前記第1の単文中における形態素の位置及び前記形態素の品詞から前記第1の特徴量を抽出するとともに、前記第2の単文中における形態素の位置及び前記形態素の品詞から前記第2の特徴量を抽出することを特徴とする請求項1から3のいずれか1項に記載の意図推定装置。
  5.  前記実行順序情報記憶部において、前記第1の操作と前記第2の操作の実行順序の種別には、前記第1の意図の分類または機能を示す第1の主意図特徴量と前記第2の意図の分類または機能を示す第2の主意図特徴量とを含む複数の主意図特徴量のスコアがさらに対応付けられており、
     前記実行順序推定部は、前記複数の特徴量のスコアと前記複数の主意図特徴量のスコアとに基づき、前記第1の操作と前記第2の操作の実行順序を推定することを特徴とする請求項2から4のいずれか1項に記載の意図推定装置。
  6.  前記実行順序推定部は、前記第1の特徴量のスコア、前記第2の特徴量のスコア、前記第1の主意図特徴量のスコア、及び前記第2の主意図特徴量のスコアの積により得られた最終スコアに基づき、前記第1の操作と前記第2の操作の実行順序を推定することを特徴とする請求項5に記載の意図推定装置。
  7.  複数の意図が含まれる音声の入力を受け付ける音声入力部と、
     前記音声入力部に入力された前記音声に対応する音声データを認識し、前記複数の意図が含まれる複文のテキストデータに変換する音声認識部を備えることを特徴とする請求項1から請求項6のいずれか1項に記載の意図推定装置。
  8.  前記実行順序推定部により推定された実行順序に基づき、前記第1の操作と前記第2の操作を実行する操作実行部と、
     前記操作実行部により前記第1の操作と前記第2の操作とが実行されたことをユーザーに通知する通知部とを備えることを特徴とする請求項1から7のいずれか1項に記載の意図推定装置。
  9.  複数の意図が含まれる複文を形態素解析するステップと、
     前記形態素解析された前記複文を構文解析して複数の単文に分割するステップと、
     前記複数の単文それぞれに含まれる意図を推定するステップと、
     前記複数の単文それぞれに含まれる、操作の実行順序を示す形態素を特徴量として抽出するステップと、
     前記複数の単文それぞれに含まれる特徴量に基づき、前記複数の単文それぞれに含まれる意図に対応する各操作の実行順序を推定するステップと、を有することを特徴とする意図推定方法。
PCT/JP2015/000367 2015-01-28 2015-01-28 意図推定装置及び意図推定方法 WO2016120904A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201580074585.4A CN107209758A (zh) 2015-01-28 2015-01-28 意图估计装置以及意图估计方法
US15/546,801 US10460034B2 (en) 2015-01-28 2015-01-28 Intention inference system and intention inference method
DE112015006069.3T DE112015006069T5 (de) 2015-01-28 2015-01-28 Absichtsinferenzsystem und absichtsinferenzverfahren
PCT/JP2015/000367 WO2016120904A1 (ja) 2015-01-28 2015-01-28 意図推定装置及び意図推定方法
JP2016554689A JP6328260B2 (ja) 2015-01-28 2015-01-28 意図推定装置及び意図推定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/000367 WO2016120904A1 (ja) 2015-01-28 2015-01-28 意図推定装置及び意図推定方法

Publications (1)

Publication Number Publication Date
WO2016120904A1 true WO2016120904A1 (ja) 2016-08-04

Family

ID=56542573

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/000367 WO2016120904A1 (ja) 2015-01-28 2015-01-28 意図推定装置及び意図推定方法

Country Status (5)

Country Link
US (1) US10460034B2 (ja)
JP (1) JP6328260B2 (ja)
CN (1) CN107209758A (ja)
DE (1) DE112015006069T5 (ja)
WO (1) WO2016120904A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6275354B1 (ja) * 2016-03-30 2018-02-07 三菱電機株式会社 意図推定装置及び意図推定方法
JP2018185561A (ja) * 2017-04-24 2018-11-22 株式会社日立製作所 対話支援システム、対話支援方法、及び対話支援プログラム
WO2018229937A1 (ja) * 2017-06-15 2018-12-20 三菱電機株式会社 意図推定装置及び意図推定方法
WO2019087811A1 (ja) * 2017-11-02 2019-05-09 ソニー株式会社 情報処理装置、及び情報処理方法
JP2019204515A (ja) * 2016-12-30 2019-11-28 グーグル エルエルシー 音声起動されたコンピュータネットワーク環境におけるシーケンス依存データメッセージ統合
JP2020047101A (ja) * 2018-09-20 2020-03-26 Zホールディングス株式会社 コミュニケーション支援装置、ユーザデバイス、コミュニケーション支援方法、およびプログラム
KR20200114079A (ko) * 2019-03-27 2020-10-07 주식회사 포시에스 다수의 의도가 포함된 문장으로부터 의도 및 의도에 대응되는 내용을 검출하는 전자문서 시스템
JP2021089360A (ja) * 2019-12-04 2021-06-10 本田技研工業株式会社 エージェント装置、エージェント方法、及びプログラム
JP7231171B1 (ja) 2022-07-21 2023-03-01 ソプラ株式会社 処理動作支援装置及びプログラム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017058804A (ja) * 2015-09-15 2017-03-23 株式会社東芝 検出装置、方法およびプログラム
CN108563790B (zh) * 2018-04-28 2021-10-08 科大讯飞股份有限公司 一种语义理解方法及装置、设备、计算机可读介质
JP6516938B1 (ja) * 2018-06-15 2019-05-22 三菱電機株式会社 機器制御装置、機器制御システム、機器制御方法、および、機器制御プログラム
CN109522472A (zh) * 2018-09-30 2019-03-26 中国农业大学烟台研究院 一种用户意图估计方法
CN109977211A (zh) * 2019-03-28 2019-07-05 联想(北京)有限公司 一种数据处理方法及电子设备
CN110096595A (zh) * 2019-05-06 2019-08-06 上海互问信息科技有限公司 一种基于混合策略的复句用户查询语句的意图识别方法
CN110297544B (zh) * 2019-06-28 2021-08-17 联想(北京)有限公司 输入信息响应方法及装置、计算机***和可读存储介质
CN111737962A (zh) * 2020-06-24 2020-10-02 平安科技(深圳)有限公司 一种实体修订方法、装置、计算机设备和可读存储介质
CN111933127B (zh) * 2020-07-31 2024-06-25 升智信息科技(南京)有限公司 一种具备自学习能力的意图识别方法及意图识别***
CN112163086B (zh) * 2020-10-30 2023-02-24 海信视像科技股份有限公司 多意图的识别方法、显示设备
CN114818644B (zh) * 2022-06-27 2022-10-04 北京云迹科技股份有限公司 文本模板生成方法、装置、设备及存储介质
WO2024011097A1 (en) * 2022-07-05 2024-01-11 Staircase Ai Inc Intention reader

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3275840B2 (ja) 1998-08-12 2002-04-22 日本電気株式会社 機器操作システム及び方法、並びに記録媒体
JP2000200273A (ja) 1998-11-04 2000-07-18 Atr Interpreting Telecommunications Res Lab 発話意図認識装置
KR100446627B1 (ko) * 2002-03-29 2004-09-04 삼성전자주식회사 음성대화 인터페이스를 이용한 정보제공장치 및 그 방법
JP4539149B2 (ja) 2004-04-14 2010-09-08 ソニー株式会社 情報処理装置および情報処理方法、並びに、プログラム
CN101131689B (zh) * 2006-08-22 2010-08-18 苗玉水 汉语外语句型转换双向机器翻译方法
JP2009020423A (ja) * 2007-07-13 2009-01-29 Fujitsu Ten Ltd 音声認識装置および音声認識方法
US8380489B1 (en) * 2009-02-11 2013-02-19 Guangsheng Zhang System, methods, and data structure for quantitative assessment of symbolic associations in natural language
JP2010224194A (ja) 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
KR101295642B1 (ko) * 2009-12-07 2013-08-13 한국전자통신연구원 음성인식결과 문장에 대한 문형분류장치 및 방법
KR20110070057A (ko) * 2009-12-18 2011-06-24 한국전자통신연구원 자연어 기반 여행 추천 장치 및 방법
JP2012047924A (ja) 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
CN104020840B (zh) * 2013-03-03 2019-01-11 上海能感物联网有限公司 外语文本遥控计算机程序运行的方法
CN104133812B (zh) * 2014-07-17 2017-03-08 北京信息科技大学 一种面向用户查询意图的汉语句子相似度分层计算方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Kakushu Media Shori no Yoso Gijutsu to Engine Kaihatsu ni Torikumu NTT Media Intelligence Kenkyusho no R&D Tenkai Zatsudan Taiwa Gijutsu Onsei Agent no Seino Kojo ni wa Zatsudan ga Hitsuyo Haba Hiroi Wadai ni Taio dekiru Taiwa Gijutsu o Kaihatsu", BUSINESS COMMUNICATION, vol. 51, no. 2, 1 February 2014 (2014-02-01), pages 20 - 21, ISSN: 0385-695X *
HIROSHI FUJIMOTO ET AL.: "Development of Car Navigation System Operated by Naturally Speaking", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS (J96-D), vol. J96-D, no. 11, 1 November 2013 (2013-11-01), pages 2815 - 2824, ISSN: 1880-4535 *
MIZUKI FUJISAWA ET AL.: "A control method for the multiple actions of animated agents by natural language", IEICE TECHNICAL REPORT, vol. 101, no. 243, 24 July 2001 (2001-07-24), pages 31 - 38, ISSN: 0913-5685 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6275354B1 (ja) * 2016-03-30 2018-02-07 三菱電機株式会社 意図推定装置及び意図推定方法
JP2019204515A (ja) * 2016-12-30 2019-11-28 グーグル エルエルシー 音声起動されたコンピュータネットワーク環境におけるシーケンス依存データメッセージ統合
JP2018185561A (ja) * 2017-04-24 2018-11-22 株式会社日立製作所 対話支援システム、対話支援方法、及び対話支援プログラム
WO2018229937A1 (ja) * 2017-06-15 2018-12-20 三菱電機株式会社 意図推定装置及び意図推定方法
JPWO2018229937A1 (ja) * 2017-06-15 2019-07-11 三菱電機株式会社 意図推定装置及び意図推定方法
JPWO2019087811A1 (ja) * 2017-11-02 2020-09-24 ソニー株式会社 情報処理装置、及び情報処理方法
WO2019087811A1 (ja) * 2017-11-02 2019-05-09 ソニー株式会社 情報処理装置、及び情報処理方法
JP2020047101A (ja) * 2018-09-20 2020-03-26 Zホールディングス株式会社 コミュニケーション支援装置、ユーザデバイス、コミュニケーション支援方法、およびプログラム
JP7182969B2 (ja) 2018-09-20 2022-12-05 ヤフー株式会社 コミュニケーション支援装置、ユーザデバイス、コミュニケーション支援方法、およびプログラム
KR20200114079A (ko) * 2019-03-27 2020-10-07 주식회사 포시에스 다수의 의도가 포함된 문장으로부터 의도 및 의도에 대응되는 내용을 검출하는 전자문서 시스템
KR102189567B1 (ko) 2019-03-27 2020-12-11 주식회사 포시에스 다수의 의도가 포함된 문장으로부터 의도 및 의도에 대응되는 내용을 검출하는 전자문서 시스템
JP2021089360A (ja) * 2019-12-04 2021-06-10 本田技研工業株式会社 エージェント装置、エージェント方法、及びプログラム
JP7178983B2 (ja) 2019-12-04 2022-11-28 本田技研工業株式会社 エージェント装置、エージェント方法、及びプログラム
JP7231171B1 (ja) 2022-07-21 2023-03-01 ソプラ株式会社 処理動作支援装置及びプログラム
JP2024014130A (ja) * 2022-07-21 2024-02-01 ソプラ株式会社 処理動作支援装置及びプログラム

Also Published As

Publication number Publication date
JP6328260B2 (ja) 2018-05-23
JPWO2016120904A1 (ja) 2017-04-27
US10460034B2 (en) 2019-10-29
DE112015006069T5 (de) 2017-10-12
US20170371863A1 (en) 2017-12-28
CN107209758A (zh) 2017-09-26

Similar Documents

Publication Publication Date Title
JP6328260B2 (ja) 意図推定装置及び意図推定方法
KR102413692B1 (ko) 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
US11450313B2 (en) Determining phonetic relationships
EP2700071B1 (en) Speech recognition using multiple language models
KR102386854B1 (ko) 통합 모델 기반의 음성 인식 장치 및 방법
CN110675855B (zh) 一种语音识别方法、电子设备及计算机可读存储介质
EP2869298A1 (en) Information identification method and apparatus
US9589563B2 (en) Speech recognition of partial proper names by natural language processing
US9734821B2 (en) Testing words in a pronunciation lexicon
KR102117082B1 (ko) 음성 인식 방법 및 음성 인식 장치
US20160314116A1 (en) Interpretation apparatus and method
EP3667660A1 (en) Information processing device and information processing method
US20190005950A1 (en) Intention estimation device and intention estimation method
JP6875819B2 (ja) 音響モデル入力データの正規化装置及び方法と、音声認識装置
KR20160058531A (ko) 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치
JP4700522B2 (ja) 音声認識装置及び音声認識プログラム
JP2015045689A (ja) 音声認識システムについての音声認識結果を評価する方法、並びに、そのコンピュータ及びコンピュータ・プログラム
CN116361316A (zh) 一种语义引擎适配方法、装置、设备及存储介质
JPWO2018229937A1 (ja) 意図推定装置及び意図推定方法
JP2018077698A (ja) 発話文抽出装置、不適切話題語リスト生成装置、方法、及びプログラム
CN112329484A (zh) 自然语言的翻译方法及装置
CN112951204B (zh) 语音合成方法和装置
JP2009129405A (ja) 感情推定装置、事例感情情報生成装置、及び感情推定プログラム
Araújo et al. Context-sensitive ASR for controlling the navigation of mobile robots

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2016554689

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15879805

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 15546801

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 112015006069

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15879805

Country of ref document: EP

Kind code of ref document: A1