WO2015118578A1 - マルチモーダル入力装置、端末装置およびマルチモーダル入力装置のタイムアウト制御方法 - Google Patents

マルチモーダル入力装置、端末装置およびマルチモーダル入力装置のタイムアウト制御方法 Download PDF

Info

Publication number
WO2015118578A1
WO2015118578A1 PCT/JP2014/000686 JP2014000686W WO2015118578A1 WO 2015118578 A1 WO2015118578 A1 WO 2015118578A1 JP 2014000686 W JP2014000686 W JP 2014000686W WO 2015118578 A1 WO2015118578 A1 WO 2015118578A1
Authority
WO
WIPO (PCT)
Prior art keywords
input
information
unit
monitoring
semantic information
Prior art date
Application number
PCT/JP2014/000686
Other languages
English (en)
French (fr)
Inventor
勇 小川
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2014/000686 priority Critical patent/WO2015118578A1/ja
Publication of WO2015118578A1 publication Critical patent/WO2015118578A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Definitions

  • This invention relates to a multimodal input device for acquiring information input by a plurality of input methods having different formats.
  • the time required from the start of the user's input operation to completion of input of necessary input information depends on the input method of the device, and the meaning of the input operation Since the time required until the information is acquired from the input information depends on the input information, the time required from the start of the input operation by the user until the semantic information of the input operation is acquired differs for each device. Therefore, the waiting time to wait before determining whether or not necessary semantic information is prepared in the information processing apparatus described in Patent Document 1 is determined in consideration of the device having the longest time until the semantic information is acquired. There was a need.
  • the present invention has been made to solve the above-described problems.
  • a necessary input operation is not performed, a multimodal input that shortens the time required to determine whether the input operation has not been performed.
  • the object is to obtain a device.
  • the semantic information indicating the meaning of the input operation obtained from the input information input in each input operation is an abstraction that does not depend on the specific input method.
  • abstracted semantic information is referred to as abstract information.
  • the multimodal input device of the present invention detects that semantic information indicating the meaning of each input operation of a plurality of input methods having different formats is detected, and an input method other than the input method in which acquisition of semantic information is detected
  • An input detection unit that detects that the input operation has been started, and monitoring of unimplemented input operations of input methods other than the input method for which acquisition of semantic information is detected based on the detection result of the input detection unit And a monitoring processing unit to be performed.
  • the terminal device is a terminal device that receives an input operation monitored by a server device that performs unmonitored monitoring of input operations of a plurality of input methods, and means to indicate the meaning of each input operation of the plurality of input methods Detects that information has been acquired, detects that the input operation has started for an input method other than the input method for which acquisition of semantic information has been detected, and acquires semantic information based on the results of these detections
  • the input operation using the corresponding input method is performed.
  • the input start information indicating that it has started has been output.
  • a timeout control method for a multimodal input device is a timeout control method for a multimodal input device in which input is performed by a plurality of input methods having different formats, and indicates the meaning of each input operation of the plurality of input methods.
  • the multimodal input device of the present invention it is detected that semantic information indicating the meaning of each input operation of a plurality of input methods having different formats is detected, and acquisition of semantic information is detected. Based on the detection that the input operation was started for an input method other than the input method, the input operation of the input method that did not detect the acquisition of semantic information was monitored. When the necessary input operation is not performed, the time required to determine whether the input operation is not performed can be shortened. According to the terminal device of the present invention, when the terminal device accepts an input operation by the corresponding input method, the input start information indicating that the input operation by the corresponding input method has been started is output to the server device.
  • the server device that monitors the input operation of the input method other than the input method for which the acquisition of the semantic information is detected based on the result of the detection is detected by the server device that has detected the acquisition of the semantic information. It is possible to detect that the input operation has been started for an input method other than the method. Thereby, when the user does not perform the necessary input operation, the time required until the server apparatus determines that the input operation is not performed can be shortened.
  • the timeout control method of the multimodal input device of the present invention it is detected that semantic information indicating the meaning of each input operation of a plurality of input methods having different formats is acquired, and acquisition of semantic information is detected. Based on the detection that the input operation was started for an input method other than the input method, the input operation of the input method that did not detect the acquisition of semantic information was monitored. When the necessary input operation is not performed, the time required to determine whether the input operation is not performed can be shortened.
  • FIG. 1 is a block diagram showing a functional configuration of a multimodal input apparatus according to Embodiment 1 of the present invention.
  • voice input and gesture input will be described as examples of input methods to the multimodal input device.
  • the present invention does not limit the input method to these two methods.
  • various other input methods such as gaze detection, facial expression detection, handwriting input, and keyboard input may be used.
  • three or more of these input methods may be used.
  • the multimodal input device of this embodiment includes a voice acquisition unit 101, a voice information abstraction unit 102, a gesture acquisition unit 103, a gesture information abstraction unit 104, an operation processing unit 105, a timeout control unit 106, and a guidance unit. 107.
  • the voice acquisition unit 101 converts a user's speech voice acquired by a sound collection device (not shown) such as a microphone into a data signal (referred to as voice data).
  • the voice acquisition unit 101 detects the start and completion of the user's utterance based on the acquired voice data.
  • the voice acquisition unit 101 outputs the acquired voice data from the start to the end of the utterance to the voice information abstraction unit 102 as input information for voice input.
  • the speech information abstraction unit 102 recognizes input speech data and acquires a speech recognition result, and then acquires and outputs abstraction information corresponding to the speech recognition result. is there.
  • the speech information abstraction unit 102 outputs utterance start information (speech input input start information) indicating the start of a speech input operation to the motion processing unit 105.
  • the gesture acquisition unit 103 converts a user gesture acquired by an imaging device (not shown) such as a camera into a data signal (gesture data).
  • the gesture acquisition unit 103 detects the start and completion of the user's gesture based on the gesture data.
  • the gesture acquisition unit 103 outputs the gesture data from the start to the completion of the gesture to the gesture information abstraction unit 104 as input information of the gesture input.
  • the gesture information abstraction unit 104 recognizes the gesture data received from the gesture acquisition unit 103 and acquires a gesture recognition result, and then acquires the abstraction information corresponding to the gesture recognition result and outputs the gesture information to the motion processing unit 105. Is an input information recognition unit corresponding to.
  • the operation processing unit 105 uses each of the abstract information received from the voice information abstraction unit 102 and the gesture information abstraction unit 104 to determine an operation corresponding to the abstract information, and performs the operation. Further, the timeout control unit 106 determines completion of the input operation by the user based on information from the operation processing unit 105 and a timeout when the input operation is not performed. Details of information exchanged between the operation processing unit 105 and the timeout control unit 106 will be described later.
  • the guidance unit 107 generates and outputs an acoustic signal for generating a guidance voice based on the signal output from the operation processing unit 105.
  • the acoustic signal is a digital or analog signal for generating sound from a sound source device such as a speaker.
  • the guidance voice is used here, it is possible to use another output method such as an image signal for displaying the guidance on the screen.
  • FIG. 2 is a block diagram showing a detailed configuration of the timeout control unit 105.
  • the timeout control unit 105 includes an input detection unit 111 that processes information received from the operation processing unit, and a monitoring processing unit 112 that performs monitoring processing based on the processing result of the input detection unit 111.
  • the voice acquisition unit 101, the voice information abstraction unit 102, the gesture acquisition unit 103, the gesture information abstraction unit 104, the operation processing unit 105, the timeout control unit 106, the guidance unit 107, and the timeout control unit 106 described above are provided.
  • the input detection unit 111 and the monitoring processing unit 112 include a general-purpose processor or a processor such as a DSP (Digital Signal Processor), a volatile memory such as a RAM (Random Access Memory), a nonvolatile memory such as a flash memory, and other peripheral circuits. It can be realized by a program executed on the hardware and the processor configured as described above. Also, it can be realized by hardware such as ASIC (Application Specific Specific Integrated Circuit).
  • ASIC Application Specific Specific Integrated Circuit
  • the operation of the multimodal input device of this embodiment will be described.
  • operations of the voice input acquisition unit 101 and the voice information abstraction unit 102 and operations of the gesture acquisition unit 103 and the gesture information abstraction unit 104 will be described.
  • the operations of the voice input acquisition unit 101 and the voice information abstraction unit 102 and the processing of the gesture acquisition unit 103 and the gesture information abstraction unit 104 are input operations to devices corresponding to the respective input methods, that is, user utterances. It is performed independently according to the input of voice or gesture.
  • the voice input acquisition unit 101 receives a sound signal acquired by a sound collection device such as a microphone, converts voice uttered by the user into voice data, and detects the start and completion of the utterance. Then, the voice data from the start of utterance to the completion of utterance is output to the voice information abstraction unit 102 as input information for voice input.
  • the audio data is PCM (Pulse Code Modulation) data obtained by digitizing a sound signal acquired by the sound collection device.
  • the start and completion of utterances are detected based on the acoustic feature quantity of the voice extracted from the voice data and judged based on this feature quantity, or the amplitude of the sound signal is extracted from the voice data and based on the magnitude Various methods can be considered, such as making judgments.
  • the voice information abstraction unit 102 determines the start of the user's utterance and indicates the start of the voice input input operation to the operation processing unit 105. Start information (input start information) is output.
  • the speech information abstraction unit 102 performs speech recognition processing on the input speech data, and acquires speech input abstraction information corresponding to the recognition result obtained as a result.
  • the audio information abstraction unit 102 outputs the acquired abstract information to the operation processing unit 105.
  • the voice information abstraction unit 102 can acquire the abstract information based on the voice recognition result (voice information) by holding a table as shown in FIG. 3 in advance.
  • FIG. 3 shows an example where the speech recognition result is text.
  • the voice information abstraction unit 102 is shown in FIG. Search the table and get the abstraction information “control: switch”.
  • the gesture acquisition unit 103 converts image information such as a video signal acquired from the imaging device into gesture data, and detects the start and completion of the gesture. Then, the gesture data from the start to the completion of the gesture is output to the gesture information abstraction unit 104 as input information of the gesture input.
  • the gesture data is digitized image signal data, and may be data subjected to compression processing such as JPEG (Joint Photographic Experts Group), Motion JPEG or MPEG (Moving Picture Experts Group). Note that the determination of the start and completion of the gesture can be made by detecting the movement of the object defined in the image based on the relationship with the background, for example.
  • the gesture information abstraction unit 104 performs gesture recognition of the input gesture data, acquires the abstract information corresponding to the gesture recognition result (gesture information) obtained as a result, and To output abstraction information.
  • the gesture recognition result is a specific gesture pattern determined in advance, and is assumed to be, for example, a “pointing action”, a “waving hand action”, or the like. It is determined whether or not these patterns match by analyzing the image of the gesture data.
  • the gesture information abstraction unit 104 can acquire the abstract information from the gesture recognition result by, for example, holding the table shown in FIG. 4 in advance. For example, when the user performs a gesture pointing at the power switch of the device to be operated and acquires the “pointing action” as the gesture recognition result of the gesture, the gesture information abstraction unit 104 displays the table shown in FIG. To obtain abstraction information “control: switch”.
  • This embodiment describes a case where the voice input operation requires a longer time than the gesture input operation, and the gesture information abstraction unit 104 inputs the input start information indicating the start of the user's gesture input. Is not output to the motion processing unit 105, but when the input operation by gesture requires a longer time, the start of the gesture input may be notified to the motion processing unit 105. Further, both the voice information abstraction unit 102 and the gesture information abstraction unit 104 may output input start information that notifies the start of the input operation.
  • FIG. 5 is a flowchart showing an operation flow of the operation processing unit 105.
  • the flowchart shown in FIG. 5 is an example of the operation flow of the operation processing unit 105 of this embodiment. As long as an equivalent processing result is obtained, the process may be performed in a procedure different from that in FIG. Good.
  • the operation processing unit 105 waits for input of information from the voice information abstraction unit 102, the gesture information abstraction unit 104, and the timeout control unit 106, and when receiving the information input, the type of the input information In response to this, the following processes ST102, ST105, and ST107 are performed (ST101).
  • the operation processing unit 105 receives the utterance start information from the voice information abstraction unit 102 or the respective abstract information from the voice information abstraction unit 102 or the gesture information abstraction unit 104 (ST102). Next to ST102, the operation processing unit 105 sends an utterance start information reception notification (speech input start information reception notification), a voice input or gesture input abstraction information reception notification, which is a reception notification of received information, to the timeout control unit 106. (ST103). Note that the timeout control unit 106 does not need the utterance start information itself and the abstraction information itself, but the operation processing unit 105 in this example uses the received utterance start information itself as the utterance start information reception notification and the received abstraction. The information itself is output to the timeout control unit 106 as an abstract information reception notification.
  • the operation processing unit 105 stores the received abstract information when the received information is abstract information (ST104). After ST104, the operation processing unit 105 waits for information input from the voice information abstraction unit 102, the gesture information abstraction unit 104, and the timeout control unit 106 again.
  • the operation processing unit 105 receives an input completion notification from the timeout control unit 106 (ST105). Details of the input completion notification will be described later.
  • the operation processing unit 105 performs an operation according to the contents of the abstract information received from the stored speech information abstraction unit 102 and gesture information abstraction unit 104. Is determined and executed (ST106). After ST106, the operation processing unit 105 waits for information input from the voice information abstraction unit 102, the gesture information abstraction unit 104, and the timeout control unit 106 again.
  • the processing according to the content of the abstract information performed by the operation processing unit 105 is appropriately defined in a system to which the multimodal input device is applied.
  • the operation processing unit 105 Determines whether the power switch of the operation target device can be operated.
  • the operation processing unit 105 sends an instruction to the guidance unit 107 to output the guidance voice “Please operate the power switch”.
  • the guidance unit 107 receives this instruction, the guidance unit 107 generates and outputs an acoustic signal of guidance voice “Please operate the power switch”. By outputting the guidance voice from the speaker, the user recognizes that the power switch can be operated.
  • the operation processing unit 105 receives the first or second timeout detection notification from the timeout control unit 106 (ST107). Details of the timeout detection notification will be described later. When receiving the timeout detection notification, operation processing section 105 determines whether the timeout detection notification is the first timeout detection notification (ST108).
  • the operation processing unit 105 determines whether or not the voice input abstraction information has been acquired (ST109). If the abstract information of the voice input has been acquired, the operation processing unit 105 sends an instruction to the guidance unit 107 to output a guidance requesting gesture input (ST110). Upon receiving this instruction, the guidance unit 107 generates and outputs an acoustic signal of guidance voice “Please input a gesture”.
  • the operation processing unit 105 sends an instruction to the guidance unit 107 to output a guidance requesting the voice input (ST111). Upon receiving this instruction, the guidance unit 107 generates and outputs an acoustic signal of guidance voice “Please input voice”.
  • the operation processing unit 105 determines that the timeout detection notification received in the processing of ST108 is not the first timeout detection notification, the operation processing unit 105 instructs the guidance unit 107 to output guidance for interrupting acceptance of input operations. Send (step ST112). Upon receiving this instruction, the guidance unit 107 generates and outputs an acoustic signal of the guidance voice “The reception of input is interrupted”.
  • the timeout control unit 106 sets the abstraction information of each input method received from the operation processing unit 105 and the time required from the start of the input operation of the user until the abstraction information of the input operation is acquired to another method. Processing is performed based on input start information of a longer input method (that is, utterance start information in this embodiment). Note that, as described above, the timeout control unit 106 does not need the input start information itself or the abstraction information itself, and thus, for example, the operation processing unit 105 generates and uses reception notifications for the input start information and the abstraction information. For example, it may be configured to operate by receiving input of other information that can detect that the input operation has started and that the abstraction information has been acquired.
  • FIG. 6 is a flowchart showing an operation flow of the timeout control unit 106 of this embodiment.
  • timeout control section 106 performs a reception notification process in ST200 and a monitoring process in ST300 shown in the flowchart of FIG.
  • the reception notification process is performed by the input detection unit 111
  • the monitoring process is performed by the monitoring processing unit 112. Details of the reception notification process and the monitoring process will be described below.
  • the input detection unit 111 determines whether or not the gesture input abstraction information, which is an input method that requires a short time until the abstraction information is acquired, is received from the operation control unit 105 (ST201). When receiving the gesture input abstraction information, the input detection unit 111 stores that the gesture input abstraction information has been received (ST202). Next, the input detection unit 111 confirms whether the abstract information of the voice input that is the abstract information of another input method has been received, and determines whether the abstract information of the two types of input methods is available. (ST203).
  • the input detection unit 111 When the abstract information of the voice input has been received, the input detection unit 111 performs control to stop the counting of the timer being counted (either timer A or timer B or both), and both the voice input and the gesture input Therefore, the input completion notification is output to the operation processing unit 105 (ST204). After performing the process of ST204, the input detection unit 111 ends the reception notification process.
  • the timer A is a timer for monitoring whether the user's voice input or gesture input is not performed.
  • the monitoring processing unit 112 A first timeout detection notification is output to the operation processing unit 105.
  • the timer B cancels the input operation that has been performed so far when the specified second waiting time has elapsed without performing an input operation of another input method. This is a timer for the monitoring processing unit 112 to output a second timeout detection notification to the operation processing unit 105.
  • the monitoring processing unit 112 performs actual processing related to the timer as described later.
  • the input detection unit 111 outputs control information instructing the timer count to stop, and the monitoring processing unit 112 receives this control information and receives the timer count. Process to stop.
  • the control information corresponding to each control output from the input detection unit 111 is similarly monitored for the control for stopping the timer count performed by the input detection unit 111 and the control for starting the timer count described below. 112 receives and processes.
  • the input detection unit 111 performs control to start the timer A and the timer B (ST205). Next, the input detection unit 111 determines whether utterance start information indicating that an input operation of voice input that requires a long time until the abstraction information is acquired has been received from the operation processing unit 105. (ST206). If the utterance start information has been received, the input detection unit 111 performs control to stop the count of the timer A because the voice input input operation has been started (ST207). After performing the process of ST207, the input detection unit 111 ends the reception notification process. Further, when the utterance start information is not received from the operation processing unit 105 in the process of ST206, the input detection unit 111 ends the reception notification process.
  • the input detection unit 111 determines whether the voice input abstraction information has been received (ST208). If voice input abstraction information has been received, input detection section 111 stores reception of voice input abstraction information (ST209). Next, the input detection unit 111 determines whether or not the gesture input abstraction information has been received (ST210). If the abstract information of the gesture input has not been received, the timer A and the timer B are controlled to start counting (ST211). After the process of ST211, the input detection unit 111 ends the reception notification process. Also, when the gesture input abstraction information has been received in the process of ST210, the process proceeds to the above-described process of ST204.
  • the input detection unit 111 determines whether the utterance start information is received from the operation control unit 105 (ST212). If the utterance start information is received, the input detection unit 111 stores the reception of the utterance start information (ST213). Next, the input detection unit 111 determines whether or not the gesture input abstraction information has been received (ST214). If the gesture input abstraction information has been received, it is not necessary to continue the count of timer A started (ST205) when the gesture input abstraction information is received. Control to stop counting is performed (ST215). Then, the input detection unit 111 ends the reception notification process.
  • the input detection unit 111 ends the reception notification process. To do.
  • the monitoring processor 112 determines whether or not there is control information instructing to stop or start the timer count output from the input detector 111 (ST301).
  • the monitoring processing unit 112 receives the control information and performs a process of stopping or starting the timer A and timer B counts (ST302).
  • the timer A and the timer B are timers that continue counting to add 1 each time a predetermined time elapses until a predetermined count expiration value is reached.
  • the count expiration value is set so that the timer B has a larger value than the timer A.
  • the monitoring processing unit 112 determines whether there is a timer that is counting (ST303). When there is a timer that is being counted, the monitoring processing unit 112 updates the timer that is being counted (ST304). That is, 1 is added again when the predetermined time has passed since the previous addition of 1.
  • monitoring processor 112 determines whether timer A has reached the count expiration value (ST305).
  • timeout control section 106 outputs a first timeout detection notification to operation processing section 105 (ST306).
  • the processing of the operation processing unit 105 that has received the first timeout detection notification is as described above.
  • the monitoring processor 112 determines whether or not the timer B has reached the count expiration value (ST307). When timer B expires, monitoring processor 112 outputs a second timeout detection notification to operation processor 105 (ST308). The processing of the operation processing unit 105 that has received the second timeout detection notification is as described above. When there is no timer being counted in ST303 processing, when timer B has not expired in ST307 processing, and after the processing in ST308, the monitoring processing unit 112 ends the monitoring processing.
  • FIGS. 6, 7, and 8 are examples of the operation flow of the timeout control unit 106 of this embodiment, and as long as an equivalent processing result is obtained, processing is performed in a procedure different from that described above. You may make it do.
  • the monitoring processing unit 112 When the abstract information of the gesture input is received, as a result of the processing of ST205 of the input detection unit 111 of the timeout control unit 106, the monitoring processing unit 112 starts counting timer A and timer B by the processing of ST302. Thereafter, when the voice input operation is not performed and the timeout control unit 106 does not receive the utterance start information, the monitoring processing unit 112 of the timeout control unit 106 continues to update the timer A and the timer B. As a result, when the timer A expires, the monitoring processing unit 112 of the timeout control unit 106 outputs a first timeout detection notification to the operation processing unit 105 by the process of ST306.
  • timer A count is stopped when the speech start information is received (ST215), the time until the timer A count expires is the start of the user's voice input input operation. Therefore, it is not necessary to set the count expiration value of timer A so that the time required for the multimodal input device to acquire the abstracted information is long, and therefore the first timeout detection can be performed in a shorter time. Go and give guidance voice to the user.
  • the time required for the time-out control unit 106 until the multimodal input device acquires the abstraction information of the input operation from the start of the user's input operation Since the utterance start information indicating the start of the input operation of the voice input that is a long input method is used, the timer A that monitors non-execution of the input operation is stopped when the utterance start information is received. It is possible to shorten the time until the timer count expires.
  • the multimodal input device warns the user by determining that there is no input in a shorter time. It is possible to improve the efficiency of the user's input work.
  • the utterance start information that is the input start information of the input operation output from the voice information abstraction unit 102 is used to stop the timer A that monitors the non-execution of the input operation when the utterance start information is input.
  • the multimodal input device can prevent the user from warning that the user has forgotten to input when the user is performing voice input, and can improve convenience.
  • the speech information abstraction unit 102 that takes time from the start of input to the output of the abstraction information outputs the utterance start information to the operation processing unit 105 as input start information.
  • the amount of calculation related to the input start information in the multimodal input device can be suppressed.
  • Embodiment 1 described above input start information is received for an input method in which the time required from the start of the user's input operation until the abstraction information of the input operation is acquired is longer than in other methods.
  • the timer A count is stopped when it is executed, and the timer A count is stopped when the abstraction information is received for the other input methods.
  • the same effect can be obtained by stopping the count of the timer A based on the input start information and ending the monitoring of the unexecuted input operation for other input methods. be able to.
  • the input start information can be obtained for other input methods, it is confirmed that the input operation of any one of the input methods is started based on the reception of the input start information instead of the abstraction information. It may be detected and the timer A starts counting in anticipation of acquiring semantic information.
  • the time required from the start of the input operation of the user until the abstraction information of the input operation is acquired is longer than the other methods based on the input start information. As described above, the amount of calculation related to the input start information in the multimodal input device can be suppressed.
  • the multimodal input device of this embodiment processes voice input and gesture input has been described.
  • the present invention is not limited to these, and other input methods are adopted. Also good.
  • the input method is not limited to two types, and the same effect can be obtained when three or more types of input methods are employed.
  • three or more types of input methods there may be a case where there are a plurality of types of input methods in which the time required until the abstract information is acquired is comparable to that of other input methods. In such a case, it is conceivable to stop the timer A by detecting the start of the input operation of all input methods that require a long time.
  • the time-out control unit 106 determines the completion of input when two types of abstraction information of input operations are prepared, but when receiving the abstraction information of one input operation as necessary, Also, it may be determined that the input is completed. For example, when operating a low-risk switch, the input is completed only by voice, and when operating a high-risk switch, it is necessary depending on the degree of safety by determining that the input is complete when voice and gesture are input. Convenience can be improved by distinguishing various input operations.
  • time-out is appropriately set. It becomes possible to detect completion of input.
  • the speech information abstraction unit 102 outputs the utterance start information
  • the speech recognition fails or when the abstract information corresponding to the text of the recognition result is not found
  • the recurrent speech information is output.
  • the time-out control unit 106 may initialize the timer and start counting again when re-utterance information is input.
  • the timer to be initialized at this time may be only timer A or both timers A and B. By controlling in this way, even when the voice input is not normally performed, it is possible to appropriately detect the timeout and the input completion.
  • the count expiration values of timer A and timer B are not fixed values, and may be different values depending on the input status.
  • the value set in ST205 in FIG. 7 when the gesture abstraction information is input first is different from the value set in ST211 in FIG. 7 when the sound abstraction information is input first. Also good.
  • a value corresponding to the maximum time from the start of voice input for monitoring the absence of voice input until the abstraction information acquisition is set, and in ST211 of FIG. 7, the abstraction information from the start of gesture input. Set a value based on the maximum time to output. This makes it possible to wait for an input suitable for each input device.
  • Embodiment 2 the case where the voice information abstraction unit 102, the gesture information abstraction unit 104, the operation processing unit 105, and the timeout control unit 106 are provided in the same device has been described. Next, these functions are distributed and arranged. A multimodal input device composed of a plurality of devices will be described.
  • FIG. 9 is a block diagram showing a configuration of a multimodal input device according to Embodiment 2 of the present invention.
  • the multimodal input device of this embodiment includes a terminal device 201 and a server device 202.
  • the voice acquisition unit 101, the voice information abstraction unit 102b, the gesture acquisition unit 103, the gesture information abstraction unit 104b, and the guidance unit 107b included in the terminal device 201 are the voice acquisition unit according to the first embodiment illustrated in FIG. 101, an audio information abstraction unit 102, a gesture acquisition unit 103, a gesture information abstraction unit 104, and a guidance unit 107.
  • the voice information abstraction unit 102b, the gesture information abstraction unit 104b, and the guidance unit 107b are not connected to the operation processing unit 105, but are connected to the communication unit 203 of the terminal device 201.
  • the communication unit 204 is connected.
  • the terminal communication unit 203 of the terminal device 201 and the communication unit 204 of the server device 202 are connected via a communication path such as a communication line.
  • the processing performed by the voice acquisition unit 101, the voice information abstraction unit 102b, the gesture acquisition unit 103, and the gesture information abstraction unit 104b of the terminal device 201 is the same as the corresponding part in the first embodiment.
  • the speech information abstraction unit 102 b outputs speech start information and speech input abstraction information to the communication unit 203
  • the gesture information abstraction unit 104 b outputs gesture input abstraction information to the communication unit 203.
  • the communication part 203 of the terminal device 201 transmits the information input from the audio
  • the communication unit 204 of the server device 202 outputs the utterance start information, the voice input abstraction information, and the gesture input abstraction information received from the terminal device 201 to the operation processing unit 105b.
  • the processing performed by the motion processing unit 105b that has received the speech start information, the speech input abstraction information, and the gesture input abstraction information and the processing performed by the timeout control unit 106 corresponding to the processing of the motion processing unit 105b are the same as those in the first embodiment. It is the same.
  • the operation processing unit 105b outputs the guidance voice output instruction output to the guidance unit 107 in the first embodiment to the communication unit 204.
  • voice transmits this instruction
  • the communication unit 203 of the terminal device 201 outputs an instruction to output the guidance voice received from the server device 202 to the guidance unit 107b. And the guidance part 107b reproduces
  • the terminal device 201 performs voice recognition and gesture recognition
  • the server device 202 performs determination and implementation of an operation corresponding to the user's input, and timeout detection. Since the server apparatus 202 communicates with a plurality of terminal apparatuses 201 and can centrally manage instructions to a plurality of users, the plurality of users work through the terminal apparatus 201 in cooperation with each other. Therefore, it is possible to appropriately give instructions to each user and improve work efficiency.
  • the functions are distributed and arranged in the terminal device 201 and the server device 202, the calculation amount of the terminal device 201 can be reduced.
  • the communication unit 203c of the terminal device 201c when voice data is input from the voice acquisition unit 101c, the communication unit 203c of the terminal device 201c outputs the data to the communication unit 203c.
  • the 203c When the gesture data is input from the gesture acquisition unit 103c, the 203c outputs the data to the communication unit 203c.
  • the communication unit 204c of the server device 202c outputs the audio data received from the terminal device 201c to the audio information abstraction unit 102c, and outputs the gesture data received from the terminal device 201c to the gesture information abstraction unit 104c.
  • Other operations are the same as those of the multimodal input device shown in FIG.
  • server device 202c since the server device 202c performs voice recognition, gesture recognition, determination and execution of the operation to be performed, and timeout detection, the amount of calculation of the terminal device 201c can be further reduced. In addition, by realizing server device 202c using server hardware with high processing capability, high-accuracy voice recognition and gesture recognition using abundant computing power becomes possible, and work is performed efficiently based on high recognition accuracy. can do.
  • a server device 202d including a speech information abstraction unit 102d, a gesture information abstraction unit 104d, and a communication unit 204d, and a speech
  • a speech A terminal device including an acquisition unit 101d, a gesture acquisition unit 103d, a communication unit 203d, an operation processing unit 105d, a timeout control unit 106, and a guidance unit 107 may be used.
  • the processing amount of the terminal device 201d can be reduced by performing the processing of voice recognition and gesture recognition that require computing power by the server device 202d.
  • input start information such as utterance start information may be output from the voice acquisition unit 101d and the gesture acquisition unit 103d to the operation processing unit 105d.
  • the functions are not limited to the above-described modification example, and the functions may be distributed and arranged by another function division.
  • Embodiment 3 FIG.
  • the speech information abstraction unit 102 outputs the utterance start information unconditionally to the motion processing unit 105 when an utterance is detected, but the following prescribed condition is satisfied Only the speech information abstraction unit 102 outputs the utterance start information to the operation processing unit 105.
  • the configuration of the multimodal input device according to this embodiment is the same as that of FIG. 1 described in the first embodiment.
  • the operation of the multimodal input device of this embodiment is different from that of the first embodiment in the operation of the voice information abstraction unit 102 at the time of voice input.
  • the voice information abstraction unit 102 starts to receive voice data from the voice acquisition unit 101, measures the time when the utterance is performed after detecting the user's utterance start, and measures the time from the start of the utterance. Is longer than a prescribed time (for example, 0.5 seconds), utterance start information is output to the operation processing unit 105. If the utterance is finished before the utterance time reaches the specified time, the speech information abstraction unit 102 does not output the utterance start information.
  • a prescribed time for example, 0.5 seconds
  • the time-out control unit 106 can be prevented from receiving the utterance start information, and a more accurate operation can be performed.
  • voice input has been described as an example, but other input methods may be the same.
  • FIG. 6 illustrates an embodiment for dynamically determining
  • the configuration of the multimodal input device according to this embodiment is the same as that of FIG. 1 described in the first embodiment.
  • the multimodal input device of this embodiment performs the following processing at startup.
  • the speech information abstraction unit 102 of the multimodal input device of this embodiment at the time of starting the device detects the speech start of the speech recognition result of the speech input to be recognized, acquires the recognition result, and acquires the abstract information
  • the required time to do is estimated, and the longest required time among the estimated times is output to the operation processing unit 105 which is a required time determination unit.
  • the gesture information abstraction unit 104 acquires the recognition result for the recognition result of the gesture input to be recognized, acquires the recognition result, and estimates the time required to acquire the abstraction information. The longest time is output to the operation processing unit 105.
  • the operation processing unit 105 compares the required time input from the speech information abstraction unit 102 with the required time input from the gesture information abstraction unit 104, and outputs the input start information to the person with the longer required time. Instruct.
  • voice input and gesture input have been described as examples. However, the same may be applied when other input methods are used.
  • the multimodal input device controls the multimodal input by controlling the input start information to be output only to the input device having the longest time required for the input operation when the device is activated. Even when the input method to the apparatus is changed, it can be easily handled.
  • the time required to determine whether the input operation is not performed can be shortened. It is useful in a system using

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

 様式が異なる複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことを検知し、意味情報の取得が検知された入力方法以外の入力方法についてその入力操作が開始されたことを検知する入力検知部111と、入力検知部の意味情報が取得されたことの検知の結果およびに入力操作が開始されたことの検知の結果に基づいて意味情報の取得が検知された入力方法以外の入力方法の入力操作の未実施の監視を行う監視処理部112と、を備える。

Description

マルチモーダル入力装置、端末装置およびマルチモーダル入力装置のタイムアウト制御方法
 この発明は、様式が異なる複数の入力方法で入力された情報を取得するマルチモーダル入力装置に関する。
 使用者に対してより利便性の高い直感的なインタフェースを提供するため、異なる複数の様式の入力方法を用いた入力インタフェースのマルチモーダル化が行われている。例えば特許文献1には、2種類以上の異なる入力操作で入力されたそれぞれの入力情報から、行われたそれぞれの入力操作の意味する意味情報を取得して、これらの2種類以上の意味情報を組み合わせて対象装置に対するコマンドを生成する情報処理装置が開示されている。この情報処理装置では、2個以上の入力操作の入力情報に基づいて対象装置のコマンドを生成するために、コマンドの生成に必要な意味情報が揃っているか否かの判定を規定の時間の経過を待って行っており、必要な情報が揃っていない場合にはコマンドを生成せずに処理を終了する。
特開2012-103840号公報(図9)
 入力方法の異なる複数のデバイスによって入力が行われる場合、使用者の入力操作の開始から必要な入力情報の入力が完了するまでに要する時間はそのデバイスの入力方法に依存し、また入力操作の意味情報が入力情報から取得されるまでに要する時間はその入力情報に依存するため、使用者による入力操作の開始からその入力操作の意味情報が取得されるまでに要する時間はデバイス毎に異なる。したがって、特許文献1に記載された情報処理装置において必要な意味情報が揃ったか否かを判定するまでに待つ待機時間は、意味情報が取得されるまでの時間が最も長いデバイスを考慮して定める必要があった。
 また、これらの複数の入力操作を行うタイミングは使用者によって様々であるため、使用者の入力操作が無駄にならないように上記の待機時間はさらに余裕を持って定める必要があった。
 以上のように様式の異なる複数の入力方法で入力される複数の入力情報を用いる従来のマルチモーダル入力装置では、それぞれの入力方法による入力操作の意味情報が揃ったことを判定するまでの待機時間が長く、このため必要な入力操作の未実施を判断するまでに要する時間が長いという問題があった。この結果、例えば使用者が必要な入力操作をし忘れた場合に未実施の入力操作があることを使用者に警告するといった処理をするとき、警告を与えるまでに要する時間が長くなってしまうなど、使用者の利便性を損なっていた。
 この発明は、上述のような課題を解決するためになされたものであり、必要な入力操作が行われなかった場合に、入力操作の未実施を判断するまでに要する時間を短縮したマルチモーダル入力装置を得ることを目的とする。
 なお、様式の異なる複数の入力方法で入力が行われる場合、それぞれの入力操作で入力された入力情報から取得される入力操作の意味を示す意味情報は、特定の入力方法に依存しない抽象化した情報として定義されることがある。以降ではこのような抽象化された意味情報を抽象化情報と称する。
 この発明のマルチモーダル入力装置は、様式が異なる複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことを検知し、意味情報の取得が検知された入力方法以外の入力方法についてその入力操作が開始されたことを検知する入力検知部と、入力検知部の検知の結果に基づいて意味情報の取得が検知された入力方法以外の入力方法の入力操作の未実施の監視を行う監視処理部と、を備えるようにした。
 この発明の端末装置は、複数の入力方法の入力操作の未実施の監視を行うサーバ装置が監視する入力操作を受け付ける端末装置であって、複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことを検知し、意味情報の取得が検知された入力方法以外の入力方法についてその入力操作が開始されたことを検知して、これらの検知の結果に基づいて意味情報の取得が検知された入力方法以外の入力方法の入力操作の未実施の監視を行うサーバ装置に対して、当該端末装置が対応する入力方法による入力操作を受け付けると、その対応する入力方法による入力操作が開始されたことを示す入力開始情報を出力するようにした。
 この発明のマルチモーダル入力装置のタイムアウト制御方法は、様式が異なる複数の入力方法で入力が行われるマルチモーダル入力装置のタイムアウト制御方法であって、複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことを検知する意味情報取得検知ステップと、意味情報の取得が検知された入力方法以外の入力方法についてその入力操作が開始されたことを検知する入力操作検知ステップと、意味情報が取得されたことの検知および入力操作が開始されたことの検知に基づいて、意味情報の取得が検知された入力方法以外の入力方法の入力操作の未実施の監視を行う監視ステップと、を備えるようにした。
 上述のようにこの発明のマルチモーダル入力装置によれば、様式が異なる複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことの検知と、意味情報の取得が検知された入力方法以外の入力方法についてその入力操作が開始されたことの検知に基づいて、意味情報の取得を検知していない入力方法の入力操作の未実施の監視を行うようにしたので、使用者が必要な入力操作をしなかった場合に、入力操作の未実施を判断するまでに要する時間を短縮することができる。
 この発明の端末装置によれば、当該端末装置が対応する入力方法による入力操作を受け付けると、その対応する入力方法による入力操作が開始されたことを示す入力開始情報をサーバ装置に出力するようにしたので、複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことを検知し、意味情報の取得が検知された入力方法以外の入力方法についてその入力操作が開始されたことを検知して、これらの検知の結果に基づいて意味情報の取得が検知された入力方法以外の入力方法の入力操作の未実施の監視を行うサーバ装置が、意味情報の取得が検知された入力方法以外の入力方法についてその入力操作が開始されたことを検知することができるようになる。これにより、使用者が必要な入力操作をしなかった場合に、サーバ装置が入力操作の未実施を判断するまでに要する時間を短縮することができる。
 この発明のマルチモーダル入力装置のタイムアウト制御方法によれば、様式が異なる複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことの検知と、意味情報の取得が検知された入力方法以外の入力方法についてその入力操作が開始されたことの検知に基づいて、意味情報の取得を検知していない入力方法の入力操作の未実施の監視を行うようにしたので、使用者が必要な入力操作をしなかった場合に、入力操作の未実施を判断するまでに要する時間を短縮することができる。
この発明の実施の形態1に関わるマルチモーダル入力装置の機能構成を示すブロック図である。 この発明の実施の形態1のマルチモーダル入力装置のタイムアウト制御部の詳細構成を示すブロック図である。 この発明の実施の形態1のマルチモーダル入力装置の音声入力の認識結果と抽象化情報の対応の一例を示すテーブルである。 この発明の実施の形態1のマルチモーダル入力装置のジェスチャ入力の認識結果と抽象化情報の対応の一例を示すテーブルである。 この発明の実施の形態1のマルチモーダル入力装置の動作処理部の動作フローを示すフローチャートである。 この発明の実施の形態1のマルチモーダル入力装置のタイムアウト制御部の動作フローを示すフローチャートである。 この発明の実施の形態1のマルチモーダル制御装置の入力検知部の動作フローを示すフローチャートである。 この発明の実施の形態1のマルチモーダル制御装置の監視処理部の動作フローを示すフローチャートである。 この発明の実施の形態2に関わるマルチモーダル入力装置の機能構成を示すブロック図である。 この発明の実施の形態2のマルチモーダル入力装置の機能構成の変形例を示すブロック図である。 この発明の実施の形態2のマルチモーダル入力装置の機能構成の変形例を示すブロック図である。
 以下、この発明の実施の形態を、図面を参照して説明する。なお、参照する図面において同一もしくは相当する部分には同一の符号を付している。
実施の形態1.
 図1はこの発明の実施の形態1に係るマルチモーダル入力装置の機能構成を示すブロック図である。なお、以降のこの実施の形態の説明ではマルチモーダル入力装置への入力方法として音声入力とジェスチャ入力を例に説明をするが、この発明は入力方法をこの2種類の方法に限定するものではない。例えば、視線検知、表情検知、手書き入力、キーボード入力などの種々の他の入力方法であってもよい。また、これらの入力方法の3種類以上を用いるものであってもよい。
 図1において、この実施の形態のマルチモーダル入力装置は音声取得部101、音声情報抽象化部102、ジェスチャ取得部103、ジェスチャ情報抽象化部104、動作処理部105、タイムアウト制御部106、ガイダンス部107を備えている。
 音声取得部101はマイク等の収音機器(図示せず)が取得した使用者の発話音声をデータ信号(音声データと称す)に変換する。また、音声取得部101は取得した音声データに基づいて使用者の発話開始と完了を検出する。音声取得部101は取得した発話開始から完了までの音声データを音声入力の入力情報として音声情報抽象化部102に出力する。
 音声情報抽象化部102は入力された音声データを音声認識して音声認識結果を取得した後、音声認識結果に対応する抽象化情報を取得して出力する音声入力に対応した入力情報認識部である。また、音声情報抽象化部102は音声入力の入力操作の開始を示す発話開始情報(音声入力の入力開始情報)を動作処理部105に対して出力する。
 ジェスチャ取得部103はカメラ等の撮像機器(図示せず)が取得した使用者のジェスチャをデータ信号(ジェスチャデータ)に変換する。また、ジェスチャ取得部103はジェスチャデータに基づいて使用者のジェスチャの開始と完了を検出する。ジェスチャ取得部103はジェスチャの開始から完了までのジェスチャデータをジェスチャ入力の入力情報としてジェスチャ情報抽象化部104に出力する。
 ジェスチャ情報抽象化部104はジェスチャ取得部103から受信したジェスチャデータを認識してジェスチャ認識結果を取得した後、ジェスチャ認識結果に対応する抽象化情報を取得して動作処理部105に出力するジェスチャ入力に対応した入力情報認識部である。
 動作処理部105は音声情報抽象化部102およびジェスチャ情報抽象化部104から受信したそれぞれの抽象化情報を用いて、抽象化情報に対応する動作を判断し、その動作を実施する。また、タイムアウト制御部106は動作処理部105からの情報に基づいて使用者による入力操作の完了および入力操作が未実施の場合のタイムアウトを判断する。なお、動作処理部105とタイムアウト制御部106の間で交わされる情報の詳細は後述する。
 ガイダンス部107は動作処理部105が出力する信号に基づいてガイダンス音声を発生するための音響信号を生成して出力する。ここで音響信号とは、スピーカ等の音源装置から音を発生させるためのデジタルもしくはアナログの信号とする。なお、ここではガイダンス音声としたが、画面にガイダンスを表示するための画像信号など別の出力方法を用いるようにすることも可能である。
 図2はタイムアウト制御部105の詳細構成を示すブロック図である。タイムアウト制御部105は動作処理部から受信した情報を処理する入力検知部111と、入力検知部111の処理結果に基づいて監視処理を行う監視処理部112を備えている。
 なお、上述の音声取得部101、音声情報抽象化部102、ジェスチャ取得部103、ジェスチャ情報抽象化部104、動作処理部105、タイムアウト制御部106、ガイダンス部107、また、タイムアウト制御部106が備える入力検知部111および監視処理部112は、汎用プロセッサもしくはDSP(Digital Signal Processor)などのプロセッサと、RAM(Random Access Memory)などの揮発性メモリ、Flashメモリ等の不揮発性のメモリとその他の周辺回路で構成されたハードウェアおよびプロセッサ上で実行されるプログラムにより実現することが可能である。また、ASIC(Application Specific Integrated Circuit)などのハードウェアで実現することも可能である。
 次にこの実施の形態のマルチモーダル入力装置の動作について説明する。まず、音声入力取得部101および音声情報抽象化部102の動作、ジェスチャ取得部103およびジェスチャ情報抽象化部104の動作について説明する。なお、音声入力取得部101および音声情報抽象化部102の動作とジェスチャ取得部103およびジェスチャ情報抽象化部104の処理は、それぞれの入力方法に対応した機器への入力操作、すなわち使用者の発話音声やジェスチャの入力に応じて独立に行われるものである。
 音声入力取得部101はマイク等の収音機器で取得された音信号を受信して使用者が発話した音声を音声データに変換し、発話の開始および完了の検出を行う。そして発話開始から発話完了までの音声データを音声情報抽象化部102へ音声入力の入力情報として出力する。なお、ここで音声データは収音機器が取得した音信号をデジタル化したPCM(Pulse Code Modulation)データとする。また発話の開始と完了の検出は、音声データから音声の音響的な特徴量を抽出してこの特徴量に基づいて判断したり、あるいは音声データから音信号の振幅を抽出してその大小に基づいて判断したりするなど種々の方法が考えられる。
 次に、音声情報抽象化部102は音声入力取得部101から音声データを受信し始めると、使用者の発話開始を判断して動作処理部105に対して音声入力の入力操作の開始を示す発話開始情報(入力開始情報)を出力する。そして、音声情報抽象化部102は入力された音声データに対する音声認識処理を実施して、その結果得られた認識結果に対応する音声入力の抽象化情報を取得する。音声情報抽象化部102は取得した抽象化情報を動作処理部105に対して出力する。
 音声情報抽象化部102は音声認識結果(音声情報)に基づく抽象化情報の取得を、例えば図3に示すようなテーブルを予め保持しておくことで行うことができる。図3は音声認識結果がテキストである場合の例である。例えば使用者が「でんげんすいっちきどー」と発話して音声情報抽象化部102が音声認識結果として「電源スイッチ起動」を取得した場合、音声情報抽象化部102は図3に示したテーブルを検索して抽象化情報「control:switch」を取得する。
 一方、ジェスチャ取得部103は撮像機器から取得した映像信号等の画像情報をジェスチャデータに変換し、ジェスチャの開始と完了の検出を行う。そして、ジェスチャ開始から完了までのジェスチャデータをジェスチャ情報抽象化部104へジェスチャ入力の入力情報として出力する。なお、ここでジェスチャデータはデジタル化された画像信号のデータとし、例えばJPEG(Joint Photographic Experts Group)、Motion JPEGあるいはMPEG(Moving Picture Experts Group)等の圧縮処理を施したデータであってもよい。なお、ジェスチャの開始および完了の判断は例えば画像内に定めた対象物の動きを背景との関係により検出することで行うことができる。
 次に、ジェスチャ情報抽象化部104は入力されたジェスチャデータのジェスチャ認識を行い、その結果得られたジェスチャ認識結果(ジェスチャ情報)に対応する抽象化情報を取得した後、動作処理部105に対して抽象化情報を出力する。ここでジェスチャ認識結果とは予め定められた特定のジェスチャパターンであり、例えば「指差し動作」、「手を振る動作」などであるものとする。ジェスチャデータを画像解析することによりこれらのパターンと一致するかどうかを判定する。
 ジェスチャ情報抽象化部104は例えば図4に示すテーブルを予め保持しておくことにより、ジェスチャ認識結果から抽象化情報を取得することができる。例えば、使用者が操作対象の機器の電源スイッチを指差すジェスチャを行って、このジェスチャのジェスチャ認識結果として「指差し動作」を取得した場合、ジェスチャ情報抽象化部104は図4に示したテーブルを検索して抽象化情報「control:switch」を取得する。
 なお、この実施の形態は音声による入力操作がジェスチャによる入力操作よりも長い時間を必要とする場合について記載しており、ジェスチャ情報抽象化部104は使用者のジェスチャ入力の開始を示す入力開始情報を動作処理部105に出力していないが、ジェスチャによる入力操作の方が長い時間を必要とする場合にはジェスチャ入力の開始を動作処理部105に通知するようにすればよい。また、音声情報抽象化部102とジェスチャ情報抽象化部104の両方が入力操作の開始を通知する入力開始情報を出力するようにしてもよい。
 次に動作処理部105の動作を説明する。図5は動作処理部105の動作フローを示すフローチャートである。なお、図5に示したフローチャートはこの実施の形態の動作処理部105の動作フローの一例であり、同等の処理結果が得られる限りにおいて、図5とは異なる手順で処理を行うようにしてもよい。
 動作処理部105は動作を開始すると、音声情報抽象化部102およびジェスチャ情報抽象化部104およびタイムアウト制御部106からの情報の入力を待ち受けし、情報の入力を受けると、入力された情報の種別に応じて以下に示すST102、ST105、ST107の処理を行う(ST101)。
 動作処理部105は音声情報抽象化部102からの発話開始情報、もしくは音声情報抽象化部102またはジェスチャ情報抽象化部104からのそれぞれの抽象化情報を受信する(ST102)。ST102の次に、動作処理部105は受信した情報の受信通知である発話開始情報受信通知(音声の入力開始情報の受信通知)、音声入力またはジェスチャ入力の抽象化情報受信通知をタイムアウト制御部106に出力する(ST103)。なお、タイムアウト制御部106は発話開始情報自体および抽象化情報自体を必要としないが、この例の動作処理部105は、受信した発話開始情報自体を発話開始情報受信通知として、また受信した抽象化情報自体を抽象化情報受信通知としてタイムアウト制御部106に出力するようにしている。
 ST103の次に、動作処理部105は受信した情報が抽象化情報である場合には受信した抽象化情報を保存する(ST104)。ST104の後、動作処理部105は再び音声情報抽象化部102、ジェスチャ情報抽象化部104およびタイムアウト制御部106からの情報入力を待ち受けする。
 動作処理部105はタイムアウト制御部106から入力完了通知を受信する(ST105)。入力完了通知の詳細は後述する。タイムアウト制御部106から入力完了通知を受信すると、動作処理部105は保存している音声情報抽象化部102およびジェスチャ情報抽象化部104から受信したそれぞれの抽象化情報の内容に応じて実施する動作を判断して実行する(ST106)。ST106の後、動作処理部105は再び音声情報抽象化部102、ジェスチャ情報抽象化部104およびタイムアウト制御部106からの情報入力を待ち受けする。
 動作処理部105が行う抽象化情報の内容に応じた処理は、マルチモーダル入力装置が適用されるシステムにおいて適宜定義されるものである。一例を示すと、例えば上述の例のように音声情報抽象化部102およびジェスチャ情報抽象化部104から入力された抽象化情報がどちらも「control:switch」であった場合に、動作処理部105は操作対象の機器の電源スイッチの操作が可能であるかを判断する。そして、可能と判断した場合に動作処理部105はガイダンス部107に対してガイダンス音声「電源スイッチを操作してください」を出力するよう指示を送る。この指示を受信したガイダンス部107は「電源スイッチを操作してください」というガイダンス音声の音響信号を生成して出力する。このガイダンス音声がスピーカより出力されることにより、使用者は電源スイッチの操作が可能であることを認識する。
 動作処理部105はタイムアウト制御部106から第1もしくは第2のタイムアウト検出通知を受信する(ST107)。タイムアウト検出通知の詳細は後述する。動作処理部105はタイムアウト検出通知を受信すると、そのタイムアウト検出通知が第1のタイムアウト検出通知であるか判断する(ST108)。
 受信したタイムアウト検出通知が第1のタイムアウト検出通知であった場合、動作処理部105は音声入力の抽象化情報を取得済みあるかどうかを判断する(ST109)。音声入力の抽象化情報を取得済みである場合、動作処理部105はガイダンス部107にジェスチャ入力を要求するガイダンスを出力するよう指示を送る(ST110)。この指示を受けたガイダンス部107は「ジェスチャを入力してください」という、ガイダンス音声の音響信号を生成して出力する。
 一方、ST109の処理で音声入力の抽象化情報を取得済みでないと判断した場合には、動作処理部105はガイダンス部107に音声入力を要求するガイダンスを出力するよう指示を送る(ST111)。この指示を受けたガイダンス部107は「音声を入力してください」というガイダンス音声の音響信号を生成して出力する。
 また、ST108の処理において受信したタイムアウト検出通知が第1のタイムアウト検出通知ではないと判断した場合には、動作処理部105はガイダンス部107に入力操作の受付を中断するガイダンスを出力するよう指示を送る(ステップST112)。この指示を受けたガイダンス部107は「入力の受付を中断します」というガイダンス音声の音響信号を生成して出力する。
 次にこの実施の形態のマルチモーダル入力装置のタイムアウト制御部106の動作を説明する。タイムアウト制御部106は動作処理部105から受信する各入力方法の抽象化情報と、使用者の入力操作の開始からその入力操作の抽象化情報が取得されるまでに必要な時間が他の方法に比べて長い入力方法の入力開始情報(すなわちこの実施の形態における発話開始情報)に基づいて処理を行う。なお、前述のようにタイムアウト制御部106は入力開始情報自体または抽象化情報自体を必要としないので、例えば動作処理部105で入力開始情報および抽象化情報のそれぞれの受信通知を生成して使用するなど、入力操作が開始されていることおよび抽象化情報が取得されたことを検知可能な別の情報の入力を受けて動作するように構成することも可能である。
 図6はこの実施の形態のタイムアウト制御部106の動作フローを示すフローチャートである。タイムアウト制御部106は処理を開始すると図6のフローチャートに示すST200の受信通知処理とST300の監視処理を行う。ここで、受信通知処理は入力検知部111が、監視処理は監視処理部112が行う処理である。以下に受信通知処理と監視処理の詳細を説明する。
 まず、図7を参照して入力検知部111が行う受信通知処理を説明する。最初に入力検知部111は、抽象化情報が取得されるまでに必要な時間が短い入力方法であるジェスチャ入力の抽象化情報を動作制御部105から受信しているか判断する(ST201)。入力検知部111はジェスチャ入力の抽象化情報を受信している場合、ジェスチャ入力の抽象化情報を受信したことを記憶する(ST202)。次に入力検知部111はもう一つの入力方法の抽象化情報である音声入力の抽象化情報を受信済みであるか確認して、2種類の入力方法の抽象化情報が揃っているかどうか判断する(ST203)。
 音声入力の抽象化情報を受信済みである場合、入力検知部111はカウント中のタイマ(タイマA、タイマBのいずれかもしくは両方)のカウントを停止する制御を行い、音声入力とジェスチャ入力の両方の抽象化情報が揃っているので、動作処理部105に入力完了通知を出力する(ST204)。ST204の処理を実施して、入力検知部111は受信通知処理を終了する。
 ここで、タイマAは使用者の音声入力とジェスチャ入力のいずれかの入力操作の未実施を監視するためのタイマであり、規定の待機時間を経過してタイマが満了した時には監視処理部112が動作処理部105に第1のタイムアウト検出通知を出力する。また、タイマBはいずれかの抽象化情報を受信した後、別の入力方法の入力操作がなされないまま規定の第2の待機時間が経過した場合に、それまでに行われた入力操作をキャンセルするための第2のタイムアウト検出通知を監視処理部112が動作処理部105に出力するためのタイマである。
 なお、後述するとおりタイマに関わる実際の処理は監視処理部112が行う。上述の入力検知部111が行うタイマのカウントを停止する制御では、入力検知部111がタイマのカウントの停止を指示する制御情報を出力し、監視処理部112がこの制御情報を受け付けてタイマのカウントを停止する処理を行う。これ以降に記載する入力検知部111が行うタイマのカウントを停止する制御とタイマのカウントを開始する制御についても同様に、入力検知部111が出力したそれぞれの制御に対応する制御情報を監視処理部112が受け付けて処理を行う。
 ST203の処理で音声入力の抽象化情報を受信済みでなかった場合、入力検知部111はタイマA、タイマBのカウントを開始する制御を行う(ST205)。次に、入力検知部111は抽象化情報が取得されるまでに必要な時間が長い音声入力の入力操作が開始されていることを示す発話開始情報を動作処理部105から受信済みであるか判断する(ST206)。発話開始情報を受信済みである場合、音声入力の入力操作が開始されていることから入力検知部111はタイマAのカウントを停止する制御を行う(ST207)。ST207の処理を行って入力検知部111は受信通知処理を終了する。また、ST206の処理で発話開始情報を動作処理部105から受信していなかった場合には入力検知部111は受信通知処理を終了する。
 ST201の処理で動作制御部105からジェスチャ入力の抽象化情報を受信していない場合、入力検知部111は音声入力の抽象化情報を受信しているか判断する(ST208)。音声入力の抽象化情報を受信している場合、入力検知部111は音声入力の抽象化情報の受信を記憶する(ST209)。次に、入力検知部111はジェスチャ入力の抽象化情報を受信済みであるか判断する(ST210)。そして、ジェスチャ入力の抽象化情報を受信済みでない場合には、タイマA、タイマBのカウントを開始する制御を行う(ST211)。ST211の処理の後、入力検知部111は受信通知処理を終了する。また、ST210の処理でジェスチャ入力の抽象化情報を受信済みであった場合には上述のST204の処理に遷移する。
 ST208の処理で音声入力の抽象化情報を受信していなかった場合には、入力検知部111は発話開始情報を動作制御部105から受信しているか判断する(ST212)。そして、発話開始情報を受信している場合には入力検知部111は発話開始情報の受信を記憶する(ST213)。次に、入力検知部111はジェスチャ入力の抽象化情報を受信済みであるか判断する(ST214)。ジェスチャ入力の抽象化情報を受信済みであった場合は、ジェスチャ入力の抽象化情報を受信したときに開始(ST205)したタイマAのカウントを継続する必要がないので入力検知部111はタイマAのカウントを停止する制御を行う(ST215)。そして入力検知部111は受信通知処理を終了する。
 また、ST212の処理において発話開始情報を受信していないと判断した場合およびST214の処理でジェスチャ入力の抽象化情報を受信していないと判断した場合は、入力検知部111は受信通知処理を終了する。
 次に図8を参照して監視処理部112が行うST300の監視処理を説明する。まず、監視処理部112は入力検知部111が出力したタイマのカウントの停止または開始を指示する制御情報の有無を判定する(ST301)。入力検知部111からのタイマの制御情報がある場合、監視処理部112はこれらの制御情報を受け付けてタイマA、タイマBのカウントの停止または開始の処理を行う(ST302)。ここで、タイマA、タイマBは規定のカウント満了値に到達するまで、一定時間を経過する毎に1を加算するカウントを続けるタイマとする。また、カウント満了値はタイマAよりもタイマBの方が大きい値となるようにするものとする。
 ST301の処理で入力検知部111が行ったタイマの制御がなかった場合と、ST302の処理の後に、監視処理部112はカウントを実施中のタイマがあるかどうか判断する(ST303)。カウント実施中のタイマがあった場合、監視処理部112はカウント実施中のタイマの更新を行う(ST304)。すなわち、前回1を加算した時から前述の一定時間を経過している場合に再び1を加算する。
 次に、監視処理部112はタイマAがカウント満了値に到達したか判断する(ST305)。タイマAが満了した場合、タイムアウト制御部106は第1のタイムアウト検出通知を動作処理部105に出力する(ST306)。第1のタイムアウト検出通知を受信した動作処理部105の処理は前述のとおりである。
 ST304の処理でタイマAが満了していない場合と、ST306の処理の後に、監視処理部112はタイマBがカウント満了値に到達したか否かを判断する(ST307)。タイマBが満了した場合、監視処理部112は第2のタイムアウト検出通知を動作処理部105に出力する(ST308)。第2のタイムアウト検出通知を受信した動作処理部105の処理は前述のとおりである。ST303の処理でカウント実施中のタイマが無い場合、ST307の処理でタイマBが満了していない場合およびST308の処理の後、監視処理部112は監視処理を終了する。
 なお、図6、図7、図8に示したフローチャートはこの実施の形態のタイムアウト制御部106の動作フローの一例であり、同等の処理結果が得られる限りにおいて、上述の説明と異なる手順で処理をするようにしてもよい。
 図6、図7、図8に示したフローチャートに従ってタイムアウト処理部106が処理を実行することにより、使用者がジェスチャ入力の入力操作をした後、音声入力の入力操作がなされなかった場合には、以下に示す動作になる。
 ジェスチャ入力の抽象化情報を受信すると、タイムアウト制御部106の入力検知部111のST205の処理の結果、監視処理部112はST302の処理によりタイマA、タイマBのカウントを開始する。その後、音声入力の操作がなされずタイムアウト制御部106が発話開始情報を受信しない場合、タイムアウト制御部106の監視処理部112はタイマAおよびタイマBを更新し続ける。この結果、タイマAが満了すると、ST306の処理によりタイムアウト制御部106の監視処理部112は第1のタイムアウト検出通知を動作処理部105へ出力する。
 ここで、タイマAのカウントが発話開始情報を受信した場合に停止される(ST215)ようにしているため、タイマAのカウントが満了するまでの時間が、使用者の音声入力の入力操作の開始からマルチモーダル入力装置が抽象化情報を取得するまでに必要な時間を考慮した長い時間になるようにタイマAのカウント満了値を設定する必要がなく、したがってより短い時間で第1のタイムアウト検出を行って使用者にガイダンス音声を行うことができる。
 上述のように、この実施の形態のマルチモーダル入力装置は、タイムアウト制御部106が、使用者の入力操作の開始からマルチモーダル入力装置がその入力操作の抽象化情報を取得するまでに必要な時間の長い入力方法である音声入力の入力操作の開始を示す発話開始情報を用いて、発話開始情報を受信したときに入力操作の未実施を監視するタイマAのカウントを停止するようにしたので、このタイマのカウントが満了するまでの時間を短縮することが可能である。
 これにより、ジェスチャ入力後に音声入力が行われないときに音声入力を実施するように使用者に警告するような場合、マルチモーダル入力装置はより短時間で未入力を判断して使用者に警告することができ、使用者の入力作業の効率を向上させることができる。
 さらに、音声情報抽象化部102が出力する入力操作の入力開始情報である発話開始情報を使用して、発話開始情報が入力された時点で入力操作の未実施を監視するタイマAを停止するので、マルチモーダル入力装置は使用者が音声入力を実施しているときに使用者に対して入力し忘れを警告することを防止することができ、利便性を向上することができる。
 また、この実施の形態のマルチモーダル入力装置は、入力の開始から抽象化情報の出力までに時間のかかる音声情報抽象化部102のみが入力開始情報として発話開始情報を動作処理部105へ出力するようにしているので、マルチモーダル入力装置における入力開始情報に関わる演算量を抑制することができる。
 なお、上述の実施の形態1では、使用者の入力操作の開始からその入力操作の抽象化情報が取得されるまでに必要な時間が他の方法に比べて長い入力方法について入力開始情報を受信したときに実施中のタイマAのカウントを停止し、その他の入力方法については抽象化情報を受信したときにタイマAのカウントを停止するようにしたが、その他の入力方法についても入力開始情報が得られるようにしている場合には、その他の入力方法についてもその入力開始情報に基づいてタイマAのカウントを停止して入力操作の未実施の監視を終了するようにしても同様の効果を得ることができる。
 また、その他の入力方法についても入力開始情報が得られるようにしている場合には、抽象化情報ではなく入力開始情報の受信に基づいていずれかの入力方法の入力操作が開始されていることを検知し、意味情報を取得することを予測してタイマAのカウントを開始するようにしてもよい。
 なお、この実施の形態1のように使用者の入力操作の開始からその入力操作の抽象化情報が取得されるまでに必要な時間が他の方法に比べて長い入力方法について入力開始情報に基づいた処理をするようにした場合には、前述のとおりマルチモーダル入力装置における入力開始情報に関わる演算量を抑制することができる。
 なお、上述の説明ではこの実施の形態のマルチモーダル入力装置が音声入力とジェスチャ入力を処理する場合を記載したが、この発明はこれらに限定されるものではなく、その他の入力方法を採用してもよい。また、入力方法は2種類に限定されるものではなく、3種類以上の入力方法を採用している場合にも同様の効果を得ることができる。
 なお、3種類以上の入力方法を採用する場合には他の入力方法に比べて抽象化情報が取得されるまでに必要な時間が同程度に長い入力方法が複数種類存在する場合も考えられる。そのような場合には、長時間を必要とする入力方法全ての入力操作の開始を検知してタイマAを停止することが考えられる。
 上述の説明では、タイムアウト制御部106は2種類の入力操作の抽象化情報が揃った場合に入力完了を判定しているが、必要に応じて一つの入力操作の抽象化情報を受信したときにも入力完了と判定するようにしてもよい。例えば危険度の低いスイッチを操作する場合は音声のみで入力完了とし、危険度の高いスイッチを操作する場合は音声とジェスチャの入力時に入力完了と判定することにより、安全性の程度に応じて必要な入力操作を区別することで利便性が向上することができる。
 また、音声情報抽象化部102から発話開始情報が入力される毎にタイマAを初期化してカウントを再度開始するようにすると、使用者が音声入力の操作をやり直した場合などでも適切にタイムアウトと入力完了を検出することが可能になる。
 また、音声情報抽象化部102が発話開始情報を出力した後、音声認識に失敗した場合や認識結果のテキストに対応する抽象化情報が見つからなかった場合に再発話情報を出力するようにして、タイムアウト制御部106は再発話情報が入力された場合にタイマを初期化して再度カウントを開始するようにしてもよい。なお、このとき初期化するタイマはタイマAのみでもタイマA、B両方でもよい。このように制御することで、音声入力が正常に行われなかった場合でも適切にタイムアウトと入力完了を検出することができる。
 なお、タイマAおよびタイマBのカウント満了値は固定値ではなく、入力状況に応じて異なる値にするようにしてもよい。例えば、ジェスチャの抽象化情報が先に入力された場合に図7のST205で設定する値と、音声の抽象化情報が先に入力された場合に図7のST211で設定する値は異なっていてもよい。具体的には、図5のST205では音声の未入力の監視するための音声入力開始から抽象化情報取得までの最大時間に対応した値とし、図7のST211ではジェスチャの入力開始から抽象化情報の出力までの最大時間に基づく値を設定する。これにより、各入力デバイスに適した入力の待ち合わせを行うことが可能になる。
実施の形態2.
 実施の形態1では、音声情報抽象化部102、ジェスチャ情報抽象化部104、動作処理部105およびタイムアウト制御部106を同一の装置に備える場合を説明したが、次にこれらの機能が分散配置された複数の装置で構成されるマルチモーダル入力装置について記載する。
 図9はこの発明の実施の形態2に係るマルチモーダル入力装置の構成を示すブロック図である。図9に示すようにこの実施の形態のマルチモーダル入力装置は端末装置201とサーバ装置202を備えている。
 図9において端末装置201が備える音声取得部101、音声情報抽象化部102b、ジェスチャ取得部103、ジェスチャ情報抽象化部104b、ガイダンス部107bは、図1に示した実施の形態1の音声取得部101、音声情報抽象化部102、ジェスチャ取得部103、ジェスチャ情報抽象化部104、ガイダンス部107に相当する。ただし、音声情報抽象化部102b、ジェスチャ情報抽象化部104b、ガイダンス部107bは、動作処理部105と接続されるのではなく、端末装置201の通信部203と接続されている。
 また、図9の動作処理部105b、タイムアウト制御部106は、図1の実施形態1の動作処理部105、タイムアウト制御部106に相当するが、この実施の形態の動作処理部105bはサーバ装置202の通信部204と接続される。
 そして、端末装置201の端末通信部203とサーバ装置202の通信部204は、通信回線等の通信路を介して接続される。
 次にこの実施の形態のマルチモーダル入力装置の動作を実施の形態1との差分を中心に説明する。端末装置201の音声取得部101、音声情報抽象化部102b、ジェスチャ取得部103、ジェスチャ情報抽象化部104bが行う処理は実施の形態1の対応する部分と同様である。ただし、音声情報抽象化部102bは発話開始情報と音声入力の抽象化情報を通信部203に出力し、ジェスチャ情報抽象化部104bはジェスチャ入力の抽象化情報を通信部203に出力する。そして、端末装置201の通信部203は、音声情報抽象化部102bもしくはジェスチャ情報抽象化部104bから入力された情報を、通信路を経由してサーバ装置202へ送信する。
 サーバ装置202の通信部204は、端末装置201から受信した発話開始情報、音声入力の抽象化情報、ジェスチャ入力の抽象化情報を動作処理部105bへ出力する。発話開始情報、音声入力の抽象化情報、ジェスチャ入力の抽象化情報を受信した動作処理部105bが行う処理および動作処理部105bの処理に対応したタイムアウト制御部106が行う処理は実施の形態1と同様である。ただし、実施の形態1においてガイダンス部107に出力されていたガイダンス音声出力の指示を、この実施の形態では動作処理部105bは通信部204に出力する。そして、ガイダンス音声を出力する指示を受信した通信部204は、この指示を端末装置201へ送信する。
 端末装置201の通信部203はサーバ装置202から受信したガイダンス音声を出力する指示をガイダンス部107bに出力する。そして、ガイダンス部107bはスピーカを介してガイダンス音声を使用者に向けて再生する。
 上述のようにこの実施の形態のマルチモーダル入力装置は、端末装置201が音声認識およびジェスチャ認識を行い、サーバ装置202が使用者の入力に対応した動作の判断と実施、およびタイムアウト検出を行うようにしたので、サーバ装置202が複数の端末装置201と通信を行い複数の使用者への指示を集中して管理できるため、複数の使用者が連携して作業を行う場合において端末装置201を介して各使用者に適切に指示を出すことができ作業効率を向上することができる。
 また、端末装置201とサーバ装置202に各機能を分散して配置したことにより端末装置201の演算量を削減することができる。
 なお、上述の実施の形態2の変形例として、図10に示すように音声情報抽象化部102c、ジェスチャ情報抽象化部104cをサーバ装置202cに備える構成とすることも可能である。
 この変形例のマルチモーダル入力装置では、端末装置201cの通信部203cは、音声取得部101cから音声データが入力されるとそのデータを通信部203cへ出力する。203cは、ジェスチャ取得部103cからジェスチャデータが入力されるとそのデータを通信部203cへ出力する。
 また、サーバ装置202cの通信部204cは、端末装置201cから受信した音声データを音声情報抽象化部102cへ出力し、また、端末装置201cから受信したジェスチャデータをジェスチャ情報抽象化部104cへ出力する。なお、その他の動作は図9に示したマルチモーダル入力装置と同様である。
 このようにした場合、サーバ装置202cが音声認識、ジェスチャ認識、実施する動作の判断と実施、およびタイムアウト検出を行うので、端末装置201cの演算量をさらに削減することができる。また、サーバ装置202cを処理能力の高いサーバハードウェアを用いて実現することにより豊富な演算能力を用いた高精度な音声認識およびジェスチャ認識が可能となり、高い認識精度に基づいて効率良く作業を実施することができる。
 また、実施の形態2のマルチモーダル入力装置の別の変形例として、図11に示すように音声情報抽象化部102dとジェスチャ情報抽象化部104dおよび通信部204dを備えたサーバ装置202dと、音声取得部101d、ジェスチャ取得部103d、通信部203d、動作処理部105d、タイムアウト制御部106、ガイダンス部107を備えた端末装置で構成することも可能である。この変形例では演算能力を必要とする音声認識とジェスチャ認識の処理をサーバ装置202dで行うことにより、端末装置201dの処理量を削減することができる。また、発話開始情報等の入力開始情報を音声取得部101d、ジェスチャ取得部103dから動作処理部105dに出力するようにしてもよい。
 また、上記の変形例に限らず別の機能分割により各機能を分散配置してもよい。
実施の形態3.
 上述の実施の形態1では、音声情報抽象化部102は発話を検出した場合に無条件で発話開始情報を動作処理部105へ出力するものであるが、次に規定された条件を満たした場合のみ音声情報抽象化部102が発話開始情報を動作処理部105へ出力する実施形態を示す。
 この実施の形態に係るマルチモーダル入力装置の構成は実施の形態1で説明した図1と同様である。
 次にこの実施の形態のマルチモーダル入力装置の動作を実施の形態1との差分を中心に説明する。この実施の形態のマルチモーダル入力装置の動作で実施の形態1と異なるのは、音声入力時の音声情報抽象化部102の動作である。
 この実施の形態の音声情報抽象化部102は、音声取得部101から音声データを受信し始めて使用者の発話開始を検出してから発話が行われている時間を測定し、発話開始からの時間が規定された時間(例えば0.5秒)よりも長い場合に発話開始情報を動作処理部105へ出力する。また、発話が行われている時間が規定の時間に達しないうちに発話が終了となった場合は、音声情報抽象化部102は発話開始情報を出力しないようにする。
 このように発話が行われている時間(すなわち入力操作が実施されている時間)が規定された時間以上でない場合に発話開始情報を出力しないようにすることで、抽象化情報を取得するために不十分な音声入力であった場合にタイムアウト制御部106が発話開始情報を受信しないようすることができ、より精度の高い動作をすることができる。
 なお、ここでは音声入力を例に説明したが、その他の入力方法について同様にしてもよい。
 また、実施の形態2で示したマルチモーダル入力装置においても同様にすることが可能である。この場合、端末装置とサーバ装置間の通信量を削減する効果がある。
実施の形態4.
 次に各入力方法の入力操作から入力操作の抽象化情報が取得されるまでに必要な時間を比較することにより、いずれの入力方法の抽象化情報が取得されるまでに必要な時間が長いかを動的に判定する実施形態を示す。
 この実施の形態に係るマルチモーダル入力装置の構成は実施の形態1で説明した図1と同様である。
 次にこの実施の形態のマルチモーダル入力装置の動作を実施の形態1との差分を中心に説明する。この実施の形態のマルチモーダル入力装置は、実施の形態1と異なり起動時に以下に示す処理を行う。
 装置の起動時にこの実施の形態のマルチモーダル入力装置の音声情報抽象化部102は、認識対象の音声入力の音声認識結果について発話開始を検出してから認識結果を取得し、抽象化情報を取得するまでの所要時間を推定し、推定したなかで最も長い所要時間を所要時間判定部である動作処理部105へ出力する。
 一方、ジェスチャ情報抽象化部104は認識対象のジェスチャ入力の認識結果についてジェスチャの開始を検出してから認識結果を取得し、抽象化情報を取得するまでの所要時間を推定し、推定したなかで最も長い時間を動作処理部105へ出力する。
 動作処理部105は、音声情報抽象化部102から入力された所要時間とジェスチャ情報抽象化部104から入力された所要時間を比較し、所要時間が長かった方に入力開始情報を出力するように指示する。なお、ここでは音声入力とジェスチャ入力を例に説明したが、その他の入力方法が用いられている場合も同様にすればよい。
 以上のように、この実施の形態のマルチモーダル入力装置は装置の起動時に入力操作に必要な時間が最も長い入力デバイスに対してのみ入力開始情報を出力するように制御することにより、マルチモーダル入力装置への入力方法が変更された場合にも容易に対応することができる。
 なお、装置の起動時のみではなく、動作中において入力機器の追加や削除等が行われたタイミングで上述の動作をして、入力開始情報を出力する抽象化情報を取得するブロックを選択しなおすようにしてもよい。
 この発明のマルチモーダル入力装置は、使用者が必要な入力操作をしなかった場合に、入力操作の未実施を判定するまでに要する時間を短縮することができるので、複数の異なる様式の入力方法を用いるシステムにおいて有用である。
 101,101c,101d 音声取得部、102,102b,102c,102d 音声情報抽象化部(入力情報認識部)、103,103c,103d ジェスチャ取得部、104,104b,104c,104d ジェスチャ情報抽象化部(入力情報認識部)、105,105b,105d 動作処理部、106 タイムアウト制御部、107,107b ガイダンス部、111 入力検知部、112 監視処理部、201,201c,201d マルチモーダル入力装置(端末装置)、202,202c,202d マルチモーダル入力装置(サーバ装置)、203,203c,203d 通信部(端末装置)、204,204c,204d 通信部(サーバ装置)。

Claims (10)

  1.  様式が異なる複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことを検知し、前記意味情報の取得が検知された入力方法以外の前記入力方法についてその入力操作が開始されたことを検知する入力検知部と、
     前記入力検知部の検知の結果に基づいて前記意味情報の取得が検知された入力方法以外の前記入力方法の入力操作の未実施の監視を行う監視処理部と、
     を備えることを特徴とするマルチモーダル入力装置。
  2.  前記監視処理部は、前記入力検知部の前記意味情報が取得されたことの検知に基づいて前記監視を開始し、前記入力検知部において前記意味情報の取得が検知された入力方法以外の前記入力方法についてその入力操作が開始されたことが検知されたときに前記監視を行っている場合、前記監視を終了することを特徴とする請求項1に記載のマルチモーダル入力装置。
  3.  前記入力検知部は、前記複数の入力方法のなかで入力操作の開始からその入力操作に対応する前記意味情報が取得されるまでに必要な時間が他の入力方法よりも長い入力方法についてその入力操作が開始されたことを検知し、
     前記監視処理部は、前記必要な時間が他よりも長い入力方法以外の前記入力方法についての前記入力検知部の前記意味情報が取得されたことの検知に基づいて開始した前記監視を、前記入力検知部の前記必要な時間が他よりも長い入力方法の入力操作が開始されたことの検知に基づいて終了することを特徴とする請求項2に記載のマルチモーダル入力装置。
  4.  前記入力方法による入力操作が実施されている時間が規定された時間よりも長い場合にその入力方法の入力操作が開始されたことを検知し、その入力方法の入力操作の開始を示す入力開始情報を生成する入力情報認識部を備えることを特徴とする請求項1から請求項3のいずれか一項に記載のマルチモーダル入力装置。
  5.  前記複数の入力方法のそれぞれについて、当該入力方法での入力操作の開始からその入力操作の前記意味情報が取得されるまでに必要な時間を取得して、前記複数の入力方法のうちいずれの入力方法が最も前記取得した必要な時間が長いかを判定する所要時間判定部を備えることを特徴とする請求項1から請求項4のいずれか一項に記載のマルチモーダル入力装置。
  6.  前記入力検知部は、前記複数の入力方法のそれぞれの入力操作が開始されたことを検知し、
     前記監視処理部は、前記入力検知部の前記入力操作の開始の検知に基づいて前記監視を開始することを特徴とする請求項1から請求項5のいずれか一項に記載のマルチモーダル入力装置。
  7.  複数の入力方法の入力操作の未実施の監視を行うサーバ装置が監視する前記入力操作を受け付ける端末装置であって、
     前記複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことを検知し、前記意味情報の取得が検知された入力方法以外の前記入力方法についてその入力操作が開始されたことを検知して、これらの検知の結果に基づいて前記意味情報の取得が検知された入力方法以外の前記入力方法の入力操作の未実施の監視を行う前記サーバ装置に対して、当該端末装置が対応する入力方法による入力操作を受け付けると、その対応する入力方法による入力操作が開始されたことを示す入力開始情報を出力することを特徴とする端末装置。
  8.  様式が異なる複数の入力方法で入力が行われるマルチモーダル入力装置のタイムアウト制御方法であって、
     前記複数の入力方法のそれぞれの入力操作の意味を示す意味情報が取得されたことを検知する意味情報取得検知ステップと、
     前記意味情報の取得が検知された入力方法以外の前記入力方法についてその入力操作が開始されたことを検知する入力操作検知ステップと、
     前記意味情報が取得されたことの検知および前記入力操作が開始されたことの検知に基づいて、前記意味情報の取得が検知された入力方法以外の前記入力方法の入力操作の未実施の監視を行う監視ステップと、
     を備えることを特徴とするマルチモーダル入力装置のタイムアウト制御方法。
  9.  前記監視ステップは、
     前記意味情報取得検知ステップで前記意味情報が取得されたがこと検知されたときに前記監視を開始する監視開始ステップと、
     前記入力操作検知ステップで前記入力操作が開始されたことが検知されたときに前記監視を終了する監視終了ステップと、
     を備えることを特徴とする請求項8に記載のマルチモーダル入力装置のタイムアウト制御方法。
  10.  前記入力操作検知ステップは、前記複数の入力方法のうち入力操作の開始からその入力操作に対応する前記意味情報が取得されるまでに必要な時間が他の入力方法よりも長い入力方法についてその入力操作が開始されたことを検知し、
     前記監視終了ステップは、前記必要な時間が他よりも長い入力方法以外の前記入力方法の前記意味情報の取得の検知に基づいて開始された前記監視が行われている場合、前記入力操作検知ステップで前記必要な時間が他よりも長い入力方法の入力操作の開始が検知されたときにこの監視を終了することを特徴とする請求項9に記載のマルチモーダル入力装置のタイムアウト制御方法。
PCT/JP2014/000686 2014-02-10 2014-02-10 マルチモーダル入力装置、端末装置およびマルチモーダル入力装置のタイムアウト制御方法 WO2015118578A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/000686 WO2015118578A1 (ja) 2014-02-10 2014-02-10 マルチモーダル入力装置、端末装置およびマルチモーダル入力装置のタイムアウト制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/000686 WO2015118578A1 (ja) 2014-02-10 2014-02-10 マルチモーダル入力装置、端末装置およびマルチモーダル入力装置のタイムアウト制御方法

Publications (1)

Publication Number Publication Date
WO2015118578A1 true WO2015118578A1 (ja) 2015-08-13

Family

ID=53777421

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/000686 WO2015118578A1 (ja) 2014-02-10 2014-02-10 マルチモーダル入力装置、端末装置およびマルチモーダル入力装置のタイムアウト制御方法

Country Status (1)

Country Link
WO (1) WO2015118578A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0836480A (ja) * 1994-07-22 1996-02-06 Hitachi Ltd 情報処理装置
WO2008149482A1 (ja) * 2007-06-05 2008-12-11 Mitsubishi Electric Corporation 車両用操作装置
JP2011081541A (ja) * 2009-10-06 2011-04-21 Canon Inc 入力装置及びその制御方法
JP2013064777A (ja) * 2011-09-15 2013-04-11 Ntt Docomo Inc 端末装置、音声認識プログラム、音声認識方法および音声認識システム
JP2013257694A (ja) * 2012-06-12 2013-12-26 Kyocera Corp 装置、方法、及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0836480A (ja) * 1994-07-22 1996-02-06 Hitachi Ltd 情報処理装置
WO2008149482A1 (ja) * 2007-06-05 2008-12-11 Mitsubishi Electric Corporation 車両用操作装置
JP2011081541A (ja) * 2009-10-06 2011-04-21 Canon Inc 入力装置及びその制御方法
JP2013064777A (ja) * 2011-09-15 2013-04-11 Ntt Docomo Inc 端末装置、音声認識プログラム、音声認識方法および音声認識システム
JP2013257694A (ja) * 2012-06-12 2013-12-26 Kyocera Corp 装置、方法、及びプログラム

Similar Documents

Publication Publication Date Title
WO2016098228A1 (ja) 音声認識装置および音声認識方法
US9824685B2 (en) Handsfree device with continuous keyword recognition
JP2011022600A (ja) 音声認識システムの動作方法
JP2011229159A (ja) 撮像制御装置及び撮像装置の制御方法
RU2015137291A (ru) Способ и устройство для управления интеллектуальным жилищным устройством
JP2017083713A (ja) 対話装置、対話機器、対話装置の制御方法、制御プログラム、および記録媒体
JP6827536B2 (ja) 音声認識装置および音声認識方法
WO2015118578A1 (ja) マルチモーダル入力装置、端末装置およびマルチモーダル入力装置のタイムアウト制御方法
JP2020160431A (ja) 音声認識装置、音声認識方法及びそのプログラム
JP7133969B2 (ja) 音声入力装置、及び遠隔対話システム
JP6673243B2 (ja) 音声認識装置
JP2011039222A (ja) 音声認識システム、音声認識方法および音声認識プログラム
US10210886B2 (en) Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus
JP6748565B2 (ja) 音声対話システム及び音声対話方法
JP7449070B2 (ja) 音声入力装置、音声入力方法及びそのプログラム
JP4451166B2 (ja) 音声対話システム
US11322145B2 (en) Voice processing device, meeting system, and voice processing method for preventing unintentional execution of command
JP7404568B1 (ja) プログラム、情報処理装置、及び情報処理方法
US11308966B2 (en) Speech input device, speech input method, and recording medium
KR102208496B1 (ko) 연속 음성 명령에 기반하여 서비스를 제공하는 인공지능 음성단말장치 및 음성서비스시스템
JP6633139B2 (ja) 情報処理装置、プログラム及び情報処理方法
JPWO2018207483A1 (ja) 情報処理装置、電子機器、制御方法、および制御プログラム
JP2021076914A (ja) 制御装置、電子機器、制御装置の制御方法および制御プログラム
WO2021044569A1 (ja) 音声認識補助装置および音声認識補助方法
JP5229014B2 (ja) 通信制御装置、通信制御システム、通信制御方法、及び通信制御装置のプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14881672

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

NENP Non-entry into the national phase

Ref country code: JP

122 Ep: pct application non-entry in european phase

Ref document number: 14881672

Country of ref document: EP

Kind code of ref document: A1