WO2014188512A1 - 音声認識装置、認識結果表示装置および表示方法 - Google Patents

音声認識装置、認識結果表示装置および表示方法 Download PDF

Info

Publication number
WO2014188512A1
WO2014188512A1 PCT/JP2013/064072 JP2013064072W WO2014188512A1 WO 2014188512 A1 WO2014188512 A1 WO 2014188512A1 JP 2013064072 W JP2013064072 W JP 2013064072W WO 2014188512 A1 WO2014188512 A1 WO 2014188512A1
Authority
WO
WIPO (PCT)
Prior art keywords
operation button
display
unit
user
stop
Prior art date
Application number
PCT/JP2013/064072
Other languages
English (en)
French (fr)
Inventor
友紀 古本
裕生 山下
井上 譲
政信 大沢
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to DE112013007103.7T priority Critical patent/DE112013007103T5/de
Priority to JP2015515343A priority patent/JP5762660B2/ja
Priority to US14/777,180 priority patent/US9767799B2/en
Priority to CN201380076789.2A priority patent/CN105246743B/zh
Priority to PCT/JP2013/064072 priority patent/WO2014188512A1/ja
Publication of WO2014188512A1 publication Critical patent/WO2014188512A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present invention relates to a speech recognition device that recognizes speech uttered by a user and displays a recognition result, a recognition result display device that displays a recognition result that has been speech-recognized, and a display method that displays the recognition result on a display device. It is.
  • Patent Document 1 discloses a voice recognition device that recognizes voice spoken by a user and displays the recognition result.
  • a shortcut button that is the voice recognition result is displayed near the lower left of the display screen. It is described that the shortcut function is executed when the user presses the shortcut button.
  • This invention is made in order to solve the above problems, and when the user is going to select the recognition result displayed on the screen, the recognition result is not updated and the desired result can be obtained. It is an object of the present invention to provide a speech recognition device capable of selecting a recognition result, a recognition result display device, and a display method for displaying the recognition result on a display device.
  • the present invention provides a voice recognition device that recognizes a voice uttered by a user and displays a recognition result, and detects and acquires a voice uttered by the user; While the voice recognition device is activated, the voice recognition unit that always refers to the voice recognition dictionary, recognizes the voice data acquired by the voice acquisition unit, and outputs a recognition result; and outputs by the voice recognition unit An operation button generation unit that generates an operation button having a function corresponding to the recognized result, a display unit that displays the operation button generated by the operation button generation unit, and display contents of the operation button on the display unit.
  • An operation button display update stop / restart unit that outputs an instruction signal instructing to stop and restart update of the display content of the operation button, and the operation button display update stop / restart unit is an operation displayed on the display unit.
  • an instruction signal for instructing to stop updating the display content of the operation button is output, and the display control unit receives the operation button display update stop / restart unit from the operation button display
  • the display unit is instructed to stop display update of the operation button displayed on the display unit.
  • the display result of the recognition result on the display unit is not updated so that the user can recognize the recognition result.
  • the recognition result does not disappear or change to another recognition result at the moment of selecting the user, so that it is possible to prevent an undesired operation by the user and to improve the convenience for the user. .
  • FIG. 1 is a block diagram illustrating an example of a voice recognition device according to Embodiment 1.
  • FIG. It is a figure which shows the example of a screen in which the operation button was displayed on the operation button display area of the display part. It is a figure which shows the display update method of an operation button when only one operation button can be displayed in an operation button display area. It is a figure which shows the display update method of an operation button in case two operation buttons can be displayed on an operation button display area. It is a flowchart which shows the production
  • FIG. 10 is a flowchart showing a process for erasing an already displayed operation button even when an operation button is not generated.
  • FIG. It is a flowchart which shows the process which the operation button display update stop / restart part outputs the instruction
  • 6 is a block diagram illustrating an example of a speech recognition apparatus in Embodiment 2.
  • FIG. It is a flowchart which shows the process which the operation button display update stop / restart part outputs the instruction
  • FIG. 10 is a diagram showing an outline of a navigation system in a third embodiment.
  • the present invention is a speech recognition device that recognizes speech uttered by a user, and recognizes speech whenever the speech recognition device is activated.
  • a case where the voice recognition device of the present invention is applied to a navigation device mounted on a moving body such as a vehicle will be described as an example.
  • Navigation for a moving body other than a vehicle will be described. It may be a device or may be applied to a server of a navigation system.
  • FIG. 1 is a block diagram showing an example of a speech recognition apparatus according to Embodiment 1 of the present invention.
  • This voice recognition apparatus includes a control unit 1, a microphone 2, a voice acquisition unit 3, a voice recognition dictionary 4, a voice recognition unit 5, an operation button generation unit 6, a display control unit 7, a display unit 8, and operation button display update stop / restart.
  • Unit 9 instruction input unit 10, camera 11, line-of-sight detection unit 12, and posture detection unit 13.
  • the microphone 2 acquires (sound collection) the voice uttered by the user.
  • the microphone 2 includes, for example, an omnidirectional (or omnidirectional) microphone, an array mic in which a plurality of omnidirectional (or omnidirectional) microphones are arranged in an array, and the directional characteristics can be adjusted.
  • an omnidirectional (or omnidirectional) microphone an array mic in which a plurality of omnidirectional (or omnidirectional) microphones are arranged in an array, and the directional characteristics can be adjusted.
  • the voice acquisition unit 3 takes in a user utterance acquired by the microphone 2, that is, an input voice, and converts the input voice into, for example, A / D (Analog / Digital) by, for example, PCM (Pulse Code Modulation).
  • a / D Analog / Digital
  • PCM Pulse Code Modulation
  • the voice recognition unit 5 detects a voice section corresponding to the content spoken by the user from the voice signal digitized by the voice acquisition unit 3, extracts a feature quantity of voice data in the voice section, and uses the feature quantity as the feature quantity. Based on this, a recognition process is performed using the speech recognition dictionary 4, and a recognition result is output.
  • the recognition process may be performed using a general method such as an HMM (Hidden Markov Model) method.
  • a button for instructing the start of voice recognition (hereinafter referred to as a “voice recognition start instruction unit”) is displayed on the touch panel or installed on the handle. Then, the voice uttered after the user presses the voice recognition start instruction unit is recognized. That is, the voice recognition start instruction unit outputs a voice recognition start signal, and when the voice recognition unit receives the signal, it corresponds to the content uttered by the user from the voice data acquired by the voice acquisition unit after receiving the signal.
  • the speech section to be detected is detected, and the above-described recognition process is performed.
  • the voice recognition unit 5 in the first embodiment always recognizes the content spoken by the user even if the user does not give a voice recognition start instruction as described above. That is, even if the voice recognition unit 5 does not receive the voice recognition start signal, the voice recognition unit 5 always uses the voice data acquired by the voice acquisition unit 3 from the voice data acquired by the voice acquisition unit 3 when the navigation device incorporating the voice recognition device is activated. Detects a speech section corresponding to the content uttered, extracts a feature amount of speech data in the speech section, performs recognition processing using the speech recognition dictionary 4 based on the feature amount, and outputs a speech recognition result Repeat the process. The same applies to the following embodiments.
  • the instruction input unit 10 inputs a user's manual instruction, that is, receives an instruction of various operations by the user.
  • the instruction is an instruction from a hardware switch provided in the navigation device, a touch switch (including an operation button described later) set and displayed on the display unit 8, a remote controller installed on a handle or the like, or a separate remote controller And a recognition device that recognizes
  • the operation button generation unit 6 generates an operation button having a function corresponding to the recognition result output by the voice recognition unit 5.
  • the display control unit 7 performs an instruction output such as displaying the operation button generated by the operation button generating unit 6 on the display unit 8, changing the display position of the operation button, deleting the operation button displayed for a predetermined time, and the like. While controlling the display update of the operation button, it is determined whether the display update of the operation button on the display unit 8 is stopped. Also, information related to the operation buttons displayed on the display unit 8, such as operation button names and display positions of the operation buttons on the display unit 8, are managed.
  • the display unit 8 is a display-integrated touch panel, and includes, for example, an LCD (Liquid Crystal Display) and a touch sensor, and draws on the screen based on instructions from the display control unit 7. Note that any one of a pressure-sensitive method, an electromagnetic induction method, a capacitance method, or a combination of these may be used for the touch panel. An organic EL display may be used instead of the LCD.
  • Control unit 1 controls the operation of the entire speech recognition apparatus. Further, various functions are executed based on an instruction from the user input from the instruction input unit 10 and a recognition result output from the voice recognition unit 5. For example, when an operation button (recognition result) displayed on the display unit 8 is selected manually or by voice, a function assigned to the selected operation button is executed.
  • the voice recognition unit 5 always recognizes the genre name to which the facility belongs (hereinafter, “facility genre name”) such as “gas station” and “convenience store” from the user utterance and outputs the recognition result.
  • the operation button generation unit 6 generates an operation button having a function of searching for facilities belonging to the genre of the recognition result (hereinafter referred to as “genre search function”).
  • the operation buttons are displayed in a predetermined area (hereinafter referred to as “operation button display area”) of the display unit 8 by the display control unit 7 as, for example, the operation buttons 61 and 62 in FIG.
  • FIG. 2 is a diagram illustrating a screen example in which operation buttons 61 and 62 are displayed in the operation button display area 60 of the display screen (display unit 8) on which a map or the like is displayed.
  • the control unit 1 executes a genre search corresponding to the selected operation button.
  • the voice recognition unit 5 recognizes the facility genre name by keyword spotting, which is a well-known technique.
  • the voice recognition unit 5 may recognize, for example, an artist name, album name, song title name, a command for operating the car navigation system, and the like.
  • the function assigned to the operation button may be, for example, a function for searching for a song by an artist name, an album name, or a song title name, or a function corresponding to a command.
  • FIG. 3 is a diagram showing a method of updating the operation button display when the operation button display area 60 is small and only one operation button can be displayed therein.
  • FIG. 3A shows a state in which no operation button is displayed in the operation button display area 60.
  • an utterance “I want to go to a convenience store” is recognized, and an operation button corresponding to “Convenience store” is displayed.
  • the display control unit 7 outputs an instruction to the display unit 8 to display the operation button 61 (FIG. 3B).
  • the display control unit 7 deletes the “Convenience Store” operation button 61 displayed earlier. After that, an instruction is output to the display unit 8 to display the “bank” operation button 62 (FIG. 3C). In addition, even if a new operation button is not generated, an instruction is output to delete an operation button that has passed a predetermined time from the start of display without any operation on the displayed operation button.
  • FIG. 4 is a diagram illustrating a method of updating the operation button display when two operation buttons can be displayed in the operation button display area 60.
  • the control unit 7 outputs an instruction to the display unit 8 to display the operation button 61 (FIG. 4B).
  • FIG. 4E shows that when a predetermined time has passed without displaying the “bank” operation button 62 and the “bank” operation button 62 is displayed, the “bank” operation button 62 is deleted.
  • the “car park” operation button 63 has moved to the place where the “bank” operation button 62 was displayed.
  • the display update method described above is an example, and other display update methods may be used.
  • the first operation button is displayed at a lower position in the operation button display area 60. May be displayed.
  • FIG. 4 until the number of operation buttons that can be displayed is exceeded, that is, when the second operation button is displayed after the first operation button is displayed, FIG. As shown in the figure, the second operation button 62 is additionally displayed on the top while the position of the first operation button 61 remains unchanged, but the newly displayed operation button is always displayed below. You may make it do. In this case, when moving from FIG. 4B to FIG. 4C, the first “convenience store” operation button 61 is moved upward, and the second “bank” operation button 62 is newly added. Is displayed below.
  • a method for determining whether or not there is no operation on the displayed operation button, that is, whether or not the user is pressing the operation button will be described. This determination is made by the operation button display update stop / restart unit 9.
  • Various methods for determining whether or not the user is about to press the operation button can be considered.
  • a method for detecting and determining the user's line of sight using the line-of-sight detection unit 12, an attitude detection unit 13 is used to detect and determine a predetermined posture of the user, and one is determined based on a predetermined operation performed by the user using the instruction input unit 10.
  • the line-of-sight detection unit 12 analyzes the image acquired by the camera 11 and detects the line of sight of the user directed to the display unit 8.
  • the line-of-sight detection unit 12 may detect a line of sight directed to a specific region of the display unit 8, for example, the operation button display region 60 of the screen examples shown in FIGS. Note that the method for detecting the line of sight is omitted here because a known technique may be used.
  • the posture detection unit 13 analyzes the image acquired by the camera 11 and detects a predetermined posture of the user who is trying to press the operation button displayed on the display unit 8.
  • the predetermined posture in which the operation button is to be pressed includes, for example, a user's body in which the user's arm is facing the display unit 8 and the user's upper body is facing the display unit 8. It includes postures such as leaning forward. Note that a known technique may be used for the method of detecting the posture, and thus the description thereof is omitted here.
  • the operation button display update stop / resume unit 9 presses the operation button when a predetermined condition is satisfied, that is, based on the detection results by the line-of-sight detection unit 12, the posture detection unit 13, and the instruction input unit 10.
  • a predetermined condition that is, based on the detection results by the line-of-sight detection unit 12, the posture detection unit 13, and the instruction input unit 10.
  • the operation button display update stop / restart unit 9 outputs an instruction signal for instructing the display control unit 7 to stop updating the display contents of the operation buttons.
  • a case where a predetermined operation is performed by the instruction input unit 10 is, for example, a case where a predetermined button or steering switch (such as a display stop button or switch) of the remote controller is pressed, or the touch sensor is operated by the user's finger. Or a proximity sensor such as a capacitance method, for example, when a user's finger or other object approaches a touch sensor to a distance equal to or less than a predetermined value. is there.
  • the operation button display update stop / resume unit 9 acquires object approach information from the touch sensor, and an object such as a user's finger and the touch sensor (proximity sensor) ), And when the calculated distance is equal to or smaller than a predetermined value (or smaller than the predetermined value), an instruction output for stopping the display update may be performed.
  • the position information of the approaching object on the touch panel is acquired from the touch sensor, and the position is within the operation button display area 60 of FIG. 2, for example, and the distance between the object and the touch panel is equal to or less than a predetermined value ( Alternatively, when it is smaller than the predetermined value, an instruction output for stopping the display update may be performed.
  • the information from the touch sensor is used to detect the approach of the object.
  • a configuration including an infrared sensor may be used, and the distance from the display unit 8 to the object may be calculated using the sensor.
  • the operation button display update stop / resume unit 9 instructs the display control unit 7 to operate the operation button when the predetermined condition is not satisfied (that is, when it is determined that the user does not press the operation button). The instruction output to resume the display update is performed.
  • the predetermined condition is not satisfied.
  • the posture detection unit 13 tries to press the operation button.
  • the instruction input unit 10 performs a predetermined operation, for example, pressing a predetermined button or steering switch (such as a display restart button or switch) on the remote controller, This is a case where the distance between an object such as a finger and the touch panel is larger than a predetermined value (or more than a predetermined value).
  • the operation button display update stop / resume unit 9 operates the operation button on the display control unit 7 when the predetermined condition is not satisfied (when it is determined that the user does not press the operation button).
  • the instruction output to resume the display update is performed.
  • the display is performed when a predetermined time elapses. An instruction output for restarting the update may be performed. Further, the predetermined time may be changed in accordance with the traveling state of the mobile body on which the voice recognition device is mounted, for example, the traveling speed, the road on which the vehicle is traveling, and the like.
  • the user needs to concentrate on driving, so it may be impossible to operate the operation buttons, and the predetermined time is lengthened.
  • the traveling speed of the moving body is slow or the road conditions are good, the user thinks that the user is relatively easy to operate the operation buttons, and shortens the predetermined time.
  • FIG. 5 is a flowchart showing processing for generating and displaying an operation button when only one operation button can be displayed in the operation button display area, for example, as shown in FIG.
  • the voice acquisition unit 3 takes in a user utterance collected by the microphone 2, that is, an input voice, and performs A / D conversion using, for example, PCM (step ST01).
  • the voice recognition unit 5 detects a voice section corresponding to the content spoken by the user from the voice signal digitized by the voice acquisition unit 3, extracts a feature amount of the voice data of the voice section, Based on the feature quantity, the speech recognition dictionary 4 is referred to perform a recognition process, and a recognition result is output (step ST02).
  • generation part 6 produces
  • the display control unit 7 determines whether there is an operation button already displayed on the display unit 8 (step ST04).
  • step ST05 If there is an operation button already displayed (in the case of YES in step ST04), it is determined whether or not the display update of the operation button is stopped (step ST05). If the display update is not stopped (NO in step ST05), the already displayed operation button is deleted, and an instruction output for displaying the operation button generated by the operation button generation unit 6 in step ST03 is displayed on the display unit. 8 (step ST06).
  • step ST05 when the display update is stopped (YES in step ST05), the process returns to step ST01 without displaying the generated operation button. If there is no operation button displayed in step ST04 (NO in step ST04), an instruction output for displaying the operation button generated by the operation button generation unit 6 in step ST03 is output to the display unit 8. (Step ST07).
  • FIG. 6 is a flowchart showing processing for generating and displaying operation buttons when a plurality of operation buttons (two in the case of FIG. 4) can be displayed in the operation button display area 60, for example, as shown in FIG. .
  • steps ST11 to ST13 is the same as steps ST01 to ST03 in the flowchart shown in FIG.
  • the display control unit 7 determines the number of operation buttons already displayed in the operation button display area 60 of the display unit 8 (step ST14).
  • step ST15 When a predetermined number of operation buttons (the maximum number that can be displayed in the operation button display area 60) is already displayed (in the case of YES in step ST15, for example, in the case of FIG. 4C), the operation button display is updated. It is determined whether or not the vehicle is stopped (step ST16).
  • step ST16 When the display update is not stopped (NO in step ST16), among the operation buttons displayed in the operation button display area 60, the first operation button displayed first (the operation in the case of FIG. 4C). Button 61) is deleted, and the locations of the remaining operation buttons (operation buttons 62 in the case of FIG. 4C) are moved one by one (FIG. 4D), and are generated by the operation button generator 6 in step ST13. An instruction output for displaying the operated button (the operation button 63 in the case of FIG. 4D) is given to the display unit 8 (step ST17).
  • step ST16 if the display update is stopped (YES in step ST16), the process returns to step ST11 without displaying the generated operation button.
  • step ST15 when the number of displayed operation buttons is smaller than the predetermined number (the maximum number that can be displayed in the operation button display area 60) (in the case of NO in step ST15, for example, in the case of FIG. 4B), The operation button generated by the operation button generation unit 6 (the operation button 62 in FIG. 4C) is displayed regardless of the instruction signal for stopping the update of the operation button display content by the operation button display update stop / restart unit 9. The instruction output is performed on the display unit 8 (step ST18).
  • step ST04 and steps ST14 to ST15 may not be performed. That is, the display control unit 7 may return to the processing of step ST01 and step ST11 when the display update is stopped regardless of the presence or absence and the number of operation buttons being displayed.
  • FIG. 7 is a flowchart showing a process for deleting an already displayed operation button even when no operation button is generated.
  • the display control unit 7 determines whether there is an operation button for which a predetermined time has elapsed from the start of display for the operation button displayed in the operation button display area 60 of the display unit 8 (step ST21). If there is no operation button for which a predetermined time has elapsed after the display (NO in step ST21), the process returns to step ST21.
  • step ST21 when there is an operation button for which a predetermined time has elapsed (in the case of YES in step ST21), it is determined whether or not the display update of the operation button is stopped (step ST22). When the display update is stopped (YES in step ST22), the process returns to step ST21. When the display update is not stopped (in the case of NO in step ST22), an instruction output for erasing the operation button for which a predetermined time has elapsed from the start of display from the display unit 8 is performed (step ST23), and the process returns to step ST21.
  • FIG. 8 is a flowchart showing processing in which the operation button display update stop / restart unit 9 outputs an instruction to stop / restart display of operation buttons.
  • the operation button display update stop / resume unit 9 acquires various types of information from the line-of-sight detection unit 12, the posture detection unit 13, and the instruction input unit 10 (step ST31).
  • the various types of information include line-of-sight information from the line-of-sight detection unit 12, posture information from the posture detection unit 13, operation information from the instruction input unit 10, object approach / contact information on the touch panel, and display update. It is at least one or more of the times that are stopped.
  • step ST32 When the acquired information satisfies the above-described predetermined condition (display update stop condition) (in the case of YES in step ST32), a display update stop instruction is output to the display control unit 7 (step ST33). On the other hand, when the predetermined condition (display update stop condition) is no longer satisfied (NO in step ST32), an instruction to resume display update is output (step ST34).
  • the speech recognition unit 5 performs recognition processing and outputs “convenience store” as a recognition result (steps ST01 to ST02 in FIG. 5).
  • the operation button generation unit 6 generates an operation button 61 called “convenience store” having a function corresponding to the recognition result “convenience store”, that is, a function of searching for facilities belonging to the facility genre “convenience store” (step ST03).
  • the display control unit 7 instructs the display unit 8 to display the operation button 61.
  • An instruction is output (step ST07).
  • the operation button 61 is displayed as shown in FIG.
  • the operation button generation unit 6 has a function corresponding to the recognition result “bank”, that is, a function of searching for a facility belonging to the facility genre “bank”.
  • An operation button 62 “bank” is generated (steps ST01 to ST03).
  • the operation button 61 “Convenience Store” is already displayed in the operation button display area 60 of the display unit 8 (in the case of YES in Step ST04), for example, the user A has the operation button “Convenience Store”. If the user is pressing 61 and the finger approaches the display unit 8, the operation button display update stop / restart unit 9 outputs a display update stop instruction to the display control unit 7, and the display update is performed. Stopped. As a result, since it is determined that the display update of the operation button is stopped (in the case of YES in step ST05), the operation button 62 “bank” is not displayed on the display unit 8.
  • the operation button display update stop / resume unit 9 performs display control.
  • the display update stop instruction is not output to the unit 7.
  • the display control unit 7 deletes the operation button 61 “convenience store” and operates the operation button “bank”.
  • An instruction is output to the display unit 8 to display 62 (step ST06, FIG. 3C).
  • an operation when a plurality of operation buttons, for example, two operation buttons can be displayed in the operation button display area 60, for example, as shown in FIG. 4 will be described. That is, the maximum number (predetermined number) of operation buttons that can be displayed in the operation button display area 60 in this case is two.
  • FIG. 4B a case where only one operation button 61 “Convenience Store” is already displayed will be described as an example.
  • an operation button 62 “bank” is generated (steps ST11 to ST13 in FIG. 6).
  • the operation button display update stop / restart unit 9 instructs the display control unit 7.
  • a display update stop instruction is output.
  • the operation “bank” is performed regardless of whether or not the display update is stopped.
  • An instruction signal for displaying the button 62 is output (step ST18). As a result, an operation button 62 “bank” is displayed as shown in FIG.
  • the operation button display update stop / resume unit 9 displays the display control unit 9.
  • a display update stop instruction is output to 7.
  • an operation button 63 “parking lot” is generated (steps ST11 to ST13).
  • step ST16 the determination of whether or not the display update is stopped in this case.
  • the process until the operation button 63 “parking lot” is generated is the same as that described above (steps ST11 to ST13).
  • step ST15 and NO in step ST16 display control is performed.
  • the unit 7 deletes the first operation button 61 among the operation buttons 61 and 62 being displayed, moves the remaining operation buttons 62, and outputs an instruction to display the operation buttons 63 generated in step ST13. (Step ST17). As a result, as shown in FIG. 4D, an operation button 63 “parking lot” is displayed.
  • the user wants to search for a convenience store, and at the moment when the user tries to press the operation button 61 “convenience store”, the operation button “convenience store” is uttered by another user's utterance. It can be prevented that 61 changes to the “bank” operation button 62 and the unintended operation button 62 is pressed, that is, the function of searching for an undesired “bank” is executed.
  • the display of the operation button is updated. Since the operation button generated by the newly recognized voice is not displayed while the display update is stopped, at the timing when the user tries to select the desired operation button, Since the position is not changed, changed to another operation button, or disappears, it is possible to prevent the user from selecting an operation button that the user does not want to cause a malfunction, thereby improving user convenience. .
  • FIG. FIG. 9 is a block diagram showing an example of a speech recognition apparatus according to Embodiment 2 of the present invention.
  • symbol is attached
  • the display update stop expression storage unit 14 and the display update restart expression storage unit 15 are provided, and the operation button display update stop / restart unit 9 includes the voice recognition unit 5. The difference is that display update is stopped / restarted by voice recognition.
  • the voice recognition unit 5 further recognizes words that mean stop / restart of operation button display update, such as “stop”, “stop”, “update stop”, “restart”, and “update restart”. Output the recognition result.
  • the display update stop expression storage unit 14 stores words such as “stop”, “stop”, “update stop”, and the like that mean display update stop of the operation buttons.
  • the display update restart expression storage unit 15 stores words indicating restart of the operation button display update such as “restart” and “update restart”.
  • the operation button display update stop / restart unit 9 refers to the display update stop expression storage unit 14 and the display update restart expression storage unit 15, and the recognition result output by the speech recognition unit 5 is the display update stop expression storage unit 14. It is determined whether or not it represents a display update stop stored in. When it is determined that the recognition result output by the voice recognition unit 5 exists in the display update stop expression storage unit 14, an instruction signal for stopping the display update of the operation button is output to the display control unit 7, and the display is performed. When it is determined that the display restart restart is stored in the update restart expression storage unit 15, an instruction signal for restarting the display update of the operation button is output to the display control unit 7.
  • FIG. 10 is a flowchart illustrating processing in which the operation button display update stop / restart unit 9 outputs an instruction to stop / restart display of operation buttons by voice recognition.
  • the operation button display update stop / resume unit 9 acquires the recognition result output by the voice recognition unit 5 (step ST41).
  • the operation button display update stop / restart determination unit 9 determines whether or not the recognition result exists in the display update stop expression storage unit 14 (step ST42). If it exists (in the case of YES in step ST42), a display update stop instruction is output to the display control unit 7 (step ST43).
  • Step ST44 it is determined whether or not the recognition result exists in the display update restart expression storage unit 15. If it exists (in the case of YES in step ST44), the display control unit 7 is instructed to resume display update (step ST46). If the recognition result acquired in step ST41 does not exist in the display update restart expression storage unit 15 (NO in step ST44), the process ends.
  • the condition for the operation button display update stop / restart unit 9 to instruct the operation button display update stop / restart is not based on the user's line of sight, posture, or operation input.
  • the condition for the operation button display update stop / restart unit 9 to instruct the operation button display update stop / restart is not based on the user's line of sight, posture, or operation input.
  • other operation processes and screen transition examples are the same as those in the first embodiment, and thus illustration and description thereof are omitted.
  • the display update of the operation button is stopped. Since the button generated by the generated voice is not displayed, the position of the operation button is changed, changed to another operation button, or disappeared when the user tries to select the desired operation button. Therefore, it is possible to prevent an erroneous operation by selecting an operation button that the user does not desire, and the convenience for the user is improved.
  • the display control unit 7 when the display control unit 7 receives a display update stop instruction signal from the operation button display update stop / restart unit 9, it is already displayed on the display unit 8.
  • an instruction signal for changing the display mode of the operation button is received and an instruction signal for restarting display update is received from the operation button display update stop / restart unit 9, an instruction output for returning the changed operation button is output.
  • the display mode is, for example, the size, color, character font, etc. of the operation buttons.
  • the display control unit 7 receives a display update stop instruction signal from the operation button display update stop / restart unit 9, the size, color,
  • an instruction is output to change at least one of the fonts of characters and an instruction signal for restarting display update is received from the operation button display update stop / restart unit 9, an instruction output for returning the changed operation button to the original state is output. You may do that. Accordingly, the user can visually determine whether or not the display update of the operation button is stopped. Moreover, it becomes easy to select by making an operation button conspicuous.
  • an operation button display history storage unit (not shown) for storing the display history of the operation buttons displayed on the display unit 8 may be further provided.
  • the display control unit 7 stores information on the operation button in the operation button display history storage unit every time the operation button is deleted from the display unit 8 by display update.
  • the operation buttons displayed in the past are erased based on the information stored in the operation button display history storage unit. Control to display in order.
  • FIG. 4A when the user speaks “I want to go to a convenience store” or “I don't need a bank”, as shown in FIG. 4C, “Convenience store” “Bank”
  • the operation buttons 61 and 62 are displayed.
  • the maximum number of operation buttons to be displayed is “2”
  • the user next speaks, “Is there a parking lot nearby?” The oldest first operation button is displayed.
  • the “convenience store” operation button 61 is deleted, and the “parking lot” operation button 63 is displayed (FIG. 4D).
  • the display control unit 7 stores information on the operation button 61 of the deleted “convenience store” in the operation button display history storage unit.
  • the display control unit 7 moves the operation button being displayed based on, for example, a signal from the touch sensor, and also displays the operation button display history.
  • an instruction is output to the display unit 8 to display the operation button 61 of the “convenience store” displayed in the past.
  • FIG. 11 is a diagram showing a screen example when the operation buttons deleted from the operation button display area 60 are displayed by scrolling.
  • the maximum number of operation buttons that can be displayed in the operation button display area 60 is “3”.
  • FIG. 11A shows that after the “Convenience Store” operation button 61, the “Bank” operation button 62, and the “Super” operation button 63 are displayed, the “Parking” operation button 64 is further displayed. This shows a state where the operation button 61 of the “convenience store” displayed first is deleted.
  • the display control unit 7 stores information on the operation button 61 of the deleted “convenience store” in the operation button display history storage unit.
  • the display control unit 7 controls the displayed operation buttons 62 to 64.
  • the display unit 8 is instructed to display the “convenience store” operation button 61 stored in the operation button display history storage unit. As a result, the operation buttons are scrolled and displayed as shown in FIG.
  • buttons are, for example, by a touch operation such as tracing on a display-integrated touch panel (on the display unit 8), a steering switch, a predetermined button of a remote controller, other manual operation devices, etc. Any operation may be used.
  • a touch operation such as tracing on a display-integrated touch panel (on the display unit 8), a steering switch, a predetermined button of a remote controller, other manual operation devices, etc. Any operation may be used.
  • the display control unit 7 When the display control unit 7 receives the display update stop instruction signal, for example, as shown in FIG. 12, in addition to the operation buttons displayed at that time, the display control unit 7 displays the operation buttons stored as the display history. An instruction may be output to display a list. That is, for example, when the display update is stopped after the state shown in FIG. 11A, the “convenience store” stored in the operation button display history storage unit as shown in FIG. "Is also displayed. In this case, regardless of the operation button display area 60, all the operation buttons being displayed and the stored operation buttons are displayed.
  • the display control unit 7 does not store (merge with the previous information) if the information is the same as the information already stored. Also good. For example, in the case where information about operation buttons is stored in the order of “convenience store” and “bank” in the operation button display history storage unit, even if information about operation buttons of “convenience store” is acquired, Since it is already stored in the storage unit, it is not stored. Thereby, it is possible to prevent a plurality of the same operation buttons from being displayed.
  • an operation button generation history storage unit (not shown) that stores information related to the operation buttons generated by the operation button generation unit 6 may be further provided.
  • the display control unit 7 is an operation button generated by the operation button generation unit 6 based on the recognition result output from the voice recognition unit 5, and the display update is stopped. Information related to the operation buttons that are not displayed is stored in the operation button generation history storage unit.
  • the display control unit 7 When the display control unit 7 receives the instruction signal for restarting the display update, the display control unit 7 displays an operation button based on the information stored in the operation button generation history storage unit instead of the operation button being displayed on the display unit 8. An instruction output to be displayed on the unit 8 is performed. At this time, regardless of the operation button display area 60, an instruction may be output to display the maximum number of operation buttons that can be displayed on the display unit 8, or a predetermined number that does not exceed the maximum number is displayed. An instruction may be output so that
  • an operation button generation is performed when “Do not go to the supermarket” is spoken.
  • the operation button “super” is generated by the unit 6.
  • the display control unit 7 since the display update is stopped, the display control unit 7 does not output an instruction to display the “super” operation button on the display unit 8, and stores information on the operation button in the operation button generation history storage unit. To do.
  • the display control unit 7 stores information on the operation button of “parking lot” in the operation button generation history storage unit. After that, when receiving a display update restart instruction signal, the display control unit 7 replaces the “bank” operation button and the “convenience store” operation button based on the information stored in the operation button generation history storage unit, The display unit 8 outputs an instruction signal so as to display the “super” operation button and the “parking lot” operation button.
  • the operation button is selected when the user presses the button while the display update is stopped.
  • the name of the operation button is displayed by the user.
  • the operation button may be selected by speaking.
  • the name of the operation button displayed on the display unit 8 is read out and determined when the desired operation button is read out. You may make it selectable.
  • the user manually performs a decision operation using an instruction input unit such as a steering switch, or the utterance voice such as “decision” and “selection” is recognized. In this case, a function corresponding to the operation button to be read out may be executed.
  • a voice synthesizer (not shown) that generates voice from a character string, and a voice control unit (not shown) that outputs an instruction signal for outputting the voice generated by the voice synthesizer to a voice output unit such as a speaker.
  • the voice control unit receives a display update stop signal from the operation button display update stop / restart unit 9, the voice control unit acquires the name of the operation button displayed on the display unit 8 from the display control unit 7.
  • An instruction is output to the speech synthesizer so as to synthesize speech based on the above.
  • the voice synthesizer receives the instruction and synthesizes the voice. Then, the voice control unit outputs an instruction to the voice output unit so as to output the voice data generated by the voice synthesis unit.
  • Embodiment 3 In the first and second embodiments described above, the case where the voice recognition device according to the present invention is applied to a navigation device mounted on a moving body such as a vehicle has been described as an example.
  • the navigation device for a moving body including, but not limited to, a person, a vehicle, a railroad, a ship, an aircraft, or the like may be used, and the present invention may be applied to a server of a voice recognition system or a server of a navigation system. Further, the present invention can be applied to any form such as a voice recognition system application or a navigation system application installed in a portable information terminal such as a smartphone, a tablet PC, or a mobile phone.
  • FIG. 13 is a diagram showing an outline of the navigation system according to the third embodiment of the present invention.
  • the in-vehicle device 100 performs voice recognition processing and navigation processing in cooperation with at least one of the portable information terminal 101 and the server 102 such as a smartphone, or at least one of the portable information terminal 101 and the server 102 such as a smartphone.
  • the voice recognition process and the navigation process are performed, and the recognition result and the map information are displayed on the in-vehicle device 100.
  • a configuration aspect of the navigation system will be described.
  • the functions of the voice recognition device of the present invention have been described as all provided in the in-vehicle device 100 shown in FIG. 13, but in the navigation system in the third embodiment, the server 102 performs voice recognition processing. And the recognition result is displayed on the in-vehicle device 100 and provided to the user, and the portable information terminal 101 performs voice recognition processing in cooperation with the server 102 and causes the in-vehicle device 100 to display the recognition result. The case where it provides to a user by this is demonstrated.
  • the server 102 performs voice recognition processing and displays the recognition result on the in-vehicle device 100, that is, a case where the in-vehicle device 100 functions as a display device in cooperation with the server 102 having a voice recognition function will be described. .
  • the in-vehicle device 100 communicates directly with the server 102 or the in-vehicle device 100 communicates with the server 102 via the portable information terminal 101.
  • the server 102 functions as the voice recognition device described in the first and second embodiments.
  • the in-vehicle device 100 functions as a display device including at least the display unit 8 for providing the user with the recognition result by the server 102.
  • a case where the server 102 has only a voice recognition function and the other configuration includes the in-vehicle device 100, that is, a recognition result display device that the in-vehicle device 100 acquires the recognition result and displays it on the display unit.
  • the in-vehicle device 100 has only a voice acquisition function, a communication function, and a display function, and the server 102 has other configurations, that is, the in-vehicle device 100 displays the acquired recognition result. It can be considered that it functions only as a display device.
  • the server 102 has only a voice recognition function and the other components are included in the in-vehicle device 100, that is, as a recognition result display device that the in-vehicle device 100 acquires a recognition result and displays it on the display unit.
  • the server 102 is a voice recognition server including the voice recognition dictionary 4 and the voice recognition unit 5
  • the in-vehicle device 100 which is a recognition result display device includes the control unit 1, the voice acquisition unit 3, the operation button generation unit 6, and the display.
  • a control unit 7, a display unit 8, an operation button display update stop / restart unit 9, and a communication function (audio data transmission unit, recognition result acquisition unit) are provided.
  • a voice data transmission unit (not shown) in the communication function transmits the voice data acquired by the voice acquisition unit 3 to the server 102, and the recognition result recognized by the server 102 is recognized as a recognition result acquisition unit ( (Not shown) is acquired from the server 102. Further, the operation button generation unit 6 generates an operation button having a function corresponding to the recognition result acquired from the server 102 by the recognition result acquisition unit. Since other functions are the same as those of the speech recognition apparatus according to the first and second embodiments, description thereof is omitted.
  • the in-vehicle device 100 has only a voice acquisition function, a communication function, and a display function, and the server 102 includes other configurations, that is, the in-vehicle device 100 displays the acquired recognition result.
  • the in-vehicle device 100 basically has only a voice acquisition function, a communication function, and a display function, and receives a voice recognition result by the server 102 and provides it to the user.
  • the server 102 is a voice recognition device that includes other than the display unit 8, and the server 102 that is the voice recognition device recognizes the voice spoken by the user and displays the recognition result on the in-vehicle device 100 that is the display device. . Even if comprised in this way, the effect similar to Embodiment 1, 2 can be acquired.
  • the portable information terminal 101 performs voice recognition processing in cooperation with the server 102 and the in-vehicle device 100 provides the user with the recognition result.
  • the case where the in-vehicle device 100 communicates with the server 102 via the portable information terminal 101 can be considered, and the application of the portable information terminal 101 performs voice recognition processing in cooperation with the server 102.
  • the in-vehicle device 100 functions as a display device including at least the display unit 8 for providing a user with a recognition result by the portable information terminal 101 and the server 102.
  • the in-vehicle device 100 basically has only a voice acquisition function, a communication function, and a display function, and receives a voice recognition result by cooperation between the portable information terminal 101 and the server 102 and provides it to the user. That is, the recognition result obtained by recognizing the voice uttered by the user is displayed on the in-vehicle device 100 as a display device by the application of the portable information terminal 101. Even if comprised in this way, the effect similar to Embodiment 1, 2 can be acquired.
  • the voice recognition device of the present invention is not limited to a vehicle-mounted navigation device, but includes a navigation device for a mobile object including a person, a vehicle, a railroad, a ship, an aircraft, etc., a portable navigation device, a portable information processing device, etc. Further, the present invention can be applied to a server of an in-vehicle information providing system, an application of a navigation system installed in a portable information terminal such as a smartphone, a tablet PC, and a mobile phone.
  • control unit 1 control unit, 2 microphone, 3 voice acquisition unit, 4 speech recognition dictionary, 5 speech recognition unit, 6 operation button generation unit, 7 display control unit, 8 display unit, 9 operation button display update stop / restart unit, 10 instruction input Unit, 11 camera, 12 gaze detection unit, 13 attitude detection unit, 14 display update stop expression storage unit, 15 display update restart expression storage unit, 16 own vehicle mark, 60 operation button display area, 61, 62, 63, 64 operation Button, 100 in-vehicle device, 101 portable information terminal, 102 server.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Abstract

 この発明の音声認識装置によれば、常時、発話された音声を認識している場合において、ユーザが画面に表示された音声認識結果を選択しようとしていると判断される場合には、表示部における認識結果の表示更新が行われないようにしたことにより、ユーザが認識結果を選択しようとした瞬間に当該認識結果が消えたり、他の認識結果に変わってしまったりすることがないので、ユーザが所望しない動作を招くことを防ぐことができ、ユーザの利便性が向上する。

Description

音声認識装置、認識結果表示装置および表示方法
 この発明は、ユーザにより発話された音声を認識して認識結果を表示する音声認識装置、音声認識された認識結果を表示する認識結果表示装置およびその認識結果を表示装置に表示させる表示方法に関するものである。
 音声認識の方法として、ユーザにより発話された音声を認識してその認識結果を表示する方法が知られている。
 例えば特許文献1には、ユーザが発話した音声を認識し、その認識結果を表示する音声認識装置であって、ユーザが発話するとその音声の認識結果であるショートカットボタンが表示画面の左下付近に表示され、当該ショートカットボタンをユーザが押下することで、ショートカット機能が実行されることが記載されている。
特開2008-14818号公報
 しかしながら、例えば特許文献1のような従来の音声認識装置では、ショートカットボタンが表示されている際に、ユーザにより新たな発話があると、その新たな認識結果を表示する場合に、先に表示されていたショートカットボタンを消去してから新しいボタンを表示するため、ユーザが所望の認識結果を選択しようとした瞬間にそのボタンが移動したり、消えて別の認識結果のボタンに変わってしまい、ユーザが所望しない動作を招いてしまう、という課題があった。
 この発明は、上記のような課題を解決するためになされたものであり、ユーザが画面に表示された認識結果を選択しようとしている場合には、認識結果が更新されてしまうことなく、所望の認識結果を選択できる音声認識装置、認識結果表示装置およびその認識結果を表示装置に表示させる表示方法を提供することを目的とする。
 上記目的を達成するため、この発明は、ユーザにより発話された音声を認識して認識結果を表示する音声認識装置において、前記ユーザにより発話された音声を検知して取得する音声取得部と、前記音声認識装置が起動している間は常時、音声認識辞書を参照して、前記音声取得部により取得された音声データを認識し、認識結果を出力する音声認識部と、前記音声認識部により出力された認識結果に対応する機能を有する操作ボタンを生成する操作ボタン生成部と、前記操作ボタン生成部により生成された操作ボタンを表示する表示部と、前記表示部における前記操作ボタンの表示内容を制御する表示制御部と、前記表示部に表示されている操作ボタンを前記ユーザが操作しようとしているか否かに基づいて、前記表示制御部に対して前記操作ボタンの表示内容の更新停止および再開を指示する指示信号を出力する操作ボタン表示更新停止/再開部とを備え、前記操作ボタン表示更新停止/再開部は、前記表示部に表示されている操作ボタンを前記ユーザが操作しようとしていると判断した場合に、前記操作ボタンの表示内容の更新停止を指示する指示信号を出力し、前記表示制御部は、前記操作ボタン表示更新停止/再開部から前記操作ボタンの表示内容の更新停止の指示信号を受けた場合に、前記表示部に表示されている操作ボタンの表示更新を停止するよう前記表示部に対して指示を行うことを特徴とする。
 この発明によれば、ユーザが画面に表示された認識結果を選択しようとしていると判断される場合には、表示部における認識結果の表示更新が行われないようにしたことにより、ユーザが認識結果を選択しようとした瞬間に当該認識結果が消えたり、他の認識結果に変わってしまったりすることがないので、ユーザが所望しない動作を招くことを防ぐことができ、ユーザの利便性が向上する。
実施の形態1における音声認識装置の一例を示すブロック図である。 表示部の操作ボタン表示領域に操作ボタンが表示された画面例を示す図である。 操作ボタン表示領域の中に操作ボタンが1つしか表示できない場合の操作ボタンの表示更新方法を示す図である。 操作ボタン表示領域に2個の操作ボタンが表示できる場合の操作ボタンの表示更新方法を示す図である。 操作ボタン表示領域の中に操作ボタンが1つしか表示できない場合の操作ボタンの生成および表示の処理を示すフローチャートである。 操作ボタン表示領域に操作ボタンが複数表示できる場合の操作ボタンの生成および表示の処理を示すフローチャートである。 操作ボタンが生成されない場合であっても、既に表示されている操作ボタンを消去する処理を示すフローチャートである。 操作ボタン表示更新停止/再開部が操作ボタンの表示更新停止/再開の指示出力を行う処理を示すフローチャートである。 実施の形態2における音声認識装置の一例を示すブロック図である。 操作ボタン表示更新停止/再開部が音声認識により操作ボタンの表示更新停止/再開の指示出力を行う処理を示すフローチャートである。 操作ボタン表示領域から消去された操作ボタンをスクロールにより表示させた場合の画面例を示す図である。 表示履歴として記憶されている操作ボタンを表示更新停止中に一覧表示させた画面例を示す図である。 実施の形態3におけるナビゲーションシステムの概要を示す図である。
 以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
 この発明は、ユーザにより発話された音声を認識する音声認識装置であり、当該音声認識装置が起動されている場合は常時、音声を認識するものである。なお、以下の実施の形態では、この発明の音声認識装置を車両等の移動体に搭載されるナビゲーション装置に適用した場合を例に挙げて説明するが、車両以外の他の移動体用のナビゲーション装置であってもよいし、ナビゲーションシステムのサーバに適用してもよい。また、スマートフォン、タブレットPC、携帯電話等の携帯情報端末等にインストールされるナビゲーションシステムのアプリケーション等に適用してもよい。
実施の形態1.
 図1は、この発明の実施の形態1における音声認識装置の一例を示すブロック図である。この音声認識装置は、制御部1、マイク2、音声取得部3、音声認識辞書4、音声認識部5、操作ボタン生成部6、表示制御部7、表示部8、操作ボタン表示更新停止/再開部9、指示入力部10、カメラ11、視線検出部12、姿勢検出部13を備えている。
 マイク2は、ユーザが発話した音声を取得(集音)する。マイク2には、例えば、全指向性(または無指向性)のマイクや、複数の全指向性(または無指向性)のマイクをアレイ状に配列して指向特性を調整可能としたアレイマイクや、一方向のみに指向性を有しており、指向特性を調整できない単一指向性マイクなどがある。
 音声取得部3は、マイク2により取得されたユーザ発話、すなわち、入力された音声を取り込み、例えば例えばPCM(Pulse Code Modulation)によりA/D(Analog/Digital)変換する。
 音声認識部5は、音声取得部3によりデジタル化された音声信号から、ユーザが発話した内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書4を用いて認識処理を行い、認識結果を出力する。なお、認識処理としては、例えばHMM(Hidden Markov Model)法のような一般的な方法を用いて行えばよい。
 ところで、カーナビゲーションシステム等に搭載されている音声認識機能においては、ユーザが発話の開始をシステムに対して明示(指示)するのが一般的である。そのために、音声認識開始を指示するボタン(以下、「音声認識開始指示部」と呼ぶ)が、タッチパネルに表示されたりハンドルに設置されたりしている。そして、ユーザにより音声認識開始指示部が押下された後に発話された音声を認識する。すなわち、音声認識開始指示部は音声認識開始信号を出力し、音声認識部は当該信号を受けると、当該信号を受けた後に音声取得部により取得された音声データから、ユーザが発話した内容に該当する音声区間を検出し、上述した認識処理を行う。
 しかし、この実施の形態1における音声認識部5は、上述したようなユーザによる音声認識開始指示がなくても、常に、ユーザが発話した内容を認識する。すなわち、音声認識部5は、音声認識開始信号を受けなくても、この音声認識装置が組み込まれたナビゲーション装置が起動されている場合は常時、音声取得部3により取得された音声データから、ユーザが発話した内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書4を用いて認識処理を行い、音声認識結果を出力する処理を繰り返し行う。以下の実施の形態においても同様である。
 指示入力部10は、ユーザの手動による指示を入力するもの、すなわち、ユーザによる各種操作の指示を受け付けるものである。当該指示は、ナビゲーション装置に設けられたハードウエアのスイッチ、表示部8に設定され表示されるタッチスイッチ(後述する操作ボタンを含む)、あるいはハンドル等に設置されたリモコンもしくは別体のリモコンによる指示を認識する認識装置によるものが挙げられる。
 操作ボタン生成部6は、音声認識部5により出力された認識結果に対応する機能を有する操作ボタンを生成する。
 表示制御部7は、操作ボタン生成部6により生成された操作ボタンの表示部8への表示、操作ボタンの表示位置変更、所定時間表示された操作ボタンの削除等の指示出力を行うことで、操作ボタンの表示更新を制御するとともに、表示部8における操作ボタンの表示更新が停止中であるか否かを判定する。また、表示部8に表示されている操作ボタンに関する情報、例えば操作ボタン名称や操作ボタンの表示部8における表示位置などを管理する。
 表示部8は、表示一体型のタッチパネルであり、例えばLCD(Liquid Crystal Display)とタッチセンサから構成されており、表示制御部7の指示に基づき画面上に描画を行う。なお、タッチパネルには、感圧方式、電磁誘導方式、静電容量方式、あるいはこれらを組み合わせた方式などのうち、何れを用いてもよい。また、LCDの代わりに有機ELディスプレイを用いてもよい。
 制御部1は、音声認識装置全体の動作を制御する。また、指示入力部10から入力されたユーザからの指示や、音声認識部5により出力された認識結果に基づいて、様々な機能を実行する。例えば、表示部8に表示された操作ボタン(認識結果)がユーザにより手動または音声で選択されると、当該選択された操作ボタンに割り当てられている機能を実行する。
 以下の説明においては、音声認識部5は、常時、ユーザ発話から例えば「ガソリンスタンド」「コンビニ」のような、施設が属するジャンル名(以下、施設ジャンル名)を認識して認識結果を出力し、操作ボタン生成部6は、当該認識結果のジャンルに属する施設を検索する機能(以下、「ジャンル検索機能」と呼ぶ)を有する操作ボタンを生成する。
 当該操作ボタンは表示制御部7によって表示部8の所定の領域(以下、「操作ボタン表示領域」と呼ぶ)に、例えば図2の操作ボタン61,62のように表示される。
 図2は、地図等が表示された表示画面(表示部8)の操作ボタン表示領域60に、操作ボタン61,62が表示された画面例を示す図である。そして、ユーザによって当該操作ボタン61または62が選択されると、制御部1は当該選択された操作ボタンに対応するジャンル検索を実行する。なお、音声認識部5では、周知技術であるキーワードスポッティングによって施設ジャンル名の認識が行われるものとする。
 なお、キーワードスポッティングによる施設ジャンル名の認識ではなく、認識すべてを大語彙連続音声認識により認識し、認識結果を形態素解析して施設ジャンル名を抽出する方法を用いてもよい。
 また、音声認識部5は、例えば、アーティスト名、アルバム名、曲タイトル名、カーナビゲーションシステムを操作するためのコマンドなどを認識するようにしてもよい。この場合、操作ボタンに割り当てられる機能は、例えば、アーティスト名、アルバム名、曲タイトル名で曲を検索する機能であってもよいし、コマンドに対応する機能であってもよい。
 ここで、表示制御部7による表示部8への操作ボタンの表示更新方法の一例について、具体例を挙げて説明する。
 図3は操作ボタン表示領域60が小さく、その中に操作ボタンは1つしか表示できない場合の操作ボタンの表示更新方法を示す図である。
 図3(a)は、操作ボタン表示領域60に操作ボタンが表示されていない状態を示しており、この状態で例えば「コンビニ行きたいね」という発話が認識され、「コンビニ」に対応する操作ボタンが生成されると、表示制御部7は、操作ボタン61を表示するよう表示部8に対して指示出力する(図3(b))。
 その後、「銀行にもよらないと」という発話が認識され、「銀行」に対応する操作ボタンが生成されると、表示制御部7は、先に表示されていた「コンビニ」操作ボタン61を消去した後、「銀行」操作ボタン62を表示するよう表示部8に対して指示出力する(図3(c))。また、新たな操作ボタンが生成されていなくても、表示されている操作ボタンに対する操作がないまま、表示開始から所定時間が経過した操作ボタンを消去するよう指示出力する。
 また、別の表示更新方法として、操作ボタン表示領域60に複数の操作ボタン(図4を用いた以下の説明では、2個の操作ボタンとする)を表示できる場合について説明する。
 図4は、操作ボタン表示領域60に、2個の操作ボタンが表示できる場合の操作ボタンの表示更新方法を示す図である。
 操作ボタンが表示されていない状態(図4(a))で、先ほどの例と同様に「コンビニ行きたいね」という発話が認識され、「コンビニ」に対応する操作ボタンが生成されると、表示制御部7は、操作ボタン61を表示するよう表示部8に対して指示出力する(図4(b))。
 その後、「銀行にもよらないと」という発話が認識され、「銀行」に対応する操作ボタンが生成されると、操作ボタン62を追加表示するよう表示部8に対して指示出力する(図4(c))。ここでさらに、「近くに駐車場ないかな」という発話が認識され、「駐車場」に対応する操作ボタンが生成されると、最も表示されている時間が長い操作ボタン、ここでは、「コンビニ」操作ボタン61を削除し、「銀行」操作ボタン62を「コンビニ」操作ボタン61が表示されていた場所に移動させ、「駐車場」操作ボタン63を追加表示するよう表示部8に対して指示出力する(図4(d))。
 また、新たな操作ボタンが生成されていなくても、表示されている操作ボタンに対する操作がないまま、表示開始から所定時間が経過した操作ボタンを消去するよう指示出力する。図4(e)は、「銀行」操作ボタン62が表示されてから当該「銀行」操作ボタン62に対する操作がないまま所定時間が経過した場合に、「銀行」操作ボタン62が削除され、「駐車場」操作ボタン63が「銀行」操作ボタン62が表示されていた場所に移動した状態を示している。
 なお、上記の表示更新方法は一例であってその他の表示更新方法であってもよいことは言うまでもない。
 例えば、図4では、操作ボタン表示領域60に操作ボタンが表示される際に、1つ目の操作ボタンが操作ボタン表示領域60の中の下の位置に表示されるようにしているが、上から表示されるようにしてもよい。
 また、図4では、表示できる操作ボタンの数を超えるまでは、すなわち、1つ目の操作ボタンが表示された後に2つ目の操作ボタンが表示される際には、図4(c)に示すように、1つ目の操作ボタン61の位置は変わらず下のまま、2つ目の操作ボタン62が上に追加表示されているが、新たに表示される操作ボタンが必ず下に表示されるようにしてもよい。この場合には、図4(b)から図4(c)に移行する際に、1つ目の「コンビニ」操作ボタン61が上に移動され、2つ目の「銀行」操作ボタン62が新たに下に表示される。
 ここで、表示されている操作ボタンに対する操作がないままかどうか、すなわち、ユーザが操作ボタンを押下しようとしているか否かを判断する手法について説明する。この判断は、操作ボタン表示更新停止/再開部9により行われる。
 ユーザが操作ボタンを押下しようとしているか否かを判断する手法としては、様々なものが考えられるが、ここでは、視線検出部12を用いてユーザの視線を検出して判断するもの、姿勢検出部13を用いてユーザの所定の姿勢を検出して判断するもの、および、指示入力部10を用いてユーザにより所定の操作が行われたことにより判断するもののいずれかを用いることとする。
 視線検出部12は、カメラ11により取得された画像を解析して表示部8に向けられるユーザの視線を検出する。ここで、視線検出部12は表示部8の特定の領域、例えば、図2~図4に示した画面例の操作ボタン表示領域60に向けられている視線を検出するとしてもよい。なお、視線を検出する方法については、公知の技術を用いればよいためここでは説明を省略する。
 姿勢検出部13は、カメラ11により取得された画像を解析して、表示部8に表示された操作ボタンを押下しようとしているユーザの所定の姿勢を検出する。ここで、操作ボタンを押下しようとしている所定の姿勢には、例えば、ユーザの腕が表示部8の方向を向いている、ユーザの上半身が表示部8の方向を向いている、ユーザの体が前かがみになっているなどの姿勢が含まれる。なお、姿勢を検出する方法についても、公知の技術を用いればよいためここでは説明を省略する。
 そして、操作ボタン表示更新停止/再開部9は、所定の条件を満たす場合、すなわち、上記の視線検出部12、姿勢検出部13、指示入力部10による検出結果に基づいてユーザが操作ボタンを押下しようとしているか否かを判断し、ユーザが操作ボタンを押下しようとしていると判断した場合に、表示制御部7に対して、操作ボタンの表示更新を停止する指示出力を行う。
 ここで、所定の条件を満たす場合、すなわち、ユーザが操作ボタンを押下しようとしていると判断した場合とは、具体的には、視線検出部12により表示部8に対するユーザの視線が検出された場合、姿勢検出部13により操作ボタンを押下しようとしているユーザの所定の姿勢が検出された場合、指示入力部10によりユーザが操作ボタンを押下しようとしている所定の操作が受け付けられた場合、のいずれかである場合のことであり、この場合に、操作ボタン表示更新停止/再開部9は、表示制御部7に対して、操作ボタンの表示内容の更新停止を指示する指示信号を出力する。
 指示入力部10により所定の操作がなされた場合とは、例えば、リモコンの所定のボタンやステアリングスイッチ等(表示停止のボタンやスイッチ等)が押下された場合、また、タッチセンサが、ユーザの指やその他の物体の接近を検出できる方式、例えば、静電容量方式等のような近接センサである場合は、ユーザの指等の物体がタッチセンサに所定値以下の距離まで近づいた場合のことである。
 また、タッチセンサによる場合(近接センサを備える場合)には、操作ボタン表示更新停止/再開部9は、タッチセンサから物体の接近情報を取得し、ユーザの指等の物体とタッチセンサ(近接センサ)との距離を算出し、当該算出された距離が所定値以下の場合(または所定値より小さい場合)に表示更新を停止する指示出力を行うようにすればよい。
 ここで、接近する物体のタッチパネル上の位置情報をタッチセンサから取得し、当該位置が、例えば図2の操作ボタン表示領域60内であり、かつ、物体とタッチパネルの距離が所定値以下の場合(または所定値より小さい場合)に、表示更新を停止する指示出力を行うとしてもよい。
 なお、ここでは物体の接近を検出するためにタッチセンサからの情報を用いたが、例えば、赤外線センサを備える構成とし、当該センサを用いて表示部8から物体までの距離を算出してもよい。
 さらに、操作ボタン表示更新停止/再開部9は、所定の条件を満たさない場合(すなわち、ユーザが操作ボタンを押下しようとしていないと判断された場合)に、表示制御部7に対して、操作ボタンの表示更新を再開する指示出力を行う。
 この場合の所定の条件を満たさない場合とは、具体的には、視線検出部12により表示部8に向けられるユーザの視線が検出されなくなった場合、姿勢検出部13により操作ボタンを押下しようとしているユーザの所定の姿勢が検出されなくなった場合、指示入力部10により所定の操作、例えば、リモコンの所定のボタンやステアリングスイッチ等(表示再開のボタンやスイッチ等)の押下がなされた場合、ユーザの指等の物体とタッチパネルとの距離が所定値より大きくなった場合(または所定値以上に場合)のいずれかの場合のことである。
 すなわち、操作ボタン表示更新停止/再開部9は、上記の所定の条件を満たさない場合(ユーザが操作ボタンを押下していないと判断された場合)には、表示制御部7に対して操作ボタンの表示更新を再開する指示出力を行う。
 また、表示制御部7に対して操作ボタンの表示更新を停止する指示出力を行ってから、表示されている操作ボタンに対する操作がないまま(操作が検出されないまま)所定時間経過した場合に、表示更新を再開する指示出力を行うとしてもよい。
 さらに、当該所定時間は、この音声認識装置が搭載されている移動体の走行状態、例えば、走行速度や走行している道路等に応じて変化させてもよい。
 例えば、移動体の走行速度が速い場合や走行している道路状況が悪い場合には、ユーザが運転に集中する必要があるため、操作ボタンに対する操作ができないこともあると考え、所定時間を長く設定し、逆に、移動体の走行速度が遅い場合や走行している道路状況が良好である場合には、ユーザは比較的操作ボタンに対する操作がしやすい状況にあると考え、所定時間を短く設定する。
 次に図5~図8に示すフローチャートを用いて、実施の形態1における音声認識装置の処理を説明する。
 図5は、例えば図3に示すように、操作ボタン表示領域の中に操作ボタンが1つしか表示できない場合の操作ボタンの生成および表示の処理を示したフローチャートである。
 まず初めに、音声取得部3は、マイク2により集音されたユーザ発話、すなわち、入力された音声を取込み、例えばPCMによりA/D変換する(ステップST01)。
 次に、音声認識部5は、音声取得部3によりデジタル化された音声信号から、ユーザが発話した内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書4を参照して認識処理を行い、認識結果を出力する(ステップST02)。
 そして、操作ボタン生成部6は、音声認識部5により出力された認識結果に対応する機能を有する操作ボタンを生成する(ステップST03)。
 その後、表示制御部7は、表示部8に既に表示されている操作ボタンがあるか否かを判定する(ステップST04)。
 既に表示されている操作ボタンがある場合(ステップST04のYESの場合)は、操作ボタンの表示更新が停止中か否かの判定を行う(ステップST05)。そして、表示更新停止中でない場合(ステップST05のNOの場合)、既に表示されている操作ボタンを消去し、ステップST03において操作ボタン生成部6により生成された操作ボタンを表示する指示出力を表示部8に対して行う(ステップST06)。
 一方、表示更新停止中の場合(ステップST05のYESの場合)は、生成された操作ボタンを表示することなく、ステップST01の処理へ戻る。
 また、ステップST04において、表示されている操作ボタンがない場合(ステップST04のNOの場合)は、ステップST03において操作ボタン生成部6により生成された操作ボタンを表示する指示出力を表示部8に対して行う(ステップST07)。
 次に、表示部8の操作ボタン表示領域60に複数の操作ボタンが表示可能な場合について、図6のフローチャートに沿って説明する。
 図6は、例えば図4に示すように、操作ボタン表示領域60に操作ボタンが複数(図4の場合には2個)表示できる場合の操作ボタンの生成および表示の処理を示したフローチャートである。
 ステップST11~ST13の処理については、図5に示すフローチャートのステップST01~ST03と同じであるので、説明を省略する。
 ステップST13において操作ボタンを生成した後、表示制御部7は、表示部8の操作ボタン表示領域60に既に表示されている操作ボタンの個数を判定する(ステップST14)。
 そして、既に所定個数(操作ボタン表示領域60に表示できる最大個数)の操作ボタンが表示されている場合(ステップST15のYESの場合、例えば図4(c)の場合)、操作ボタンの表示更新が停止中か否かの判定を行う(ステップST16)。
 表示更新停止中でない場合(ステップST16のNOの場合)、操作ボタン表示領域60に表示中の操作ボタンのうち、最初に表示された1つ目の操作ボタン(図4(c)の場合の操作ボタン61)を消去し、残りの操作ボタン(図4(c)の場合の操作ボタン62)の場所を1つずつ移動させ(図4(d))、ステップST13において操作ボタン生成部6により生成された操作ボタン(図4(d)の場合の操作ボタン63)を表示する指示出力を表示部8に対して行う(ステップST17)。
 一方、表示更新停止中の場合(ステップST16のYESの場合)は、生成された操作ボタンを表示することなく、ステップST11の処理へ戻る。
 また、ステップST15において、表示されている操作ボタンが所定個数(操作ボタン表示領域60に表示できる最大個数)より少ない場合(ステップST15のNOの場合、例えば図4(b)の場合)には、操作ボタン表示更新停止/再開部9による操作ボタンの表示内容の更新を停止する指示信号にかかわらず、操作ボタン生成部6により生成された操作ボタン(図4(c)の操作ボタン62)を表示する指示出力を表示部8に対して行う(ステップST18)。
 なお、図5,図6のフローチャートにおいて、ステップST04、ステップST14~ST15の判断を行わないようにしてもよい。すなわち、表示制御部7は、表示されている操作ボタンの有無や個数にかかわらず、表示更新停止中である場合は、ステップST01、ステップST11の処理へ戻るようにしてもよい。
 図7は、操作ボタンが生成されない場合であっても、既に表示されている操作ボタンを消去する処理を示したフローチャートである。
 まず、表示制御部7は、表示部8の操作ボタン表示領域60に表示されている操作ボタンについて、表示開始から所定時間が経過した操作ボタンがあるか否かを判定する(ステップST21)。表示後、所定時間が経過している操作ボタンがない場合(ステップST21のNOの場合)は、ステップST21の処理へ戻る。
 一方、所定時間が経過している操作ボタンがある場合(ステップST21のYESの場合)は、操作ボタンの表示更新が停止中か否かの判定を行う(ステップST22)。表示更新停止中の場合(ステップST22のYESの場合)は、ステップST21の処理へ戻る。表示更新停止中でない場合(ステップST22のNOの場合)は、表示開始から所定時間が経過した操作ボタンを表示部8から消去する指示出力を行い(ステップST23)、ステップST21の処理へ戻る。
 また、図8は、操作ボタン表示更新停止/再開部9が操作ボタンの表示更新停止/再開の指示出力を行う処理を示すフローチャートである。
 まず、操作ボタン表示更新停止/再開部9は、視線検出部12、姿勢検出部13、指示入力部10から、各種情報を取得する(ステップST31)。各種情報とは、具体的には、視線検出部12からの視線情報、姿勢検出部13からの姿勢情報、指示入力部10からの操作情報、タッチパネルへの物体の接近/接触情報、表示更新が停止されている時間の少なくとも1つ以上のことである。
 そして、取得した情報が、前述の所定の条件(表示更新停止の条件)を満たした場合(ステップST32のYESの場合)は、表示制御部7に対して表示更新停止の指示出力を行う(ステップST33)。
 一方、所定の条件(表示更新停止の条件)を満たさなくなった場合(ステップST32のNOの場合)は、表示更新再開の指示出力を行う(ステップST34)。
 次に動作の一例を、具体例を挙げて説明する。
 例えば、図3に示すように、操作ボタン表示領域60の中に操作ボタンが1つしか表示できない場合に、操作ボタンが表示されていない状態(図3(a)の状態)において、ユーザAが「コンビニ行きたいね」と発話すると、音声認識部5によって認識処理が行われ認識結果として「コンビニ」を出力する(図5のステップST01~ST02)。
 そして、操作ボタン生成部6は、認識結果「コンビニ」に対応する機能、すなわち施設ジャンル「コンビニ」に属する施設を検索する機能を有する「コンビニ」という操作ボタン61を生成する(ステップST03)。
 ここで、表示部8の操作ボタン表示領域60には操作ボタンが表示されていないので(ステップST04のNOの場合)、表示制御部7は、操作ボタン61を表示するよう表示部8に対して指示出力する(ステップST07)。その結果、図3(b)に示すように操作ボタン61が表示される。
 続いて、ユーザBが「銀行にもよらないと」と発話すると、操作ボタン生成部6は、認識結果「銀行」に対応する機能、すなわち施設ジャンル「銀行」に属する施設を検索する機能を有する「銀行」という操作ボタン62を生成する(ステップST01~ST03)。
 このとき、表示部8の操作ボタン表示領域60には、既に「コンビニ」という操作ボタン61が表示されているため(ステップST04のYESの場合)、例えばユーザAが、その「コンビニ」という操作ボタン61を押下しようとしており、指が表示部8に接近しているとすると、操作ボタン表示更新停止/再開部9は、表示制御部7に対して表示更新停止の指示出力を行い、表示更新が停止される。
 この結果、操作ボタンの表示更新が停止中であると判定されるので(ステップST05のYESの場合)、「銀行」という操作ボタン62は表示部8に表示されない。
 一方、ユーザAが「コンビニ」という操作ボタン61を押そうとしていない場合、例えば、ユーザAの指が表示部8に接近していないときは、操作ボタン表示更新停止/再開部9は、表示制御部7に対して、表示更新停止の指示出力を行わない。
 この結果、操作ボタンの表示更新が停止中ではないと判断されるので(ステップST05のNOの場合)、表示制御部7は、「コンビニ」という操作ボタン61を消去して「銀行」という操作ボタン62を表示するよう表示部8に指示出力する(ステップST06、図3(c))。
 次に、操作ボタン表示領域60に複数、例えば図4に示すように、2つの操作ボタンを表示可能な場合の動作について説明する。すなわち、この場合の操作ボタン表示領域60に表示可能な操作ボタンの最大個数(所定個数)は2個である。
 そして、図4(b)に示すように、既に「コンビニ」という操作ボタン61が1つだけ表示されている場合を例に説明する。この状態で、ユーザBが「銀行にもよらないと」と発話すると、「銀行」という操作ボタン62が生成される(図6のステップST11~ST13)。
 このとき、例えばユーザAが「コンビニ」という操作ボタン61を押下しようとしており、指が表示部8に接近していると、操作ボタン表示更新停止/再開部9は、表示制御部7に対して表示更新停止の指示出力を行う。
 しかし、表示部8に表示されている操作ボタンの個数が1つであるため(ステップST14、ステップST15のNOの場合)、表示更新停止中であるか否かにかかわらず、「銀行」という操作ボタン62を表示する指示信号を出力する(ステップST18)。
 その結果、図4(c)のように、「銀行」という操作ボタン62が表示される。
 次に、この状態において、例えばユーザBが「銀行」という操作ボタン62を押下しようとしており、指が表示部8に接近していると、操作ボタン表示更新停止/再開部9は、表示制御部7に対して表示更新停止の指示出力を行う。
 このとき、例えばユーザAが「近くに駐車場ないかな」と発話すると、「駐車場」という操作ボタン63が生成される(ステップST11~ST13)。
 しかし、図4(c)に示すように、操作ボタンが2つ(最大個数(所定個数))表示されており、かつ、表示更新停止中であるので(ステップST15のYES、ステップST16のYESの場合)、表示制御部7は、「駐車場」という操作ボタン63を表示する指示信号を出力しない(表示は図4(c)のまま)。
 一方、図4(c)に示す状態において、ユーザの指が表示部8に接近していない場合には、操作ボタン表示更新停止/再開部9は、表示制御部7に対して表示更新再開の指示出力を行うので、この場合の表示更新停止中か否かの判定(ステップST16)はNOになる。
 このとき、例えばユーザAが「近くに駐車場ないかな」と発話すると、「駐車場」という操作ボタン63が生成されるところまでは、前述の場合と同様である(ステップST11~ST13)。
 しかし、この場合には、操作ボタンが2つ(最大個数(所定個数))表示されており、かつ、表示更新停止中ではないので(ステップST15のYES、ステップST16のNOの場合)、表示制御部7は、表示中の操作ボタン61,62のうち、1つ目の操作ボタン61を消去して残りの操作ボタン62を移動させ、ステップST13において生成した操作ボタン63を表示する指示出力を行う(ステップST17)。
 その結果、図4(d)のように、「駐車場」という操作ボタン63が表示される。
 これにより、従来では、例えば図4(c)において、ユーザがコンビニを検索したいため、「コンビニ」という操作ボタン61を押下しようとした瞬間に、他のユーザの発話により当該「コンビニ」という操作ボタン61が「銀行」操作ボタン62に変わってしまい、意図しない操作ボタン62を押下してしまう、すなわち、所望しない「銀行」を検索する機能を実行してしまう、ということを防ぐことができる。
 以上のように、この実施の形態1によれば、ユーザの視線や姿勢や所定の操作により、ユーザが操作ボタンを選択(押下)しようとしていると判断される場合は、操作ボタンの表示更新を停止するようにし、表示更新停止中には、新たに認識された音声により生成された操作ボタンを表示しないようにしたので、ユーザが所望の操作ボタンを選択しようとしたタイミングで、当該操作ボタンの位置が変更されたり、他の操作ボタンに変わったり、消滅したりすることがなくなるため、ユーザが所望しない操作ボタンを選択して誤動作を招くことを防ぐことができ、ユーザの利便性が向上する。
実施の形態2.
 図9は、この発明の実施の形態2における音声認識装置の一例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態2では、実施の形態1と比べると、表示更新停止表現記憶部14と表示更新再開表現記憶部15を備え、操作ボタン表示更新停止/再開部9が、音声認識部5の音声認識により表示更新の停止/再開を行う点が異なる。
 音声認識部5は、実施の形態1に比べ、さらに「ストップ」「停止」「更新停止」「再開」「更新再開」等、操作ボタンの表示更新の停止/再開を意味する単語を認識して認識結果を出力する。
 表示更新停止表現記憶部14には、「ストップ」「停止」「更新停止」等、操作ボタンの表示更新停止を意味する単語が記憶されている。
 表示更新再開表現記憶部15には、「再開」「更新再開」等、操作ボタンの表示更新再開を意味する単語が記憶されている。
 操作ボタン表示更新停止/再開部9は、表示更新停止表現記憶部14および表示更新再開表現記憶部15を参照して、音声認識部5により出力された認識結果が、表示更新停止表現記憶部14に記憶されている表示更新停止を表すものであるか否かを判断する。そして、音声認識部5により出力された認識結果が表示更新停止表現記憶部14に存在すると判断した場合は、表示制御部7に対して操作ボタンの表示更新を停止する指示信号を出力し、表示更新再開表現記憶部15に記憶されている表示更新再開を表すものであると判断した場合は、表示制御部7に対して操作ボタンの表示更新を再開する指示信号を出力する。
 次に、図10に示すフローチャートを用いて、実施の形態2における音声認識装置の処理を説明する。
 図10は、操作ボタン表示更新停止/再開部9が音声認識により操作ボタンの表示更新停止/再開の指示出力を行う処理を示すフローチャートである。
 まず、操作ボタン表示更新停止/再開部9は、音声認識部5により出力された認識結果を取得する(ステップST41)。
 次に、操作ボタン表示更新停止/再開判定部9は、当該認識結果が表示更新停止表現記憶部14に存在するか否かを判定する(ステップST42)。存在する場合(ステップST42のYESの場合)には、表示制御部7に対して表示更新停止の指示出力を行う(ステップST43)。
 一方、ステップST41で取得した認識結果が表示更新停止表現記憶部14に存在しない場合(ステップST42のNOの場合)は、当該認識結果が表示更新再開表現記憶部15に存在するか否かを判定する(ステップST44)。存在する場合(ステップST44のYESの場合)は、表示制御部7に対して表示更新再開の指示出力を行う(ステップST46)。
 また、ステップST41で取得した認識結果が表示更新再開表現記憶部15にも存在しない場合(ステップST44のNOの場合)は、処理を終了する。
 このように、この実施の形態2では、操作ボタン表示更新停止/再開部9が、操作ボタンの表示更新停止/再開の指示を行うための条件が、ユーザの視線、姿勢、操作入力によるものではなく、ユーザの発話によるものとした点が実施の形態1とは異なるが、その他の動作処理および画面遷移例については、実施の形態1と同様であるので、図示および説明を省略する。
 以上のように、この実施の形態2によれば、ユーザが操作ボタンの表示更新を停止する発話をした場合、操作ボタンの表示更新を停止するようにし、表示更新停止中には、新たに認識された音声により生成されたボタンを表示しないので、ユーザが所望の操作ボタンを選択しようとしたタイミングで、当該操作ボタンの位置が変更されたり、他の操作ボタンに変わったり、消滅したりすることがなくなるため、ユーザが所望しない操作ボタンを選択して誤動作を招くことを防ぐことができ、ユーザの利便性が向上する。
 なお、上述した実施の形態1,2において、表示制御部7が、操作ボタン表示更新停止/再開部9から表示更新停止の指示信号を受けた場合は、表示部8に対して、既に表示されている操作ボタンの表示態様を変更するよう指示出力し、操作ボタン表示更新停止/再開部9から表示更新再開の指示信号を受けた場合は、変更された操作ボタンを元に戻す指示出力をするとしてもよい。ここで、表示態様とは、例えば操作ボタンの大きさ、色、文字のフォント等のことである。
 すなわち、表示制御部7が、操作ボタン表示更新停止/再開部9から表示更新停止の指示信号を受けた場合は、表示部8に対して、既に表示されている操作ボタンの大きさ、色、文字のフォントの少なくとも1つ以上を変更するよう指示出力し、操作ボタン表示更新停止/再開部9から表示更新再開の指示信号を受けた場合は、変更された操作ボタンを元に戻す指示出力をするとしてもよい。
 これにより、ユーザは操作ボタンの表示更新が停止中か否かを視覚的に判断することができる。また、操作ボタンを目立たせることで選択し易くなる。
 また、上述した実施の形態1,2において、さらに、表示部8に表示された操作ボタンの表示履歴を記憶する操作ボタン表示履歴記憶部(図示せず)を備えるようにしてもよい。この場合、表示制御部7は、表示更新により操作ボタンが表示部8から消去される度に、操作ボタン表示履歴記憶部に当該操作ボタンに関する情報を記憶する。
 そして、表示更新停止中に、ユーザにより操作ボタン表示領域に対してスクロール操作がなされると、操作ボタン表示履歴記憶部に記憶された情報に基づいて、過去に表示された操作ボタンを消去された順に表示するような制御を行う。
 具体的には、例えば図4(a)の状態から、ユーザが「コンビニ行きたいね」「銀行によらないと」と発話した場合、図4(c)のように、「コンビニ」「銀行」の操作ボタン61,62が表示される。ここで、操作ボタンの最大表示個数が「2」であるとすると、次にユーザが「近くに駐車場ないかな」と発話した場合、表示されたのが最も古い1つ目の操作ボタンである「コンビニ」の操作ボタン61が消去され、「駐車場」の操作ボタン63が表示される(図4(d))。
 このとき、表示制御部7は、消去された「コンビニ」の操作ボタン61に関する情報を操作ボタン表示履歴記憶部に記憶する。そして、表示更新停止中にユーザによる操作ボタン表示領域に対するスクロール操作が行われると、表示制御部7は例えばタッチセンサからの信号に基づいて、表示中の操作ボタンを移動させるとともに、操作ボタン表示履歴記憶部に記憶された情報に基づいて、過去に表示された「コンビニ」の操作ボタン61を表示するよう表示部8に対して指示出力する。
 図11は、操作ボタン表示領域60から消去された操作ボタンをスクロールにより表示させた場合の画面例を示す図である。
 ここでは、操作ボタン表示領域60に表示可能な操作ボタンの最大個数は「3」とする。図11(a)は、「コンビニ」の操作ボタン61、「銀行」の操作ボタン62、「スーパー」の操作ボタン63が表示された後、さらに「駐車場」の操作ボタン64が表示されたことにより、最初に表示された「コンビニ」の操作ボタン61が消去された状態を示している。
 この際、表示制御部7は、消去された「コンビニ」の操作ボタン61に関する情報を、操作ボタン表示履歴記憶部に記憶する。そして、表示更新停止中に、例えば図11(a)の中の上向きの矢印のように、ユーザにより上向きにスクロール操作が行われると、表示制御部7は、表示中の操作ボタン62~64を上向きに移動させるとともに、操作ボタン表示履歴記憶部に記憶されていた「コンビニ」の操作ボタン61を表示するよう、表示部8に対して指示出力する。その結果、図11(b)に示すように、操作ボタンがスクロールされて表示される。
 なお、操作ボタンのスクロールは、例えば、表示一体型のタッチパネル上(表示部8上)をなぞるようなタッチ操作によるものや、ステアリングスイッチ、リモコンの所定のボタン、その他の手動操作用のデバイス等、いずれの操作により行うことができるようにしてもよい。
 また、表示制御部7は、表示更新停止の指示信号を受けると、例えば、図12に示すように、その時点で表示している操作ボタンに加えて、表示履歴として記憶されている操作ボタンを一覧表示するよう指示出力するとしてもよい。すなわち、例えば図11(a)に示す状態になった後、表示更新停止中になると、スクロール操作を行うことなく、図12に示すように、操作ボタン表示履歴記憶部に記憶されていた「コンビニ」の操作ボタン61も合わせて表示される。この場合には、操作ボタン表示領域60とは関係なく、表示中だった操作ボタンおよび記憶されていた操作ボタンがすべて表示される。
 さらに、表示制御部7は、操作ボタン表示履歴記憶部に操作ボタンに関する情報を記憶する際、既に記憶されているものと同一の情報である場合は、記憶しない(先の情報にマージする)としてもよい。
 例えば、操作ボタン表示履歴記憶部に「コンビニ」「銀行」の順で操作ボタンに関する情報が記憶されている場合において、さらに、「コンビニ」の操作ボタンに関する情報が取得されたとしても、これについては既に記憶部に記憶されているので記憶しない。
 これにより、同一の操作ボタンが複数表示されることを防止することができる。
 また、上述した実施の形態1,2において、さらに、操作ボタン生成部6により生成された操作ボタンに関する情報を記憶する操作ボタン生成履歴記憶部(図示せず)を備えるようにしてもよい。この場合、表示制御部7は、音声認識部5から出力された認識結果に基づいて操作ボタン生成部6により生成された操作ボタンであって、表示更新停止中であるために、表示部8へ表示されなかった操作ボタンに関する情報を、操作ボタン生成履歴記憶部に記憶する。
 そして、表示制御部7は、表示更新再開の指示信号を受けると、表示部8に表示中の操作ボタンに代えて、操作ボタン生成履歴記憶部に記憶されている情報に基づく操作ボタンを、表示部8に表示する指示出力を行う。
 このとき、操作ボタン表示領域60には関係なく、表示部8に表示可能な最大個数分の操作ボタンを表示するように指示出力してもよいし、最大個数を超えない所定の個数分を表示するように指示出力してもよい。
 具体的には、例えば、図4(c)のように操作ボタンが表示されており、表示更新が停止中である場合に、「スーパーにも行かないと」と発話されると、操作ボタン生成部6により、「スーパー」の操作ボタンが生成される。ここで、表示更新が停止中であるため、表示制御部7は、「スーパー」操作ボタンを表示部8に表示する指示出力を行わず、当該操作ボタンに関する情報を操作ボタン生成履歴記憶部に記憶する。
 同様に、さらに「近くに駐車場ないかな」と発話されると、表示制御部7は、「駐車場」の操作ボタンに関する情報を操作ボタン生成履歴記憶部に記憶する。その後、表示制御部7は、表示更新再開の指示信号を受けると、操作ボタン生成履歴記憶部に記憶された情報に基づいて、「銀行」の操作ボタンと「コンビニ」の操作ボタンに代えて、表示部8に、「スーパー」の操作ボタンと「駐車場」の操作ボタンを表示するよう指示信号を出力する。
 また、上述した実施の形態1,2においては、表示更新停止中に、操作ボタンがユーザにより押下されたら選択されるものとして説明したが、表示更新停止中は、その操作ボタンの名称をユーザが発話することにより、当該操作ボタンを選択できるようにしてもよい。
 また、上述した実施の形態1,2において、表示更新停止中に、表示部8に表示されている操作ボタンの名称が読み上げられ、所望の操作ボタンが読み上げられている際に決定することにより、選択できるようにしてもよい。この場合、操作ボタン名称の読み上げ途中または読み上げ後所定時間内に、ユーザによりステアリングスイッチなどの指示入力部によって手動で決定操作が行われたり、「決定」「選択」などの発話音声が認識されたりした場合は、読み上げ対象となっている操作ボタンに対応する機能を実行するとしてもよい。
 この場合、文字列から音声を生成する音声合成部(図示せず)と、スピーカなどの音声出力部に対して音声合成部により生成された音声を出力する指示信号を出力する音声制御部(図示せず)を備える。そして、音声制御部は、操作ボタン表示更新停止/再開部9から表示更新停止の信号を受けると、表示制御部7から、表示部8に表示されている操作ボタンの名称を取得し、当該名称に基づいて音声を合成するよう音声合成部に指示出力を行う。音声合成部は、当該指示を受けて音声を合成する。そして、音声制御部は、音声合成部により生成された音声データを出力するよう、音声出力部に指示出力を行う。
 なお、読み上げ中または読み上げ後所定時間内に、ユーザによって手動または音声による操作ボタンの決定操作が行われた場合の動作については、公知の技術を利用すればよいため、ここでは説明を省略する。
実施の形態3.
 以上の実施の形態1,2では、この発明における音声認識装置を、車両等の移動体に搭載されるナビゲーション装置に適用した場合を例に説明したが、適用するのは車載用のナビゲーション装置に限らず、人、車両、鉄道、船舶または航空機等を含む移動体用のナビゲーション装置であってもよいし、音声認識システムのサーバやナビゲーションシステムのサーバに適用してもよい。また、スマートフォン、タブレットPC、携帯電話等の携帯情報端末等にインストールされる音声認識システムのアプリケーションやナビゲーションシステムのアプリケーション等、どのような形態のものにも適用することができる。
 図13は、この発明の実施の形態3におけるナビゲーションシステムの概要を示す図である。このナビゲーションシステムは、車載装置100が、スマートフォンなどの携帯情報端末101およびサーバ102の少なくとも一方と連携して音声認識処理およびナビゲーション処理を行ったり、スマートフォンなどの携帯情報端末101およびサーバ102の少なくとも一方が音声認識処理およびナビゲーション処理を行い、車載装置100に認識結果や地図情報を表示させる等、様々な形態をとることができる。以下、当該ナビゲーションシステムの構成態様について説明する。
 実施の形態1,2では、この発明の音声認識装置の機能を、図13に示す車載装置100がすべて備えるものとして説明したが、この実施の形態3におけるナビゲーションシステムでは、サーバ102が音声認識処理を行い、その認識結果を車載装置100に表示させることによりユーザに提供する場合、および、携帯情報端末101がサーバ102と連携して音声認識処理を行い、その認識結果を車載装置100に表示させることによりユーザに提供する場合について説明する。
 まず、サーバ102が音声認識処理を行い、その認識結果を車載装置100に表示させる場合、すなわち、音声認識機能を有するサーバ102と連携して、車載装置100が表示装置として機能する場合について説明する。
 この構成においては、車載装置100がサーバ102と直接通信するか、または、車載装置100が携帯情報端末101を経由してサーバ102と通信する場合が考えられる。サーバ102は、上記実施の形態1,2で説明した音声認識装置として機能する。また、車載装置100は、サーバ102による認識結果をユーザに提供するための表示部8を少なくとも備える表示装置として機能する。
 このとき、(1)サーバ102が音声認識機能のみを有し、その他の構成については車載装置100が備える場合、すなわち、車載装置100が認識結果を取得して表示部に表示させる認識結果表示装置として機能する場合と、(2)車載装置100が音声取得機能、通信機能および表示機能のみを有し、その他の構成についてはサーバ102が備える場合、すなわち、車載装置100は取得した認識結果を表示する表示装置としてのみ機能する場合が考えられる。
 まず、(1)サーバ102が音声認識機能のみを有し、その他の構成については車載装置100が備える場合、すなわち、車載装置100が認識結果を取得して表示部に表示させる認識結果表示装置として機能する場合について説明する。
 この場合、サーバ102が音声認識辞書4と音声認識部5を備える音声認識サーバであり、認識結果表示装置である車載装置100は、制御部1、音声取得部3、操作ボタン生成部6、表示制御部7、表示部8、操作ボタン表示更新停止/再開部9および通信機能(音声データ送信部、認識結果取得部)を備えている。
 そして、通信機能のうちの音声データ送信部(図示せず)が音声取得部3により取得された音声データをサーバ102へ送信し、当該サーバ102において音声認識された認識結果を認識結果取得部(図示せず)がサーバ102から取得する。また、操作ボタン生成部6は、認識結果取得部がサーバ102から取得した認識結果に対応する機能を有する操作ボタンを生成する。その他の機能については、実施の形態1,2における音声認識装置と同様のため、説明を省略する。
 次に、(2)車載装置100が音声取得機能、通信機能および表示機能のみを有し、その他の構成についてはサーバ102が備える場合、すなわち、車載装置100は取得した認識結果を表示する表示装置としてのみ機能する場合について説明する。
 この場合、車載装置100は基本的に音声取得機能、通信機能および表示機能のみを有し、サーバ102による音声認識結果を受信してユーザに提供する。
 すなわち、サーバ102が表示部8以外を備える音声認識装置であり、この音声認識装置であるサーバ102が、ユーザにより発話された音声を認識して認識結果を表示装置である車載装置100に表示させる。
 このように構成しても、実施の形態1,2と同様な効果を得ることができる。
 また、携帯情報端末101がサーバ102と連携して音声認識処理を行い、その認識結果を車載装置100がユーザに提供する場合について説明する。
 この構成においては、車載装置100が携帯情報端末101を経由してサーバ102と通信する場合が考えられ、携帯情報端末101のアプリケーションが、サーバ102と連携して音声認識処理を行う。また、車載装置100は、携帯情報端末101とサーバ102による認識結果をユーザに提供するための表示部8を少なくとも備える表示装置として機能する。
 この場合にも、車載装置100は基本的に音声取得機能、通信機能および表示機能のみを有し、携帯情報端末101とサーバ102との連携による音声認識結果を受信してユーザに提供する。
 すなわち、携帯情報端末101のアプリケーションにより、ユーザにより発話された音声を認識した認識結果を表示装置である車載装置100に表示させる。
 このように構成しても、実施の形態1,2と同様な効果を得ることができる。
 なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
 この発明の音声認識装置は、車載用のナビゲーション装置に限らず、人、車両、鉄道、船舶または航空機等を含む移動体用のナビゲーション装置、携帯型のナビゲーション装置、携帯型の情報処理装置等、また、車載情報提供システムのサーバや、スマートフォン、タブレットPC、携帯電話等の携帯情報端末等にインストールされるナビゲーションシステムのアプリケーション等に適用することができる。
 1 制御部、2 マイク、3 音声取得部、4 音声認識辞書、5 音声認識部、6 操作ボタン生成部、7 表示制御部、8 表示部、9 操作ボタン表示更新停止/再開部、10 指示入力部、11 カメラ、12 視線検出部、13 姿勢検出部、14 表示更新停止表現記憶部、15 表示更新再開表現記憶部、16 自車マーク、60 操作ボタン表示領域、61,62,63,64 操作ボタン、100 車載装置、101 携帯情報端末、102 サーバ。

Claims (18)

  1.  ユーザにより発話された音声を認識して認識結果を表示する音声認識装置において、
     前記ユーザにより発話された音声を検知して取得する音声取得部と、
     前記音声認識装置が起動している間は常時、音声認識辞書を参照して、前記音声取得部により取得された音声データを認識し、認識結果を出力する音声認識部と、
     前記音声認識部により出力された認識結果に対応する機能を有する操作ボタンを生成する操作ボタン生成部と、
     前記操作ボタン生成部により生成された操作ボタンを表示する表示部と、
     前記表示部における前記操作ボタンの表示内容を制御する表示制御部と、
     前記表示部に表示されている操作ボタンを前記ユーザが操作しようとしているか否かに基づいて、前記表示制御部に対して前記操作ボタンの表示内容の更新停止および再開を指示する指示信号を出力する操作ボタン表示更新停止/再開部とを備え、
     前記操作ボタン表示更新停止/再開部は、前記表示部に表示されている操作ボタンを前記ユーザが操作しようとしていると判断した場合に、前記操作ボタンの表示内容の更新停止を指示する指示信号を出力し、
     前記表示制御部は、前記操作ボタン表示更新停止/再開部から前記操作ボタンの表示内容の更新停止の指示信号を受けた場合に、前記表示部に表示されている操作ボタンの表示更新を停止するよう前記表示部に対して指示を行う
     ことを特徴とする音声認識装置。
  2.  前記ユーザによる各種操作の指示を受け付ける指示入力部をさらに備え、
     前記操作ボタン表示更新停止/再開部は、前記指示入力部により所定の操作が受け付けられた場合に、前記ユーザが前記操作ボタンを押下しようとしていると判断して前記操作ボタンの表示内容の更新停止を指示する指示信号を出力する
     ことを特徴とする請求項1記載の音声認識装置。
  3.  前記指示入力部は、物体の接近を検知する近接センサを備えるものであり、
     前記所定の操作が受け付けられた場合とは、前記近接センサからの信号に基づいて、前記近接センサと前記物体との距離を算出し、当該算出された距離が所定値以下または所定値より小さい場合のことである
     ことを特徴とする請求項2記載の音声認識装置。
  4.  前記ユーザの視線を検出する視線検出部をさらに備え、
     前記操作ボタン表示更新停止/再開部は、前記視線検出部により前記表示部に対する前記ユーザの視線が検出された場合に、前記ユーザが前記操作ボタンを操作しようとしていると判断して前記操作ボタンの表示内容の更新停止を指示する指示信号を出力する
     ことを特徴とする請求項1記載の音声認識装置。
  5.  前記ユーザの姿勢を検出する姿勢検出部をさらに備え、
     前記操作ボタン表示更新停止/再開部は、前記姿勢検出部により所定の姿勢が検出された場合に、前記ユーザが前記操作ボタンを押下しようとしていると判断して前記操作ボタンの表示内容の更新停止を指示する指示信号を出力する
     ことを特徴とする請求項1記載の音声認識装置。
  6.  前記表示部に表示されている操作ボタンが所定個数より少ない場合は、
    前記操作ボタン表示更新停止/再開部は、前記ユーザが前記操作ボタンを操作しようとしていると判断した場合であっても、前記操作ボタンの表示内容の更新停止を指示しない
    ことを特徴とする請求項1記載の音声認識装置。
  7.  前記操作ボタンの表示更新停止を意味する単語が記憶されている表示更新停止表現記憶部をさらに備え、
     前記操作ボタン表示更新停止/再開部は、前記音声認識部により出力された認識結果が前記表示更新停止表現記憶部に存在すると判断した場合に、前記操作ボタンの表示内容の更新停止を指示する指示信号を出力する
     ことを特徴とする請求項1記載の音声認識装置。
  8.  前記操作ボタン表示更新停止/再開部は、前記操作ボタンを前記ユーザが操作しようとしていると判断しなかった場合には、前記操作ボタンの表示内容の更新再開を指示する指示信号を出力し、
     前記表示制御部は、前記表示部における前記操作ボタンの更新が停止中であって、かつ、前記操作ボタン表示更新停止/再開部から前記操作ボタンの表示内容の更新再開の指示信号を受けた場合は、前記表示部に表示されている操作ボタンの表示更新を再開するよう前記表示部に対して指示を行う
     ことを特徴とする請求項1記載の音声認識装置。
  9.  前記操作ボタン表示更新停止/再開部は、前記操作ボタンの表示内容の更新を停止する指示信号を出力してから、当該操作ボタンに対する操作がされないまま所定時間経過した場合に、前記操作ボタンの表示内容の更新を再開する
     ことを特徴とする請求項1記載の音声認識装置。
  10.  前記音声認識装置は、移動体に搭載されるものであり、
     前記操作ボタン表示更新停止/再開部は、前記移動体の走行状態に応じて、前記所定時間を変更する
     ことを特徴とする請求項9記載の音声認識装置。
  11.  前記表示制御部は、前記操作ボタン表示更新停止/再開部から前記操作ボタンの表示内容の更新停止の指示信号を受けた場合に、前記表示部に表示されている操作ボタンの表示態様を変更する
     ことを特徴とする請求項1記載の音声認識装置。
  12.  前記表示態様とは、前記操作ボタンの大きさ、色、文字フォントの少なくとも1つ以上のことである
     ことを特徴とする請求項11記載の音声認識装置。
  13.  前記表示部に表示された操作ボタンの表示履歴を記憶する操作ボタン表示履歴記憶部をさらに備え、
     前記表示制御部は、前記操作ボタンの表示更新によって前記表示部から前記操作ボタンが消去される度に、当該消去された操作ボタンに関する情報を前記操作ボタン表示履歴記憶部に記憶するとともに、前記操作ボタンの表示更新停止中に、前記操作ボタンに対するスクロール操作が行われると、前記操作ボタン表示履歴記憶部に記憶されている操作ボタンを表示するよう前記表示部に対して指示を行う
     ことを特徴とする請求項1記載の音声認識装置。
  14.  前記表示部に表示された操作ボタンの表示履歴を記憶する操作ボタン表示履歴記憶部をさらに備え、
     前記表示制御部は、前記操作ボタンの表示更新によって前記表示部から前記操作ボタンが消去される度に、当該消去された操作ボタンに関する情報を前記操作ボタン表示履歴記憶部に記憶するとともに、前記操作ボタンの表示更新停止中に、前記操作ボタン表示履歴記憶部に記憶されている操作ボタンを一覧表示するよう前記表示部に対して指示を行う
     ことを特徴とする請求項1記載の音声認識装置。
  15.  前記操作ボタン生成部により生成された操作ボタンに関する情報を記憶する操作ボタン生成履歴記憶部をさらに備え、
     前記表示制御部は、前記操作ボタン生成部により生成された操作ボタンが、前記操作ボタンの表示更新停止中であったために前記表示部に表示されなかった操作ボタンに関する情報を、前記操作ボタン生成履歴記憶部に記憶させるよう指示を行うとともに、前記操作ボタンの表示更新再開の指示信号を受けると、前記表示部に表示中の操作ボタンに代えて、前記操作ボタン生成履歴記憶部に記憶されている情報に基づく操作ボタンを、前記表示部に表示するよう指示出力を行う
     ことを特徴とする請求項1記載の音声認識装置。
  16.  ユーザにより発話された音声の認識結果を表示する認識結果表示装置において、
     前記ユーザにより発話された音声を検知して取得する音声取得部と、
     前記認識結果表示装置が起動している間は常時、前記音声取得部により取得された音声データを音声認識サーバへ送信し、当該サーバにおいて音声認識された認識結果を取得する認識結果取得部と、
     前記認識結果取得部により取得された認識結果に対応する機能を有する操作ボタンを生成する操作ボタン生成部と、
     前記操作ボタン生成部により生成された操作ボタンを表示する表示部と、
     前記表示部における前記操作ボタンの表示内容を制御する表示制御部と、
     前記表示部に表示されている操作ボタンを前記ユーザが操作しようとしているか否かに基づいて、前記表示制御部に対して前記操作ボタンの表示内容の更新停止および再開を指示する指示信号を出力する操作ボタン表示更新停止/再開部とを備え、
     前記操作ボタン表示更新停止/再開部は、前記表示部に表示されている操作ボタンを前記ユーザが操作しようとしていると判断した場合に、前記操作ボタンの表示内容の更新停止を指示する指示信号を出力し、
     前記表示制御部は、前記操作ボタン表示更新停止/再開部から前記操作ボタンの表示内容の更新停止の指示信号を受けた場合に、前記表示部に表示されている操作ボタンの表示更新を停止するよう前記表示部に対して指示を行う
     ことを特徴とする認識結果表示装置。
  17.  ユーザにより発話された音声を認識して認識結果を表示装置に表示させる音声認識装置であって、
     前記音声認識装置が起動している間は常時、音声認識辞書を参照して、前記ユーザにより発話された音声を認識し、認識結果を出力する音声認識部と、
     前記音声認識部により出力された認識結果に対応する機能を有する操作ボタンを生成する操作ボタン生成部と、
     前記操作ボタン生成部により生成された操作ボタンを前記表示装置に表示する際の表示内容を制御する表示制御部と、
     前記表示装置に表示されている操作ボタンを前記ユーザが操作しようとしているか否かに基づいて、前記表示制御部に対して前記操作ボタンの表示内容の更新停止および再開を指示する指示信号を出力する操作ボタン表示更新停止/再開部とを備え、
     前記操作ボタン表示更新停止/再開部は、前記操作ボタンを前記ユーザが操作しようとしていると判断した場合に、前記操作ボタンの表示内容の更新停止を指示する指示信号を出力し、
     前記表示制御部は、前記操作ボタン表示更新停止/再開部から前記操作ボタンの表示内容の更新停止の指示信号を受けた場合に、前記表示装置に表示されている操作ボタンの表示更新を停止するよう前記表示装置に対して指示を行う
     ことを特徴とする音声認識装置。
  18.  音声認識装置が、ユーザにより発話された音声を認識して認識結果を表示装置に表示させる表示方法であって、
     音声認識部が、前記音声認識装置が起動している間は常時、音声認識辞書を参照して、前記ユーザにより発話された音声を認識し、認識結果を出力するステップと、
     ボタン生成部が、前記音声認識部により出力された認識結果に対応する機能を有する操作ボタンを生成するステップと、
     操作ボタン表示更新停止/再開部が、前記表示装置に表示されている操作ボタンを前記ユーザが操作しようとしていると判断した場合に、前記操作ボタンの表示内容の更新停止を指示する指示信号を出力するステップと、
     表示制御部が、前記操作ボタン表示更新停止/再開部から前記操作ボタンの表示内容の更新停止の指示信号を受けた場合に、前記表示装置に表示されている操作ボタンの表示更新を停止するよう前記表示装置に対して指示を行うステップと
     を備えたことを特徴とする表示方法。
PCT/JP2013/064072 2013-05-21 2013-05-21 音声認識装置、認識結果表示装置および表示方法 WO2014188512A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE112013007103.7T DE112013007103T5 (de) 2013-05-21 2013-05-21 Spracherkennungssystem, Erkennungsergebnis-Anzeigevorrichtung und Anzeigeverfahren
JP2015515343A JP5762660B2 (ja) 2013-05-21 2013-05-21 音声認識装置、認識結果表示装置および表示方法
US14/777,180 US9767799B2 (en) 2013-05-21 2013-05-21 Voice recognition system and recognition result display apparatus
CN201380076789.2A CN105246743B (zh) 2013-05-21 2013-05-21 语音识别装置、识别结果显示装置及显示方法
PCT/JP2013/064072 WO2014188512A1 (ja) 2013-05-21 2013-05-21 音声認識装置、認識結果表示装置および表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/064072 WO2014188512A1 (ja) 2013-05-21 2013-05-21 音声認識装置、認識結果表示装置および表示方法

Publications (1)

Publication Number Publication Date
WO2014188512A1 true WO2014188512A1 (ja) 2014-11-27

Family

ID=51933102

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/064072 WO2014188512A1 (ja) 2013-05-21 2013-05-21 音声認識装置、認識結果表示装置および表示方法

Country Status (5)

Country Link
US (1) US9767799B2 (ja)
JP (1) JP5762660B2 (ja)
CN (1) CN105246743B (ja)
DE (1) DE112013007103T5 (ja)
WO (1) WO2014188512A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016182856A (ja) * 2015-03-25 2016-10-20 株式会社デンソー 操作システム
JPWO2016103465A1 (ja) * 2014-12-26 2017-04-27 三菱電機株式会社 音声認識システム
WO2019123770A1 (ja) * 2017-12-20 2019-06-27 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP2019105756A (ja) * 2017-12-13 2019-06-27 トヨタ自動車株式会社 車載音声出力装置
JP2019139701A (ja) * 2018-02-15 2019-08-22 京セラドキュメントソリューションズ株式会社 電子機器
JP2019153146A (ja) * 2018-03-05 2019-09-12 コニカミノルタ株式会社 画像処理装置、情報処理装置及びプログラム
JP2020131805A (ja) * 2019-02-14 2020-08-31 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9786296B2 (en) * 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
WO2015186445A1 (ja) * 2014-06-03 2015-12-10 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
KR102301880B1 (ko) * 2014-10-14 2021-09-14 삼성전자 주식회사 전자 장치 및 이의 음성 대화 방법
US9741342B2 (en) * 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
JP6739907B2 (ja) * 2015-06-18 2020-08-12 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 機器特定方法、機器特定装置及びプログラム
JP2018194873A (ja) * 2015-10-05 2018-12-06 パイオニア株式会社 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
US9858927B2 (en) * 2016-02-12 2018-01-02 Amazon Technologies, Inc Processing spoken commands to control distributed audio outputs
US9898250B1 (en) * 2016-02-12 2018-02-20 Amazon Technologies, Inc. Controlling distributed audio outputs to enable voice output
JP6690484B2 (ja) * 2016-09-15 2020-04-28 富士通株式会社 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
KR102068182B1 (ko) * 2017-04-21 2020-01-20 엘지전자 주식회사 음성 인식 장치, 및 음성 인식 시스템
KR102552486B1 (ko) * 2017-11-02 2023-07-06 현대자동차주식회사 차량의 음성인식 장치 및 방법
JP7281683B2 (ja) * 2018-02-22 2023-05-26 パナソニックIpマネジメント株式会社 音声制御情報出力システム、音声制御情報出力方法およびプログラム
KR20230035157A (ko) 2018-05-07 2023-03-10 구글 엘엘씨 제2 세션 인터럽트 중단시 제1 자동화 어시스턴트 세션 자동 재개 여부 결정
CN113067769B (zh) * 2021-03-31 2023-03-10 百度在线网络技术(北京)有限公司 路由器重启方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005311883A (ja) * 2004-04-23 2005-11-04 Alpine Electronics Inc 電話帳システム及び電話装置
WO2006067855A1 (ja) * 2004-12-24 2006-06-29 Navitime Japan Co., Ltd. 先導経路案内システム、携帯型経路先導案内装置およびプログラム
JP2008014818A (ja) * 2006-07-06 2008-01-24 Denso Corp 作動制御装置、プログラム

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE391986T1 (de) * 2000-11-23 2008-04-15 Ibm Sprachnavigation in webanwendungen
US20030191629A1 (en) * 2002-02-04 2003-10-09 Shinichi Yoshizawa Interface apparatus and task control method for assisting in the operation of a device using recognition technology
JP2009116769A (ja) * 2007-11-09 2009-05-28 Sony Corp 入力装置、入力装置の制御方法、及びプログラム
CN101158584B (zh) * 2007-11-15 2011-01-26 熊猫电子集团有限公司 车载gps的语音目的地导航实现方法
JP2010205130A (ja) * 2009-03-05 2010-09-16 Denso Corp 制御装置
KR101639383B1 (ko) * 2009-11-12 2016-07-22 삼성전자주식회사 근접 터치 동작 감지 장치 및 방법
WO2012042578A1 (ja) * 2010-10-01 2012-04-05 三菱電機株式会社 音声認識装置
US9223461B1 (en) * 2010-12-08 2015-12-29 Wendell Brown Graphical user interface
US8898592B2 (en) * 2011-06-30 2014-11-25 International Business Machines Corporation Grouping expanded and collapsed rows in a tree structure
US9075514B1 (en) * 2012-12-13 2015-07-07 Amazon Technologies, Inc. Interface selection element display
CN104919278B (zh) * 2013-01-09 2017-09-19 三菱电机株式会社 语音识别装置及显示方法
HK1186912A2 (en) * 2013-01-25 2014-03-21 Zhipei Wang Remote control system and device
KR20140110452A (ko) * 2013-03-08 2014-09-17 삼성전자주식회사 전자장치에서 근접 터치를 이용한 사용자 인터페이스 제어 방법 및 장치
JP2014203208A (ja) * 2013-04-03 2014-10-27 ソニー株式会社 情報処理装置、情報処理方法及びコンピュータプログラム
JP6330565B2 (ja) * 2014-08-08 2018-05-30 富士通株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005311883A (ja) * 2004-04-23 2005-11-04 Alpine Electronics Inc 電話帳システム及び電話装置
WO2006067855A1 (ja) * 2004-12-24 2006-06-29 Navitime Japan Co., Ltd. 先導経路案内システム、携帯型経路先導案内装置およびプログラム
JP2008014818A (ja) * 2006-07-06 2008-01-24 Denso Corp 作動制御装置、プログラム

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2016103465A1 (ja) * 2014-12-26 2017-04-27 三菱電機株式会社 音声認識システム
JP2016182856A (ja) * 2015-03-25 2016-10-20 株式会社デンソー 操作システム
JP2019105756A (ja) * 2017-12-13 2019-06-27 トヨタ自動車株式会社 車載音声出力装置
US11468868B2 (en) 2017-12-20 2022-10-11 Sony Corporation Information processing apparatus and information processing method to perform transition display control
JPWO2019123770A1 (ja) * 2017-12-20 2021-03-11 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
WO2019123770A1 (ja) * 2017-12-20 2019-06-27 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
JP7226332B2 (ja) 2017-12-20 2023-02-21 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム
JP2019139701A (ja) * 2018-02-15 2019-08-22 京セラドキュメントソリューションズ株式会社 電子機器
JP7069795B2 (ja) 2018-02-15 2022-05-18 京セラドキュメントソリューションズ株式会社 電子機器
JP2019153146A (ja) * 2018-03-05 2019-09-12 コニカミノルタ株式会社 画像処理装置、情報処理装置及びプログラム
JP7192220B2 (ja) 2018-03-05 2022-12-20 コニカミノルタ株式会社 画像処理装置、情報処理装置及びプログラム
JP2020131805A (ja) * 2019-02-14 2020-08-31 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
JP7266418B2 (ja) 2019-02-14 2023-04-28 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム

Also Published As

Publication number Publication date
US20160035352A1 (en) 2016-02-04
CN105246743A (zh) 2016-01-13
CN105246743B (zh) 2017-03-29
JP5762660B2 (ja) 2015-08-12
US9767799B2 (en) 2017-09-19
JPWO2014188512A1 (ja) 2017-02-23
DE112013007103T5 (de) 2016-03-03

Similar Documents

Publication Publication Date Title
JP5762660B2 (ja) 音声認識装置、認識結果表示装置および表示方法
JP5921722B2 (ja) 音声認識装置および表示方法
JP6400109B2 (ja) 音声認識システム
JP5677650B2 (ja) 音声認識装置
JP5925313B2 (ja) 音声認識装置
JP5893217B2 (ja) 音声認識装置および表示方法
WO2013005248A1 (ja) 音声認識装置およびナビゲーション装置
CN105355202A (zh) 语音识别装置、具有语音识别装置的车辆及其控制方法
JP4466379B2 (ja) 車載音声認識装置
JP6214297B2 (ja) ナビゲーション装置および方法
US20100229116A1 (en) Control aparatus
WO2013069060A1 (ja) ナビゲーション装置および方法
JP6522009B2 (ja) 音声認識システム
JP6536018B2 (ja) 音声制御システム、音声制御方法、及び音声制御プログラム
US10158745B2 (en) Vehicle and communication control method for determining communication data connection for the vehicle
JP2008233009A (ja) カーナビゲーション装置及びカーナビゲーション装置用プログラム
JP2014232289A (ja) 誘導音声調整装置、誘導音声調整方法および誘導音声調整プログラム
JPWO2013069060A1 (ja) ナビゲーション装置、方法およびプログラム
JP2010205079A (ja) 手書文字入力システム
JPWO2013005248A1 (ja) 音声認識装置およびナビゲーション装置
JP2001249682A (ja) 登録名称の読み入力装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13885107

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015515343

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14777180

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 112013007103

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13885107

Country of ref document: EP

Kind code of ref document: A1