WO2014109017A1 - 音声認識装置および表示方法 - Google Patents

音声認識装置および表示方法 Download PDF

Info

Publication number
WO2014109017A1
WO2014109017A1 PCT/JP2013/050203 JP2013050203W WO2014109017A1 WO 2014109017 A1 WO2014109017 A1 WO 2014109017A1 JP 2013050203 W JP2013050203 W JP 2013050203W WO 2014109017 A1 WO2014109017 A1 WO 2014109017A1
Authority
WO
WIPO (PCT)
Prior art keywords
display
recognition
unit
recognition result
voice
Prior art date
Application number
PCT/JP2013/050203
Other languages
English (en)
French (fr)
Inventor
政信 大沢
友紀 古本
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2013/050203 priority Critical patent/WO2014109017A1/ja
Priority to CN201380070047.9A priority patent/CN104919278B/zh
Priority to JP2014556253A priority patent/JP5921722B2/ja
Priority to US14/648,935 priority patent/US9639322B2/en
Priority to DE112013006384.0T priority patent/DE112013006384T5/de
Publication of WO2014109017A1 publication Critical patent/WO2014109017A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/265Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network constructional aspects of navigation devices, e.g. housings, mountings, displays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0967Systems involving transmission of highway information, e.g. weather, speed limits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present invention relates to a voice recognition device that recognizes a voice uttered by a user and displays a recognition result, and a display method for displaying the recognition result on a display device.
  • Patent Document 1 discloses a voice recognition device that recognizes voice spoken by a user and displays a recognition result based on the usage status of a device that can be operated by the user, biometric information of the user, and the like.
  • the load amount of the user is estimated and the load amount is large (that is, when the user does not frequently view the display by the display means)
  • the recognition result is easily displayed and the load amount is small.
  • it is described that the recognition result is difficult to be displayed.
  • the output frequency of the recognition result can be adjusted only based on the load of the user, and thus information on the map that is important for the user is displayed. Even so, there is a problem that the voice recognition result is displayed and the user is prevented from acquiring important information.
  • the present invention has been made in order to solve the above-described problems, and is capable of adjusting the output of the speech recognition result according to the display priority of the recognition result with respect to display information other than the speech recognition result.
  • An object is to provide a recognition device and a display method for displaying the recognition result on a display device.
  • the present invention provides a speech recognition apparatus that recognizes speech uttered by a user and displays a recognition result.
  • a voice acquisition unit for detecting and acquiring voice spoken by the user; Speech recognition that recognizes speech data acquired by the speech acquisition unit and outputs a recognition result based on a predetermined determination likelihood at all times while the speech recognition device is activated
  • a display unit for displaying a recognition result output by the voice recognition unit;
  • a display control unit that outputs an instruction to display the recognition result output by the voice recognition unit in a predetermined recognition result display area of the display unit;
  • a display priority calculation unit for calculating the display priority of the recognition result in the predetermined recognition result display area;
  • a recognition result output control unit that determines the predetermined determination likelihood based on the display priority calculated by the display priority calculation unit and sets the predetermined determination likelihood in the voice recognition unit.
  • the output of the speech recognition result can be adjusted according to the priority of the recognition result display with respect to the display information other than the speech recognition result, it is important for the user by displaying the recognition result.
  • the acquisition of other information is not hindered, and convenience is improved.
  • FIG. 3 is a block diagram illustrating an example of a configuration of a sound processing unit according to Embodiment 1.
  • FIG. It is a figure which shows the example of a screen in which the operation button which is a recognition result is displayed on the recognition result display area of the left part in a display part in the state in which the map screen is displayed on a display part. It is a figure which shows the relationship between a map screen, the advancing direction of the own vehicle, and a recognition result display area. It is a table
  • surface which shows a response
  • surface which shows an example of the display priority adjustment amount of the recognition result for every road classification.
  • surface which shows an example of the display priority adjustment amount of the recognition result for every area classification.
  • FIG. 10 is a block diagram illustrating an example of a configuration of an audio processing unit according to Embodiment 2.
  • FIG. It is a table
  • 6 is a flowchart illustrating processing of the speech recognition apparatus according to the second embodiment.
  • FIG. 10 is a block diagram illustrating an example of a configuration of an audio processing unit according to Embodiment 3.
  • FIG. It is a figure which shows the relationship between the display priority of a recognition result, and the number of recognition object words. It is a table
  • 10 is a flowchart illustrating processing of the speech recognition apparatus according to the third embodiment. It is a figure which shows the outline
  • the present invention is a speech recognition device that recognizes speech uttered by a user, and recognizes speech whenever the speech recognition device is activated.
  • a case where the voice recognition device of the present invention is applied to a navigation device mounted on a moving body such as a vehicle will be described as an example.
  • Navigation for a moving body other than a vehicle will be described. It may be a device or may be applied to a server of a navigation system.
  • FIG. 1 is a block diagram showing an example of a navigation apparatus to which a speech recognition apparatus according to Embodiment 1 of the present invention is applied.
  • This navigation device includes a control unit 1, a GPS receiver 2, a self-contained navigation sensor 3, a current position detection unit 4, a traffic information transmission / reception unit 5, a route calculation unit 6, a guidance guide unit 7, a microphone 8, a voice processing unit 9, and a voice.
  • a synthesis unit 10, a map information storage unit 11, a map information acquisition unit 12, an instruction input unit 13, a display control unit 14, a display unit 15, a voice control unit 16, and a speaker 17 are provided.
  • the control unit 1 controls the operation of the entire navigation device.
  • the GPS receiver 2 is used to apply a satellite navigation system that measures the current position of a moving body using radio waves from GPS satellites.
  • the self-contained navigation sensor 3 is for applying the self-contained navigation system by detecting the current position and direction of the moving body using an azimuth sensor, a travel distance sensor, and the like.
  • the current position detection unit 4 receives signals from the GPS receiver 2 and the self-contained navigation sensor 3, uses a satellite navigation system and a self-contained navigation system together, and performs map matching based on map information described later, Detect position and direction of travel. Note that only one of the navigation systems may be adopted.
  • the traffic information transmitting / receiving unit 5 is provided by traffic information (represented by VICS (Vehicle Information & Communication System / registered trademark)) and DSRC (Dedicated Short Range Communication) provided by FM multiplex broadcasting, radio wave beacons, and optical beacons. Receive traffic information. Also, information related to the host vehicle, for example, probe information such as the current position is transmitted.
  • VICS Vehicle Information & Communication System / registered trademark
  • DSRC Dedicated Short Range Communication
  • the route calculation unit 6 includes a point set by the user through an instruction input unit 13 and a voice operation described later, position information detected by the current position detection unit 4, and map information acquired by a map information acquisition unit 12 described later. Based on the above, the optimum route (hereinafter referred to as “recommended route”) from the current position to the set point is calculated.
  • the guidance guide unit 7 is based on the map information acquired by the map information acquisition unit 12, and a guidance guide diagram and guidance message for performing guidance when the vehicle moves along the route calculated by the route calculation unit 6. Is generated.
  • the microphone 8 acquires (sound collection) the voice uttered by the user.
  • the microphone 8 includes, for example, an omnidirectional (or omnidirectional) microphone, an array microphone in which a plurality of omnidirectional (or omnidirectional) microphones are arranged in an array, and the directional characteristics can be adjusted.
  • the voice processing unit 9 processes the voice acquired by the microphone 8, and performs voice recognition here. Details will be described later with reference to FIG.
  • the voice synthesizer 10 generates a synthesized voice from the input character or character string. For example, the speech synthesis is performed using the method disclosed in “Sadaaki Furui“ Speech Information Processing ”Chapter 4”.
  • the map information storage unit 11 includes, for example, “road information” about roads, “facility information” (type, name, position, etc.) about facilities, “various character information” (place names, facility names, intersection names, road names, etc.), And “various icon information” representing facilities and road numbers, and guidance information for use in the guidance and guidance section (position information of predetermined key points, drawing information at the key points, and voice guidance information, etc.) Stores data.
  • the map information storage unit may be, for example, a memory such as an HDD (Hard Disk Drive), an SD card using a semiconductor element, or the like, which exists on the network and can acquire information such as road data via the communication network ( Map data acquisition unit).
  • the map information acquisition unit 12 Upon receiving a map information acquisition instruction, a facility information acquisition instruction, or the like, the map information acquisition unit 12 searches the map information storage unit 11 to acquire necessary information.
  • the instruction input unit 13 inputs a user's manual instruction.
  • the instruction is given by a hardware switch provided in the navigation device, a touch switch set and displayed on a display described later, or a recognition device that recognizes an instruction from a remote control installed on a handle or the like or a separate remote control. Is mentioned.
  • the display control unit 14 acquires necessary information from the map information acquisition unit 12, the current position detection unit 4, the traffic information transmission / reception unit 5, the route calculation unit 6, the guidance guide unit 7, and the voice processing unit 9, and a display unit described later 15 generates information to be drawn, and outputs an instruction to display the information on the display unit 15.
  • the display unit 15 is a display-integrated touch panel, and includes, for example, an LCD (Liquid Crystal Display) and a touch sensor, and performs drawing on the screen based on an instruction from the display control unit 14. Note that any one of a pressure-sensitive method, an electromagnetic induction method, a capacitance method, or a combination of these may be used for the touch panel. An organic EL display may be used instead of the LCD.
  • the voice control unit 16 instructs the speaker 17 to output the voice information for guidance from the guidance guide unit 7 and the synthesized voice generated by the voice synthesis unit 10.
  • the speaker 17 outputs sound based on an instruction from the sound control unit 16.
  • FIG. 2 is a block diagram illustrating an example of the configuration of the audio processing unit 9 according to the first embodiment.
  • the voice processing unit 9 includes a voice acquisition unit 18, a voice recognition unit 19, a voice recognition dictionary 20, a display priority calculation unit 21, and a recognition result output control unit 22.
  • the voice acquisition unit 18 takes in the user utterance acquired by the microphone 8, that is, the input voice, and performs A / D (Analog / Digital) conversion, for example, by PCM (Pulse Code Modulation).
  • a / D Analog / Digital
  • PCM Pulse Code Modulation
  • the voice recognition unit 19 detects a voice section corresponding to the content uttered by the user from the voice signal digitized by the voice acquisition unit 18, extracts a feature quantity of voice data in the voice section, and uses the feature quantity as the feature quantity. Based on this, recognition processing is performed using the speech recognition dictionary 20, and a recognition result having a likelihood equal to or higher than a predetermined determination likelihood (or larger than the predetermined determination likelihood) is output.
  • the recognition process may be performed using a general method such as an HMM (Hidden Markov Model) method.
  • a button for instructing the start of voice recognition (hereinafter referred to as a “voice recognition start instruction unit”) is displayed on the touch panel or installed on the handle. Then, the voice uttered after the user presses the voice recognition start instruction unit is recognized. That is, the voice recognition start instruction unit outputs a voice recognition start signal, and when the voice recognition unit receives the signal, it corresponds to the content uttered by the user from the voice data acquired by the voice acquisition unit after receiving the signal.
  • the speech section to be detected is detected, and the above-described recognition process is performed.
  • the voice recognition unit 19 always recognizes the content spoken by the user without the voice recognition start instruction by the user as described above. That is, the voice recognition unit 19 does not receive the voice recognition start signal, but always uses the voice data acquired by the voice acquisition unit 18 from the voice data acquired by the voice acquisition unit 18 when the navigation device incorporating the voice recognition device is activated. Detects a speech section corresponding to the content uttered, extracts a feature amount of speech data in the speech section, performs recognition processing using the speech recognition dictionary 20 based on the feature amount, and outputs a speech recognition result Repeat the process. The same applies to the following embodiments.
  • a predetermined initial value (for example, 500) is set in advance as the predetermined determination likelihood used when the speech recognition unit 19 outputs the recognition result. Thereafter, the determination result is determined by the recognition result output control unit 22 described later. Value is set.
  • the display control unit 14 outputs an instruction to the display unit 15 to display the recognition result by the voice recognition unit 19 in the recognition result display area 24 (see FIG. 3) set in advance as an area for displaying the recognition result.
  • FIG. 3 shows an example of a screen in which operation buttons 23 that are recognition results are displayed in the recognition result display area 24 in the left part of the display unit 15 in a state where the map screen is displayed together with the host vehicle 31 on the display unit 15.
  • the recognition result display area 24 is fixed in advance, for example, as shown in FIG. 3, such as the left part in the display unit 15 or the upper part in the display unit 15 as shown in FIG.
  • the set area may be set, or the user may arbitrarily set the area.
  • the recognition result by the voice recognition unit 19 is displayed as an operation button 23 in the recognition result display area 24 of the display unit 15 as shown in FIG.
  • a function corresponding to the recognition result is assigned to the displayed recognition result (operation button 23), and if the operation button 23 is selected by an operation from the instruction input unit 13 or a voice operation, the function is assigned to the function.
  • the function being executed is executed.
  • the display control unit 14 displays 15 is instructed to end the recognition result display (display of the operation button 23). As a result, the display of the operation button 23 as the recognition result disappears.
  • the voice recognition unit 19 recognizes a genre name to which a facility belongs (hereinafter referred to as “facility genre name”) such as “gas station” or “convenience store” from the user's utterance, and outputs a recognition result.
  • the recognition result is output based on the determination likelihood set by the control unit 22.
  • the display control unit 14 outputs an instruction to display the output recognition result as an operation button 23 as shown in FIG.
  • the operation button 23 is assigned a function for searching for facilities in the corresponding genre.
  • the facility search is performed in the genre associated with the operation button 23.
  • An instruction signal to perform is output, and the map information acquisition unit 12 acquires facility information from the map information storage unit 11 based on the signal.
  • the speech recognition unit 19 will be described assuming that the facility genre name is recognized by keyword spotting, which is a well-known technique. Instead of recognizing the facility genre name by keyword spotting, a method of performing all recognition by large vocabulary continuous speech recognition and extracting the facility genre name by morphological analysis of the recognition result may be used.
  • the voice recognition unit 19 may recognize not the facility genre name but, for example, an artist name, an album name, a song title name, a command for operating the car navigation system, and the like.
  • the function assigned to the displayed recognition result (operation button 23) may be a function of searching for a song by artist name, album name, song title name, or a function corresponding to a command. Also good.
  • the display priority calculation unit 21 outputs the current position information detected by the current position detection unit 4, the traffic information received by the traffic information transmission / reception unit 5, the route information calculated by the route calculation unit 6, and the guidance guide unit 7. On the basis of the obtained guidance information, the information acquired by the map information acquisition unit 12, etc., it is determined whether or not it corresponds to a predetermined item (1) to (8) described later, and based on each determination result The display priority adjustment amount for all items to be determined is determined, and the recognition result display priority in the recognition result display area 24 is calculated.
  • the display priority represents the degree to which the voice recognition result should be displayed with priority over display information other than the voice recognition result (for example, map information).
  • the lower the display priority the higher the likelihood of speech recognition determination, making it difficult for speech recognition, resulting in a lower output frequency (display frequency) of speech recognition results. That is, there is a negative correlation between the display priority and the determination likelihood used for speech recognition.
  • each item is assumed to be classified into the following major items (1) to (8), and the display priority calculation unit 21 selects at least one of the major items (1) to (8). It is determined. Note that one or more items may be determined in advance as the large items to be determined, or the user may arbitrarily select them on the setting screen.
  • FIG. 4 is a diagram showing the relationship between the map screen, the traveling direction of the host vehicle, and the recognition result display area 24.
  • the traveling direction means “the direction in which the vehicle is actually traveling”. For example, when the map is based on the north and the vehicle 31 is traveling in the west direction, the display is as shown in FIG. FIG. 4A shows a case where the recognition result display area 24 is the left portion in the display unit 15.
  • the traveling direction means “above the display screen”.
  • a display as shown in FIG. FIG. 4B shows a case where the recognition result display area 24 is the upper part in the display unit 15.
  • the recognition result display area 24 is in the direction after the vehicle 31 turns to the right (or left)
  • the “right (or left) turn is defined as the traveling direction.
  • the display priority calculation unit 21 stores information about the position and range of the recognition result display area 24 in the display unit 15 in advance. It is good to acquire from there.
  • the display priority calculation unit 21 acquires the current traveling direction of the host vehicle from the current position detecting unit 4, and the traveling direction and the position of the recognition result display area 24 are determined. It is determined whether or not they match.
  • the display priority calculation unit 21 determines whether or not the position of the recognition result display area 24 is above the display screen.
  • the recognition result display area 24 when the recognition result display area 24 exists in the traveling direction of the own vehicle, it may be further determined whether traffic information is displayed on the road in the traveling direction. For example, as shown in FIG. 4D, it is determined whether or not traffic information 32 is displayed on the road in the traveling direction.
  • the traffic information may represent traffic information such as traffic congestion, construction work, an accident, and other traffic information.
  • the display priority calculation unit 21 may acquire the traffic information from the traffic information transmission / reception unit 5.
  • FIG. 5 is a table showing an example of the correspondence between the information on the traveling direction of the host vehicle and the display priority adjustment amount of the recognition result.
  • the information on the traveling direction of the own vehicle is important for the user, and an adjustment amount for reducing the display priority is set. Further, when traffic information is displayed on the road in the traveling direction of the vehicle, an adjustment amount for further reducing the display priority is set on the assumption that there is more important information for the user.
  • the initial value of the display priority is 50, and the display priority is a value from 0 to 100, but is not limited to these values.
  • the initial value of the display priority and the display priority adjustment amount for each item described later when calculating the display priority considering the range that the display priority can take and other large items described later, etc. It may be changed accordingly.
  • the display priority when the calculation result of the display priority exceeds the upper limit (lower limit), the display priority is set to 100 (0).
  • the display priority calculation method will be described using specific numerical values, taking as an example the case where the determination target is only this item (1).
  • the determination target is only this item (1).
  • FIG. 4D when the map is displayed on the north reference, the traveling direction of the own vehicle 31 is westward, and the recognition result display area 24 is set to the left in the display unit 15, the recognition is performed. Since the result display area 24 is in the traveling direction of the host vehicle 31, the display priority calculation unit 21 refers to the table of FIG.
  • FIG. 6 is a diagram illustrating a screen example in which a facility icon 33 such as a parking lot is displayed in the recognition result display area 24 in a state where a map screen is displayed on the display unit 15.
  • the display priority calculation unit 21 determines whether or not a facility icon 33 such as a parking lot is displayed in the recognition result display area 24.
  • the display priority calculation unit 21 may determine not only the presence / absence of the facility icon 33 displayed in the recognition result display area 24 but also the number of the facility icons 33.
  • the display priority calculation unit 21 acquires map information generated by the display control unit 14 and determines whether or not there is information regarding the facility icon 33 and the number thereof for a range corresponding to the recognition result display region 24.
  • the point indicated by the facility icon 33 is an important point that the user is likely to stop by. Therefore, when the facility icon 33 is in the recognition result display area 24, display priority of the voice recognition result is given. An adjustment amount for decreasing the degree is set.
  • FIG. 7 is a table showing the correspondence between the number of facility icons 33 and the display priority adjustment amount. For example, as shown in FIG. 6, when there are three facility icons 33 in the recognition result display area 24, ⁇ 6 is determined as the display priority adjustment amount corresponding to the number by referring to FIG. Is done.
  • the adjustment amount of the display priority for this item (2) is determined by the facility icon 33 in the recognition result display area. It is “ ⁇ 10” because it is within 24, and “ ⁇ 6” that it is three, so that the total is “ ⁇ 16”.
  • the display priority calculation unit 21 acquires map information generated by the display control unit 14 and relates to a destination, a transit point, a registered location, and the like set by the user for a range corresponding to the recognition result display region 24.
  • the presence / absence of information hereinafter referred to as “setting point icon”) and the number thereof are determined.
  • an adjustment amount for decreasing the display priority is set. For example, when the setting point icon is in the recognition result display area 24, the display priority is reduced by setting the display priority adjustment amount to -5. Further, as the number of setting point icons increases, an adjustment amount that further decreases the display priority may be set in the same manner as (2) described above.
  • the display priority calculation unit 21 acquires the vehicle position information detected by the current position detection unit 4, and the map information acquisition unit 12 acquires the vehicle information from the map information storage unit 11 using the vehicle position information.
  • the road type of the road on which the vehicle is traveling is acquired and determined. At this time, examples of the road type include “highway”, “general road”, and “tunnel”.
  • FIG. 8 is a table showing an example of the display priority adjustment amount of the recognition result for each road type.
  • the surrounding information other than the parking area, the service area, and the entrance / exit is not important for the user, and an adjustment amount is set to increase the display priority of the recognition result.
  • the amount of adjustment for decreasing the display priority is set on the assumption that the importance of surrounding information is high for the user.
  • an adjustment amount for increasing the display priority is set on the assumption that there is no peripheral information important to the user.
  • the display priority calculation unit 21 acquires the vehicle position information detected by the current position detection unit 4, and the map information acquisition unit 12 acquires the vehicle information from the map information storage unit 11 using the vehicle position information.
  • the area type of the area where the vehicle is traveling is acquired and determined. At this time, the area type includes, for example, “urban area”, “outside the city”, “Yamanaka”, “maritime”, and the like.
  • FIG. 9 is a table showing an example of the display priority adjustment amount of the recognition result for each region type.
  • an adjustment amount for reducing the display priority of the voice recognition result is set.
  • an adjustment amount is set to decrease the display priority.
  • the adjustment amount is set so that Furthermore, in the mountains and the sea (for example, traveling on the Akashi Kaikyo Bridge), the amount of information displayed on the map is small, so an adjustment amount for increasing the display priority is set.
  • an adjustment amount that increases the display priority may be set.
  • the display priority calculation unit 21 acquires and determines the display scale of the current map from, for example, the display control unit 14 or a setting storage unit (not shown) that stores various settings by the user. At this time, as the display scale, “25 m”, “50 m”, “100 m”,..., “500 m”, “1 km”, “3 km”, “5 km”, and the like are set as the distance corresponding to the reference scale.
  • FIG. 10 is a table showing an example of the display priority adjustment amount of the recognition result for each display scale of the map.
  • the adjustment amount is set. For example, the display priority adjustment value of the maximum display scale is set to “+10”, and the display priority adjustment amount is decreased as the display scale decreases.
  • FIG. 11 is a diagram illustrating a screen example in which guidance information 34 and warning information 35 are displayed in the recognition result display area 24 in a state where a map screen is displayed on the display unit 15.
  • the display priority calculation unit 21 displays an intersection guidance display as shown in FIG. 11 (a), an oncoming vehicle approach warning display obtained by DSRC as shown in FIG. 11 (b), a pedestrian approach warning display, a disaster It is determined whether guidance information such as information display or warning information is displayed.
  • the display priority calculation unit 21 acquires map information generated by the display control unit 14, and outputs guidance information or warning information such as intersection guidance display or warning display for a range corresponding to the recognition result display area 24. It is determined whether or not it has been done.
  • the display position of the guidance information / warning information is set to the same position as the recognition result display area 24, the display priority calculation unit 21 acquires the current position from the current position detection unit 4, and the position information
  • the map information acquisition unit 12 can be used to check whether or not the map information storage unit 11 has guidance information at the position, and the warning information can be checked with the traffic information transmission / reception unit 5. do it.
  • FIG. 12 is a table showing an example of the correspondence between the guidance information / warning information and the display priority adjustment amount of the recognition result.
  • Guidance information / warning information is considered to be more important to the user than other information, so a priority adjustment amount is set so that the amount of decrease in display priority is greater than items belonging to other large items. Has been.
  • the target of speech recognition is a vocabulary related to a song, such as an artist name, an album name, and a song title name.
  • the target of speech recognition is a vocabulary related to a song, such as an artist name, an album name, and a song title name.
  • those vocabularies are recognized by voice, artist name operation buttons, album name operation buttons, song name operation buttons, and the like are displayed as recognition results, and a song is played when the user presses the button. .
  • the display screen displayed on the display unit 15 is an AV screen (song playback screen)
  • the user is listening to music and is related to playback of a song as a voice recognition result. Even if an operation button is displayed, it is considered that the operation button is not disturbed, but rather that it is hoped that the song will be played back by that operation button. Set the degree adjustment amount.
  • the display screen displayed on the display unit 15 is a normal map screen
  • the user wants to see the map information related to the route guidance, and the operation buttons related to the reproduction of the song as the voice recognition result. If it is displayed, it is considered that the driving is disturbed, so the priority adjustment amount is set so that the display priority of the recognition result is lowered.
  • FIG. 13 is a table showing an example of the display priority adjustment amount of the recognition result for the combination of the content of the recognition result and the displayed display screen.
  • the display priority calculation unit 21 determines the display priority adjustment amount for each item to be determined in advance for the large items (1) to (8), and sets the display priority. calculate.
  • the recognition result output control unit 22 determines a determination likelihood corresponding to the display priority calculated by the display priority calculation unit 21 and sets it for the voice recognition unit 19. Then, the speech recognition unit 19 outputs the recognition result when the likelihood of the recognition result is equal to or larger than the set determination likelihood (or larger than the determination likelihood).
  • the recognition result output control unit 22 sets the determination likelihood corresponding to the display priority calculated by the display priority calculation unit 21. This can be determined and is set for the voice recognition unit 19. Thereby, when the display priority is equal to or lower than the predetermined value (or less than the predetermined value), the predetermined determination likelihood set in the voice recognition unit 19 is a high value, and thus the recognition result is not output. .
  • the recognition result output control unit 22 may stop and restart the recognition processing of the voice recognition unit 19 based on the display priority calculated by the display priority calculation unit 21 (the following embodiment) The same applies to the above). That is, when the display priority is equal to or lower than the predetermined value (or less than the predetermined value), the recognition process of the voice recognition unit 19 is stopped, and the display priority is higher than the predetermined value (or higher than the predetermined value). In this case, the recognition process of the voice recognition unit 19 may be resumed.
  • FIG. 15 is a flowchart showing processing for displaying the operation button 23 as a voice recognition result.
  • the voice acquisition unit 18 takes in a user utterance collected by the microphone 8, that is, an input voice, and performs A / D conversion by, for example, PCM (step ST01).
  • the voice recognition unit 19 detects a voice section corresponding to the content uttered by the user from the voice signal captured by the voice acquisition unit 18 and digitized, and determines the feature amount of the voice data in the voice section. Extraction is performed, and recognition processing is performed with reference to the speech recognition dictionary 20 based on the feature amount (step ST02).
  • the speech recognition unit 19 determines whether or not the likelihood of the recognition result is equal to or greater than a predetermined determination likelihood (or larger than the predetermined determination likelihood) (step ST03). If the likelihood of the recognition result is equal to or greater than the predetermined determination likelihood (or greater than the predetermined determination likelihood) (YES in step ST03), the recognition result is output (step ST04).
  • step ST05 the display control unit 14 instructs the display unit 15 to display the operation button 23 corresponding to the recognition result output by the voice recognition unit 19 in the recognition result display area 24 (step ST05).
  • the operation button 23 is displayed on the part 15 (step ST06).
  • the process returns to step ST01.
  • FIG. 16 is a flowchart showing processing after the operation button 23 is displayed.
  • the control unit 1 determines whether or not the displayed operation button 23 has been selected (step ST11).
  • the operation button 23 is selected (in the case of YES in step ST11)
  • an instruction for executing the function assigned to the selected operation button 23 is output, and processing for executing the function is performed. Performed (step ST12).
  • Step ST11 when the operation button 23 has not been selected (NO in step ST11), it is determined whether or not the elapsed time since the display of each operation button 23 displayed exceeds a predetermined time. (Step ST13). In addition, when each operation button 23 is displayed, the elapsed time after the operation button is displayed is measured.
  • step ST13 If the measurement time exceeds the predetermined time (YES in step ST13), the display control unit 14 is instructed to end the display of the operation button 23 (step ST14). On the other hand, if the predetermined time has not been exceeded (NO in step ST13), the process returns to step ST11 to determine whether or not the operation button 23 has been selected.
  • FIG. 17 is a flowchart showing processing for setting the determination likelihood.
  • the display priority calculation unit 21 determines the display priority for a large item (one or more of the items (1) to (8) described above) that is determined in advance or selected by the user. (Step ST31), and display priority is calculated based on the acquired information and a predetermined priority adjustment amount (step ST32).
  • the information necessary for determining the display priority in step ST31 includes the vehicle position information, the self-location information, and the like.
  • the vehicle traveling direction, the position of the recognition result display area 24, map information, and traffic information (including traffic jam information and construction information), and the display priority calculation unit 21 acquires the information (step ST31).
  • FIG. 18 is a diagram illustrating a screen transition example based on the relationship between the traveling direction of the own vehicle and the operation button that is the recognition result displayed in the recognition result display area in a state where the map screen is displayed on the display unit 15. .
  • the initial value of the display priority is set to 50.
  • FIG. 18A is the same diagram as FIG. 4D, but for example, as shown in FIG. 18A, the map is displayed on the north reference, the traveling direction of the own vehicle 31 is west, and the recognition result.
  • the display priority calculation unit 21 refers to the table of FIG.
  • the display priority adjustment amount is determined to be ⁇ 30.
  • the voice acquisition unit 18 takes in the voice “convenience store” and performs A / D conversion by, for example, PCM (step ST01 in FIG. 15).
  • the speech recognition unit 19 performs recognition processing of the captured speech, and the word “convenience store” is speech-recognized (step ST02). At this time, it is assumed that the likelihood of this voice recognition is 520.
  • the speech recognition unit 19 determines that the likelihood 520 of the recognition result is less than the predetermined determination likelihood 660 (in the case of NO in step ST03), and proceeds to the processing of step ST01 without outputting the recognition result. Return. As a result, the operation button 23 that is the recognition result is not displayed on the display unit 15, and the display screen shown in FIG. 18A remains displayed.
  • the host vehicle has passed through the traffic jam area and changed its traveling direction to travel northward.
  • the recognition result display area 24 is not on the traveling direction of the host vehicle 31
  • the display priority adjustment amount is determined to be zero.
  • the voice acquisition unit 18 takes in the voice “convenience store” and performs A / D conversion using, for example, PCM (see FIG. 15 step ST01).
  • the speech recognition unit 19 performs recognition processing of the captured speech, and the word “convenience store” is speech-recognized (step ST02). Also in this case, it is assumed that the likelihood of this voice recognition is 520.
  • the speech recognition unit 19 determines that the likelihood 520 of the recognition result is greater than or equal to the predetermined determination likelihood 500 (in the case of YES in step ST03), and outputs the recognition result (step ST04). Then, the display control unit 14 instructs the display unit 15 to display the operation button 23 corresponding to the recognition result “convenience store” output by the voice recognition unit 19 in the recognition result display area 24 (step ST05). ). As a result, as shown in FIG. 18C, the display unit 15 displays the operation button 23 that is a voice recognition result of “convenience store” (step ST06).
  • the recognition result display area 24 when the recognition result display area 24 is in the traveling direction of the host vehicle, the points indicated by the facility genre icons that are likely to stop by the user in the recognition result display area 24 When there is a point set by the user, when guidance information / warning information is displayed in the recognition result display area 24, the output frequency of the recognition result is decreased by increasing the determination likelihood in the voice recognition unit 19. If this is not the case, the output of the recognition result is increased by decreasing the determination likelihood. Accordingly, when information that is important to the user is to be hidden by the recognition result display, suppressing the recognition result display reduces an obstacle to acquisition of important information by the user, while important information is not displayed. When it is determined that it is not hidden, the user's request included in the utterance is easily displayed as a recognition result, and convenience can be improved.
  • the recognition result display is displayed. By suppressing, it becomes less likely that the acquisition of important information by the user will be hindered. Otherwise, the user's request included in the utterance can be easily displayed as a recognition result, and convenience can be improved. .
  • the output frequency of the recognition result can be flexibly adjusted according to various situations.
  • the voice recognition result (operation button 23) is displayed with priority on display information (for example, map information) other than the voice recognition result (operation button 23).
  • the display priority is described as representing the degree to which information other than the voice recognition result (operation button 23) should be displayed with priority over the voice recognition result (operation button 23). It is good.
  • the increase / decrease amount of the display priority corresponding to the item determined by the display priority calculation unit 21 is obtained by inverting the increase / decrease amount described above, and the display priority and the recognition result determination likelihood are positively correlated.
  • the display priority may be calculated constantly or at a predetermined interval.
  • FIG. FIG. 19 is a block diagram showing an example of the configuration of the audio processing unit 9 according to Embodiment 2 of the present invention.
  • symbol is attached
  • the second embodiment shown below is different from the first embodiment in that it further includes a voice recognition dictionary switching information storage unit 25, and the voice recognition dictionary 20 is composed of a plurality of voice recognition dictionaries 1 to N. .
  • the recognition result output control unit 22 does not set the determination likelihood corresponding to the display priority for the speech recognition unit 19, but determines the speech recognition dictionary name corresponding to the display priority and determines the speech recognition dictionary. 20 is different.
  • the voice recognition dictionary switching information storage unit 25 stores the display priority and the voice recognition dictionary name in association with the display priority.
  • FIG. 20A is a table showing an example of the correspondence between the display priority and the voice recognition dictionary name stored in the voice recognition dictionary switching information storage unit 25.
  • FIG. 20B is a table showing an example of the correspondence between the speech recognition dictionary name and the number of recognized words stored in the dictionary.
  • the number of recognized words stored in the speech recognition dictionary having the speech recognition dictionary name corresponding to the display priority has a positive correlation.
  • the display priority indicates the degree to which information other than the operation button 23 should be displayed with respect to the operation button 23
  • the voice recognition dictionary having the voice recognition dictionary name corresponding to the display priority has a negative correlation.
  • the recognition result output control unit 22 refers to the voice recognition dictionary switching information storage unit 25, determines a voice recognition dictionary name corresponding to the display priority output by the display priority calculation unit 21, and the voice recognition unit 19
  • the speech recognition dictionary 20 to be referred to is switched to the speech recognition dictionary 20 having the speech recognition dictionary name. For example, when the display priority is 10, the voice recognition dictionary 20 with the voice recognition dictionary name “Adic” is switched to, and when the display priority is 50, the voice recognition dictionary name “Cdic” is changed. Switch to dictionary.
  • step ST41 and step ST42 are the same as step ST31 and step ST32 of the first embodiment, description thereof is omitted.
  • the recognition result output control unit 22 refers to the voice recognition dictionary switching information storage unit 25 to determine a voice recognition dictionary name corresponding to the display priority output by the display priority calculation unit 21 (step ST43).
  • the speech recognition dictionary 20 referred to by the recognition unit 19 is switched to the speech recognition dictionary 20 having the speech recognition dictionary name (step ST44).
  • the output frequency of the recognition result is adjusted by switching to the speech recognition dictionary having the number of recognized words corresponding to the display priority. , User convenience can be improved.
  • FIG. FIG. 22 is a block diagram showing an example of the configuration of the audio processing unit 9 according to Embodiment 3 of the present invention.
  • symbol is attached
  • a recognition target word number determination unit 26 and a recognition word candidate storage unit 27 are further provided. Further, the recognition result output control unit 22 does not set the determination likelihood corresponding to the display priority for the speech recognition unit 19, but based on the number of recognition target words corresponding to the display priority. The difference is that 20 is dynamically generated.
  • the recognition target word number determination unit 26 determines the number of recognition target words corresponding to the display priority output by the display priority calculation unit 21.
  • the display priority and the number of recognition target words have a positive correlation.
  • the number of recognition target words may be increased stepwise based on the display priority.
  • the display priority indicates that the information other than the operation button 23 should be displayed with priority over the operation button 23
  • the number of recognition target words corresponding to the display priority is negative. It has a correlation.
  • the recognition word candidate storage unit 27 stores readings of recognition target candidate words and recognition ranks.
  • the recognition order represents the ease of selection by the recognition result output control unit 22 to be described later, and is selected more easily as the recognition order is lower.
  • FIG. 24 is a table showing an example of the correspondence between the reading of the recognition target candidate words stored in the recognition word candidate storage unit 27 and the recognition order.
  • the description will be made assuming that the smaller the recognition order, the easier it is to select. However, the smaller the recognition order, the harder it is to select, so that the operation buttons 23 may not be displayed so much. Further, the recognition order may be fixed, or the recognition order may not be stored.
  • the number of times of recognition for each word may be stored so that the higher the number of times, the easier the selection is made, and the lower the number of times, the harder selection is made.
  • a recognition number setting unit (not shown) that searches the recognition word candidate storage unit 27 using the recognition result output from the speech recognition unit 19 as a search key and increments the number of recognitions corresponding to the matching word. 2).
  • the recognition result output control unit 22 acquires, from the recognized word candidate storage unit 27, words as many as the number of words determined by the recognition target word number determination unit 26, in order from the recognition order having the smallest recognition order or the recognition frequency. . Then, the speech recognition dictionary 20 is dynamically generated using the acquired word reading. In addition, when the recognition rank is not stored in the recognized word candidate storage unit 27, word readings for the number of words determined by the recognition target word number determination unit 26 may be acquired at random.
  • step ST51 and step ST52 are the same as step ST31 and step ST32 of the first embodiment, description thereof is omitted.
  • the recognition target word number determination unit 26 determines the number of recognition target words corresponding to the display priority output by the display priority calculation unit 21 (step ST53).
  • the recognition result output control part 22 acquires the reading of the word for the number of words determined by the recognition target word number determination part 26 from the recognition word candidate memory
  • the output frequency of the recognition result is adjusted by dynamically generating the speech recognition dictionary having the number of recognized words corresponding to the display priority. As in the case of 1, the convenience of the user can be improved.
  • Embodiment 4 FIG.
  • the navigation device for a moving body including, but not limited to, a person, a vehicle, a railroad, a ship, an aircraft, or the like may be used, and the present invention may be applied to a server of a voice recognition system or a server of a navigation system.
  • the present invention can be applied to any form such as a voice recognition system application or a navigation system application installed in a portable information terminal such as a smartphone, a tablet PC, or a mobile phone.
  • FIG. 26 is a diagram showing an outline of the navigation system according to the fourth embodiment of the present invention.
  • the in-vehicle device 100 performs voice recognition processing and navigation processing in cooperation with at least one of the portable information terminal 101 and the server 102 such as a smartphone, or at least one of the portable information terminal 101 and the server 102 such as a smartphone.
  • the voice recognition process and the navigation process are performed, and the recognition result and the map information are displayed on the in-vehicle device 100.
  • a configuration aspect of the navigation system will be described.
  • the functions of the voice recognition device of the present invention have been described as all provided in the in-vehicle device 100 shown in FIG. 26.
  • the server 102 performs voice recognition processing.
  • the recognition result is displayed on the in-vehicle device 100 and provided to the user, and the portable information terminal 101 performs voice recognition processing in cooperation with the server 102 and causes the in-vehicle device 100 to display the recognition result. The case where it provides to a user by this is demonstrated.
  • the server 102 performs voice recognition processing and displays the recognition result on the in-vehicle device 100, that is, a case where the in-vehicle device 100 functions as a display device in cooperation with the server 102 having a voice recognition function will be described. .
  • the in-vehicle device 100 communicates directly with the server 102 or the in-vehicle device 100 communicates with the server 102 via the portable information terminal 101.
  • the server 102 functions as a voice recognition device including the voice processing unit 9 described in the first to third embodiments.
  • the in-vehicle device 100 functions as a display device including at least the display unit 15 for providing the user with the recognition result by the server 102.
  • the in-vehicle device 100 basically has only a communication function and a display function, and receives the voice recognition result by the server 102 and provides it to the user. That is, the server 102 is a voice recognition device that includes other than the display unit 15, and the server 102 that is the voice recognition device recognizes the voice spoken by the user and displays the recognition result on the in-vehicle device 100 that is the display device. . Even with this configuration, it is possible to obtain the same effects as in the first to third embodiments.
  • the portable information terminal 101 performs voice recognition processing in cooperation with the server 102 and the in-vehicle device 100 provides the user with the recognition result.
  • the case where the in-vehicle device 100 communicates with the server 102 via the portable information terminal 101 can be considered, and the application of the portable information terminal 101 performs voice recognition processing in cooperation with the server 102.
  • the in-vehicle device 100 functions as a display device including at least the display unit 15 for providing a user with a recognition result by the portable information terminal 101 and the server 102.
  • the in-vehicle device 100 basically has only a communication function and a display function, and receives a voice recognition result obtained by cooperation between the portable information terminal 101 and the server 102 and provides it to the user. That is, the recognition result obtained by recognizing the voice uttered by the user is displayed on the in-vehicle device 100 as a display device by the application of the portable information terminal 101. Even with this configuration, it is possible to obtain the same effects as in the first to third embodiments.
  • the voice recognition device of the present invention is an application of a navigation system installed in a navigation device mounted on a moving body such as a vehicle, a server of an in-vehicle information providing system, a mobile information terminal such as a smartphone, a tablet PC, or a mobile phone. Etc. can be applied.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Atmospheric Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Navigation (AREA)

Abstract

 この発明の音声認識装置によれば、常時、発話された音声を認識している場合において、音声認識結果以外の表示情報に対する認識結果表示の優先度に応じて、音声認識結果の出力を調整することができるため、認識結果の表示により、ユーザにとって重要な他の情報の取得を阻害することがなくなり、利便性が向上する。

Description

音声認識装置および表示方法
 この発明は、ユーザにより発話された音声を認識して認識結果を表示する音声認識装置およびその認識結果を表示装置に表示させる表示方法に関するものである。
 音声認識の方法として、ユーザにより発話された音声を認識してその認識結果を表示する方法が知られている。
 例えば特許文献1には、ユーザが発話した音声を認識し、その認識結果を表示する音声認識装置であって、利用者により操作可能な機器の利用状況や、利用者の生体情報などに基づいて利用者の負荷量を推定し、その負荷量が大きいとき(すなわち、利用者が、表示手段による表示を視認する頻度が少ないとき)には、認識結果を表示され易くし、その負荷量が小さいとき(すなわち、利用者が、表示手段による表示を視認する頻度が多いとき)には、認識結果を表示され難くすることが記載されている。
特開2008-14818号公報
 しかしながら、例えば特許文献1のような従来の音声認識装置では、利用者の負荷に基づいてしか認識結果の出力頻度を調節することができないため、利用者にとって重要な地図上の情報が表示されていたとしても、音声認識結果が表示され、利用者が重要な情報を取得することを阻害してしまう、という課題があった。
 この発明は、上記のような課題を解決するためになされたものであり、音声認識結果以外の表示情報に対する認識結果の表示優先度に応じて、音声認識結果の出力を調整することができる音声認識装置およびその認識結果を表示装置に表示させる表示方法を提供することを目的とする。
 上記目的を達成するため、この発明は、ユーザにより発話された音声を認識して認識結果を表示する音声認識装置において、
 前記ユーザにより発話された音声を検知して取得する音声取得部と、
 前記音声認識装置が起動している間は常時、音声認識辞書を参照して、前記音声取得部により取得された音声データを認識し、所定の判定尤度に基づいて認識結果を出力する音声認識部と、
 前記音声認識部により出力された認識結果を表示する表示部と、
 前記音声認識部により出力された認識結果を、前記表示部の所定の認識結果表示領域に表示するよう指示出力する表示制御部と、
 前記所定の認識結果表示領域における、前記認識結果の表示優先度を計算する表示優先度計算部と、
 前記表示優先度計算部により計算された表示優先度に基づいて前記所定の判定尤度を決定し、前記音声認識部に設定する認識結果出力制御部とを備えることを特徴とする。
 この発明の音声認識装置によれば、音声認識結果以外の表示情報に対する認識結果表示の優先度に応じて、音声認識結果の出力を調整することができるため、認識結果の表示により、ユーザにとって重要な他の情報の取得を阻害することがなくなり、利便性が向上する。
実施の形態1による音声認識装置を適用したナビゲーション装置の一例を示すブロック図である。 実施の形態1における音声処理部の構成の一例を示すブロック図である。 表示部に地図画面が表示されている状態において、表示部内の左部分の認識結果表示領域に認識結果である操作ボタンが表示されている画面例を示す図である。 地図画面、自車の進行方向、および、認識結果表示領域の関係を示す図である。 自車の進行方向上の情報と認識結果の表示優先度調整量との対応の一例を示す表である。 表示部に地図画面が表示されている状態において、駐車場などの施設アイコンが認識結果表示領域に表示されている画面例を示す図である。 施設アイコンの個数と表示優先度調整量との対応を示す表である。 道路種別毎の認識結果の表示優先度調整量の一例を示す表である。 地域種別毎の認識結果の表示優先度調整量の一例を示す表である。 地図の表示スケール毎の認識結果の表示優先度調整量の一例を示す表である。 表示部に地図画面が表示されている状態において、案内情報または警告情報が認識結果表示領域に表示されている画面例を示す図である。 案内情報/警告情報と認識結果の表示優先度調整量との対応の一例を示す表である。 認識結果の内容と表示されている表示画面との組合せに対する、認識結果の表示優先度調整量の一例を示す表である。 認識結果の表示優先度と、判定尤度との関係を示す図である。 音声認識結果である操作ボタンの表示の処理を示すフローチャートである。 操作ボタンの表示後の処理を示すフローチャートである。 判定尤度の設定の処理を示すフローチャートである。 表示部に地図画面が表示されている状態において、自車の進行方向と認識結果表示領域に表示される認識結果である操作ボタンとの関係による画面遷移例を示す図である。 実施の形態2における音声処理部の構成の一例を示すブロック図である。 音声認識辞書切換情報記憶部が記憶している、表示優先度、音声認識辞書名、認識単語数の対応の一例を示す表である。 実施の形態2による音声認識装置の処理を示すフローチャートである。 実施の形態3における音声処理部の構成の一例を示すブロック図である。 認識結果の表示優先度と、認識対象単語数との関係を示す図である。 認識単語候補記憶部に記憶されている認識対象候補の単語の読みと認識順位の対応の一例を示す表である。 実施の形態3による音声認識装置の処理を示すフローチャートである。 実施の形態4におけるナビゲーションシステムの概要を示す図である。
 以下、この発明の実施の形態について、図面を参照しながら詳細に説明する。
 この発明は、ユーザにより発話された音声を認識する音声認識装置であり、当該音声認識装置が起動されている場合は常時、音声を認識するものである。なお、以下の実施の形態では、この発明の音声認識装置を車両等の移動体に搭載されるナビゲーション装置に適用した場合を例に挙げて説明するが、車両以外の他の移動体用のナビゲーション装置であってもよいし、ナビゲーションシステムのサーバに適用してもよい。また、スマートフォン、タブレットPC、携帯電話等の携帯情報端末等にインストールされるナビゲーションシステムのアプリケーション等に適用してもよい。
実施の形態1.
 図1は、この発明の実施の形態1による音声認識装置を適用したナビゲーション装置の一例を示すブロック図である。このナビゲーション装置は、制御部1、GPS受信機2、自立航法センサ3、現在位置検出部4、交通情報送受信部5、経路計算部6、誘導案内部7、マイク8、音声処理部9、音声合成部10、地図情報格納部11、地図情報取得部12、指示入力部13、表示制御部14、表示部15、音声制御部16、スピーカ17を備えている。
 制御部1は、ナビゲーション装置全体の動作を制御する。
 GPS受信機2は、GPS衛星からの電波により移動体の現在位置を測定する衛星航法システムを適用するためのものである。
 自立航法センサ3は、方位センサや走行距離センサなどにより移動体の現在位置や方位を検出して自立航法システムを適用するためのものである。
 現在位置検出部4は、GPS受信機2および自立航法センサ3の信号を受け、衛星航法システムと自立航法システムとを併用し、かつ、後述の地図情報に基づきマップマッチングを行い、自車両の現在位置と進行方向を検出する。なお、いずれか一方のみの航法システムを採用するものであっても構わない。
 交通情報送受信部5は、FM多重放送、電波ビーコン、光ビーコンにより提供される交通情報(VICS(Vehicle Information & Communication System/登録商標)に代表される)やDSRC(Dedicate Short Range Communication)により提供される渋滞情報などを受信する。また、自車両に関する情報、例えば現在位置などのプローブ情報を送信する。
 経路計算部6は、後述する指示入力部13や音声操作によりユーザにより設定された地点と、現在位置検出部4により検出された位置情報と、後述する地図情報取得部12により取得された地図情報とに基づいて、現在位置から当該設定された地点までの最適な経路(以下、「推奨経路」と呼ぶ)を計算する。
 誘導案内部7は、地図情報取得部12により取得された地図情報に基づき、経路計算部6により計算された経路に沿って車両が移動する際に案内を行うための誘導案内図及び誘導案内メッセージを生成する。
 マイク8は、ユーザが発話した音声を取得(集音)する。マイク8には、例えば、全指向性(または無指向性)のマイクや、複数の全指向性(または無指向性)のマイクをアレイ状に配列して指向特性を調整可能としたアレイマイクや、一方向のみに指向性を有しており、指向特性を調整できない単一指向性マイクなどがある。
 音声処理部9は、マイク8により取得された音声を処理するものであり、ここで、音声認識を行っている。詳細については、図2を参照しながら後述する。
 音声合成部10は、入力された文字または文字列から合成音声を生成する。音声合成については例えば、「古井貞熙「音声情報処理」第4章」に開示されている方法を用いて行う。
 地図情報格納部11は、例えば、道路に関する「道路情報」、施設に関する「施設情報」(種別、名称、位置等)、「各種文字情報」(地名、施設名、交差点名、道路名など)、および施設・道路番号などを表す「各種アイコン情報」、誘導案内部で用いるための誘導用情報(所定の要所の位置情報、当該要所での描画情報、更には音声案内情報など)などのデータを格納している。地図情報格納部は、例えば、HDD(Hard Disk Drive)、半導体素子を用いたSDカードなどのメモリでもよいし、ネットワーク上に存在し、通信ネットワークを介して道路データなどの情報を取得できる構成(地図データ取得部)であってもよい。
 地図情報取得部12は、地図情報取得指示や施設情報取得指示などを受けると、地図情報格納部11を検索して必要な情報を取得する。
 指示入力部13は、ユーザの手動による指示を入力するものである。当該指示は、ナビゲーション装置に設けられたハードウエアのスイッチ、後述するディスプレイに設定され表示されるタッチスイッチ、あるいはハンドル等に設置されたリモコンもしくは別体のリモコンによる指示を認識する認識装置などによるものが挙げられる。
 表示制御部14は、地図情報取得部12、現在位置検出部4、交通情報送受信部5、経路計算部6、誘導案内部7、音声処理部9から必要な情報を取得し、後述する表示部15に描写すべき情報を生成し、表示部15に当該情報を表示するよう指示出力する。
 表示部15は、表示一体型のタッチパネルであり、例えばLCD(Liquid Crystal Display)とタッチセンサから構成されており、表示制御部14の指示に基づき画面上に描画を行う。なお、タッチパネルには、感圧方式、電磁誘導方式、静電容量方式、あるいはこれらを組み合わせた方式などのうち、何れを用いてもよい。また、LCDの代わりに有機ELディスプレイを用いてもよい。
 音声制御部16は、誘導案内部7からの誘導用の音声情報や音声合成部10により生成された合成音声を出力するようスピーカ17に出力指示する。
 スピーカ17は、音声制御部16の指示に基づき音声を出力する。
 次に、音声処理部9の詳細を説明する。図2は、実施の形態1における音声処理部9の構成の一例を示すブロック図である。図2に示すように、音声処理部9は、音声取得部18、音声認識部19、音声認識辞書20、表示優先度計算部21、認識結果出力制御部22で構成されている。
 音声取得部18は、マイク8により取得されたユーザ発話、すなわち、入力された音声を取り込み、例えば例えばPCM(Pulse Code Modulation)によりA/D(Analog/Digital)変換する。
 音声認識部19は、音声取得部18によりデジタル化された音声信号から、ユーザが発話した内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書20を用いて認識処理を行い、所定の判定尤度以上(または所定の判定尤度より大きい)尤度を有する認識結果を出力する。なお、認識処理としては、例えばHMM(Hidden Markov Model)法のような一般的な方法を用いて行えばよい。
 ところで、カーナビゲーションシステム等に搭載されている音声認識機能においては、ユーザが発話の開始をシステムに対して明示(指示)するのが一般的である。そのために、音声認識開始を指示するボタン(以下、「音声認識開始指示部」と呼ぶ)が、タッチパネルに表示されたりハンドルに設置されたりしている。そして、ユーザにより音声認識開始指示部が押下された後に発話された音声を認識する。すなわち、音声認識開始指示部は音声認識開始信号を出力し、音声認識部は当該信号を受けると、当該信号を受けた後に音声取得部により取得された音声データから、ユーザが発話した内容に該当する音声区間を検出し、上述した認識処理を行う。
 しかし、この実施の形態1における音声認識部19は、上述したようなユーザによる音声認識開始指示がなくても、常に、ユーザが発話した内容を認識する。すなわち、音声認識部19は、音声認識開始信号を受けなくても、この音声認識装置が組み込まれたナビゲーション装置が起動されている場合は常時、音声取得部18により取得された音声データから、ユーザが発話した内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書20を用いて認識処理を行い、音声認識結果を出力する処理を繰り返し行う。以下の実施の形態においても同様である。
 音声認識部19が認識結果を出力する際に使用する所定の判定尤度は、あらかじめある一定の初期値(例えば500)が設定されており、その後は、後述する認識結果出力制御部22により決定された値が設定される。
 表示制御部14は、表示部15に対して、音声認識部19による認識結果を、あらかじめ認識結果を表示する領域として設定された認識結果表示領域24(図3参照)に、表示するよう指示出力する。図3は、表示部15に自車31とともに地図画面が表示されている状態において、表示部15内の左部分の認識結果表示領域24に認識結果である操作ボタン23が表示されている画面例を示す図である。なお、認識結果表示領域24は、例えば図3に示すように、表示部15内の左部分や、後述する図4(b)に示すように、表示部15内の上部分など、あらかじめ固定で設定された領域としてよいし、ユーザが任意でその領域を設定できるようにしてもよい。
 また、音声認識部19による認識結果は、この実施の形態では、例えば図3に示すように、操作ボタン23として表示部15の認識結果表示領域24に表示される。表示された認識結果(操作ボタン23)には、その認識結果に対応した機能が割り当てられており、指示入力部13からの操作や音声操作により当該操作ボタン23が選択された場合、そこに割り当てられている機能が実行される。
 一方、操作ボタン23が認識結果表示領域24に表示されてから一定時間(例えば、5~10秒)ユーザによる当該操作ボタン23の選択操作が行われない場合は、表示制御部14は、表示部15に対して、その認識結果表示(操作ボタン23の表示)を終了するよう指示出力する。その結果、認識結果である操作ボタン23の表示が消える。
 以下の説明においては、音声認識部19は、ユーザ発話から例えば「ガソリンスタンド」「コンビニ」のような、施設が属するジャンル名(以下、「施設ジャンル名」と呼ぶ)を認識し、認識結果出力制御部22により設定された判定尤度に基づいて当該認識結果を出力する。
 表示制御部14は、当該出力された認識結果を例えば図3に示すような操作ボタン23として表示するよう指示出力するものとする。そして、操作ボタン23には、対応するジャンルで施設検索をする機能が割り当てられており、ユーザにより当該操作ボタン23が選択されると、その操作ボタン23に対応付けられた、ジャンルで施設検索を行うという指示信号が出力され、当該信号に基づいて、地図情報取得部12が、地図情報格納部11から施設情報を取得する。
 また、音声認識部19では、周知技術であるキーワードスポッティングによって、施設ジャンル名の認識が行われるものとして説明する。
 なお、キーワードスポッティングによる施設ジャンル名の認識ではなく、認識全てを大語彙連続音声認識で行い、認識結果を形態素解析して施設ジャンル名を抽出する方法を用いてもよい。
 また、音声認識部19は、施設ジャンル名ではなく、例えば、アーティスト名、アルバム名、曲タイトル名、カーナビゲーションシステムを操作するためのコマンドなどを認識するとしてもよい。また、表示された認識結果(操作ボタン23)に割り当てられる機能は、例えば、アーティスト名、アルバム名、曲タイトル名で曲を検索する機能であってもよいし、コマンドに対応する機能であってもよい。
 表示優先度計算部21は、現在位置検出部4により検出された現在位置情報、交通情報送受信部5により受信された交通情報、経路計算部6により計算された経路情報、誘導案内部7により出力された案内情報、地図情報取得部12により取得された情報などに基づいて、後述する所定の項目(1)~(8)に該当するか否かを判定し、それぞれの判定結果に基づいて該当するすべての項目についての表示優先度の調整量を決定し、認識結果表示領域24における認識結果の表示優先度を計算する。
 表示優先度とは、音声認識結果以外の表示情報(例えば、地図情報など)に対して音声認識結果が優先して表示されるべき度合いを表すものとする。表示優先度が高いほど音声認識の判定尤度が低くなるため、音声認識されやすくなり、結果的に、音声認識結果の出力頻度(表示頻度)が高くなる。また、表示優先度が低いほど音声認識の判定尤度が高くなるため、音声認識されにくくなり、結果的に、音声認識結果の出力頻度(表示頻度)が低くなる。すなわち、表示優先度と音声認識に用いる判定尤度との間で負の相関を有することとなる。
 次に、表示優先度計算部21により判定される項目、および、項目毎の表示優先度の調整量(調整値)について説明するとともに、表示優先度の計算方法について説明する。
 各項目は、以下の(1)から(8)のような大項目に分類されているものとし、表示優先度計算部21は、(1)から(8)の少なくとも一つ以上の大項目を判定対象とする。なお、判定対象となる大項目はあらかじめ1つ以上の項目が決められていてもよいし、ユーザが設定画面により任意に選択できるようにしてもよい。
(1)「自車の進行方向上の認識結果表示領域24の有無」
 図4は、地図画面、自車の進行方向、および、認識結果表示領域24の関係を示す図である。
 表示部15に地図が北基準で表示されている場合、進行方向は「実際に進行している方角」を意味する。例えば、地図が北基準で、自車31が西方向に進行している場合には、図4(a)に示すような表示となる。また、図4(a)は、認識結果表示領域24が、表示部15内の左部分である場合を示している。
 また、表示部15に地図が自車基準で表示されている場合、進行方向は「表示画面の上方」を意味する。この場合には、例えば、図4(b)に示すような表示となる。この図4(b)は、認識結果表示領域24が、表示部15内の上部分である場合を示している。
 さらに上述した例以外に、例えば、図4(c)に示すように、自車31が右(または左)折後の方向に認識結果表示領域24がある場合は、「右(または左)折後の実際の方角」または「右(または左)折後の表示画面上の向き」を進行方向とする。
 次に、表示優先度計算部21による判定方法について説明する。
 以降の説明では、表示優先度計算部21には、あらかじめ、認識結果表示領域24の表示部15における位置および範囲に関する情報が記憶されているものとして説明するが、例えば、表示制御部14など他の構成要素に記憶されており、そこから取得するとしてもよい。
 地図が北基準で表示されている場合、例えば、表示優先度計算部21は、現在位置検出部4から自車の現在の進行方向を取得し、その進行方向と認識結果表示領域24の位置が一致するか否かを判定する。
 また、地図が自車基準で表示されている場合、例えば、表示優先度計算部21は、認識結果表示領域24の位置が、表示画面の上方であるか否かを判定する。
 ここで、自車の進行方向に認識結果表示領域24がある場合に、さらに、当該進行方向の道路上に交通情報が表示されているかを判定するようにしてもよい。
 例えば、図4(d)に示すように、進行方向の道路上に、渋滞情報の表示32がなされているか判定する。交通情報は、渋滞していること、工事中であること、事故が起きていることなどの交通情報や、その他の交通情報を表すものであってもよい。この場合、表示優先度計算部21は、交通情報を交通情報送受信部5から取得すればよい。
 次に、表示優先度の調整量について説明する。
 図5は、自車の進行方向上の情報と認識結果の表示優先度調整量との対応の一例を示す表である。
 この場合、自車の進行方向上の情報はユーザにとって重要であるとして、表示優先度を減少させる調整量が設定されている。また、自車の進行方向の道路上に、交通情報の表示がなされている場合は、さらにユーザにとって重要な情報があるとして、表示優先度をさらに減少させる調整量が設定されている。
 なお、この実施の形態1では表示優先度の初期値は50とし、表示優先度としては0から100の値とするが、これらの値に限られるものではない。
 また、表示優先度の初期値や後述する項目毎の表示優先度調整量については、表示優先度がとり得る範囲や後述する他の大項目を複数考慮して表示優先度を計算する場合などに応じて変更してもよい。
 さらに、この実施の形態1においては、表示優先度の計算結果が上限(下限)を越える場合、表示優先度は100(0)とする。
 ここで、判定対象がこの項目(1)のみである場合を例として、表示優先度の計算方法について、具体的な数値を用いて説明する。
 例えば図4(d)に示すように、地図が北基準で表示されており、自車31の進行方向が西向き、認識結果表示領域24が表示部15内の左に設定されている場合、認識結果表示領域24が自車31の進行方向上にあるため、表示優先度計算部21が図5の表を参照して、表示優先度の調整量は-30と決定される。
 また、この図4(d)の場合にはさらに、自車31の進行方向上に渋滞情報が表示されているため、表示優先度計算部21はさらに図5の表から、表示優先度の調整量-10を決定する。
 その結果、表示優先度計算部21は、表示優先度=初期値50+調整量(-30)+調整量(-10)=10と計算する。なお、こうして計算された表示優先度に対応する判定尤度の決定方法については、後述する。
(2)「認識結果表示領域24に表示されている施設アイコンの有無とその個数」
 図6は、表示部15に地図画面が表示されている状態において、駐車場などの施設アイコン33が認識結果表示領域24に表示されている画面例を示す図である。
 この項目(2)においては、表示優先度計算部21が、駐車場などの施設アイコン33が認識結果表示領域24に表示されているか否かを判定する。なお、表示優先度計算部21は、認識結果表示領域24に表示されている施設アイコン33の有無だけでなく、その施設アイコン33の個数も判定するようにしてもよい。
 表示優先度計算部21は、例えば、表示制御部14により生成される地図情報を取得し、認識結果表示領域24に対応する範囲について、施設アイコン33に関する情報の有無やその個数を判定する。
 この場合、施設アイコン33で示された地点は、ユーザが立ち寄る可能性が高い重要な地点であるため、当該施設アイコン33が認識結果表示領域24内にある場合には、音声認識結果の表示優先度を減少させる調整量が設定される。
 例えば、認識結果表示領域24に施設アイコン33がある場合は、表示優先度の調整量を-10として、表示優先度を減少させる。また、図7に示すように、施設アイコン33の個数の増加に伴ってさらに表示優先度を減少させる調整量を設定してもよい。
 図7は、施設アイコン33の個数と表示優先度調整量との対応を示す表である。例えば、図6に示すように、施設アイコン33が認識結果表示領域24内に3個ある場合には、図7を参照することにより、個数に対応する表示優先度の調整量として-6が決定される。
 すなわち、図6に示すように、施設アイコン33が認識結果表示領域24内に3個ある場合には、この項目(2)についての表示優先度の調整量は、施設アイコン33が認識結果表示領域24内にあるということで「-10」、および、それが3個あるということで「-6」で、合計「-16」となる。
(3)「認識結果表示領域24に表示されているユーザにより設定された地点の有無とその個数」
 表示優先度計算部21は、例えば、表示制御部14により生成される地図情報を取得し、認識結果表示領域24に対応する範囲について、ユーザにより設定された目的地、経由地、登録地などに関する情報(以下、「設定地点アイコン」と呼ぶ)の有無やその個数を判定する。
 この場合、ユーザにより設定された地点は、ユーザにとって重要な地点であるため、設定地点アイコンが認識結果表示領域24内にある場合には、表示優先度を減少させる調整量が設定される。
 例えば、設定地点アイコンが認識結果表示領域24にある場合は、表示優先度調整量を-5として、表示優先度を減少させる。また、設定地点アイコンの個数の増加に伴って、前述の(2)と同様に、表示優先度をさらに減少させる調整量を設定してもよい。
(4)「走行中の道路種別」
 表示優先度計算部21は、例えば、現在位置検出部4により検出された自車位置情報を取得し、当該自車位置情報を用いて、地図情報格納部11から地図情報取得部12が取得した、自車が走行中の道路の道路種別を取得し、判定する。
 この際、道路種別としては、例えば「高速道路」「一般道」「トンネル」などがある。
 図8は、道路種別毎の認識結果の表示優先度調整量の一例を示す表である。
 この場合、高速道路走行中は、パーキングエリア、サービスエリア、出入り口以外の周辺の情報はユーザにとって重要度が高くないとして、認識結果の表示優先度を増加させるような調整量が設定されている。また、一般道を走行中は、周辺の情報の重要度がユーザにとって高いとして、表示優先度を減少させる調整量が設定されている。また、トンネル内は、ユーザにとって重要な周辺情報がないとして、表示優先度を増加させる調整量が設定されている。
(5)「走行中の地域」
 表示優先度計算部21は、例えば、現在位置検出部4により検出された自車位置情報を取得し、当該自車位置情報を用いて、地図情報格納部11から地図情報取得部12が取得した、自車が走行中の地域の地域種別を取得し、判定する。
 この際、地域種別としては、例えば「市街地」「市外」「山中」「海上」などがある。
 図9は、地域種別毎の認識結果の表示優先度調整量の一例を示す表である。
 この場合、市街地走行中は、地図上に表示される情報が多いため、音声認識結果の表示優先度を減少させる調整量が設定されている。また、市外では、表示優先度を減少させる調整量が設定されているが、市街地に比べると地図上に表示される情報が少ないため、市街地の場合に比べると表示優先度の減少量が小さくなるよう調整量を設定している。さらに山中や海上(例えば、明石海峡大橋を走行中など)では、地図上に表示される情報が少ないため、表示優先度を増加させる調整量が設定されている。なお、その他、海岸線を走行中で認識結果表示領域24が海上である場合、表示優先度を増加させるような調整量を設定してもよい。
(6)「地図の表示スケール」
 表示優先度計算部21は、例えば、表示制御部14やユーザによる各種設定を記憶した設定記憶部(図示しない)などから現在の地図の表示スケールを取得し、判定する。
 この際、表示スケールとしては、基準となる縮尺が相当する距離として「25m」「50m」「100m」・・・「500m」「1km」「3km」「5km」などが設定されている。
 図10は、地図の表示スケール毎の認識結果の表示優先度調整量の一例を示す表である。
 この場合、表示スケールが小さい(地図が拡大されている)程、表示されている地図情報の重要度が高くなるため、表示スケールの減少に伴って音声認識結果の表示優先度も減少するような調整量が設定されている。
 例えば、最大表示スケールの表示優先度調整値を「+10」とし、表示スケールの減少に伴って表示優先度調整量を減少させている。
(7)「認識結果表示領域24に案内情報/警告情報が表示されているか」
 図11は、表示部15に地図画面が表示されている状態において、案内情報34や警告情報35が認識結果表示領域24に表示されている画面例を示す図である。
 表示優先度計算部21は、図11(a)に示すような交差点案内表示、図11(b)に示すようなDSRCにより取得された対向車接近の警告表示、歩行者接近の警告表示、災害情報表示などの、案内情報や警告情報が表示されているかを判定する。
 表示優先度計算部21は、例えば、表示制御部14により生成される地図情報を取得し、認識結果表示領域24に対応する範囲について、交差点案内表示や警告表示などの案内情報または警告情報が出力されているか否かを判定する。
 また、案内情報/警告情報の表示位置が認識結果表示領域24と同じ位置に定められている場合は、表示優先度計算部21は、現在位置検出部4から現在位置を取得し、当該位置情報を用いて、地図情報取得部12を介して、地図情報格納部11に当該位置における案内情報が有るか否かを確認すればよく、警告情報については、交通情報送受信部5にその有無を確認すればよい。
 図12は、案内情報/警告情報と認識結果の表示優先度調整量との対応の一例を示す表である。
 案内情報/警告情報は、他の情報に比べてユーザにとって重要度が高いと考えられるため、他の大項目に属する項目よりも表示優先度の減少量が大きくなるような優先度調整量が設定されている。
(8)「認識結果の内容と表示画面の関連性」
 ここでは、例えば、アーティスト名、アルバム名、曲タイトル名など、音声認識の対象が曲に関連した語彙であるものとして説明する。この場合、それらの語彙が音声認識されると、認識結果として、アーティスト名の操作ボタン、アルバム名の操作ボタン、曲名の操作ボタンなどが表示され、ユーザがそのボタンを押下すると曲が再生される。
 この時、表示部15に表示されている表示画面が、AV画面(曲の再生画面)である場合には、ユーザは音楽を聴いている状態であり、音声認識結果として曲の再生に関連する操作ボタンが表示されても、邪魔になることもなく、むしろその操作ボタンにより曲が再生されることを望んでいる状態であると考えられるため、認識結果の表示優先度が高くなるような優先度調整量を設定する。
 一方、表示部15に表示されている表示画面が、通常の地図画面である場合には、ユーザは道案内に関する地図情報を見たい状態であり、音声認識結果として曲の再生に関連する操作ボタンが表示されると、運転の邪魔になると考えられるため、認識結果の表示優先度が低くなるような優先度調整量を設定する。
 図13は、認識結果の内容と表示されている表示画面との組合せに対する、認識結果の表示優先度調整量の一例を示す表である。
 このように、音声認識結果の内容と、表示部15に実際に表示されている表示画面との関連性に応じて、認識結果がその時のユーザにとって重要な情報であれば表示優先度を高くして認識結果を表示されやすくし、その時には重要でない状態であると考えられる場合には表示優先度を低くして認識結果が表示されにくくなるような優先度調整量が設定されている。
 以上のように、表示優先度計算部21は、上記の大項目(1)~(8)について、あらかじめ定められた判定対象となる項目ごとに表示優先度調整量を決定し、表示優先度を計算する。
 認識結果出力制御部22は、表示優先度計算部21により計算された表示優先度に対応する判定尤度を決定し、音声認識部19に対して設定する。
 そして、音声認識部19は、認識結果の尤度が当該設定された判定尤度以上(または判定尤度より大きい)場合は、当該認識結果を出力する。
 ここで、判定尤度と表示優先度は負の相関関係を有するものとする。図14は、認識結果の表示優先度と、判定尤度との関係を示す図である。
 例えば、Yを判定尤度、Xを表示優先度として、判定尤度が表示優先度に比例して減少するような関数「Y=-aX+b」(a、bは正の定数)を用いて決定されるものとする。図14(a)に示す例では、「Y=-4X+700」という式に基づいて、判定尤度が決定される。
 なお、図14(b)に示すように、表示優先度に基づいて段階的に判定尤度が減少するようにしてもよい。
 そして、図14に示すような表示優先度と判定尤度との関係に基づいて、認識結果出力制御部22は、表示優先度計算部21により計算された表示優先度に対応する判定尤度を決定することができ、これを音声認識部19に対して設定する。
 これにより、表示優先度が所定値以下(または所定値未満)となった場合は、音声認識部19に設定される所定の判定尤度が高い値となるため、認識結果が出力されない状態となる。
 なお、認識結果出力制御部22は、表示優先度計算部21により計算された表示優先度にもとづいて、音声認識部19の認識処理を停止および再開させるようにしてもよい(以下の実施の形態においても同様)。すなわち、表示優先度が所定値以下(または所定値未満)となった場合は、音声認識部19の認識処理を停止させ、表示優先度が所定値より大きい値(または所定値以上)となった場合に、音声認識部19の認識処理を再開させるようにしてもよい。
 次に図15~図17に示すフローチャートを用いて、実施の形態1によるナビゲーション装置の処理を説明する。
 図15は、音声認識結果である操作ボタン23の表示の処理を示すフローチャートである。
 まず、音声取得部18は、マイク8により集音されたユーザ発話、すなわち、入力された音声を取込み、例えばPCMによりA/D変換する(ステップST01)。
 次に、音声認識部19は、音声取得部18により取込まれてデジタル化された音声信号から、ユーザが発話した内容に該当する音声区間を検出し、該音声区間の音声データの特徴量を抽出し、その特徴量に基づいて音声認識辞書20を参照して認識処理を行う(ステップST02)。
 そして、音声認識部19は、認識結果の尤度が、所定の判定尤度以上(または所定の判定尤度より大きい)か否かを判定する(ステップST03)。認識結果の尤度が、所定の判定尤度以上(または所定の判定尤度より大きい)の場合(ステップST03のYESの場合)は、その認識結果を出力する(ステップST04)。
 その後、表示制御部14は、表示部15に対して、音声認識部19により出力された認識結果に対応する操作ボタン23を認識結果表示領域24に表示するよう指示出力し(ステップST05)、表示部15に操作ボタン23が表示される(ステップST06)。
 一方、認識結果の尤度が所定の判定尤度未満(または所定の判定尤度以下)である場合(ステップST03のNOの場合)は、ステップST01の処理へ戻る。
 図16は、操作ボタン23の表示後の処理を示すフローチャートである。
 制御部1は、表示されている操作ボタン23が選択されたか否かを判定する(ステップST11)。そして、操作ボタン23が選択された場合(ステップST11のYESの場合)は、選択された操作ボタン23に割り当てられた機能を実行するための指示を出力し、当該機能を実行するための処理が行われる(ステップST12)。
 一方、操作ボタン23が選択されていない場合(ステップST11のNOの場合)は、表示されている各操作ボタン23について、表示されてからの経過時間が所定時間を越えているか否かを判定する(ステップST13)。なお、各操作ボタン23が表示されると、その操作ボタンが表示されてからの経過時間が計測されるものとする。
 そして、当該計測時間が所定時間を越えている場合(ステップST13のYESの場合)は、表示制御部14に対してその操作ボタン23の表示を終了するよう指示出力する(ステップST14)。
 一方、所定時間を越えていない場合(ステップST13のNOの場合)は、ステップST11に戻って操作ボタン23が選択されたか否かの判定処理を行う。
 図17は、判定尤度の設定の処理を示すフローチャートである。
 まず、表示優先度計算部21は、あらかじめ決定されている、または、ユーザにより選択された大項目(前述の項目(1)~(8)の1つ以上)について、表示優先度を判定するために必要な情報を取得し(ステップST31)、取得した情報とあらかじめ定められた優先度調整量とに基づいて、表示優先度を計算する(ステップST32)。
 具体的な例を挙げて説明すると、例えば、大項目(1)が判定対象として決定されている場合、ステップST31において表示優先度を判定するために必要な情報とは、自車位置情報、自車の進行方向、認識結果表示領域24の位置、地図情報、交通情報(渋滞情報や工事情報などを含む)であり、表示優先度計算部21が、それらの情報を取得する(ステップST31)。
 そして、例えば図5に示すような、自車の進行方向上の情報と認識結果の表示優先度調整量との対応表を参照して、表示優先度の調整量を決定する。
 ここで、図18を参照しながら、具体例を挙げて説明する。図18は、表示部15に地図画面が表示されている状態において、自車の進行方向と認識結果表示領域に表示される認識結果である操作ボタンとの関係による画面遷移例を示す図である。なお、ここでも表示優先度の初期値は50に設定されているものとして説明する。
 図18(a)は図4(d)と同じ図であるが、例えば図18(a)に示すように、地図が北基準で表示されており、自車31の進行方向が西向き、認識結果表示領域24が表示部15内の左に設定されている場合、認識結果表示領域24が自車31の進行方向上にあるため、表示優先度計算部21が図5の表を参照して、表示優先度の調整量は-30と決定される。
 また、この図18(a)の場合にはさらに、自車31の進行方向上に渋滞情報が表示されているため、表示優先度計算部21はさらに図5の表から、表示優先度の調整量-10を決定する。
 その結果、表示優先度計算部21は、表示優先度=初期値50+調整量(-30)+調整量(-10)=10と計算する(ステップST32)。
 次に、認識結果出力制御部22は、表示優先度計算部21により計算された表示優先度に対応する判定尤度を決定し(ステップST33)、音声認識部19に対して設定する(ステップST34)。
 具体的には、認識結果出力制御部22が、ステップST32において表示優先度計算部21により計算された表示優先度に対する判定尤度を、図14(a)に示したグラフの計算式、すなわち、判定尤度Y=-4X+700(Xは表示優先度)に基づいて計算する(ステップST33)。その結果、表示優先度=10に対応する判定尤度は660と計算され、この判定尤度を音声認識部19の所定の判定尤度として設定する(ステップST34)。
 この状態において、ユーザが、例えば「コンビニ」と発話した場合を例に、認識結果の表示についての具体例を説明する。まず初めに、音声取得部18が、この「コンビニ」という音声を取込み、例えばPCMによりA/D変換する(図15のステップST01)。次に、音声認識部19が、取込まれた音声の認識処理を行い、「コンビニ」という単語が音声認識される(ステップST02)。この際、この音声認識の尤度は520であったとする。
 この場合、音声認識部19は、認識結果の尤度520は、所定の判定尤度660未満であると判定し(ステップST03のNOの場合)、認識結果を出力せずにステップST01の処理に戻る。
 その結果、表示部15には認識結果である操作ボタン23は表示されず、図18(a)に示す表示画面が表示されたままの状態となる。
 その後、図18(b)に示すように、自車が渋滞区域も抜けて進行方向を変えて、北向きに走行する状態になったとする。この場合、認識結果表示領域24が自車31の進行方向上にないので、図5に示す自車の進行方向上の情報と認識結果の表示優先度調整量との対応表を参照した結果、表示優先度の調整量は0と決定される。
 その結果、表示優先度計算部21は、表示優先度=初期値50+調整量(0)=50と計算する(ステップST32)。
 そして、認識結果出力制御部22が、図14(a)に示したグラフの計算式、すなわち、判定尤度Y=-4X+700(Xは表示優先度)に基づいて、判定尤度を計算する(ステップST33)。その結果、表示優先度=50に対応する判定尤度は500と計算され、この判定尤度を音声認識部19の所定の判定尤度として設定する(ステップST34)。
 この状態において、先に示した例と同様に、ユーザが、例えば「コンビニ」と発話した場合、音声取得部18が、この「コンビニ」という音声を取込み、例えばPCMによりA/D変換する(図15のステップST01)。次に、音声認識部19が、取込まれた音声の認識処理を行い、「コンビニ」という単語が音声認識される(ステップST02)。この際にも同じく、この音声認識の尤度は520であったとする。
 この場合、音声認識部19は、認識結果の尤度520は、所定の判定尤度500以上であると判定し(ステップST03のYESの場合)、その認識結果を出力する(ステップST04)。
 そして、表示制御部14が表示部15に対して、音声認識部19により出力された「コンビニ」という認識結果に対応する操作ボタン23を認識結果表示領域24に表示するよう指示出力する(ステップST05)。
 この結果、図18(c)に示すように、表示部15が「コンビニ」という音声認識結果である操作ボタン23を表示する(ステップST06)。
 以上のように、この実施の形態1では、認識結果表示領域24が自車の進行方向上である場合、認識結果表示領域24にユーザが立ち寄る可能性が高い施設ジャンルアイコンで示された地点やユーザにより設定された地点がある場合、認識結果表示領域24に案内情報/警告情報が表示されている場合は、音声認識部19における判定尤度を増加させることにより、認識結果の出力頻度が減少し、そうでない場合は、判定尤度を減少させることにより、認識結果の出力頻度が増加する結果となる。これにより、ユーザにとって重要である情報が認識結果表示によって隠されることになる場合、認識結果表示を抑えることで、ユーザによる重要な情報の取得を阻害することが少なくなる一方で、重要な情報が隠されないと判断される場合は、発話に含まれるユーザの要望が認識結果として表示され易くなり、利便性を向上させることができる。
 また、進行方向上に渋滞情報が表示されている場合は、よりユーザが地図情報を必要としているとして、さらに、音声認識の判定尤度を増加させることにより、認識結果の出力頻度が減少するので、さらに利便性を向上させることができる。
 さらに、自車の走行中の道路、地域や地図の表示スケールにより、ユーザが多くの地図情報を必要とする、または、ユーザにとって重要な情報が多く存在すると判定された場合は、認識結果表示を抑えることで、ユーザによる重要な情報の取得を阻害することが少なくなる一方で、そうでない場合は、発話に含まれるユーザの要望が認識結果として表示され易くなり、利便性を向上させることができる。
 また、上述した(1)から(8)の複数の大項目を組み合わせて表示優先度を計算することで、様々な状況に応じて柔軟に認識結果の出力頻度を調節することができる。
 なお、この実施の形態1では、表示優先度を、音声認識結果(操作ボタン23)以外の表示情報(例えば、地図情報など)に対して音声認識結果(操作ボタン23)が優先して表示されるべき度合いを表すものとして説明したが、表示優先度を、音声認識結果(操作ボタン23)に対して音声認識結果(操作ボタン23)以外の情報が優先して表示されるべき度合いを表すものとしてもよい。
 この場合は、表示優先度計算部21により判定される項目に対応する表示優先度の増減量は、上述した増減量を反転したものとなり、表示優先度と認識結果判定尤度は正の相関関係を有するものとなる(以下の実施の形態でも同様)。
 なお、表示優先度の計算は、常時行うものとしてもよいし、所定の間隔で行うものとしてもよい。
実施の形態2.
 図19は、この発明の実施の形態2における音声処理部9の構成の一例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態2では、実施の形態1と比べると、音声認識辞書切換情報記憶部25をさらに備え、音声認識辞書20が複数の音声認識辞書1~Nで構成されている点が異なる。また、認識結果出力制御部22が、表示優先度に対応する判定尤度を音声認識部19に対して設定するのではなく、表示優先度に対応する音声認識辞書名を決定して音声認識辞書20を切り換える点が異なる。
 音声認識辞書切換情報記憶部25は、表示優先度と音声認識辞書名を表示優先度に対応付けて記憶している。図20(a)は、音声認識辞書切換情報記憶部25が記憶している、表示優先度と音声認識辞書名との対応の一例を示す表である。また、図20(b)は、音声認識辞書名とその辞書に格納されている認識単語数との対応の一例を示す表である。
 例えば、図20(b)に示すように、表示優先度と対応する音声認識辞書名の音声認識辞書に格納されている認識単語数は正の相関を有している。また、表示優先度を、操作ボタン23に対して操作ボタン23以外の情報が優先して表示されるべき度合いを表すものとした場合は、表示優先度と対応する音声認識辞書名の音声認識辞書に格納されている認識単語数は、負の相関を有するものとなる。
 認識結果出力制御部22は、音声認識辞書切換情報記憶部25を参照して、表示優先度計算部21により出力された表示優先度に対応する音声認識辞書名を決定し、音声認識部19が参照する音声認識辞書20を、当該音声認識辞書名を有する音声認識辞書20に切換える。例えば、表示優先度が10になった場合には、音声認識辞書名「Adic」の音声認識辞書20に切り換えられ、表示優先度が50になった場合には、音声認識辞書名「Cdic」の辞書に切り換えられる。
 次に図21に示すフローチャートを用いて、実施の形態2による音声認識装置の処理を説明する。
 ステップST41とステップST42は、実施の形態1のステップST31とステップST32と同一であるので説明を省略する。
 認識結果出力制御部22は、音声認識辞書切換情報記憶部25を参照して、表示優先度計算部21により出力された表示優先度に対応する音声認識辞書名を決定し(ステップST43)、音声認識部19が参照する音声認識辞書20を、当該音声認識辞書名を有する音声認識辞書20に切換える(ステップST44)。
 以上のように、この実施の形態2によれば、表示優先度に応じた認識単語数の音声認識辞書に切換えることにより、認識結果の出力頻度が調整されるので、実施の形態1と同様に、ユーザの利便性を向上させることができる。
実施の形態3.
 図22は、この発明の実施の形態3における音声処理部9の構成の一例を示すブロック図である。なお、実施の形態1で説明したものと同様の構成には、同一の符号を付して重複した説明を省略する。以下に示す実施の形態3では、実施の形態1と比べると、認識対象単語数決定部26と、認識単語候補記憶部27をさらに備える。また、認識結果出力制御部22が、表示優先度に対応する判定尤度を音声認識部19に対して設定するのではなく、表示優先度に対応する認識対象単語数に基づいて、音声認識辞書20を動的に生成する点が異なる。
 認識対象単語数決定部26は、表示優先度計算部21により出力された表示優先度に対応する認識対象単語数を決定する。ここで、表示優先度と認識対象単語数は正の相関関係を有するものとする。図23は、認識結果の表示優先度と、認識対象単語数との関係を示す図である。
 例えば、Yを認識対象単語数、Xを表示優先度として、認識対象単語数が表示優先度に比例して増加するような関数「Y=cX+d」(c、dは正の定数)を用いて決定されるものとする。図23(a)に示す例では、「Y=0.2X+10」という式に基づいて、認識対象単語数が決定される。
 ここで、図23(b)に示すように、表示優先度に基づいて段階的に認識対象単語数が増加するようにしてもよい。
 なお、表示優先度を、操作ボタン23に対して操作ボタン23以外の情報が優先して表示されるべき度合いを表すものとした場合は、表示優先度と対応する認識対象単語数は、負の相関を有するものとなる。
 認識単語候補記憶部27は、認識対象候補の単語の読みと認識順位を記憶している。
 認識順位は、後述する認識結果出力制御部22による選択され易さを表し、認識順位が小さい程選択され易いものとする。図24は、認識単語候補記憶部27に記憶されている認識対象候補の単語の読みと認識順位の対応の一例を示す表である。
 なお、ここでは認識順位が小さい程選択され易いものとして説明するが、認識順位が小さい程選択され難くして、操作ボタン23があまり表示されないようにしてもよい。また、認識順位は固定でもよいし、認識順位を記憶していないものであってもよい。
 認識順位の代わりに単語毎に認識された回数を記憶するようにし、当該回数が多いほど選択され易く、当該回数が少ないほど選択されにくくするようにしてもよい。
 なお、この場合には、音声認識部19により出力された認識結果を検索キーとして、認識単語候補記憶部27を検索し、一致する単語に対応する認識回数をインクリメントする認識回数設定部(図示せず)を備える構成とすればよい。
 認識結果出力制御部22は、認識単語候補記憶部27から認識対象単語数決定部26により決定された単語数分の単語の読みを、認識順位が小さいものまたは認識回数が多いものから順に取得する。そして取得した単語の読みを用いて音声認識辞書20を動的に生成する。
 また、認識単語候補記憶部27に認識順位が記憶されていない場合は、認識対象単語数決定部26により決定された単語数分の単語の読みを、ランダムに取得してもよい。
 次に図25に示すフローチャートを用いて、実施の形態3による音声認識装置の処理を説明する。
 ステップST51とステップST52は、実施の形態1のステップST31とステップST32と同一であるので説明を省略する。
 認識対象単語数決定部26は、表示優先度計算部21により出力された表示優先度に対応する認識対象単語数を決定する(ステップST53)。そして、認識結果出力制御部22は、認識単語候補記憶部27から認識対象単語数決定部26により決定された単語数分の単語の読みを、認識順位が小さいものから順に取得し(ステップST54)、取得した単語の読みを用いて音声認識辞書を生成する(ステップST55)。
 以上のように、この実施の形態3によれば、表示優先度に応じた認識単語数の音声認識辞書を動的に生成することにより、認識結果の出力頻度が調整されるので、実施の形態1と同様に、ユーザの利便性を向上させることができる。
実施の形態4.
 以上の実施の形態1~3では、この発明における音声認識装置を、車両等の移動体に搭載されるナビゲーション装置に適用した場合を例に説明したが、適用するのは車両用のナビゲーション装置に限らず、人、車両、鉄道、船舶または航空機等を含む移動体用のナビゲーション装置であってもよいし、音声認識システムのサーバやナビゲーションシステムのサーバに適用してもよい。また、スマートフォン、タブレットPC、携帯電話等の携帯情報端末等にインストールされる音声認識システムのアプリケーションやナビゲーションシステムのアプリケーション等、どのような形態のものにも適用することができる。
 図26は、この発明の実施の形態4におけるナビゲーションシステムの概要を示す図である。このナビゲーションシステムは、車載装置100が、スマートフォンなどの携帯情報端末101およびサーバ102の少なくとも一方と連携して音声認識処理およびナビゲーション処理を行ったり、スマートフォンなどの携帯情報端末101およびサーバ102の少なくとも一方が音声認識処理およびナビゲーション処理を行い、車載装置100に認識結果や地図情報を表示させる等、様々な形態をとることができる。以下、当該ナビゲーションシステムの構成態様について説明する。
 実施の形態1~3では、この発明の音声認識装置の機能を、図26に示す車載装置100がすべて備えるものとして説明したが、この実施の形態4におけるナビゲーションシステムでは、サーバ102が音声認識処理を行い、その認識結果を車載装置100に表示させることによりユーザに提供する場合、および、携帯情報端末101がサーバ102と連携して音声認識処理を行い、その認識結果を車載装置100に表示させることによりユーザに提供する場合について説明する。
 まず、サーバ102が音声認識処理を行い、その認識結果を車載装置100に表示させる場合、すなわち、音声認識機能を有するサーバ102と連携して、車載装置100が表示装置として機能する場合について説明する。
 この構成においては、車載装置100がサーバ102と直接通信するか、または、車載装置100が携帯情報端末101を経由してサーバ102と通信する場合が考えられる。サーバ102は、上記実施の形態1~3で説明した音声処理部9を備えた音声認識装置として機能する。また、車載装置100は、サーバ102による認識結果をユーザに提供するための表示部15を少なくとも備える表示装置として機能する。
 この場合、車載装置100は基本的に通信機能および表示機能のみを有し、サーバ102による音声認識結果を受信してユーザに提供する。
 すなわち、サーバ102が表示部15以外を備える音声認識装置であり、この音声認識装置であるサーバ102が、ユーザにより発話された音声を認識して認識結果を表示装置である車載装置100に表示させる。
 このように構成しても、実施の形態1~3と同様な効果を得ることができる。
 また、携帯情報端末101がサーバ102と連携して音声認識処理を行い、その認識結果を車載装置100がユーザに提供する場合について説明する。
 この構成においては、車載装置100が携帯情報端末101を経由してサーバ102と通信する場合が考えられ、携帯情報端末101のアプリケーションが、サーバ102と連携して音声認識処理を行う。また、車載装置100は、携帯情報端末101とサーバ102による認識結果をユーザに提供するための表示部15を少なくとも備える表示装置として機能する。
 この場合にも、車載装置100は基本的に通信機能および表示機能のみを有し、携帯情報端末101とサーバ102との連携による音声認識結果を受信してユーザに提供する。
 すなわち、携帯情報端末101のアプリケーションにより、ユーザにより発話された音声を認識した認識結果を表示装置である車載装置100に表示させる。
 このように構成しても、実施の形態1~3と同様な効果を得ることができる。
 なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
 この発明の音声認識装置は、車両等の移動体に搭載されるナビゲーション装置や、車載情報提供システムのサーバや、スマートフォン、タブレットPC、携帯電話等の携帯情報端末等にインストールされるナビゲーションシステムのアプリケーション等に適用することができる。
 1 制御部、2 GPS受信機、3 自立航法センサ、4 現在位置検出部、5 交通情報送受信部、6 経路計算部、7 誘導案内部、8 マイク、9 音声処理部、10 音声合成部、11 地図情報格納部、12 地図情報取得部、13 指示入力部、14 表示制御部、15 表示部(ディスプレイ)、16 音声制御部、17 スピーカ、18 音声取得部、19 音声認識部、20 音声認識辞書、21 表示優先度計算部、22 認識結果出力制御部、23 操作ボタン(認識結果)、24 認識結果表示領域、25 音声認識辞書切換情報記憶部、26 認識対象単語数決定部、27 認識単語候補記憶部、31 自車、32 渋滞情報の表示、33 施設アイコン、34 案内表示、35 警告表示、100 車載装置、101 携帯情報端末、102 サーバ。

Claims (18)

  1.  ユーザにより発話された音声を認識して認識結果を表示する音声認識装置において、
     前記ユーザにより発話された音声を検知して取得する音声取得部と、
     前記音声認識装置が起動している間は常時、音声認識辞書を参照して、前記音声取得部により取得された音声データを認識し、所定の判定尤度に基づいて認識結果を出力する音声認識部と、
     前記音声認識部により出力された認識結果を表示する表示部と、
     前記音声認識部により出力された認識結果を、前記表示部の所定の認識結果表示領域に表示するよう指示出力する表示制御部と、
     前記所定の認識結果表示領域における、前記認識結果の表示優先度を計算する表示優先度計算部と、
     前記表示優先度計算部により計算された表示優先度に対応する判定尤度を決定し、当該判定尤度を前記音声認識部に対して前記所定の判定尤度として設定する認識結果出力制御部と
     を備えることを特徴とする音声認識装置。
  2.  ユーザにより発話された音声を認識して認識結果を表示する音声認識装置において、
     前記ユーザにより発話された音声を検知して取得する音声取得部と、
     前記音声認識装置が起動している間は常時、複数の音声認識辞書のうちの1つを参照して、前記音声取得部により取得された音声データを認識し、所定の判定尤度に基づいて認識結果を出力する音声認識部と、
     前記音声認識部により出力された認識結果を表示する表示部と、
     前記音声認識部により出力された認識結果を、前記表示部の所定の認識結果表示領域に表示するよう指示出力する表示制御部と、
     前記所定の認識結果表示領域における、前記認識結果の表示優先度を計算する表示優先度計算部と、
     前記表示優先度とそれに対応する音声認識辞書の名前である音声認識辞書名とを対応付けて記憶した音声認識辞書切換情報記憶部と
     前記音声認識辞書切換情報記憶部を参照して、前記表示優先度計算部により計算された表示優先度に対応する前記音声認識辞書名を取得し、前記音声認識部が参照する音声認識辞書を、当該取得した音声認識辞書名の音声認識辞書に切換える認識結果出力制御部と
     を備えることを特徴とする音声認識装置。
  3.  ユーザにより発話された音声を認識して認識結果を表示する音声認識装置において、
     前記ユーザにより発話された音声を検知して取得する音声取得部と、
     前記音声認識装置が起動している間は常時、音声認識辞書を参照して、前記音声取得部により取得された音声データを認識し、所定の判定尤度に基づいて認識結果を出力する音声認識部と、
     前記音声認識部により出力された認識結果を表示する表示部と、
     前記音声認識部により出力された認識結果を、前記表示部の所定の認識結果表示領域に表示するよう指示出力する表示制御部と、
     前記所定の認識結果表示領域における、前記認識結果の表示優先度を計算する表示優先度計算部と、
     前記表示優先度計算部により計算された表示優先度に基づいて、前記音声認識部での認識対象となる単語数を決定する認識対象単語数決定部と、
     前記音声認識部の認識対象となる単語の読みを記憶する認識単語候補記憶部と、
     前記認識対象単語数決定部により決定された単語数の単語を、前記認識単語候補記憶部から取得し、当該取得した単語を用いて前記音声認識辞書を生成する認識結果出力制御部と
     を備えることを特徴とする音声認識装置。
  4.  前記認識単語候補記憶部は、前記単語の読みに対応付けて認識順位を記憶しており、
     前記認識結果出力制御部は、前記認識順位に基づいて前記認識単語候補記憶部から前記単語の読みを取得する
     ことを特徴とする請求項3記載の音声認識装置。
  5.  前記認識単語候補記憶部は、前記単語の読みに対応付けて認識回数を記憶しており、
     前記音声認識部により出力された認識結果を検索キーとして前記認識単語候補記憶部を検索し、一致する単語の読みに対応する認識回数を増加させる認識回数設定部とをさらに備え、
     前記認識結果出力制御部は、前記認識回数に基づいて前記認識単語候補記憶部から前記単語の読みを取得する
     ことを特徴とする請求項3記載の音声認識装置。
  6.  前記認識結果出力制御部は、前記表示優先度計算部により計算された表示優先度に基づいて前記音声認識部の認識処理を停止および再開させる
     ことを特徴とする請求項1記載の音声認識装置。
  7.  前記音声認識装置は、前記表示部に地図を表示して移動体の道案内を行うナビゲーション装置に適用されるものであり、
     前記表示優先度計算部は、前記表示部に表示された前記移動体の進行方向と前記認識結果表示領域との位置関係に基づいて、前記表示優先度を計算する
     ことを特徴とする請求項1記載の音声認識装置。
  8.  前記音声認識装置は、前記表示部に地図を表示して移動体の道案内を行うナビゲーション装置に適用されるものであり、
     前記表示優先度計算部は、前記認識結果表示領域における前記地図上の交通情報の表示状況に基づいて、前記表示優先度を計算する
     ことを特徴とする請求項1記載の音声認識装置。
  9.  前記音声認識装置は、前記表示部に地図を表示して移動体の道案内を行うナビゲーション装置に適用されるものであり、
     前記表示優先度計算部は、前記認識結果表示領域における前記地図上のアイコンの表示状況に基づいて、前記表示優先度を計算する
     ことを特徴とする請求項1記載の音声認識装置。
  10.  前記表示優先度計算部は、前記認識結果表示領域に前記アイコンが表示されている場合は、前記アイコンが表示されていない場合よりも、前記表示優先度を低くする
     ことを特徴とする請求項9記載の音声認識装置。
  11.  前記表示優先度計算部は、前記認識結果表示領域に表示されている前記アイコンの個数と前記表示優先度が負の相関を有するように、前記表示優先度を計算する
     ことを特徴とする請求項9記載の音声認識装置。
  12.  前記音声認識装置は、前記表示部に地図を表示して移動体の道案内を行うナビゲーション装置に適用されるものであり、
     前記表示優先度計算部は、前記移動体が走行中の道路種別に基づいて、前記表示優先度を計算する
     ことを特徴とする請求項1記載の音声認識装置。
  13.  前記音声認識装置は、前記表示部に地図を表示して移動体の道案内を行うナビゲーション装置に適用されるものであり、
     前記表示優先度計算部は、前記移動体が走行中の地域種別に基づいて、前記表示優先度を計算する
     ことを特徴とする請求項1記載の音声認識装置。
  14.  前記音声認識装置は、前記表示部に地図を表示して移動体の道案内を行うナビゲーション装置に適用されるものであり、
     前記表示優先度計算部は、前記表示部に表示されている地図の表示スケールに基づいて、前記表示優先度を計算する
     ことを特徴とする請求項1記載の音声認識装置。
  15.  前記音声認識装置は、前記表示部に地図を表示して移動体の道案内を行うナビゲーション装置に適用されるものであり、
     前記表示優先度計算部は、前記認識結果表示領域における前記地図上の案内/警告表示の表示状況に基づいて、前記表示優先度を計算する
     ことを特徴とする請求項1記載の音声認識装置。
  16.  前記表示優先度計算部は、前記認識結果表示領域に表示される認識結果の内容と前記表示部に表示されている表示画面との関連性に基づいて、前記表示優先度を計算する
     ことを特徴とする請求項1記載の音声認識装置。
  17.  ユーザにより発話された音声を認識して認識結果を表示装置に表示させる音声認識装置であって、
     前記ユーザにより発話された音声を取得する音声取得部と、
     前記音声認識装置が起動している間は常時、音声認識辞書を参照して、前記音声取得部により取得された音声データを認識し、所定の判定尤度に基づいて認識結果を出力する音声認識部と、
     前記音声認識部により出力された認識結果を、前記表示装置の所定の認識結果表示領域に表示するよう指示出力する表示制御部と、
     前記所定の認識結果表示領域における、前記認識結果の表示優先度を計算する表示優先度計算部と、
     前記表示優先度計算部により計算された表示優先度に対応する判定尤度を決定し、当該判定尤度を前記音声認識部に対して前記所定の判定尤度として設定する認識結果出力制御部と
     を備えたことを特徴とする音声認識装置。
  18.  音声認識装置が、ユーザにより発話された音声を認識して認識結果を表示装置に表示させる表示方法であって、
     音声取得部が、前記ユーザにより発話された音声を取得するステップと、
     音声認識部が、前記音声認識装置が起動している間は常時、音声認識辞書を参照して、前記音声取得部により取得された音声データを認識し、所定の判定尤度に基づいて認識結果を出力するステップと、
     表示制御部が、前記音声認識部により出力された認識結果を、前記表示装置の所定の認識結果表示領域に表示するよう指示出力するステップと、
     表示優先度計算部が、前記所定の認識結果表示領域における、前記認識結果の表示優先度を計算するステップと、
     認識結果出力制御部が、前記表示優先度計算部により計算された表示優先度に対応する判定尤度を決定し、当該判定尤度を前記音声認識部に対して前記所定の判定尤度として設定するステップと
     を備えたことを特徴とする表示方法。
PCT/JP2013/050203 2013-01-09 2013-01-09 音声認識装置および表示方法 WO2014109017A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
PCT/JP2013/050203 WO2014109017A1 (ja) 2013-01-09 2013-01-09 音声認識装置および表示方法
CN201380070047.9A CN104919278B (zh) 2013-01-09 2013-01-09 语音识别装置及显示方法
JP2014556253A JP5921722B2 (ja) 2013-01-09 2013-01-09 音声認識装置および表示方法
US14/648,935 US9639322B2 (en) 2013-01-09 2013-01-09 Voice recognition device and display method
DE112013006384.0T DE112013006384T5 (de) 2013-01-09 2013-01-09 Spracherkennungsvorrichtung und Anzeigeverfahren

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/050203 WO2014109017A1 (ja) 2013-01-09 2013-01-09 音声認識装置および表示方法

Publications (1)

Publication Number Publication Date
WO2014109017A1 true WO2014109017A1 (ja) 2014-07-17

Family

ID=51166688

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/050203 WO2014109017A1 (ja) 2013-01-09 2013-01-09 音声認識装置および表示方法

Country Status (5)

Country Link
US (1) US9639322B2 (ja)
JP (1) JP5921722B2 (ja)
CN (1) CN104919278B (ja)
DE (1) DE112013006384T5 (ja)
WO (1) WO2014109017A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297781A (zh) * 2015-06-24 2017-01-04 松下电器(美国)知识产权公司 控制方法和控制器
JP2020134745A (ja) * 2019-02-21 2020-08-31 富士ゼロックス株式会社 情報処理装置及びプログラム

Families Citing this family (132)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014188512A1 (ja) * 2013-05-21 2014-11-27 三菱電機株式会社 音声認識装置、認識結果表示装置および表示方法
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
KR101922663B1 (ko) 2013-06-09 2018-11-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2015020942A1 (en) 2013-08-06 2015-02-12 Apple Inc. Auto-activating smart responses based on activities from remote devices
WO2015037396A1 (ja) * 2013-09-11 2015-03-19 株式会社デンソー 音声出力制御装置、プログラムおよび記録媒体
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
JP6483680B2 (ja) * 2014-06-30 2019-03-13 クラリオン株式会社 情報処理システム、及び、車載装置
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US11199962B2 (en) * 2015-04-27 2021-12-14 Shane Venis Freehand memo image authentication
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
JP6608199B2 (ja) * 2015-07-07 2019-11-20 クラリオン株式会社 情報システムおよびコンテンツ開始方法
KR102505347B1 (ko) * 2015-07-16 2023-03-03 삼성전자주식회사 사용자 관심 음성 알림 장치 및 방법
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) * 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
EP3602272B1 (en) 2017-11-06 2023-11-22 Google LLC Methods and systems for attending to a presenting user
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11061958B2 (en) 2019-11-14 2021-07-13 Jetblue Airways Corporation Systems and method of generating custom messages based on rule-based database queries in a cloud platform
CN114787917A (zh) * 2019-12-11 2022-07-22 谷歌有限责任公司 处理从多个用户同时接收的话语
KR20210133600A (ko) * 2020-04-29 2021-11-08 현대자동차주식회사 차량 음성 인식 방법 및 장치
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US20220028381A1 (en) * 2020-07-27 2022-01-27 Samsung Electronics Co., Ltd. Electronic device and operation method thereof
CN113436628A (zh) * 2021-08-27 2021-09-24 广州小鹏汽车科技有限公司 语音交互方法、装置、***、交通工具及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006171305A (ja) * 2004-12-15 2006-06-29 Nissan Motor Co Ltd ナビゲーション装置およびナビゲーション装置における音声認識による情報の検索方法
JP2007286358A (ja) * 2006-04-17 2007-11-01 Xanavi Informatics Corp ナビゲーション装置及びその住所入力方法
WO2010061751A1 (ja) * 2008-11-25 2010-06-03 旭化成株式会社 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3962763B2 (ja) * 2004-04-12 2007-08-22 松下電器産業株式会社 対話支援装置
JP5119587B2 (ja) * 2005-10-31 2013-01-16 株式会社デンソー 車両用表示装置
JP4816409B2 (ja) * 2006-01-10 2011-11-16 日産自動車株式会社 認識辞書システムおよびその更新方法
JP4662861B2 (ja) * 2006-02-07 2011-03-30 日本電気株式会社 モニタリング装置、評価データ選別装置、応対者評価装置、応対者評価システムおよびプログラム
CN101410790A (zh) * 2006-03-24 2009-04-15 日本电气株式会社 文本显示设备、文本显示方法及程序
JP2007303878A (ja) 2006-05-09 2007-11-22 Denso Corp ナビゲーション装置
JP4736982B2 (ja) 2006-07-06 2011-07-27 株式会社デンソー 作動制御装置、プログラム
US20080153465A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Voice search-enabled mobile device
JP2008180786A (ja) 2007-01-23 2008-08-07 Sanyo Electric Co Ltd ナビゲーションシステムおよびナビゲーション装置
JP5012123B2 (ja) 2007-03-22 2012-08-29 株式会社Jvcケンウッド ナビゲーション装置、制御方法及びプログラム
JP2010008601A (ja) * 2008-06-25 2010-01-14 Fujitsu Ltd 案内情報表示装置、案内情報表示方法及びプログラム
JP4973722B2 (ja) 2009-02-03 2012-07-11 株式会社デンソー 音声認識装置、音声認識方法、及びナビゲーション装置
JP2010205130A (ja) * 2009-03-05 2010-09-16 Denso Corp 制御装置
JP2011091617A (ja) * 2009-10-22 2011-05-06 Denso Corp 車両用データ通信装置
JP5340418B2 (ja) * 2009-12-24 2013-11-13 三菱電機株式会社 ナビゲーション装置
JP5496947B2 (ja) * 2011-05-27 2014-05-21 株式会社Nttドコモ 機能提示システム、端末装置及びプログラム
US9341492B2 (en) * 2011-11-10 2016-05-17 Mitsubishi Electric Corporation Navigation device, navigation method, and navigation program
JP5845860B2 (ja) * 2011-12-01 2016-01-20 株式会社デンソー 地図表示操作装置
JP6094399B2 (ja) * 2013-06-24 2017-03-15 株式会社デンソー ヘッドアップディスプレイ、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006171305A (ja) * 2004-12-15 2006-06-29 Nissan Motor Co Ltd ナビゲーション装置およびナビゲーション装置における音声認識による情報の検索方法
JP2007286358A (ja) * 2006-04-17 2007-11-01 Xanavi Informatics Corp ナビゲーション装置及びその住所入力方法
WO2010061751A1 (ja) * 2008-11-25 2010-06-03 旭化成株式会社 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297781A (zh) * 2015-06-24 2017-01-04 松下电器(美国)知识产权公司 控制方法和控制器
JP2020134745A (ja) * 2019-02-21 2020-08-31 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7334420B2 (ja) 2019-02-21 2023-08-29 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
US9639322B2 (en) 2017-05-02
JPWO2014109017A1 (ja) 2017-01-19
CN104919278B (zh) 2017-09-19
US20150331664A1 (en) 2015-11-19
DE112013006384T5 (de) 2015-09-24
CN104919278A (zh) 2015-09-16
JP5921722B2 (ja) 2016-05-24

Similar Documents

Publication Publication Date Title
JP5921722B2 (ja) 音声認識装置および表示方法
JP5893217B2 (ja) 音声認識装置および表示方法
US8903651B2 (en) Information terminal, server device, searching system, and searching method thereof
JP5762660B2 (ja) 音声認識装置、認識結果表示装置および表示方法
US20140100847A1 (en) Voice recognition device and navigation device
US9105267B2 (en) Speech recognition apparatus
US6937982B2 (en) Speech recognition apparatus and method using two opposite words
US9644985B2 (en) Navigation device that evaluates points of interest based on user utterance
JP5677650B2 (ja) 音声認識装置
JPWO2014006690A1 (ja) 音声認識装置
JP6214297B2 (ja) ナビゲーション装置および方法
JP5005491B2 (ja) 車載機、その出力態様設定方法
JP2009230068A (ja) 音声認識装置及びナビゲーションシステム
JP2011232668A (ja) 音声認識機能を備えたナビゲーション装置およびその検出結果提示方法
JP4705398B2 (ja) 音声案内装置、音声案内装置の制御方法及び制御プログラム
JP2011220861A (ja) ナビゲーションシステム、車載ナビゲーション装置、及び携帯端末
WO2006028171A1 (ja) データ提示装置、データ提示方法、データ提示プログラムおよびそのプログラムを記録した記録媒体
JP4985505B2 (ja) 音出力装置及びプログラム
JP2001215994A (ja) 音声認識住所検索装置と車載ナビゲーション装置
JP2014232289A (ja) 誘導音声調整装置、誘導音声調整方法および誘導音声調整プログラム
JP2009086132A (ja) 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識装置を備えた電子機器、音声認識方法、音声認識プログラム、および記録媒体
JPH1049195A (ja) 音声認識装置
JP6109373B2 (ja) サーバー装置および検索方法
US20050049878A1 (en) Voice recognition device
JP2006195909A (ja) 施設検索装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13871112

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014556253

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14648935

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1120130063840

Country of ref document: DE

Ref document number: 112013006384

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13871112

Country of ref document: EP

Kind code of ref document: A1