JP6741387B2 - Audio output device - Google Patents

Audio output device Download PDF

Info

Publication number
JP6741387B2
JP6741387B2 JP2016230371A JP2016230371A JP6741387B2 JP 6741387 B2 JP6741387 B2 JP 6741387B2 JP 2016230371 A JP2016230371 A JP 2016230371A JP 2016230371 A JP2016230371 A JP 2016230371A JP 6741387 B2 JP6741387 B2 JP 6741387B2
Authority
JP
Japan
Prior art keywords
voice
output
guidance
user
guide
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016230371A
Other languages
Japanese (ja)
Other versions
JP2018087871A (en
Inventor
信範 工藤
信範 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2016230371A priority Critical patent/JP6741387B2/en
Publication of JP2018087871A publication Critical patent/JP2018087871A/en
Application granted granted Critical
Publication of JP6741387B2 publication Critical patent/JP6741387B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Navigation (AREA)

Description

本発明は、車両等に搭載されてナビゲーション動作の案内音声等を出力する音声出力装置に関する。 The present invention relates to a voice output device that is mounted on a vehicle or the like and outputs a guidance voice or the like for navigation operation.

従来から、ナビゲーション装置等から出力される案内音声を利用者が聞き逃した際に、利用者による操作デバイスの操作状況や利用者の発話に対する音声認識装置による認識結果に基づいて、再度案内音声を出力するようにした音声出力装置が知られている(例えば、特許文献1参照。)。この音声出力装置では、音声出力後の所定時間以内に操作デバイスが操作されたり、音声による発話があった場合に、その直前の音声出力を利用者が聞き逃したものと案内判定して音声の再出力を行っている。 Conventionally, when a user misses the guidance voice output from a navigation device or the like, the guidance voice is again issued based on the operation status of the operation device by the user and the recognition result of the voice recognition device for the user's utterance. A sound output device that outputs the sound is known (for example, see Patent Document 1). In this voice output device, when the operation device is operated or a voice is uttered within a predetermined time after voice output, it is determined that the user has missed the voice output immediately before that, and the voice output is performed. Re-outputting.

特開2006−38705号公報JP, 2006-38705, A

ところで、上述した特許文献1に開示された音声出力装置では、案内音声の再出力を希望する利用者は、聞き逃した案内音声出力後の所定時間以内に所定の操作や発話を行う必要があり、この所定時間が短すぎると利用者の希望に沿った案内音声の再出力が行われず、反対に、この所定時間が長すぎると利用者が希望しない案内音声が再出力されてしまう場合があり、利用者の意思が反映されないおそれがあるという問題があった。特に、案内音声出力後に、この案内音声を聞き逃した利用者が操作等を行うタイミングは利用者毎に異なっており、すべての利用者を対象に適切な所定時間を設定することは難しい。 By the way, in the above-described voice output device disclosed in Patent Document 1, a user who desires to re-output the guidance voice needs to perform a predetermined operation or utterance within a predetermined time after the missed guidance voice is output. , If the predetermined time is too short, the guidance voice according to the user's wishes may not be re-output. On the contrary, if the predetermined time is too long, the guidance voice not desired by the user may be re-output. There was a problem that the intention of the user might not be reflected. In particular, after the guidance voice is output, the timing at which the user who misses this guidance voice performs an operation or the like varies from user to user, and it is difficult to set an appropriate predetermined time for all users.

本発明は、このような点に鑑みて創作されたものであり、その目的は、聞き逃した案内音声の再出力を利用者の意思を反映して確実に実施することができる音声出力装置を提供することにある。 The present invention was created in view of the above circumstances, and an object thereof is to provide a voice output device capable of reliably outputting a missed guidance voice by reflecting the intention of the user. To provide.

上述した課題を解決するために、本発明の音声出力装置は、案内音声を出力する案内音声出力手段と、利用者によって発声された音声に対して音声認識処理を行う音声認識処理手段と、音声認識処理手段による認識結果に基づいて、利用者によって発声された音声の内容が、直前に出力された案内音声を聞き逃したことを示す特定ワードを示すものである場合に、案内音声出力手段に対して、直前に出力された案内音声の再出力を指示する案内出力指示手段とを備えている。特に、上述した特定ワードは、案内音声を聞き逃した利用者が発声するであろう音声を想定して設定された複数の特定ワード候補の中の一つであることが望ましい。 In order to solve the above-mentioned problems, a voice output device of the present invention includes a guide voice output unit that outputs a guide voice, a voice recognition processing unit that performs a voice recognition process on a voice uttered by a user, and a voice. Based on the recognition result by the recognition processing means, if the content of the voice uttered by the user indicates a specific word indicating that the guide voice output immediately before has been missed, the guide voice output means On the other hand, it is provided with a guidance output instruction means for instructing the re-output of the guidance voice outputted immediately before. In particular, it is preferable that the above-mentioned specific word is one of a plurality of specific word candidates set assuming a voice that a user who misses the guidance voice will utter.

利用者は、出力された案内音声の内容を聞き逃した場合であって、もう一度聞きたい場合には、「なに」、「どこ」、「もう一回」などの特定ワードの音声を発声することが多い。したがって、このような特定ワードを予め想定して音声認識結果との間で一致/不一致を判定することにより、案内音声の再出力を希望する利用者の意思を反映させた上で、聞き逃した案内音声の再出力を確実に実施することが可能となる。 When the user misses the content of the output guidance voice and wants to hear it again, the user utters a voice of a specific word such as "what", "where", "one more time". Often. Therefore, by assuming such a specific word in advance and determining whether or not it matches with the voice recognition result, the intention of the user who wants to re-output the guidance voice is reflected and then missed. It is possible to reliably output the guidance voice again.

また、上述した案内音声出力手段は、案内音声を出力する際の音量が変更可能であり、案内出力指示手段は、案内音声の再出力とともに音量の増加を案内音声出力手段に対して指示することが望ましい。また、利用者が、案内音声と同時に聴取可能なオーディオ音を出力するオーディオ手段をさらに備え、案内出力指示手段は、案内音声の再出力を案内音声出力手段に対して指示するとともに、オーディオ音の音量低下をオーディオ手段に対して指示する。これにより、案内音声の音量増加および/またはオーディオ音の音量低下を行った上で案内音声の再出力を行うことにより、案内音声の内容を利用者に確実に伝えることができ、再度の聞き逃しを防止することが可能となる。 Further, the above-mentioned guidance voice output means can change the volume when outputting the guidance voice, and the guidance output instruction means instructs the guidance voice output means to increase the volume together with the re-output of the guidance voice. Is desirable. Further, the user further comprises audio means for outputting an audio sound that can be heard at the same time as the guide voice, and the guide output instructing means instructs the guide voice output means to re-output the guide voice and outputs the audio sound. Instruct the audio means to decrease the volume . As a result, by increasing the volume of the guidance voice and/or decreasing the volume of the audio sound and then re-outputting the guidance voice, the contents of the guidance voice can be surely transmitted to the user and missed again. Can be prevented.

また、上述した案内音声出力手段によって出力される前記案内音声には、重要度が高い第1の案内音声と、第1の案内音声よりも重要度が低い第2の案内音声が含まれており、第1の案内音声の再出力を行う際に、第1の案内音声の音量増加および/またはオーディオ音の音量低下を行い、第2の案内音声の再出力を行う際に、第2の案内音声の音量増加およびオーディオ音の音量低下を行わないことが望ましい。これにより、重要な案内音声について、再度の聞き逃しを確実に防止することが可能となる。 Further, the guide voice output by the guide voice output means includes a first guide voice having a high importance and a second guide voice having a lower importance than the first guide voice. , The volume of the first guidance voice is increased and/or the volume of the audio sound is reduced when the first guidance voice is output again, and the second guidance is output when the second guidance voice is output again. It is desirable not to increase the volume of voice and decrease the volume of audio sound. This makes it possible to reliably prevent the important guidance voice from being missed again.

また、音声出力装置は車両に搭載されており、車室内において前記案内音声出力手段による案内音声の出力が行われ、利用者は、車室内の座席に着座していることが望ましい。車両走行時は、ロードノイズや風切音、雨音などの影響により案内音声の内容を聞き逃す機会が増えると考えられるが、このような環境においても、案内音声の再出力を希望する利用者の意思を判定させた上で、聞き逃した案内音声の再出力を確実に実施することが可能となる。 Further, it is preferable that the voice output device is mounted on a vehicle, the guide voice is output by the guide voice output means in the vehicle compartment, and the user is seated in a seat in the vehicle compartment. While the vehicle is running, it is thought that there will be more opportunities to miss the guidance voice content due to the effects of road noise, wind noise, rain noise, etc.However, even in such an environment, users who wish to re-output the guidance voice It is possible to surely re-output the missed guidance voice after determining the intention.

一実施形態の車載装置の構成を示す図である。It is a figure which shows the structure of the vehicle-mounted apparatus of one embodiment. 音声認識処理のしきい値とスコアとの関係を示す図である。It is a figure which shows the relationship between the threshold value of a speech recognition process, and a score. ナビゲーション処理部から案内音声が出力された後に、利用者によって案内音声の出力が音声によって指示された場合の動作手順を示す流れ図である。7 is a flow chart showing an operation procedure in the case where, after the guidance voice is output from the navigation processing unit, the user instructs the voice guidance to output the guidance voice.

以下、本発明の音声出力装置を適用した一実施形態の車載装置について、図面を参照しながら説明する。 Hereinafter, an on-vehicle device to which an audio output device of the present invention is applied will be described with reference to the drawings.

図1は、一実施形態の車載装置の構成を示す図である。図1に示すように、車載装置1は、ナビゲーション処理部10、TVチューナ処理部14、ラジオチューナ処理部16、AV処理部18、操作部20、入力制御部22、表示処理部24、表示装置26、音声認識処理部30、マイクロホン32、デジタル−アナログ変換器(D/A)40、スピーカ42、制御部50、ハードディスク装置(HDD)70を備えている。 FIG. 1 is a diagram showing a configuration of an in-vehicle device according to an embodiment. As shown in FIG. 1, the vehicle-mounted device 1 includes a navigation processing unit 10, a TV tuner processing unit 14, a radio tuner processing unit 16, an AV processing unit 18, an operation unit 20, an input control unit 22, a display processing unit 24, and a display device. 26, a voice recognition processing unit 30, a microphone 32, a digital-analog converter (D/A) 40, a speaker 42, a control unit 50, and a hard disk device (HDD) 70.

ナビゲーション処理部10は、ハードディスク装置70に記憶されている地図データを用いて、車載装置1が搭載された車両の走行を案内するナビゲーション動作を行う。自車位置を検出するGPS(Global Positioning System)装置12とともに用いられ、車両の走行を案内するナビゲーション動作には、地図表示、経路探索・誘導のほかに周辺施設を検索して表示する動作などが含まれる。また、経路誘導動作には、交差点通過時などに車両の進行方向や走行車線変更などを案内する案内音声(ルートガイダンス)を作成する動作が含まれる。なお、自車位置検出は、GPS12の他にジャイロセンサや車速センサ等の自律航法センサを組み合わせて用いるようにしてもよい。 The navigation processing unit 10 uses the map data stored in the hard disk device 70 to perform a navigation operation for guiding the travel of the vehicle in which the in-vehicle device 1 is mounted. Used in conjunction with the GPS (Global Positioning System) device 12 that detects the position of the vehicle, navigation operations that guide the travel of the vehicle include map display, route search/guidance, and search and display of nearby facilities. included. Further, the route guidance operation includes an operation of creating a guidance voice (route guidance) for guiding the traveling direction of the vehicle, changing the driving lane, etc. when passing through an intersection. In addition to the GPS 12, the own vehicle position may be detected by combining an autonomous navigation sensor such as a gyro sensor or a vehicle speed sensor.

TVチューナ処理部14は、地上デジタル放送等の放送信号を受信し、映像および音声を再生する処理を行う。ラジオチューナ処理部16は、ラジオ放送の信号を受信し、音声を再生する処理を行う。AV処理部18は、圧縮されてハードディスク装置70に記憶されている音楽データや映像データを読み出して再生する処理を行う。なお、音楽データや映像データは、ディスク読取装置(図示せず)を用いてCDやDVDから読み取ったものを用いたり、ネットワーク経由で受信したものを用いるようにしてもよい。また、本実施形態では、TVチューナ処理部14、ラジオチューナ処理部16、AV処理部18のそれぞれから出力される各種の音声や音楽をまとめて「オーディオ音」として説明を行うものとする。 The TV tuner processing unit 14 receives a broadcast signal such as a terrestrial digital broadcast and performs a process of reproducing video and audio. The radio tuner processing unit 16 receives a radio broadcast signal and reproduces sound. The AV processing unit 18 performs a process of reading out and reproducing music data or video data which is compressed and stored in the hard disk device 70. The music data and the video data may be those read from a CD or DVD using a disc reading device (not shown), or those received via a network. In addition, in the present embodiment, various audio and music output from each of the TV tuner processing unit 14, the radio tuner processing unit 16, and the AV processing unit 18 will be collectively described as “audio sound”.

操作部20は、利用者による各種操作を受け付けるためのものであり、各種のスイッチや操作つまみ等が備わっている。入力制御部22は、操作部20の操作状態を監視し、利用者による入力内容を検出する。 The operation unit 20 is for receiving various operations by the user, and includes various switches and operation knobs. The input control unit 22 monitors the operation state of the operation unit 20 and detects the content input by the user.

表示処理部24は、各種の操作画面や入力画面等を表示する映像信号を出力して表示装置26にこれらの画面を表示するとともに、TVチューナ処理部14によって受信した放送信号に対応する映像画面やAV処理部18によって再生した映像画面等を表示する映像信号を出力して表示装置26にこれらの画面を表示する。表示装置26は、運転席と助手席の中央前方に設置されており、例えば液晶表示装置(LCD)を用いて構成されている。 The display processing unit 24 outputs video signals for displaying various operation screens, input screens, and the like, displays these screens on the display device 26, and also displays a video screen corresponding to the broadcast signal received by the TV tuner processing unit 14. A video signal for displaying a video screen or the like reproduced by the AV processor 18 is output to display these screens on the display device 26. The display device 26 is installed in the center front of the driver's seat and the passenger seat, and is configured by using, for example, a liquid crystal display device (LCD).

音声認識処理部30は、マイクロホン32によって集音される利用者の発話による音声に対して、音声認識辞書に格納された認識候補となる複数の認識ワードのそれぞれと比較することにより、音声認識処理を行う。本実施形態では、利用者が発声する音声を常時集音し、集音した音声の先頭部分から発話が終了した時点までの音声を対象として音声認識処理を行っている。 The voice recognition processing unit 30 compares the voice uttered by the user collected by the microphone 32 with each of a plurality of recognition words that are recognition candidates stored in the voice recognition dictionary, thereby performing the voice recognition process. I do. In the present embodiment, the voice uttered by the user is constantly collected, and the voice recognition process is performed on the voice from the beginning of the collected voice to the time when the utterance ends.

例えば、利用者が「もう一回」と発声し、この内容を音声認識処理を行って認識する場合を考えると、最初に「も」と発生した時点では「も」と認識ワード「もう一回」との間の相違が大きいため、音声認識処理に失敗することになる。同様に、「もう」、「もうい」、「もういっか」などと発声した時点でもこれらと認識ワード「もう一回」との間の相違が大きいため、音声認識処理に失敗する。そして、「もう一回」と発声すると、比較対象となる認識ワード「もう一回」との間の相違が小さくなるため、音声認識処理に成功する。 For example, consider a case where the user utters "one more time" and recognizes this content by performing voice recognition processing. When the first "mo" occurs, the recognition word "one more time" , The voice recognition process will fail. Similarly, at the time of uttering "another", "another", "another", etc., there is a large difference between these and the recognition word "another", so that the voice recognition process fails. When uttering "again", the difference between the recognition word "again" to be compared becomes small, and the voice recognition process succeeds.

このような処理を行うために、「ディスタンス」と「スコア」の概念が導入されている。ディスタンスは、比較対象としての音声と認識ワードとの類似距離を示す。例えば、図2に示すように、ディスタンスの最大値は最も大きい類似距離として「1000」に設定されている。スコアSは、実際の入力音声と認識ワード「もう一回」との類似距離を示す。上述したように、利用者が「もう一回」と発声する場合を例にとると、発声を開始した時点でのスコアは1000であり、発声が進行するにしたがって、入力音声のスコアが次第に低下する。そして、発声が終了した時点での入力音声のスコアが所定のしきい値Th未満になると、その入力音声の内容が認識ワードと一致したものとする認識結果が得られる。一般には、複数の認識ワードのそれぞれを対象にして同様の処理が並行して行われ、最終的に一つの認識ワードが認識結果として抽出される。なお、発声が終了した時点での入力音声のスコアが所定のしきい値Th未満にならない場合(入力音声に近い認識ワードが存在しない場合)には音声認識処理に失敗したことになり、再度の音声入力を促す等の処理が行われる。 In order to perform such processing, the concepts of "distance" and "score" are introduced. The distance indicates a similar distance between a voice as a comparison target and a recognition word. For example, as shown in FIG. 2, the maximum distance is set to "1000" as the largest similarity distance. The score S indicates the similarity distance between the actual input voice and the recognition word “again”. As described above, in the case where the user utters "one more time", the score at the start of utterance is 1000, and the score of the input voice gradually decreases as the utterance progresses. To do. Then, when the score of the input voice at the time when the utterance ends is less than the predetermined threshold Th, a recognition result that the content of the input voice matches the recognition word is obtained. In general, similar processing is performed in parallel for each of a plurality of recognition words, and finally one recognition word is extracted as a recognition result. If the score of the input voice at the time when the utterance ends is not less than the predetermined threshold Th (when there is no recognition word close to the input voice), it means that the voice recognition process has failed, and again. Processing such as prompting for voice input is performed.

ところで、音声認識辞書に格納された認識ワードと同じ内容の音声を利用者が発声する場合を考えると、最終的なスコアSは小さな値となるはずであり、しきい値Thをある程度小さく設定しても、利用者が発声した音声の内容を認識することができるはずである。しかし、実際には、利用者が発声した音声とともに、ロードノイズや風切音、雨音あるいはオーディオ音なども同時に集音されるため、利用者が発声した音声の最終的なスコアSは静かな環境下で集音したときほど小さな値にはならない。この点を考慮して、音声認識処理の成功の成否を判定するためのしきい値Thは、あまり小さな値に設定することはできない。裏を返せば、このようにして設定されたしきい値Thを用いて音声認識処理を行うものとすれば、音声認識処理に成功した場合であって、しきい値ThとスコアSとの差が小さい場合には、利用者の周囲がロードノイズ、風切音、雨音、オーディオ音などが大きな環境であり、しきい値ThとスコアSとの差が大きい場合には、利用者の周囲がロードノイズ、風切音、雨音、オーディオ音などが小さく静かな環境であるといえる。 By the way, considering the case where the user utters a voice having the same content as the recognition word stored in the voice recognition dictionary, the final score S should be a small value, and the threshold Th is set to a certain small value. However, it should be possible to recognize the content of the voice uttered by the user. However, in reality, road noise, wind noise, rain noise, audio sound, and the like are collected together with the voice uttered by the user, so that the final score S of the voice uttered by the user is quiet. It does not become as small as when collecting sound under the environment. In consideration of this point, the threshold Th for determining the success or failure of the voice recognition process cannot be set to a too small value. In other words, if the voice recognition process is performed using the threshold Th set in this way, the difference between the threshold Th and the score S is the case where the voice recognition process is successful. Is small, the surroundings of the user are environments where road noise, wind noise, rain sounds, audio sounds, etc. are large, and when the difference between the threshold Th and the score S is large, the surroundings of the user are large. Can be said to be a quiet environment with little road noise, wind noise, rain noise, and audio noise.

なお、トークスイッチ等を利用者自身が操作し、発話の開始と終了を利用者が指示し、その間の入力音声を認識対象として音声認識処理を行うようにしてもよい。 The user may operate the talk switch or the like to instruct the start and end of the utterance, and the voice recognition processing may be performed with the input voice during that period as the recognition target.

デジタル−アナログ変換器40は、ナビゲーション処理部10、TVチューナ処理部14、ラジオチューナ処理部16、AV処理部18のそれぞれの処理によって生成される案内音声やオーディオ音(デジタルデータ)をアナログの音声信号に変換してスピーカ42から出力する。なお、実際には、デジタル−アナログ変換器40とスピーカ42の間には信号を増幅する増幅器が接続されているが、図1ではこの増幅器は省略されている。また、デジタル−アナログ変換器40とスピーカ42との組合せは再生チャンネル数分備わっているが、図1では一組のみが図示されている。 The digital-analog converter 40 converts the guide voice and the audio sound (digital data) generated by the processing of the navigation processing unit 10, the TV tuner processing unit 14, the radio tuner processing unit 16, and the AV processing unit 18 into an analog voice. It is converted into a signal and output from the speaker 42. Although an amplifier for amplifying a signal is actually connected between the digital-analog converter 40 and the speaker 42, this amplifier is omitted in FIG. Further, although there are as many combinations of the digital-analog converter 40 and the speaker 42 as there are reproduction channels, only one set is shown in FIG.

制御部50は、車載装置1の全体を制御するためのものであり、ROMやRAMなどに格納された所定のプログラムをCPUで実行することにより実現される。この制御部50は、聞き逃し想到ワード判定部51、重要ポイント判定部52、周辺状況判定部53、オーディオ音量変更部54、案内音量変更部55、案内出力指示部56を有する。 The control unit 50 is for controlling the entire vehicle-mounted device 1, and is realized by executing a predetermined program stored in a ROM, a RAM, or the like by the CPU. The control unit 50 includes a missed-arrival word determination unit 51, an important point determination unit 52, a surrounding situation determination unit 53, an audio volume change unit 54, a guide volume change unit 55, and a guide output instruction unit 56.

聞き逃し想到ワード判定部51は、音声認識処理部30による音声認識処理によって得られた音声内容が聞き逃し想到ワードに一致するか否かを判定する。例えば、聞き逃し想到ワードとして、予め複数の特定ワードが設定されており、これら複数の特定ワードのいずれか一つと一致するか否かが判定される。具体的には、「なに」、「どこ」、「もう一回」などが特定ワードに設定されている。なお、当然ながら、これら複数の特定ワードは、音声認識処理部30による音声認識処理で用いられる音声認識辞書に格納された認識候補となる複数の認識ワードに含ませておく必要がある。 The missed-aloud thought word determination unit 51 determines whether or not the voice content obtained by the voice recognition processing by the voice recognition processing unit 30 matches the missed-loving thought word. For example, a plurality of specific words are set in advance as the missed thought words, and it is determined whether or not they match any one of the plurality of specific words. Specifically, "what", "where", "one more time", etc. are set as the specific word. Of course, these specific words need to be included in the recognition words that are the recognition candidates stored in the voice recognition dictionary used in the voice recognition processing by the voice recognition processing unit 30.

重要ポイント判定部52は、案内音声の出力地点が重要ポイントに該当するか否かを判定する。本実施形態では、ナビゲーション処理部10による経路誘導動作中に出力される案内音声に着目しており、この案内音声が出力される場所として設定されている走行経路上の場所が重要ポイントに該当するか否かが判定される。また、この重要ポイントには、利用者にとって重要度が高い案内音声(第1の案内音声)を聞き逃さずに確実に聞くことを期待している場所であって、例えば、次の分岐点で車両が右左折することを案内音声によって利用者に通知する場所や、走行車線の変更(レーン案内)を利用者に通知する場所などが含まれる。一方、次の分岐点について直進することを利用者に通知する場所や、しばらく道なりに走行することを利用者に知らせる場所などは、これらの利用者にとって重要度の低い案内音声(第2の案内音声)を聞き逃してもそれ程支障はないと考えられるため、これらの場所は重要ポイントには含まれない。 The important point determination unit 52 determines whether the output point of the guidance voice corresponds to the important point. In the present embodiment, attention is paid to the guidance voice output during the route guidance operation by the navigation processing unit 10, and the place on the travel route set as the place where the guidance voice is output corresponds to the important point. It is determined whether or not. In addition, this important point is a place where the user expects to hear the guidance voice (first guidance voice) that is highly important to the user without fail, and for example, at the next branch point. This includes a place where the user is notified by voice guidance that the vehicle will turn right or left, a place where the user is notified of a change in lane (lane guidance), and the like. On the other hand, the place where the user is notified to go straight at the next branch point, the place where the user is told to drive on the road for a while, and the like are used as guide voices (second These places are not included in the important points because it is considered that there is no problem even if you miss the (guidance voice).

周辺状況判定部53は、案内音声を聞いた利用者の周辺状況(周辺環境)を判定する。上述したように、案内音声が聞き取りにくい状況にあるか否は、音声認識処理時のしきい値ThとスコアSとの関係に基づいて判定するこができる。具体的には、音声認識処理部30による音声認識処理が成功したが、しきい値ThとスコアSとの差が所定値(例えば30)未満の場合には、車両のロードノイズや風切り音、雨音などが大きい、あるいは、出力されているオーディオ音が大きいなどの理由から、案内音声が聞き取りにくい状況が生じていると判定される。反対に、しきい値ThとスコアSとの差が所定値(例えば30)以上の場合には、車両のロードノイズや風切り音、雨音などが小さく、出力されているオーディオ音も小さい(あるいは出力されていない)などの理由から、案内音声が聞き取りやすい状況になっていると判定される。 The surrounding situation determination unit 53 determines the surrounding situation (environment) of the user who hears the guidance voice. As described above, whether or not the guidance voice is difficult to hear can be determined based on the relationship between the threshold Th and the score S during the voice recognition process. Specifically, when the voice recognition processing by the voice recognition processing unit 30 is successful, but the difference between the threshold Th and the score S is less than a predetermined value (for example, 30), road noise and wind noise of the vehicle, It is determined that the guidance voice is difficult to hear because the rain sound is loud or the output audio sound is loud. On the contrary, when the difference between the threshold Th and the score S is a predetermined value (for example, 30) or more, the road noise, wind noise, rain noise, etc. of the vehicle are small and the output audio sound is small (or It is determined that the guidance voice is in a state where it is easy to hear due to reasons such as (not being output).

オーディオ音量変更部54は、オーディオ音を出力しているTVチューナ処理部14、ラジオチューナ処理部16、AV処理部18のいずれかに対して、オーディオ音の音量低下を指示する。案内音量変更部55は、ナビゲーション処理部10に対して、案内音声の音量増加を指示する。案内出力指示部56は、ナビゲーション処理部10に対して、案内音声の出力を指示する。 The audio volume changing unit 54 instructs any one of the TV tuner processing unit 14, the radio tuner processing unit 16, and the AV processing unit 18 outputting the audio sound to reduce the volume of the audio sound. The guidance volume changing unit 55 instructs the navigation processing unit 10 to increase the volume of the guidance voice. The guidance output instructing unit 56 instructs the navigation processing unit 10 to output guidance voice.

上述したナビゲーション処理部10が案内音声出力手段に、音声認識処理部30が音声認識処理手段に、オーディオ音量変更部54、案内音量変更部55、案内出力指示部56が案内出力指示手段に、TVチューナ処理部14、ラジオチューナ処理部16、AV処理部18がオーディオ手段にそれぞれ対応する。 The navigation processing unit 10 described above serves as a guidance voice output unit, the voice recognition processing unit 30 serves as a voice recognition processing unit, the audio volume changing unit 54, the guidance volume changing unit 55, and the guidance output instructing unit 56 serve as guidance output instructing means. The tuner processing unit 14, the radio tuner processing unit 16, and the AV processing unit 18 correspond to audio means, respectively.

本実施形態の車載装置1はこのような構成を有しており、次に、その動作を説明する。図3は、ナビゲーション処理部10から案内音声が出力された後に、利用者によって案内音声の出力が音声によって指示された場合の動作手順を示す流れ図である。 The vehicle-mounted device 1 of the present embodiment has such a configuration, and the operation thereof will be described next. FIG. 3 is a flow chart showing an operation procedure in the case where the guidance voice is output from the navigation processing unit 10 and thereafter the guidance voice is output by the user.

まず、音声認識処理部30は、利用者が発声した音声に対して音声認識処理が成功したか否かを判定する(ステップ100)。成功に至らない場合(音声の内容が認識できなかった場合)には否定判断が行われ、この判定が繰り返される。 First, the voice recognition processing unit 30 determines whether or not the voice recognition processing has succeeded on the voice uttered by the user (step 100). When the success is not reached (when the voice content cannot be recognized), a negative determination is made, and this determination is repeated.

また、音声認識が成功した場合(音声の内容が認識できた場合)にはステップ100の判定において肯定判断が行われる。次に、聞き逃し想到ワード判定部51は、音声認識結果としての音声の内容が聞き逃し想到ワードに一致するか否かを判定する(ステップ102)。例えば、利用者が発声した音声が「なに」、「どこ」、「もう一回」などの特定ワードに一致する場合には肯定判断が行われる。 When the voice recognition is successful (when the content of the voice can be recognized), a positive determination is made in the determination of step 100. Next, the missed-aloud word arrival determination unit 51 determines whether or not the content of the voice as the voice recognition result matches the missed-over miss word (step 102). For example, when the voice uttered by the user matches a specific word such as “what”, “where”, or “again”, an affirmative determination is made.

次に、重要ポイント判定部52は、直前にナビゲーション処理部10によって出力された案内音声が重要ポイントに関するものであるか否かを判定する(ステップ104)。重要ポイントに関するものである場合には肯定判断が行われる。 Next, the important point determination unit 52 determines whether or not the guidance voice output by the navigation processing unit 10 immediately before is related to the important point (step 104). If the point is an important point, a positive determination is made.

次に、オーディオ音量変更部54は、TVチューナ処理部14等に指示を送ってオーディオ音の音量を低下させ、案内音量変更部55は、ナビゲーション処理部10に指示を送って案内音声の音量を増加させた後、案内出力指示部56は、ナビゲーション処理部10に指示を送って案内音声を再出力させる(ステップ106)。 Next, the audio volume changing unit 54 sends an instruction to the TV tuner processing unit 14 or the like to reduce the volume of the audio sound, and the guide volume changing unit 55 sends an instruction to the navigation processing unit 10 to set the volume of the guide voice. After increasing the number, the guidance output instructing unit 56 sends an instruction to the navigation processing unit 10 to re-output the guidance voice (step 106).

案内音声の再出力が終了すると、オーディオ音量変更部54は、TVチューナ処理部14等に指示を送ってオーディオ音の音量を元に戻し、案内音量変更部55は、ナビゲーション処理部10に指示を送って案内音声の音量を元に戻す(ステップ108)。なお、TVチューナ処理部14等からオーディオ音が出力されていない場合にはステップ106、108におけるオーディオ音の音量低下等の指示は省略される。このようにして、一連の案内音声の再出力動作が終了する。 When the re-output of the guide voice is completed, the audio volume changing unit 54 sends an instruction to the TV tuner processing unit 14 or the like to restore the volume of the audio sound, and the guide volume changing unit 55 gives an instruction to the navigation processing unit 10. The volume of the guide voice is returned to the original level (step 108). If no audio sound is output from the TV tuner processing unit 14 or the like, the instructions for reducing the volume of the audio sound in steps 106 and 108 are omitted. In this way, the re-output operation of the series of guidance voices is completed.

また、利用者が発声した音声が「なに」、「どこ」、「もう一回」などの特定ワードに一致しない場合、例えば利用者が「ルート案内」、「ガイダンス」などの音声案内の出力を指示する音声を発声した場合にはステップ102の判定において否定判断が行われる。 If the voice uttered by the user does not match a specific word such as "what", "where", "one more time", the user outputs voice guidance such as "route guidance" or "guidance". If a voice is issued, a negative determination is made in the determination at step 102.

次に、周辺状況判定部53は、案内音声が聞き取りにくい状況が生じているか否か、具体的には、音声認識処理が成功した際の認識ワードに対応する音声認識処理時のしきい値ThとスコアSとの差が30未満(Th−S<30)か否かを判定する(ステップ110)。30未満の場合には肯定判断が行われ、ステップ104に移行して重要ポイントに関する判定動作以降が繰り返される。 Next, the surrounding situation determination unit 53 determines whether or not the situation in which the guidance voice is difficult to hear has occurred, specifically, the threshold value Th in the voice recognition process corresponding to the recognition word when the voice recognition process is successful. And the score S is less than 30 (Th-S<30) (step 110). If it is less than 30, an affirmative determination is made, the process proceeds to step 104, and the determination operation regarding important points and subsequent operations are repeated.

また、出力された案内音声が重要ポイントに関するものではなくステップ104の判定において否定判断が行われたとき、あるいは、音声認識処理時のしきい値ThとスコアSとの差が30以上であってステップ110の判定において否定判断が行われると、次に、案内出力指示部56は、ナビゲーション処理部10に指示を送って、前回と同じ条件で(オーディオ音の音量低下や案内音声の音量増加を行うことなく)案内音声を再出力させる(ステップ112)。このようにして、一連の案内音声の再出力動作が終了する。なお、ステップ112では直前に出力された案内音声を再出力するようにしたが、直前の案内音声の出力時点から時間が経過している場合などにおいては、同じ案内音声を再出力するのではなく、別の内容を有する案内音声を出力するようにしてもよい。 Further, when the output guidance voice does not relate to an important point and a negative determination is made in the determination of step 104, or the difference between the threshold Th and the score S during the voice recognition processing is 30 or more. If a negative determination is made in the determination of step 110, then the guidance output instructing unit 56 sends an instruction to the navigation processing unit 10, and under the same conditions as the previous time (decrease the volume of the audio sound or increase the volume of the guidance voice). The guidance voice is re-output (without performing) (step 112). In this way, the re-output operation of the series of guidance voices is completed. Although the guide voice output immediately before is re-outputted in step 112, the same guide voice is not re-outputted when the time has elapsed since the immediately preceding output time of the guide voice. Alternatively, a guidance voice having different contents may be output.

利用者は、出力された音声案内の内容を聞き逃した場合であって、もう一度聞きたい場合には、「なに」、「どこ」、「もう一回」などの聞き逃しを示す特定ワードの音声を発声することが多い。したがって、本実施形態の車載装置1では、このような特定ワードを予め想定して音声認識結果との間で一致/不一致を判定することにより、案内音声の再出力を希望する利用者の意思を反映させた上で、聞き逃した案内音声の再出力を確実に実施することが可能となる。 When the user misses the content of the output voice guidance and wants to hear it again, the user can use a specific word such as "what", "where", "one more time" that indicates the missed listening. Often speaks. Therefore, in the vehicle-mounted apparatus 1 of the present embodiment, such a specific word is assumed in advance to determine whether the voice recognition result matches or does not match the intention of the user who wants to re-output the guidance voice. After being reflected, it is possible to reliably re-output the missed guidance voice.

また、案内音声の音量増加および/またはオーディオ音の音量低下を行った上で案内音声の再出力を行うことにより、案内音声の内容を利用者に確実に伝えることができ、再度の聞き逃しを防止することが可能となる。 In addition, by increasing the volume of the guidance voice and/or decreasing the volume of the audio sound and then re-outputting the guidance voice, the contents of the guidance voice can be surely transmitted to the user, so that the user will not miss it again. It becomes possible to prevent it.

また、重要度の高い案内音声が再生対象となった場合について、案内音声の音量増加および/またはオーディオ音の音量低下を行うことにより、重要な案内音声についての再度の聞き逃しを確実に防止することが可能となる。 Further, when the guidance voice having a high degree of importance is to be reproduced, the volume of the guidance voice is increased and/or the volume of the audio sound is reduced, so that it is possible to reliably prevent the important guidance voice from being missed again. It becomes possible.

また、車両走行時は、ロードノイズや風切音、雨音などの影響により案内音声の内容を聞き逃す機会が増えると考えられるが、このような環境においても、案内音声の再出力を希望する利用者の意思を反映させた上で、聞き逃した音声の再出力を確実に実施することが可能となる。 In addition, when the vehicle is running, it is considered that there will be more opportunities to miss the guidance voice content due to the effects of road noise, wind noise, rain noise, etc. Even in such an environment, it is desired to re-output the guidance voice. It is possible to reliably output the missed voice again after reflecting the user's intention.

なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形実施が可能である。例えば、上述した実施形態では、図3のステップ104において重要ポイントに関する判定を行ったが、この判定を省略し、重要ポイントに関するものであるか否かにかかわらず、次のステップ106の動作に移行するようにしてもよい。 The present invention is not limited to the above embodiment, and various modifications can be made within the scope of the gist of the present invention. For example, in the above-described embodiment, the determination regarding the important point is performed in step 104 of FIG. 3, but this determination is omitted, and the operation proceeds to the next step 106 regardless of whether or not the determination is regarding the important point. You may do so.

また、上述した実施形態では、ナビゲーション動作中に出力された案内音声を利用者が聞き逃した場合について説明したが、ナビゲーション動作以外において出力される音声(例えば、AV処理部18等の操作内容を示す案内音声や、メール等を受信する動作において受信メールの内容を読み上げる音声など)を再出力する場合に本発明を適用することができる。また、車両に搭載された場合に限定されず、車両の外部において室内あるいは室外で使用される装置から出力される音声について再出力を行う場合についても本発明を適用することができる。 Further, in the above-described embodiment, the case where the user misses the guidance voice output during the navigation operation has been described, but the voice output other than the navigation operation (for example, the operation content of the AV processing unit 18 is The present invention can be applied to the case of re-outputting the guidance voice shown or a voice reading the contents of the received mail in the operation of receiving the mail or the like. Further, the present invention is not limited to the case of being mounted in a vehicle, and the present invention can be applied to a case of re-outputting a sound output from a device used indoors or outdoors outside the vehicle.

上述したように、本発明によれば、聞き逃したことを示す特定ワードを予め想定して音声認識結果との間で一致/不一致を判定することにより、案内音声の再出力を希望する利用者の意思を反映させた上で、聞き逃した案内音声の再出力を確実に実施することが可能となる。 As described above, according to the present invention, a user who wishes to re-output the guidance voice by assuming in advance a specific word indicating that he/she has missed it and determining whether or not it matches the voice recognition result. It is possible to reliably re-output the missed guidance voice after reflecting the intention of the above.

1 車載装置
10 ナビゲーション処理部
14 TVチューナ処理部
16 ラジオチューナ処理部
18 AV処理部
30 音声認識処理部
32 マイクロホン
51 聞き逃し想到ワード判定部
52 重要ポイント判定部
53 周辺状況判定部
54 オーディオ音量変更部
55 案内音量変更部
56 案内出力指示部
1 In-vehicle device 10 Navigation processing unit 14 TV tuner processing unit 16 Radio tuner processing unit 18 AV processing unit 30 Speech recognition processing unit 32 Microphone 51 Missing hearing word determination unit 52 Important point determination unit 53 Surrounding situation determination unit 54 Audio volume change unit 55 guidance volume change unit 56 guidance output instruction unit

Claims (5)

案内音声を出力する案内音声出力手段と、
利用者によって発声された音声に対して音声認識処理を行う音声認識処理手段と、
前記音声認識処理手段による認識結果に基づいて、利用者によって発声された音声の内容が、直前に出力された前記案内音声を聞き逃したことを示す特定ワードを示すものである場合に、前記案内音声出力手段に対して、直前に出力された前記案内音声の再出力を指示する案内出力指示手段と、
利用者が、前記案内音声と同時に聴取可能なオーディオ音を出力するオーディオ手段と、
を備え、前記案内出力指示手段は、前記案内音声の再出力を前記案内音声出力手段に対して指示するとともに、オーディオ音の音量低下を前記オーディオ手段に対して指示することを特徴とする音声出力装置。
Guide voice output means for outputting a guide voice,
Voice recognition processing means for performing voice recognition processing on the voice uttered by the user,
If the content of the voice uttered by the user indicates a specific word indicating that the guidance voice output immediately before is missed based on the recognition result by the voice recognition processing means, the guidance is given. Guidance output instruction means for instructing the voice output means to re-output the guidance voice outputted immediately before,
Audio means for outputting an audio sound that the user can hear at the same time as the guide voice,
Wherein the guidance output instruction means instructs the re-output of the guide voice to the guidance voice output means, characterized that you instruct the volume reduction of the audio sound to said audio means speech Output device.
前記特定ワードは、前記案内音声を聞き逃した利用者が発声するであろう音声を想定して設定された複数の特定ワード候補の中の一つであることを特徴とする請求項1に記載の音声出力装置。 2. The specific word is one of a plurality of specific word candidates set assuming a voice that a user who misses the guide voice will utter. Audio output device. 前記案内音声出力手段は、前記案内音声を出力する際の音量が変更可能であり、
前記案内出力指示手段は、前記案内音声の再出力とともに音量の増加を前記案内音声出力手段に対して指示することを特徴とする請求項1または2に記載の音声出力装置。
The guide voice output means can change the volume when outputting the guide voice,
3. The voice output device according to claim 1, wherein the guidance output instruction unit instructs the guidance voice output unit to increase the volume together with the re-output of the guidance voice.
前記案内音声出力手段によって出力される前記案内音声には、重要度が高い第1の案内音声と、前記第1の案内音声よりも重要度が低い第2の案内音声が含まれており、
前記第1の案内音声の再出力を行う際に、前記第1の案内音声の音量増加および/または前記オーディオ音の音量低下を行い、前記第2の案内音声の再出力を行う際に、前記第2の案内音声の音量増加および前記オーディオ音の音量低下を行わないことを特徴とする請求項1〜3のいずれか一項に記載の音声出力装置。
The guide voice output by the guide voice output unit includes a first guide voice having a high importance and a second guide voice having a lower importance than the first guide voice,
When re-outputting the first guidance voice, the volume of the first guidance voice is increased and/or the volume of the audio sound is reduced, and when re-outputting the second guidance voice, The voice output device according to any one of claims 1 to 3, wherein the volume of the second guidance voice is not increased and the volume of the audio sound is not reduced.
車両に搭載されており、
車室内において前記案内音声出力手段による前記案内音声の出力が行われ、
利用者は、車室内の座席に着座していることを特徴とする請求項1〜のいずれか一項に記載の音声出力装置。
It is installed in the vehicle,
The guidance voice is output by the guidance voice output means in the vehicle interior,
User audio output device according to any one of claims 1 to 4, characterized in that seated on the seat of the passenger compartment.
JP2016230371A 2016-11-28 2016-11-28 Audio output device Active JP6741387B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016230371A JP6741387B2 (en) 2016-11-28 2016-11-28 Audio output device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016230371A JP6741387B2 (en) 2016-11-28 2016-11-28 Audio output device

Publications (2)

Publication Number Publication Date
JP2018087871A JP2018087871A (en) 2018-06-07
JP6741387B2 true JP6741387B2 (en) 2020-08-19

Family

ID=62493631

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016230371A Active JP6741387B2 (en) 2016-11-28 2016-11-28 Audio output device

Country Status (1)

Country Link
JP (1) JP6741387B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12002460B2 (en) 2018-12-13 2024-06-04 Sony Group Corporation Information processing device, information processing system, and information processing method, and program
EP4130673A4 (en) * 2020-03-27 2024-04-10 Pioneer Corporation Information provision device, information provision method and information provision program
EP4182919A1 (en) * 2020-08-12 2023-05-24 Google LLC Interactive voice navigation

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3322140B2 (en) * 1996-10-03 2002-09-09 トヨタ自動車株式会社 Voice guidance device for vehicles
JP2002116045A (en) * 2000-10-11 2002-04-19 Clarion Co Ltd Sound volume controller
JP2002213985A (en) * 2001-01-15 2002-07-31 Matsushita Electric Ind Co Ltd Audio device and navigation device
JP2004271249A (en) * 2003-03-06 2004-09-30 Toyota Motor Corp Voice guide device
JP2006038705A (en) * 2004-07-28 2006-02-09 Denso Corp Voice output device
JP4749923B2 (en) * 2006-04-19 2011-08-17 富士通株式会社 Voice guidance device

Also Published As

Publication number Publication date
JP2018087871A (en) 2018-06-07

Similar Documents

Publication Publication Date Title
JP4269973B2 (en) Car audio system
JP6400109B2 (en) Speech recognition system
JP4304952B2 (en) On-vehicle controller and program for causing computer to execute operation explanation method thereof
JP5014662B2 (en) On-vehicle speech recognition apparatus and speech recognition method
JP5972372B2 (en) Car information system
JP4260788B2 (en) Voice recognition device controller
US20110144901A1 (en) Method for Playing Voice Guidance and Navigation Device Using the Same
JP6604151B2 (en) Speech recognition control system
US20090306891A1 (en) Navigation device and method of controlling the same
JP6741387B2 (en) Audio output device
JP3322140B2 (en) Voice guidance device for vehicles
US10747497B2 (en) Audio stream mixing system and method
JP4513610B2 (en) In-vehicle device and method for controlling in-vehicle device
JP2002233001A (en) Pseudo engine-sound control device
CN110696756A (en) Vehicle volume control method and device, automobile and storage medium
JP2020086571A (en) In-vehicle device and speech recognition method
JP5181533B2 (en) Spoken dialogue device
JP5037041B2 (en) On-vehicle voice recognition device and voice command registration method
JP6349052B2 (en) In-vehicle device
JP2018087870A (en) Voice output device
JP4221658B2 (en) Navigation device and guide method in navigation device
JP2012098100A (en) Audio control device for outputting guide route voice guidance
JP4765394B2 (en) Spoken dialogue device
JP2011149852A (en) Navigation apparatus
JP2009042159A (en) Voice reproducing device, voice reproducing method, and voice reproducing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190627

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200526

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200721

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200725

R150 Certificate of patent or registration of utility model

Ref document number: 6741387

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150