JP2020052145A

JP2020052145A - 音声認識装置、音声認識方法、及び音声認識プログラム

Info

Publication number: JP2020052145A
Application number: JP2018179407A
Authority: JP
Inventors: 嘉彦菅原; Yoshihiko Sugawara
Original assignee: Denso Corp; Toyota Motor Corp
Current assignee: Denso Corp; Toyota Motor Corp
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2020-04-02
Also published as: CN110942770B; US11276404B2; CN110942770A; US20200098371A1

Abstract

【課題】ユーザの発話内容が第三者に聞かれることを抑制可能な音声認識装置、音声認識方法、及び音声認識プログラムを提供すること。【解決手段】本発明に係る音声認識装置は、ユーザの発話音声を認識する音声認識装置であって、ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かに応じて任意の妨害音の出力を制御すると共に、ユーザの発話が終了したことに応じて妨害音の出力を停止する制御部を備える。これにより、ユーザの発話内容が第三者に聞かれることを抑制できる。【選択図】図１

Description

本発明は、ユーザの発話音声を認識する音声認識装置、音声認識方法、及び音声認識プログラムに関する。

特許文献１には、ユーザの発話音量を所望のレベルまで誘導すべく、音楽の出力を開始、又は、音楽出力状態を維持しつつ、ユーザの発話音量の算出結果に応じて音楽の音量を調整する音声対話装置が記載されている。

特開２０１３−０１９８０３号公報

音声認識装置を使用する場面において、ユーザが車両の同乗者等の第三者に発話内容を聞かれたくない場合がある。しかしながら、特許文献１に記載の音声対話装置は、第三者によるユーザの発話内容の聞き取りを妨害するレベルの音量で音楽を再生しないために、ユーザの発話内容が第三者によって聞かれてしまう可能性がある。

本発明は、上記課題に鑑みてなされたものであって、その目的は、ユーザの発話内容が第三者に聞かれることを抑制可能な音声認識装置、音声認識方法、及び音声認識プログラムを提供することにある。

本発明に係る音声認識装置は、ユーザの発話音声を認識する音声認識装置であって、前記ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かに応じて任意の妨害音の出力を制御すると共に、前記ユーザの発話が終了したことに応じて前記妨害音の出力を停止する制御部を備えることを特徴とする。

本発明に係る音声認識装置は、上記発明において、前記制御部は、音楽出力手段が音楽を出力している場合、該音楽の出力音量を前記発話内容の聞き取りを妨害するレベルに制御することを特徴とする。これにより、ユーザの発話内容が第三者に聞かれることを抑制できる。

本発明に係る音声認識装置は、上記発明において、前記制御部は、ユーザに発話を求める場面及び状況とユーザからの要求信号の有無に基づいて、前記ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かを判別することを特徴とする。これにより、ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かを精度よく判別することができる。

本発明に係る音声認識装置は、上記発明において、前記制御部は、音声入力装置を介して取得した音声データから前記妨害音を除去することにより前記ユーザの発話音声を認識することを特徴とする。これにより、妨害音を出力している状態であってもユーザの発話音声を精度よく認識することができる。

本発明に係る音声認識方法は、ユーザの発話音声を認識する音声認識方法であって、前記ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かに応じて任意の妨害音の出力を制御すると共に、前記ユーザの発話が終了したことに応じて前記妨害音の出力を停止するステップを含むことを特徴とする。

本発明に係る音声認識プログラムは、ユーザの発話音声を認識する音声認識プログラムであって、前記ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かに応じて任意の妨害音の出力を制御すると共に、前記ユーザの発話が終了したことに応じて前記妨害音の出力を停止する処理をコンピュータに実行させることを特徴とする。

本発明に係る音声認識装置、音声認識方法、及び音声認識プログラムによれば、ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かに応じて任意の妨害音の出力を制御するので、ユーザの発話内容が第三者に聞かれることを抑制できる。

図１は、本発明の一実施形態である音声認識装置の構成を示すブロック図である。図２は、本発明の一実施形態である音声認識処理に流れを示すフローチャートである。

以下、図面を参照して、本発明の一実施形態である音声認識装置の構成及びその動作について説明する。

〔音声認識装置の構成〕
まず、図１を参照して、本発明の一実施形態である音声認識装置の構成について説明する。

図１は、本発明の一実施形態である音声認識装置の構成を示すブロック図である。図１に示すように、本発明の一実施形態である音声認識装置１は、ＣＰＵ（Central Processing Unit），ＤＳＰ（Digital Signal Processor），ＦＰＧＡ（Field Programmable Gate Array）等のプロセッサ及びＲＡＭ（Random Access Memory），ＲＯＭ（Read Only Memory）等の記憶部を含む、ワークステーション等の汎用の情報処理装置によって構成されており、音声認識処理部１１、音データベース（音ＤＢ）１２、音声再生部１３、及び音量設定部１４を備えている。音声認識処理部１１、音声再生部１３、及び音量設定部１４の機能は、プロセッサが記憶部に記憶されているコンピュータプログラムを実行することによって実現される。

音声認識処理部１１は、マイクロフォン等の音声入力装置２を介してユーザＰ１の発話音声を取得し、取得した発話音声の内容を認識する。詳しくは後述するが、本実施形態では、音声認識処理部１１は、音声入力装置２を介して取得した音声（マイク音声）データから音楽や妨害音のデータを除去し、除去処理後の音声データを用いて音楽や妨害音を再生している環境下でのユーザＰ１の発話音声の内容を認識する。

音ＤＢ１２は、音楽や妨害音のデータを記憶している。ここで、妨害音としては、ユーザＰ１の発話内容の聞き取りを妨害するのに適した専用音声（例えばノイズ音や不快にならず無音区間がないような音楽）やユーザが所有する音楽等を例示できる。

音声再生部１３は、音ＤＢ１２から音楽や妨害音のデータを取得し、取得したデータを再生出力する。

音量設定部１４は、音声再生部１３が再生している音楽や妨害音の音量を調整してユーザＰ１の近傍に設置されているスピーカ３ＡやユーザＰ１の周囲にいる第三者（例えば車両の同乗者）Ｐ２の近傍に設置されているスピーカ３Ｂから出力する。

なお、上述したコンピュータプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク、ＣＤ−Ｒ、ＤＶＤ等のコンピュータが読み取り可能な記録媒体に記録して提供するように構成してもよい。また、上述したコンピュータプログラムは、電気通信回線に接続されたコンピュータ上に格納し、電気通信回線経由でダウンロードさせることによって提供するように構成してもよい。また、上述したコンピュータプログラムを電気通信回線を介して提供又は配布してもよい。

このような構成を有する音声認識装置１は、以下に示す音声認識処理を実行することにより、ユーザＰ１が第三者Ｐ２に発話内容を聞かれてしまうことを抑制する。以下、図２を参照して、音声認識処理を実行する際の音声認識装置１の動作について説明する。

〔音声認識処理〕
図２は、本発明の一実施形態である音声認識処理の流れを示すフローチャートである。図２に示すフローチャートは、音声認識装置１がユーザＰ１に対して発話を要求する度毎に開始となり、音声認識処理はステップＳ１の処理に進む。

ステップＳ１の処理では、音声認識処理部１１が、ユーザＰ１に要求する発話内容が第三者Ｐ２に聞かれたくない内容であるか否かを判別する。具体的には、音声認識処理部１１は、ユーザＰ１に発話を求める場面や状況（例えば車両の同乗者全員参加のクイズを実施している状況で他者に聞かれないように回答をすることをユーザＰ１に求めていることを認識している場合）及びユーザＰ１からの要求信号の有無に基づいて、ユーザＰ１に要求する発話内容が第三者Ｐ２に聞かれたくない内容であるか否かを判別する。判別の結果、ユーザＰ１に要求する発話内容が第三者Ｐ２に聞かれたくない内容である場合（ステップＳ１：Ｙｅｓ）、音声認識処理部１１は、音声認識処理をステップＳ２の処理に進める。一方、ユーザＰ１に要求する発話内容が第三者Ｐ２に聞かれたくない内容でない場合には（ステップＳ１：Ｎｏ）、音声認識処理部１１は、音声認識処理をステップＳ５の処理に進める。

なお、第三者Ｐ２に聞かれたくない発話内容は、音声認識処理部１１がユーザＰ１に発言（回答）を求める内容に応じて予め定義されていてもよい。定義は、例えば設定する目的地はレベル１、名前はレベル１、住所はレベル２、電話番号はレベル２、銀行口座番号はレベル３、クイズの答えはレベル３といった具合に聞かれたくない程度を示すよう複数にレベル分けされていてもよいし、バイナリ（聞かれたくない／聞かれてもよい）でもよい。レベル分けされている場合、ユーザＰ１毎にどのレベル以上の場合聞かれたくないかを示す閾値を設定できるようにしてもよい。この場合、ユーザＰ１に閾値を超えたレベルの内容を発話させるときに、音声認識装置１は、発話内容の聞き取りと共に第三者に向けた妨害音の制御を行う。また、第三者Ｐ２がいない場合、自動的に閾値を無効（ゼロ）にするように音声認識装置１が判断するようにしてもよい。第三者Ｐ２がいない場合としては、着座センサで運転席以外の座席に乗員がいないと判断された場合や車室内カメラで運転者以外の乗員が検出されない場合等を例示できる。

ステップＳ２の処理では、音量設定部１４が、音声再生部１３が音楽を再生しているか否かを判別する。判別の結果、音声再生部１３が音楽を再生している場合（ステップＳ２：Ｙｅｓ）、音量設定部１４は、音声認識処理をステップＳ３の処理に進める。一方、音声再生部１３が音楽を再生していない場合には（ステップＳ２：Ｎｏ）、音量設定部１４は、音声認識処理をステップＳ４の処理に進める。

ステップＳ３の処理では、音量設定部１４が、第三者Ｐ２の近傍に設けられたスピーカ３Ｂから出力する音楽の音量を第三者Ｐ２がユーザＰ１の発話音声を聞き取れない程度の音量まで増加させる（音楽再生継続）。なお、このとき、ユーザＰ１と第三者Ｐ２がいる車室等の空間内全体の音量やユーザＰ１の周辺のみの音量を増加するようにしてもよい。また、単なる音量調整だけでなく、ユーザＰ１の発話音声を聞きづらくするイコライザーを掛けてもよい。これにより、ステップＳ３の処理は完了し、音声認識処理はステップＳ５の処理に進む。

ステップＳ４の処理では、音量設定部１４が、音ＤＢ１２に格納さている妨害音を再生するように音声再生部１３を制御する。そして、音量設定部１４は、第三者Ｐ２の近傍に設けられたスピーカ３Ｂから出力される妨害音の音量を第三者Ｐ２がユーザＰ１の発話音声を聞き取れない程度の音量に制御する。これにより、ステップＳ４の処理は完了し、音声認識処理はステップＳ５の処理に進む。

ステップＳ５の処理では、音声認識処理部１１が、音声入力装置２を介して取得した音声データから再生している音楽や妨害音を除去（キャンセル）する音声処理を行いながら音声認識を行ってユーザＰ１の発話を待ち受ける。これにより、ステップＳ５の処理は完了し、音声認識処理はステップＳ６の処理に進む。

ステップＳ６の処理では、音声認識処理部１１が、音声認識結果に基づいてユーザＰ１の発話があったか否かを判別する。判別の結果、ユーザＰ１の発話があった場合（ステップＳ６：Ｙｅｓ）、音声認識処理部１１は、音声認識処理をステップＳ７の処理に進める。一方、ユーザＰ１の発話がない場合には（ステップＳ６：Ｎｏ）、音声認識処理部１１は、音声認識処理をステップＳ８の処理に進む。

ステップＳ７の処理では、音声認識処理部１１が、ユーザＰ１の発話内容を音声認識する。これにより、ステップＳ７の処理は完了し、音声認識処理はステップＳ８の処理に進む。

ステップＳ８の処理では、音声認識処理部１１が、ユーザＰ１の発話内容やユーザＰ１からの要求信号の有無等に基づいて音声認識を終了してもよいか否かを判別する。判別の結果、音声認識を終了してもよい場合（ステップＳ８：Ｙｅｓ）、音声認識処理部１１は、音声認識処理をステップＳ９の処理に進める。一方、音声認識を終了してもよくない場合には（ステップＳ８：Ｎｏ）、音声認識処理部１１は、音声認識処理をステップＳ５の処理に戻す。

ステップＳ９の処理では、音声認識処理部１１が、ユーザＰ１の発話の待ち受け処理を終了する。これにより、ステップＳ９の処理は完了し、音声認識処理はステップＳ１０の処理に進む。

ステップＳ１０の処理では、音量設定部１４が、ユーザＰ１の発話の待ち受け処理を開始する前に音声再生部１３が音楽を再生していたか否かを判別する。判別の結果、音声再生部１３が音楽を再生していた場合（ステップＳ１０：Ｙｅｓ）、音量設定部１４は、音声認識処理をステップＳ１１の処理に進める。一方、音声再生部１３が音楽を再生していなかった場合には（ステップＳ１０：Ｎｏ）、音量設定部１４は、音声認識処理をステップＳ１２の処理に進める。

ステップＳ１１の処理では、音量設定部１４が、音声認識処理を開始する前の音量に音楽の再生音量を戻す。これにより、ステップＳ１１の処理は完了し、一連の音声認識処理は終了する。

ステップＳ１２の処理では、音量設定部１４が、音声再生部１３を制御することによって妨害音の再生を停止する。これにより、ステップＳ１２の処理は完了し、一連の音声認識処理は終了する。

以上の説明から明らかなように、本発明の一実施形態である音声認識処理では、音声認識装置１が、ユーザＰ１に要求する発話内容が第三者Ｐ２に聞かれたくない内容であるか否かに応じて音楽や妨害音の出力を制御すると共に、ユーザＰ１の発話が終了したことに応じて妨害音の出力を停止するので、ユーザＰ１の発話内容が第三者Ｐ２に聞かれることを抑制できる。

また、本発明の一実施形態である音声認識処理では、音声認識装置１が、音楽を再生している場合、音楽の音量をユーザＰ１の発話内容の聞き取りを妨害するレベルに制御するので、ユーザＰ１の発話内容が第三者Ｐ２に聞かれることを抑制できる。

また、本発明の一実施形態である音声認識処理では、音声認識装置１が、ユーザＰ１に発話を求める場面及び状況とユーザからの要求信号の有無に基づいて、ユーザＰ１に要求する発話内容が第三者Ｐ２に聞かれたくない内容であるか否かを判別するので、ユーザＰ１に要求する発話内容が第三者Ｐ２に聞かれたくない内容であるか否かを精度よく判別することができる。

また、本発明の一実施形態である音声認識処理では、音声認識装置１が、音声入力装置２を介して取得した音声データから妨害音を除去することによりユーザＰ１の発話音声を認識するので、妨害音を出力している状態であってもユーザＰ１の発話音声を精度よく認識することができる。

以上、本発明者らによってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例、及び運用技術等は全て本発明の範疇に含まれる。

１音声認識装置
２音声入力装置
３Ａ，３Ｂスピーカ
１１音声認識処理部
１２音データベース（音ＤＢ）
１３音声再生部
１４音量設定部
Ｐ１ユーザ
Ｐ２第三者

Claims

ユーザの発話音声を認識する音声認識装置であって、
前記ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かに応じて任意の妨害音の出力を制御すると共に、前記ユーザの発話が終了したことに応じて前記妨害音の出力を停止する制御部を備える
ことを特徴とする音声認識装置。
前記制御部は、音楽出力手段が音楽を出力している場合、該音楽の出力音量を前記発話内容の聞き取りを妨害するレベルに制御することを特徴とする請求項１に記載の音声認識装置。
前記制御部は、ユーザに発話を求める場面及び状況とユーザからの要求信号の有無に基づいて、前記ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かを判別することを特徴とする請求項１又は２に記載の音声認識装置。
前記制御部は、音声入力装置を介して取得した音声データから前記妨害音を除去することにより前記ユーザの発話音声を認識することを特徴とする請求項１〜３のうち、いずれか１項に記載の音声認識装置。
ユーザの発話音声を認識する音声認識方法であって、
前記ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かに応じて任意の妨害音の出力を制御すると共に、前記ユーザの発話が終了したことに応じて前記妨害音の出力を停止するステップを含む
ことを特徴とする音声認識方法。
ユーザの発話音声を認識する音声認識プログラムであって、
前記ユーザに要求する発話内容が第三者に聞かれたくない内容であるか否かに応じて任意の妨害音の出力を制御すると共に、前記ユーザの発話が終了したことに応じて前記妨害音の出力を停止する処理をコンピュータに実行させる
ことを特徴とする音声認識プログラム。