JP2019139089A - 音声秘匿装置および音声秘匿プログラム - Google Patents

音声秘匿装置および音声秘匿プログラム Download PDF

Info

Publication number
JP2019139089A
JP2019139089A JP2018023005A JP2018023005A JP2019139089A JP 2019139089 A JP2019139089 A JP 2019139089A JP 2018023005 A JP2018023005 A JP 2018023005A JP 2018023005 A JP2018023005 A JP 2018023005A JP 2019139089 A JP2019139089 A JP 2019139089A
Authority
JP
Japan
Prior art keywords
voice
information
output
unit
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018023005A
Other languages
English (en)
Other versions
JP7049629B2 (ja
Inventor
浦川 康孝
Yasutaka Urakawa
康孝 浦川
壯 中坊
Takeshi Nakabo
壯 中坊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR-TREK CO Ltd
Fuetrek Co Ltd
Original Assignee
ATR-TREK CO Ltd
Fuetrek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR-TREK CO Ltd, Fuetrek Co Ltd filed Critical ATR-TREK CO Ltd
Priority to JP2018023005A priority Critical patent/JP7049629B2/ja
Publication of JP2019139089A publication Critical patent/JP2019139089A/ja
Application granted granted Critical
Publication of JP7049629B2 publication Critical patent/JP7049629B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

【課題】本発明は、情報端末装置に入力された音声が秘匿情報等のユーザが秘匿を所望する情報に一致する可能性が生じた段階で、当該情報の流出を防止することを目的とする。【解決手段】音声秘匿装置10は、複数のキーワードが音情報に変換された音素系列情報を記憶可能な記憶部14と、音声発生源からの入力音声をデジタル信号に変換した音声データを、逐次音声認識処理により音素レベルで認識した情報である出力音素として出力する音声認識部12と、音声認識部12が出力した出力音素情報が記憶部14に記憶されている秘匿情報音素系列との一致の度合いに基づいて入力音声データとキーワードとが一致するおそれがあるか否かを逐次判定可能な判定部13と、判定部13によりキーワードと一致するおそれがあると判定された入力音声データに対応するデジタル音声データの内容を秘匿可能な音声データ秘匿部15と、を備える。【選択図】図1

Description

本発明は、音声秘匿装置および音声秘匿プログラムに関する。
近年、音声認識技術を用いてユーザが発した音声を自動的に解析し、インターネットに接続してユーザが要求する情報を検索および取得するサービスを提供する情報端末装置(例えば、スマートフォン、スマートスピーカ等を含むスマート家電および対話式ロボット等)の普及が進んでいる。このような情報端末装置が存在する家庭内や公共施設、職場等での会話中に発した個人情報(自宅の住所や電話番号等)が、意図せずネットワーク上に流出してしまうおそれが生じている。例えば、情報端末装置のユーザ(例えば、子供やお年寄り等)が個人情報を意識せずに発話する場合や、情報端末装置の存在に気づかない人が発する個人情報を含む音声が情報端末装置に誤って入力される場合等、個人情報が意図せず外部に漏洩してしまうおそれがある。このため、音声認識機能を有する情報端末装置において、個人情報の流出を防止する技術が求められている。例えば、特許文献1には、音声信号中に含まれる個人情報を削除する技術が開示されている。
特開2010−091761号公報
しかしながら、従来の技術は、情報端末装置に入力された音声が、例えば個人情報等のユーザが秘匿を所望する情報に一致する可能性が生じた段階で、当該情報の流出を防止することができないという問題がある。それにより、入力された音声に個人情報が含まれていることが判明した場合に、その音声がすでにネットワークに流出してしまっている、といった望ましくない事態が生じるおそれがある。
本発明は、このような点に鑑みてなされたものであり、情報端末装置に入力された音声が、ユーザが秘匿を所望する情報に一致する可能性が生じた段階で、当該情報の流出を防止することができる音声秘匿装置を提供することを目的とする。
上記目的を達成するために、本発明の一態様に係る音声秘匿装置は、複数のキーワードが音情報に変換された音素系列情報を記憶可能な記憶部と、音声発生源からの入力音声をデジタル信号に変換した音声データを、逐次音声認識処理により音素レベルで認識した情報である出力音素情報として出力する音声認識部と、前記音声認識部が出力した出力音素情報と前記記憶部に記憶されている音素系列情報である記憶音素情報との一致の度合いに基づいて前記入力音声と前記キーワードとが一致するおそれがあるか否かを逐次判定可能な判定部と、前記判定部により前記キーワードと一致するおそれがあると判定された前記入力音声に対応する音声データの内容を秘匿可能な音声データ秘匿部と、を備えることを特徴とする。
また、本発明の一態様に係る音声秘匿プログラムは、所定の情報端末装置を、複数のキーワードが音情報に変換された音素系列情報を記憶可能な記憶部、音声発生源からの入力音声をデジタル信号に変換した音声データを、逐次音声認識処理により音素レベルで認識した情報である出力音素情報として出力する音声認識部、前記音声認識部が出力した出力音素情報と前記記憶部に記憶されている音素系列情報である記憶音素情報との一致の度合いに基づいて前記入力音声と前記キーワードとが一致するおそれがあるか否かを逐次判定可能な判定部、および前記判定部により前記キーワードと一致するおそれがあると判定された前記入力音声に対応する音声データの内容を秘匿可能な音声データ秘匿部として機能させることを特徴とする。
本発明の一態様によれば、情報端末装置に入力された音声が個人情報等のユーザが秘匿を所望する情報に一致する可能性が生じた段階で、当該情報の流出を防止することができる。
本発明の第1実施形態の音声秘匿装置を含む音声認識システムの概略構成図である。 本発明の第1実施形態の音声秘匿処理の流れを示すフローチャートである。 本発明の第1実施形態の秘匿情報判定処理の一例を時系列で説明する図である。 本発明の第1実施形態の秘匿情報判定処理の他の一例を時系列で説明する図である。 本発明の第1実施形態の変形例における秘匿情報判定処理の一例を時系列で説明する図である。 本発明の第1実施形態の変形例における秘匿情報判定処理の他の一例を時系列で説明する図である。 本発明の第2実施形態の音声秘匿装置の概略構成図である。 本発明の第2実施形態の音声秘匿処理の流れを示すフローチャートである。
1.第1実施形態
本発明の第1実施形態に係る音声秘匿装置について、図1から図3を参照して説明する。まず、第1実施形態に係る音声秘匿装置を含む音声認識システムの構成について図1を用いて説明する。
(1−1)音声認識サービスシステムの構成
図1は、本実施形態による音声秘匿装置10を含む音声認識サービスシステム9の概略構成を示す図である。音声認識サービスシステム9は、音声秘匿装置10を備える音声処理装置1と、インターネット等のネットワーク3を介して音声処理装置1と接続される音声認識サーバ100と、音声認識サーバ100と接続されるサーバ500とによって構成される。サーバ500は、例えば、検索システム(検索エンジン)を構成するサーバである。音声認識サービスシステム9は、ユーザが音声によって要求する情報の検索、取得等を行うサービスを提供するシステムである。
音声認識サーバ100は、ネットワーク3を介して音声処理装置1から送信された音声データ(例えばユーザの発話に基づく音声データ)を受信すると、受信した音声データについて音声認識を行い、この音声認識の結果をサーバ500に送信する。サーバ500は、送信された音声認識結果に基づいて、情報検索等の処理を行ってユーザが要求した情報を取得し、取得した情報(処理結果)をネットワーク3を介して音声処理装置1に返す。これにより、音声処理装置1は、サーバ500から返された情報をユーザに対して出力できる。このようにして、音声認識サービスシステム9は、ユーザからの音声入力に応じたサービス(例えば、情報検索サービス)を提供できる。
[音声処理装置]
図1に示すように、音声処理装置1は、音声入力装置11と音声秘匿装置10と対話処理装置110とを備えている。音声処理装置1は、例えばスマートフォン、スマートスピーカ、対話式ロボットやスマート家電等の音声認識機能とネットワーク通信機能とを有する装置(例えば、情報端末装置)である。音声処理装置1は、収音装置(マイク等)から入力された音声を音声入力装置11において解析してデジタル音声データに変換し、このデジタル音声データを、音声秘匿装置10を経てネットワーク3に出力する。これにより音声処理装置1は、入力された音声データを、ネットワーク3を介して音声認識サーバ100に送信できる。なお、音声処理装置1は、ネットワーク通信機能を有していなくてもよい。例えば、音声処理装置1は、ネットワークへの接続によらないサービス(例えば、アラーム、対話、メモ機能等)を提供する装置であってもよい。
音声入力装置11は、所定の音声発生源が発した音声データ(音声信号)を入力可能になっている。ここで、音声入力装置11に入力される音声データ(以降、「入力音声データ」と称する)は、例えば音声処理装置1のユーザの発話した音声(入力音声)が想定される。音声発生源は、音声処理装置1のユーザに限られず、例えば音声を発する装置であってもよい。音声入力装置11は、例えば、マイク等の収音装置(不図示)を備えている。音声入力装置11は、収音装置からアナログ信号として入力された入力音声データ(アナログ音声データ)を規定されたサンプリング周波数でサンプリングしてアナログ−デジタル(A−D)変換を行い、デジタル信号(デジタル音声データ)を生成する。
音声入力装置11は、入力音声データ(アナログ音声データ)から生成したデジタル音声データを、音声秘匿装置10に出力する。具体的には、音声入力装置11は、生成したデジタル音声データをA−D変換時におけるサンプリング単位で音声秘匿装置10に出力する。サンプリング単位のデジタル音声データは、時系列が保持された状態となっている。また、本例において、音声入力装置11は、音声処理装置1を構成する一要素として説明するが、本発明はこれに限られない。音声入力装置11は、音声秘匿装置10の構成要素であってもよい。
[音声秘匿装置]
本実施形態による音声秘匿装置10は、音声処理装置1に入力された音声(入力音声データ)のうち音声処理装置1のユーザが秘匿を所望する情報(以降、「秘匿情報」と称する場合がある)が含まれるおそれがある入力音声データを秘匿する。ここで、入力音声データの秘匿とは、音声処理装置1から秘匿情報を含むおそれのある音声データの出力を停止することをいう。これにより、音声秘匿装置10は、音声処理装置1からネットワーク3を介して秘匿情報が流出することを防止できる。本例において、秘匿情報として想定される情報は、例えば個人情報である。ここで、個人情報とは、個人を特定可能な情報(住所、電話番号、誕生日、種々のパスワード等)や、金融資産に関する情報(クレジットカードやキャッシュカードの識別番号、銀行口座番号)等が挙げられる。なお、本発明の音声秘匿装置10によって流出を防止する対象の秘匿情報は、ここで列挙した個人情報に限られない。音声秘匿装置10は、音声処理装置1のユーザが秘匿情報として予め登録した任意の情報の流出を防止できる。
以下、図1を参照して、音声秘匿装置10について詳細に説明する。
音声秘匿装置10は、音声認識部12と、判定部13と、記憶部14と、音声データ秘匿部15とを有している。音声処理装置1の音声入力装置11において入力音声データから生成されたデジタル音声データは、音声秘匿装置10の音声認識部12に入力されるとともに、音声データ秘匿部15にも入力される。
音声認識部12は、音声入力装置11がデジタル音声データをサンプリング出力するごとに、リアルタイムで(逐次的に時系列で)音声認識を行う。以降、このリアルタイムで行う音声認識処理を「逐次音声認識処理」と称する場合がある。音声認識部12は、逐次音声認識処理を実行するエンジン部120と、エンジン部120が音声認識に用いるモデル121とを有している。エンジン部120は、デジタル音声データを音素レベルで認識する。ここで、音素は、言語の発音を構成する最小の単位であり、例えば、日本語の発音における拍(モーラ)を構成する音の単位の最小値である。音声認識部12は、日本語に限らず種々の言語の音声に基づくデジタル音声データを音素レベルで認識することができる。
判定部13は、音素レベルで認識されたデジタル音声データである音素情報(以下、「出力音素」と称する場合がある)を用いて、音声入力装置11に入力された入力音声データ(主にユーザの発話音声)に、秘匿情報が含まれているおそれがあるか否かを判定する(秘匿情報判定処理)。本実施形態による音声秘匿装置10において、判定部13による判定処理に用いる秘匿情報は、メモリ等の所定の記憶領域である記憶部14に記憶された秘匿情報リスト141内に蓄積されている。
秘匿情報リスト141は、例えばテーブル形式で複数の秘匿情報(例えば、個人情報)を蓄積している。秘匿情報リスト141に蓄積されている秘匿情報は、音声処理装置1のユーザが音声処理装置1と接続された所定の情報端末装置(スマートフォン、パーソナルコンピュータ等)を用いて予め登録した情報である。情報端末装置は、ユーザによって例えばテキスト入力された秘匿情報リスト141に登録するための情報(以降、「キーワード」と称する場合がある)を音声処理装置1に送信する。
キーワードは、ユーザが秘匿を所望する秘匿情報であって、例えば個人情報等が含まれる。音声秘匿装置10は、受信したキーワードを音情報である音素系列情報に変換して個人情報リストに141に蓄積する。音声処理装置1のユーザは、音声処理装置1から音声認識サーバ100へ出力されることが望ましくないと考える秘匿情報を任意に秘匿情報リストに登録することができる。これにより、本実施形態による音声秘匿装置10は、当該情報が音声処理装置1からネットワークを介して流出することを防止できる。なお、キーワードは、ユーザが秘匿を意図して秘匿情報リスト141に登録する秘匿情報であり、上述したように個人情報に該当しない内容であってもよい。例えば、秘匿情報として、子どもが音声処理装置1を用いた情報検索により取得・利用すると好ましくない、または危険があると考えられる情報に関連する用語等を、保護者が秘匿情報リスト141に登録することができる。これにより、音声秘匿装置10は、音声処理装置1を用いて、子どもが不用意に危険な情報を取得することを防止できる。
図1には、音声処理装置1の右隣りに秘匿情報リスト141に蓄積された秘匿個人情報の一例として個人情報の一種である電話番号「09012345678」が図示されている。なお、図1では、理解を容易にするため、音素系列情報として蓄積されている秘匿情報(キーワード)が音素表記ではなく文字列で図示されている。なお、電話番号は、「−(ハイフン)」区切りで入力される場合や、図1に示すようにハイフンを省略して入力される場合がある。また、住所も「−(ハイフン)」区切りで入力される場合があり、さらに「一丁目・・」のように入力される場合もある。さらに、電話番号や住所を発話する場合、種々の発話パターンが想定される。例えば、電話番号を「090の・・」のようにハイフンにあたる箇所に「の」を入れて発話するパターンや、住所における番地を「1の2の・・」のように発話するパターン、「1丁目・・」のように発話するパターン等があるまた、例えば数字「0」は、「ゼロ」や「レイ」等複数の発話パターンが想定される。このため、音声秘匿装置10は、例えば、キーワードにおける電話番号や住所の区切り(ハイフンやスペース)、数字等に相当する部分を、予め複数の想定される発話のパターンに自動的に拡張して音素系列情報に変換し、秘匿情報リスト141に登録する。
判定部13は、音声認識部12から出力音素情報が出力される度に、逐次、秘匿情報判定処理を実行し、出力音素が秘匿情報リスト141に蓄積された秘匿情報(キーワード)を示す音素系列(以下、「秘匿情報音素系列」と称する場合がある)との「一致の度合い」に基づいて、入力音声に個人情報等の秘匿情報が含まれるおそれがあるか否かを示す秘匿情報判定結果を導出する。ここで、一致の度合いは、秘匿情報音素系列を構成する個々の音素についての一致の度合い(数値)をもとに算出され、例えば、算出された一致の度合いが所定の度合い(閾値)以上である場合に、一致するおそれがある(秘匿情報が含まれるおそれがある)と判定する。また、出力音素が秘匿情報音素系列のうちのどの部分と一致するかという観点から、「完全一致」(全ての部分との一致)、「前方一致」(前方部分との一致)、「中間一致」(中間部分との一致)等、様々な方法で一致の度合いを算出することが可能であるが、以下では、「前方一致」に基づき秘匿情報判定結果を導出する場合について説明する。判定部13は、複数の秘匿情報が秘匿情報リスト141に蓄積されている場合には、複数の秘匿情報それぞれについて、秘匿情報判定結果を導出する。判定部13は、導出した秘匿情報判定結果を音声データ秘匿部15に出力する。また、判定部13は、連続した入力音声に対応する出力音素の結合(結合出力音素系列)が秘匿情報音素系列と完全一致するか否かの完全一致判定結果も合わせて導出する。この完全一致判定結果は、上述の秘匿情報判定結果の一部として出力制御部150に送信される。完全一致判定結果を導出する完全一致判定処理については後述する。
音声データ秘匿部15は、秘匿情報に該当するおそれがある内容を含むデジタル音声データを秘匿する音声秘匿処理を実行する。図1に示すように、音声データ秘匿部15は、出力制御部150とバッファ151とを有している。バッファ151は、音声入力装置11から出力されたデジタル音声データを一時的に蓄積可能である。また、出力制御部150は、判定部13が導出した秘匿情報判定結果に基づいてデジタル音声データの出力可否を決定することで、バッファ151に蓄積されているデジタル音声データのバッファ出力を制御する。本例において、バッファ151におけるデジタル音声データの入出力は先入れ先出し(FIFO)方式で行われる。出力制御部150によるバッファ出力の制御の詳細は後述する。
[対話処理装置]
対話処理装置110は、ネットワーク3から返されたサーバ500における処理結果を、テキストデータや音声等ユーザに理解できる形式で逐次に出力する。これにより、例えばサーバ500における処理結果(例えば、情報検索結果)が音声処理装置1のユーザに提供される。なお、対話処理装置110は、図1では音声処理装置1に含まれているものとしているが、音声処理装置1とは別個に存在してもよい。
(1−2)音声認識部における音声認識の概要
ここで、音声認識部12のエンジン部120が実行する音声認識(逐次音声認識処理)について説明する。なお、エンジン部120による音声認識の技術は一般的に用いられているものであるため、本明細書では、その概略のみ説明する。
音声入力装置11が生成するデジタル音声データには、ユーザが発話した音声だけでなく、音声処理装置1の周囲の環境音も含まれている。そこで、まず音声認識部12のエンジン部120は、音声と環境音とが含まれるデジタル信号(デジタル音声データ)から音声が存在する区間と音声が存在しない区間を判別する音声区間検出(Voice Activity Detection: VAD)を行う(音声区間検出処理)。
音声区間検出処理に次いで、エンジン部120は、音声区間におけるデジタル音声データから特徴量を時系列で抽出する(音響特徴抽出処理)。エンジン部120は、音声区間検出処理において検出された音声区間の音声スペクトルに対してフーリエ変換等の時間周波数変換処理を行い、音響特徴ベクトルを抽出する。エンジン部120は、音声区間を所定の時間間隔(例えば、10ミリ秒程度)に区分し、この時間間隔ごとに音響特徴抽出処理を行う。
次いで、エンジン部120は、モデル121と音響特徴抽出処理において抽出した音声情報の特徴量(音響特徴ベクトル)とに基づいて、デジタル音声データの連続音素認識を行い、音素レベルの認識を行う(音素認識処理)。本例において、モデル121は、例えば隠れマルコフモデル(HMM)を適用した音素モデルである。エンジン部120は、音素認識処理において、仮説探索法によりモデル121を用いて、音声入力装置11から入力されるデジタル音声データと音素との照合を行い、照合した音素(出力音素)を判定部13に出力する。
このように、本実施形態による音声秘匿装置10において、ユーザの発話に基づく入力音声が音声入力装置11に入力され、音声入力装置11が入力音声データ(アナログ信号)をデジタル音声データ(デジタル信号)に変換して音声認識部12に出力すると、エンジン部120がデジタル音声データに対し逐次に音声区間検出処理、音響特徴抽出処理および音素認識処理を行う(逐次音声認識処理を行う)。こうして、音声入力装置11から入力されたデジタル音声データ(音声データの一例)は、音声認識部12において音素レベルで認識されて、判定部13に出力される。
(1−3)音声秘匿処理
次に、図1を参照しつつ図2を用いて、音声データ秘匿部15における音声秘匿処理の流れの一例を説明する。図2は、音声秘匿処理の流れを説明するフローチャートである。音声秘匿処理は、出力制御部150によるバッファ出力の制御により、音声処理装置1から個人情報等の秘匿情報を含む音声データの出力を停止する処理である。本実施形態において音声秘匿処理は、秘匿情報判定処理結果が判定部13から音声データ秘匿部15に入力されたことに基づいて実行される。すなわち、音声秘匿処理は、音声処理装置1に入力音声データが入力されてサンプリング単位で音声認識部12に出力され、判定部13において秘匿情報判定処理が実行される度に繰り返し実行される。
(ステップS21)
ステップS21において、出力制御部150は、判定部13から秘匿情報判定結果を受信し、ステップS22の処理に移る。
(ステップS22)
ステップS22において出力制御部150は、判定部13から受信した秘匿情報判定信号に基づいて秘匿情報判定結果を確認し、バッファ151からデジタル音声データを出力すること(バッファ出力)が可能か否かを判定する。秘匿情報判定信号は、現在処理対象となっているデジタル音声データに対応する出力音素が秘匿情報音素系列と前方一致しているか否かを示す信号であって、判定部13において生成され音声データ秘匿部15に出力される。出力制御部150は、出力音素が秘匿情報音素系列と前方一致していることを示す秘匿情報判定信号を受信した場合に、バッファ出力が不可能であると判定してステップS23の処理に移る。
処理対象のデジタル音声データは、音声秘匿処理の実行時においてバッファ151に蓄積されているデジタル音声データである。上述のように、音声入力装置11は、入力音声データのA−D変換時におけるサンプリング単位でデジタル音声データを音声認識部12とバッファ151とに同時に出力する。また、出力制御部150は、出力音素が秘匿情報音素系列と前方一致していることを示す秘匿情報判定信号を受信したことに基づいて、判定部13が秘匿情報判定処理により、入力音声に秘匿情報が含まれているおそれがあると判定したと認識する。
一方、出力制御部150は、出力音素が秘匿情報音素系列と前方一致していないことを示す秘匿情報判定信号を受信した場合に、バッファ出力が可能であると判定してステップS26の処理に移る。出力制御部150は、出力音素が秘匿情報音素系列と前方一致していることを示す秘匿情報判定信号を受信したことに基づいて、判定部13が秘匿情報判定処理により、入力音声に秘匿情報が含まれているおそれがないと判定したと認識する。
(ステップS23)
ステップS23において、出力制御部150は、現時点でバッファ151に蓄積されているデジタル音声データの出力を停止し、ステップS24の処理に移る。
(ステップS24)
ステップS24において、出力制御部150は、判定部13から受信した完全一致判定信号に基づいて、入力音声中に予めユーザが登録した個人情報等のキーワード(秘匿情報)のいずれかと完全一致する内容が含まれていると判定されたか否か、すなわち連続した入力音声データに対応する結合出力音素系列が秘匿情報音素系列のいずれかと完全一致していると判定されたかを確認する。完全一致判定信号は、結合出力音素系列が秘匿情報リスト141に登録された秘匿情報音素系列のいずれかと完全一致しているか否かを示す信号であって、判定部13において生成され音声データ秘匿部15に出力される。出力制御部150は、結合出力音素系列が秘匿情報リスト141に登録された秘匿情報音素系列のいずれかと完全一致していることを示す完全一致判定信号を受信した場合に、入力音声中に個人情報等のキーワードと完全一致する内容が含まれていると判定してステップS25の処理に移る。一方、出力制御部150は、結合出力音素系列が秘匿情報リスト141に登録された秘匿情報音素系列のいずれとも完全一致していないことを示す完全一致判定信号を受信した場合に、入力音声中に個人情報等のキーワードと完全一致する内容が含まれていないと判定して音声秘匿処理を終了する。
(ステップS25)
ステップS25において、出力制御部150は、入力音声中に個人情報等のキーワード(秘匿情報)と完全一致する内容が含まれていることを示す完全一致判定信号を受信したことに基づいて、現時点でバッファ151に蓄積されているデジタル信号データを削除してバッファ151内をクリアし、音声秘匿処理を終了する。本実施形態による音声秘匿装置10は、個人情報を含むキーワードと完全一致する内容のデジタル信号データがバッファ151から削除されることにより、例えば個人情報等のユーザが秘匿を所望する情報(秘匿情報)の流出を確実に防止することができる。
(ステップS26)
ステップS26において、出力制御部150は、判定部13において秘匿情報リスト141に登録された秘匿情報と前方一致しないと判定されたデジタル音声データをバッファ151から出力する。これにより、音声秘匿装置10は、秘匿情報に該当するおそれのないデジタル音声データを即時に出力してネットワーク3を介して音声認識サーバ100に送信することができる。
このように、本実施形態による音声秘匿装置10において、音声データ秘匿部15の出力制御部(バッファ出力制御部の一例)150は、判定部13によって秘匿情報音素系列と前方一致していると判定された出力音素に対応するデジタル音声データ、すなわち、個人情報等のキーワードと一致するおそれがあると判定された入力音声データと対応するデジタル音声データをバッファ151から出力しない。これにより、本実施形態による音声秘匿装置10は、音声処理装置1のユーザが登録した秘匿情報(例えば個人情報等を含むキーワード)がネットワーク3を介して音声認識サーバ100へ送信されるのを防止することができる。
音声秘匿装置10を備える音声処理装置1は、入力音声データに対して、音声データ秘匿部15における音声秘匿処理を必ず行い、個人情報等のキーワードに一致(前方一致)するおそれがないと判定されたデジタル音声データを出力する。したがって、音声処理装置1から出力されるデジタル音声データには、ユーザが秘匿を所望する秘匿情報は含まれない。
(1−4)秘匿情報判定処理
次に、図1および図2を参照しつつ図3を用いて判定部13における秘匿情報判定処理の詳細を説明する。図3は、秘匿情報判定処理の流れの一例を時系列で説明する図である。本例において、秘匿情報リスト141には、電話番号に該当する情報として「09001234567」を示す秘匿情報音素系列情報が登録されている。また、秘匿情報リスト141には、上述の電話番号を含めて全10個の秘匿情報音素系列(秘匿情報1〜10)が蓄積されているとする。図3は、音声入力装置11から入力音声として秘匿情報(例えば電話番号「09001234567」)と完全一致する内容が含まれる音声(本例では「電話番号は09001234567」)が入力された場合における秘匿情報判定処理の一例を示している。
より詳細には、図3の上から1段目と2段目には、音声入力装置11における入力音声と一連の入力音声のうち1つ以上の音素を含む区間との対応が図示され、図3の3段目には、入力音声の各区間にそれぞれ対応する出力音素が図示されている。入力音声において母音(a、i、u、e、o)と母音以外の音(子音等)のそれぞれが1音素に対応しており、図3では、各音素をローマ字で表記している。例えば、図3に示すように、入力音声「デン」に対応する出力音素「den」は、「d」「e」「n」の3つの音素で形成されている。本例では、説明を容易にするため、入力音声を複数の音素を含む区間に分け、この区間について実行される逐次音声認識処理および秘匿情報判定処理における音声秘匿装置10の各構成の動作について説明する。
また、図3の4段目には、音声認識部12における出力音素の照合の経過が図示され、5段目には、時刻t0から時刻t5へ向かって時の経過を示す時間軸が図示されている。また、図3の6、7段目には、秘匿情報リスト141に登録されている各秘匿情報(キーワード)に対応する個人情報判定信号の信号レベル(高レベル:Highまたは低レベル:Low)が図示され、8段目には、秘匿情報判定信号の状態の論理和を取った結果を示す秘匿情報判定信号(総合判定信号)が図示されている。また、図3の9、10段目には、完全一致信号の信号レベル(高レベル:High又は低レベル:Low)が図示され、11段目には、完全一致信号の状態の論理和を取った結果を示す完全一致信号(総合判定信号)が図示されている。12段目には、バッファ151に蓄積されているデジタル音声データに対応する入力音声が図示されている。また、図3の13段目には、バッファ151から出力されたデジタル音声データに対応する入力音声が図示されている。
ここで、図3に図示する秘匿情報判定信号および完全一致信号の信号レベルについて説明する。信号レベルが高(High)レベルの秘匿情報判定信号は、秘匿情報判定結果として出力音素が秘匿情報音素系列と前方一致していることを示す。また、信号レベルが低(Low)レベルの秘匿情報判定信号は、秘匿情報判定結果として出力音素が秘匿情報音素系列と前方一致していないことを示す。本実施形態による音声秘匿装置10において、判定部13から音声データ秘匿部15に出力されるのは、図3の8段目に示す秘匿情報判定信号(総合)である。
また、信号レベルが高(High)レベルの完全一致判定信号は、結合出力音素系列が秘匿情報音素系列と完全一致していることを示す。また、信号レベルが低(Low)レベルの完全一致判定信号は、結合出力音素系列が秘匿情報音素系列と完全一致していないことを示す。本実施形態による音声秘匿装置10において、判定部13から音声データ秘匿部15に出力されるのは、図3の11段目に示す完全一致信号(総合)である。
音声入力装置11は、マイクから入力された上述の入力音声データ(音声信号)をサンプリングしてデジタル音声データに変換し、デジタル音声データを音声認識部12およびバッファ151に逐次出力する。
音声認識部12において、エンジン部120は、音声入力装置11から入力されたデジタル音声データについて、時系列順に逐次音声認識処理を実行する。エンジン部120は、一連の逐次音声認識処理における音素認識処理の結果として得られた出力音素を判定部13に出力する。本例において、デジタル音声データには、上述の入力音声(「電話番号は09001234567」)を構成する音素に相当する内容が含まれている。このため、例えば図3に示す一連の入力音声は、理解を容易にするために区間に区分すると、「デン」「ワ」「バン」「ゴウ」「ワ」「ゼロ」「キュー」「ゼロ」「ゼロ」「イチ」「ニー」「ゴ」「ヨン」「ロク」「ナナ」「ハチ」にそれぞれ相当するデジタル音声データを含む16区間分に相当する。ここで、図3に示すように16区間を時系列順に区間1〜16とする。この区間1〜16のそれぞれに含まれるデジタル音声データは、音声入力装置11から時系列順に音声認識部12に出力され、音声認識部12のエンジン部120は、入力された順に各区間のデジタル音声データについて逐次音声認識処理を実行する。
図3に示すように、例えば時刻t0において、音声認識部12には、音声入力装置11から区間1に含まれるデジタル音声データ(入力音声「デン」に相当)が出力される。このとき、バッファ151にも同様に区間1に含まれるデジタル音声データ(入力音声「デン」に相当)が出力されている。区間2〜16に含まれるそれぞれのデジタル音声データも同様に、音声認識部12とバッファ151とに同時に出力される。音声認識部12は、区間1に含まれるデジタル音声データについて逐次音声認識処理を実行し、「デン」という日本語の発話に相当する音素情報「den(デン)」を出力音素として判定部13に出力する。なお、理解を容易にするため、明細書中において出力音素は一部を除き入力音声と同様にカタカナ表記で記載する。
判定部13は、区間1に含まれるデジタル音声データに対応する出力音素「デン」が入力されると、この出力音素「デン」について秘匿情報判定処理を実行する。具体的には、判定部13は、秘匿情報リスト141に蓄積されている秘匿情報音素系列のそれぞれについて、出力音素「デン」と前方一致するか否かを判定し、判定結果を秘匿情報判定信号として音声データ秘匿部15に出力する。図3に示すように、本例において秘匿情報リスト141には、上述の電話番号に該当する秘匿情報1を含めて、クレジットカード番号や氏名等に該当する全10個の個人情報を含むキーワード(秘匿情報1〜10)が秘匿情報音素系列に変換されて蓄積されている。判定部13は、秘匿情報リスト141内の全ての秘匿情報音素系列について出力音素と前方一致するか否かを判定する。
例えば、判定部13は、秘匿情報1として登録されている秘匿情報テキスト「09001234567」に該当する秘匿情報音素系列「ゼロキューゼロイチニーサンヨンゴウロクナナ」と時刻t0において出力された出力音素「デン」とが前方一致しないと判定する。このため、判定部13は、現時点で入力音声中に秘匿情報1が含まれるおそれはないとして、秘匿情報1に対応する秘匿情報判定信号を低(Low)レベルに設定する。
本例において、秘匿情報リスト141には、「デン」という音素系列で始まる秘匿情報音素系列は登録されていない。したがって、判定部13は、秘匿情報2〜10についても、秘匿情報1と同様に出力音素「デン」とが前方一致しないと判定したとする。これにより、秘匿情報2〜10に対応する秘匿情報判定信号も低(Low)レベルに設定する。判定部13は、秘匿情報1〜10に対応する秘匿情報判定信号(個別)のレベルについて論理和をとり、論理和の結果を示す秘匿情報判定信号(総合)を音声データ秘匿部15に出力する。時刻t0において判定部13は、秘匿情報1〜10に対応する全ての秘匿情報判定信号(個別)が低レベルに設定されていることに基づいて、信号レベルが低レベルに設定された秘匿情報判定信号(総合)を音声データ秘匿部15に出力する。さらに、判定部13は、秘匿情報1〜10のいずれも出力音素「デン」と完全一致していないと判定し、秘匿情報1〜10に対応する完全一致信号(個別)を低レベルに設定する。判定部13は、秘匿情報1〜10の論理和をとって低レベルの完全一致信号(総合)を音声データ秘匿部15に出力する。
音声データ秘匿部15が判定部13から秘匿情報判定結果を受信すると(ステップS21)、図2に示す音声秘匿処理が開始される。時刻t0において、秘匿情報1〜10に対応する秘匿情報判定信号の信号レベルは全て低レベルである。したがって、出力制御部150は、現在(すなわち時刻t0)処理対象となっている区間1に含まれるデジタル音声データをバッファ151から出力可能であると判定して(ステップS22のYES)、区間1のデジタル音声データ(出力音素「デン」に該当)をバッファ151から出力し(ステップS26)、音声秘匿処理を終了する。これにより、秘匿情報音素系列と前方一致しない出力音素に該当するデジタル音声データ、すなわち秘匿情報の一部に該当しないデジタル音声データは、秘匿情報判定処理後の音声秘匿処理において即座に出力され、ネットワーク3を介して速やかに音声認識サーバ100に送信される。
図3に示すように、時刻t0の経過後、時刻t1までに音声認識部12において出力音素に認識された区間2〜5に含まれるデジタル音声データ(入力音声「ワ」「バン」「ゴウ」「ワ」に相当)も同様に、判定部13において秘匿情報リスト141のいずれの秘匿情報音素系列とも前方一致および完全一致しないと判定され、出力制御部150によってバッファ151から出力される。したがって、時刻t0〜t1までの期間において、音声認識サーバ100には「デン ワ バン ゴウ ワ」という入力音声に対応する5区間分(区間1〜5)のデジタル音声データが送信される。また、図3に示すように、出力されたデジタル音声データはバッファ151には残存しない。
図3に示すように、時刻t2において、音声認識部12およびバッファ151には音声入力装置11から区間6に含まれるデジタル音声データ(入力音声「ゼロ」に相当)が出力され、音声認識部12により「zero(ゼロ)」という日本語の読みに相当する出力音素として判定部13に出力される。時刻t2において判定部13は、区間6に含まれるデジタル音声データに対応する出力音素「ゼロ」について秘匿情報判定処理を実行する。上述のように、本例において、秘匿情報1に該当する秘匿情報音素系列は「ゼロキューゼロイチニーサンヨンゴウロクナナ」である。判定部13は、出力音素「ゼロ」と秘匿情報1の秘匿情報音素系列における冒頭の音素「ゼロ」が同一であるため、入力された出力音素と秘匿情報1の秘匿情報音素系列とが前方一致すると判定し、秘匿情報1に対応する秘匿情報判定信号(個別)を高(High)レベルに設定する。また、判定部13は、秘匿情報音素系列と前方一致した出力音素を所定の記憶領域で保持する。
また、本例において秘匿情報リスト141には、秘匿情報1以外に「ゼロ」という音素系列で始まる秘匿情報音素系列は登録されていない。このため、判定部13は、秘匿情報2〜10について秘匿情報音素系列と出力音素「ゼロ」とが前方一致しないと判定し、秘匿情報2〜10に対応する秘匿情報判定信号(個別)を低(Low)レベルに設定する。判定部13は、秘匿情報1〜10の論理和をとって高(High)レベルの秘匿情報判定信号(総合)を音声データ秘匿部15に出力する。さらに、判定部13は、秘匿情報判定信号(総合)が高レベルであるものの、秘匿情報1〜10のいずれも出力音素「ゼロ」と完全一致していないと判定し、秘匿情報1〜10に対応する完全一致信号(個別)を低レベルに設定する。判定部13は、秘匿情報1〜10の論理和をとって低レベルの完全一致信号(総合)を音声データ秘匿部15に出力する。
音声データ秘匿部15の出力制御部150は、時刻t2での秘匿情報判定処理に基づいて実行する音声秘匿処理において、入力された秘匿情報判定信号(総合)の信号レベルを確認し、バッファ出力が可能か否かを判定する(ステップS22)。時刻t2において、秘匿情報1に対応する秘匿情報判定信号(個別)は高(High)レベルであるため、秘匿情報判定信号(総合)も高レベルに設定される。したがって、時刻t2において出力制御部150は、バッファ出力が不可能であると判定し(ステップS22のNO)、バッファ151に蓄積されているデジタル音声データ(本例では区間6)の出力を停止する(ステップS23)。これにより、本実施形態による音声秘匿装置10は、入力音声の一部(各区間のデジタル音声データ)が秘匿情報と前方一致した時点、すなわち入力音声に秘匿情報が含まれるおそれがあると判定した段階で、入力音声の内容を秘匿することができる。したがって、音声秘匿装置10は、従来のように入力音声中に含まれる内容が予め登録された秘匿情報等のキーワードと完全一致するか否かを判定するよりも早期の段階で、ユーザが秘匿を所望する秘匿情報の流出を予防することができる。
図3に示すように、時刻t3において、音声認識部12およびバッファ151には音声入力装置11から区間7に含まれるデジタル音声データ(入力音声「キュー」に相当)が出力され、音声認識部12により「kyuu(キュー)」という日本語の読みに相当する出力音素が判定部13に出力される。時刻t3において判定部13は、区間7に含まれるデジタル音声データに対応する出力音素「キュー」と、時刻t2において記憶した出力音素「ゼロ」とを結合して「ゼロキュー」という結合出力音素系列を生成し、この結合出力音素系列について秘匿情報判定処理を実行する。このように、判定部13は、秘匿情報音素系列と前方一致済みの区間(本例では区間6)に対応する出力音素の後続の区間(本例では、区間7以降)に対応する出力音素を時系列順に結合して、結合出力音素系列を生成する。判定部13は、結合出力音素系列を生成し、生成した結合出力音素系列について秘匿情報音素系列との前方一致の判定を繰り返すことにより、最終的に一連の入力音声と秘匿情報とが完全一致するか否かを判定することができる。
時刻t3において判定部13は、結合出力音素系列「ゼロキュー」と秘匿情報1の秘匿情報音素系列における冒頭から連続する音素「ゼロキュー」とが前方一致すると判定し、秘匿情報1に対応する秘匿情報判定信号(個別)を高(High)レベルに設定する。また、本例において秘匿情報リスト141には、秘匿情報1以外に「ゼロキュー」という音素系列で始まる秘匿情報音素系列は登録されていない。
また、判定部13は、時刻t2において入力された出力音素「キュー」単独で秘匿情報1〜10の秘匿情報音素系列と前方一致するか否かを判定する。判定部13は、結合出力音素系列と前方一致する秘匿情報音素系列が存在しているか否かに関わらず、結合出力音素系列の最後尾を構成する出力音素、すなわち最新の出力音素について、秘匿情報音素系列との前方一致を判定する。これにより、本実施形態による音声秘匿装置10は、常に最新の出力音素と前方一致する秘匿情報音素系列を抽出し、入力音声が個人情報等を含むキーワード(秘匿情報)と一致するおそれの有無を適正に判定することができる。
本例において秘匿情報リスト141には、「キュー」という音素で始まる秘匿情報音素系列は登録されていないとする。このため、判定部13は、秘匿情報2〜10に対応する秘匿情報判定信号(個別)を低(Low)レベルに設定する。判定部13は、秘匿情報1〜10のそれぞれに対応する秘匿情報判定信号(個別)の論理和をとって高(High)レベルの秘匿情報判定信号(総合)を音声データ秘匿部15に出力する。さらに、判定部13は、秘匿情報判定信号(総合)が高レベルであるものの、秘匿情報1〜10のいずれも結合出力音素系列「ゼロキュー」および出力音素「キュー」と完全一致していないと判定し、秘匿情報1〜10に対応する完全一致信号(個別)を低レベルに設定する。判定部13は、秘匿情報1〜10のそれぞれに対応する完全一致信号(個別)の論理和をとって低レベルの完全一致信号(総合)を音声データ秘匿部15に出力する。低レベルに設定した完全一致信号を音声データ秘匿部15に出力する。
音声データ秘匿部15の出力制御部150は、時刻t3での秘匿情報判定処理に基づいて実行する音声秘匿処理において、時刻t2と同様にバッファ151からのデジタル信号データの出力を停止する(ステップS22のNOからステップS23の流れ)。これにより、図3に示すように、時刻t3での秘匿情報判定処理に基づく音声秘匿処理の終了時においてバッファ151には、区間6および区間7に含まれるデジタル信号データ(入力音声「ゼロ」「キュー」に相当)が蓄積される。
図3に示すように、時刻t3経過後、時刻t4までの期間に音声認識部12に出力された区間8〜16に含まれるデジタル音声データは、それぞれ出力音素「zero(ゼロ)」「ichi(イチ)」「nii(ニー)」「san(サン)」「yon(ヨン)」「go(ご)」「roku(ロク)」として認識され、判定部13において順次、結合出力音素系列「ゼロキューゼロ」(区間6〜8に対応する出力音素の結合)、「ゼロキューゼロゼロ」(区間6〜9に対応する出力音素の結合)、「ゼロキューゼロゼロイチ」(区間6〜10に対応する出力音素の結合)、「ゼロキューゼロゼロイチニー」(区間6〜11に対応する出力音素の結合)、「ゼロキューゼロゼロイチニーサン」(区間6〜12に対応する出力音素の結合)、「ゼロキューゼロゼロイチニーサンヨン」(区間6〜13に対応する出力音素の結合)、「ゼロキューゼロゼロイチニーサンヨンゴ」(区間6〜14に対応する出力音素の結合)、「ゼロキューゼロゼロイチニーサンヨンゴロク」(区間6〜15に対応する出力音素の結合)が生成される。
時刻t3経過後から時刻t4までの期間に生成されたこれらの結合出力音素系列は、いずれも秘匿情報1に対応する秘匿情報音素系列と前方一致する。このため、時刻t3経過後から時刻t4の期間において秘匿情報1に対応する秘匿情報判定信号(個別)は高(High)レベルに設定され、秘匿情報2〜10に対応する秘匿情報判定信号(個別)が低(Low)レベルであっても、論理和によって高レベルに設定された秘匿情報判定信号(総合)が音声データ秘匿部15に出力される。これに基づいて、出力制御部150は、時刻t3経過後から時刻t4までバッファ151からのデジタル音声データの出力停止を継続する。このため、図3に示すように、時刻t4において個人判定処理が実行されたことに基づく音声秘匿処理の終了時において、バッファ151には区間6〜15の10区間分のデジタル音声データが蓄積される。本例において、区間6〜15に含まれるデジタル音声データ(入力音声「ゼロキューゼロゼロイチニーサンヨンゴロク」に相当)がバッファ151に蓄積されている期間は、出力制御部150によりデジタル音声データの出力が停止されている出力停止期間となる。
また、本実施形態による音声秘匿装置10において、判定部13は、秘匿情報音素系列と出力音素(または結合出力音素系列)との前方一致の判定により、出力音素と秘匿情報音素系列との一致の度合い、すなわち一連の入力音声と個人情報等を含むキーワードとの一致の度合いを判定可能である。本例において、判定部13は、秘匿情報音素系列を構成する音素のうち結合出力音素系列と前方一致している音素の割合が多いほど、出力音素と秘匿情報音素系列との一致の度合が高いと判定する。例えば、秘匿情報1に対応する秘匿情報音素系列「ゼロキューゼロイチニーサンヨンゴウロクナナ」に対する一致の度合いは、結合出力音素系列「ゼロキューゼロ」(区間6〜8の結合)よりも、結合出力音素系列「ゼロキューゼロゼロ」(区間6〜9の結合)の方が高い。したがって、秘匿情報音素系列と完全一致している結合出力音素系列は、一致度合が最高(100%)となる。このように、出力音素と秘匿情報音素系列との一致度合が高いほど、一連の入力音声にキーワードが含まれるおそれ(危険性)が大きくなる。
また、一連の入力音声にキーワードが含まれるおそれ(入力音声とキーワードとが一致するおそれ)が全くない場合は、一連の入力音声と個人情報等を含むキーワードとの一致度合は0%である。音声秘匿装置10において、判定部13により出力音素と秘匿情報音素系列とが前方一致していると判定された時点、すなわち、秘匿情報判定信号(総合)が高(High)レベルに設定された時点で、一連の入力音声と個人情報等を含むキーワードとの一致度合は0%よりも大きい値となる。本例では、出力音素「zero」(区間6に含まれるデジタル音声データに対応)と秘匿情報1の秘匿情報音素系列とが前方一致すると判定された時刻t2において出力音素と音素系列の一致度合が0%よりも大きい値となる。一致度合が0%よりも大きい値となることにより、一連の入力音声にキーワードが含まれるおそれが発生する。
図3に示すように、時刻t5において、音声認識部12およびバッファ151には音声入力装置11から区間12に含まれるデジタル音声データ(入力音声「ナナ」に相当)が出力され、音声認識部12により「ナナ」という日本語の読みに相当する出力音素「nana」が判定部13に出力される。時刻t5において判定部13は、区間6〜15に含まれるデジタル音声データに対応する出力音素で生成された結合出力音素系列の最後尾に区間16に含まれるデジタル音声データに対応する出力音素「nana(ナナ)」を結合し、結合出力音素系列「ゼロキューゼロゼロイチニーゴ」(区間6〜16の結合)を生成する。
区間6〜16を結合して生成された結合出力音素系列「ゼロキューゼロゼロイチニーサンヨンゴロクナナ」は、秘匿情報1に対応する秘匿情報音素系列と前方一致かつ完全一致する。このため、判定部13は、秘匿情報判定信号(総合)を高(High)レベルに設定するとともに、結合出力音素系列と秘匿情報音素系列との一致度合が最高になった(完全一致した)ことに基づいて秘匿情報1に対応する完全一致信号(個別)の信号レベルを高(High)レベルに設定する。さらに、判定部13は、秘匿情報1〜10にそれぞれ対応する完全一致信号(個別)の論理和をとって高レベルの完全一致信号(総合)を音声データ秘匿部15に出力する。
出力制御部150は、時刻t5での音声秘匿処理において、秘匿情報判定信号(総合)の信号レベルが高(High)レベルであることに基づいて、バッファ151からのデジタル信号データの出力を停止する(ステップS22のNOからステップS23の流れ)。また、出力制御部150は、完全一致判定信号の信号レベルが高レベルであって入力音声中に個人情報等のキーワードと完全一致する内容が含まれていると判定し(ステップS24のYES)、現時点でバッファ151に蓄積されているデジタル信号データを削除する(ステップS25)。これにより、バッファ151に蓄積されていた区間6〜16に対応するデジタル音声データ、すなわち秘匿情報1に完全一致する内容のデジタル音声データがバッファ151から削除される。このように、本実施形態による音声秘匿装置10は、秘匿情報リスト141に登録されている個人情報等のキーワード(秘匿情報)のいずれかと完全一致する内容のデジタル音声データを、バッファ151から削除できる。したがって、音声秘匿装置10において、個人情報等のキーワードが音声認識サーバ100に送信されることはなく、音声秘匿装置10は、ユーザが予め登録した秘匿情報が流出することを確実に防止することができる。
次に、図1から図3を参照しつつ図4を用いて判定部13における秘匿情報判定処理の流れの他の一例を説明する。図4は、秘匿情報判定処理の流れの他の一例を時系列で説明する図である。図4は、音声入力装置11から入力音声として秘匿情報1(例えば電話番号「09001234567」)と前方一致するものの完全一致はしない内容が含まれる前方一致音声が入力された場合における秘匿情報判定処理の一例を示している。本例の前方一致音声は、「電話番号は09001254678」という一連の音声であるとする。なお、図4の上から1〜11段目に図示されている項目は図3の上から1〜11段目に図示されている項目と同様であるため、説明は省略する。
図4に示すように、本例の前方一致音声は、「デン」「ワ」「バン」「ゴウ」「ワ」「ゼロ」「キュー」「ゼロ」「ゼロ」「イチ」「ニー」「ゴ」「ヨン」「ロク」「ナナ」「ハチ」の内容にそれぞれ該当するデジタル音声データを含む16個の区間として、区間101〜116の順(時系列順)に音声認識部12に出力される。
図4に示すように判定部13は、時刻t10から時刻t11までの期間において、音声認識部12が逐次音声認識処理を行った区間101〜105に対応する出力音素「den(デン)」「wa(ワ)」「ban(バン)」「gou(ゴウ)」「wa(ワ)」について、秘匿情報判定処理を実行する。判定部13は、区間101〜105に対応する出力音素のいずれも、秘匿情報リスト141に登録されている秘匿情報音素系列のいずれとも前方一致および完全一致しないと判定する。したがって、出力制御部150は、図4に示す時刻t10からt11の期間における音声秘匿処理において、図3に示す時刻t0から時刻t1と同様に、「デン ワ バン ゴウ ワ」という5区間分(区間101〜105)のデジタル音声データを時系列順にバッファ151から出力する(ステップS22のYESからステップS26の流れ)。
また、時刻t12での秘匿情報判定処理において、判定部13は、区間106に含まれるデジタル音声データに対応する出力音素「zero(ゼロ)」について、秘匿情報1の秘匿情報音素系列と前方一致すると判定し、信号レベルが高(High)レベルの秘匿情報判定信号(総合)を音声データ秘匿部15に出力する。これに基づいて、時刻t12での音声秘匿処理において出力制御部150は、図3に示す時刻t2と同様に、バッファ151からのデジタル信号データの出力を停止する(ステップS22のNOからステップS23の流れ)。以降、時刻t13から時刻t14の期間において、判定部13は区間106〜111を順次結合した結合出力音素系列を生成し、生成した結合出力音素系列と秘匿情報1の秘匿情報音素系列とが前方一致すると判定する。
このため、時刻t13から時刻t14の期間において秘匿情報判定信号(総合)は高(High)レベルに設定され、出力制御部150は、バッファ151からのデジタル音声データの出力停止を継続する。したがって、図4に示すように、本例では時刻t13から時刻t14の期間がバッファ151からのデジタル音声データの出力が停止される出力停止期間となり、区間106〜区間111の6区間分のデジタル音声データ(図4に示す前方一致音声(入力音声)のうち「ゼロキューゼロゼロイチニー」に相当)がバッファ151に蓄積される。
図4に示すように、時刻t15において、音声認識部12およびバッファ151には音声入力装置11から区間112に含まれるデジタル音声データ(入力音声「ゴ」に相当)が出力され、音声認識部12により「ゴ」という日本語の読みに相当する出力音素「go」が判定部13に出力される。時刻t15において判定部13は、区間106〜111に含まれるデジタル音声データに対応する出力音素で生成された結合出力音素系列の最後尾に区間12に含まれるデジタル音声データに対応する出力音素「ゴ」を結合し、結合出力音素系列「ゼロキューゼロゼロイチニーゴ」(区間106〜112に対応する出力音素の結合)を生成する。
時刻t15において判定部13が生成した結合出力音素系列は、秘匿情報1の対応する秘匿情報音素系列「ゼロキューゼロゼロイチニーサンヨンゴロクナナ」と前方一致しない。また、秘匿情報2〜10に対応する秘匿情報音素系列とも前方一致しなかったとする。さらに、判定部13は、出力音素「ゴ」のみで秘匿情報1〜10に対応する秘匿情報音素系列と前方一致を判定する。本例において秘匿情報リスト141には、「ゴ」という音素系列で始まる秘匿情報音素系列は登録されていないとする。したがって、判定部13は、秘匿情報1〜10のそれぞれに対応する秘匿情報判定信号(個別)を全て低(Low)レベルに設定し、秘匿情報判定信号(個別)の信号レベルの論理和により低レベルに設定された秘匿情報判定信号(総合)を音声データ秘匿部15に送信する。このように、判定部13は、結合出力音素系列と前方一致していた秘匿情報音素系列が存在しなくなった場合にも、結合出力音素系列の最後尾を構成する出力音素、すなわち最新の出力音素について、秘匿情報音素系列との前方一致を判定する。これにより、入力音声が個人情報等を含むキーワードと一致するおそれの有無を適正に判定することができる。
音声データ秘匿部15の出力制御部150は、時刻t15での秘匿情報判定処理に基づいて実行する音声秘匿処理において、秘匿情報判定信号(総合)の信号レベルが低(Low)レベルであることに基づいて、バッファ出力が可能であると判定し(ステップS22のYES)、バッファ151に蓄積されているデジタル音声データを出力する(ステップS26)。図4に示すように、時刻t15においてバッファ151には、区間6〜12に対応する7区間分のデジタル音声データ(入力音声「ゼロキューゼロゼロイチニーゴ」に相当)が蓄積されている。上述のように、バッファ151は、先入れ先出し方式によりデジタル音声データが入出力される。このため、出力制御部150は、時系列順、すなわち先にバッファ151に蓄積された区間から順に連続して、逐次デジタル音声データを出力する。本例では、区間106〜112がこの順に、バッファ151から連続して出力される。これにより、複数区間に含まれるデジタル音声データは一連の入力音声の時系列による連続性を保持してネットワーク3を介して音声認識サーバ100へ送信される。音声認識サーバ100は、受信したデジタル音声データについて音声認識を行い、音声認識結果をサーバ500に送信する。このため、サーバ500は、ユーザが発話した内容に応じた処理結果(例えば情報検索結果)を音声処理装置1に返すことができる。
なお、本発明において、バッファ151におけるデジタル音声データの入出力方法は、先入れ先出し方式に限られない。音声秘匿装置10は、バッファ151に蓄積された複数区間分のデジタル音声データを、時系列順を維持した状態で音声認識サーバ100に送信可能であれば、バッファ151においてどのような方式でデジタル音声データの入出力を行ってもよい。
図4に示すように、時刻t15の経過後、時刻t16までの期間に音声認識部12に出力された区間113〜116に含まれるデジタル音声データは、それぞれ出力音素「yon(ヨン)」「roku(ロク)」「nana(ナナ)」「hachi(ハチ)」として認識され、判定部13において順次、秘匿情報判定処理が実行される。区間113〜116に含まれるデジタル音声データに対応する出力音素は、区間101〜105に含まれるデジタル音声データに対応する出力音素と同様に、判定部13において秘匿情報リスト141に蓄積された秘匿情報1〜10いずれの秘匿情報音素系列とも前方一致および完全一致しないと判定されたとする。このため、区間113〜116に含まれるデジタル音声データは、秘匿情報判定処理後において出力制御部150により即座にバッファ151から出力される。したがって、時刻t15の経過後から時刻t16までの期間において、音声認識サーバには「ヨン」「ロク」「ナナ」「ハチ」という4区間分のデジタル音声データが送信される。
以上、図1から図4を用いて説明したように、本実施形態による音声秘匿装置10は、複数のキーワードが音情報に変換された秘匿情報音素系列(音素系列情報の一例)を記憶可能な記憶部14と、所定の音声発生源(例えば、音声処理装置1のユーザ)からの入力音声(入力音声データ)を、逐次音声認識処理により音素レベルで認識した情報である出力音素(出力音素情報の一例)として出力する音声認識部12と、音声認識部12が出力した出力音素が記憶部14の秘匿情報リスト141に記憶されている秘匿情報音素系列(記憶音素情報の一例)との一致の度合いに基づいて入力音声データとキーワードとが一致するおそれがあるか否かを逐次判定可能な判定部13と、判定部13によりキーワードと一致するおそれがあると判定された入力音声データに対応するデジタル音声データの内容を秘匿可能な音声データ秘匿部15と、を備える。
また、判定部13は、音声認識部12が出力した出力音素と記憶部14に記憶されている秘匿情報音素系列の前方一致の度合いに基づいて所定の音声発生源からの入力音声データとキーワード(個人情報等)とが一致するおそれがあるか否かを逐次判定可能であり、音声データ秘匿部15は、判定部13により秘匿情報音素系列との前方一致の度合いが所定の度合い以上であると判定された出力音素に対応する音声データの内容を秘匿可能である。
これにより、本実施形態による音声秘匿装置10は、例えば入力音声の一部が個人情報等のキーワード(ユーザが秘匿を所望する情報(秘匿情報))と前方一致し入力音声がキーワードと一致する可能性が生じた段階で、入力音声の内容を秘匿することができる。したがって、音声秘匿装置10は、一連の入力音声(例えば「電話番号は09001234567」)の音声認識における早期の段階、すなわち完全一致を待たずに一致するおそれが生じた段階で、確実かつ迅速に個人情報等を含む秘匿情報の流出を防止することができる。
また、本発明による音声秘匿装置10は、判定部13において、音声認識部12による入力音声の認識結果である出力音素と秘匿情報リスト141に蓄積されている秘匿情報音素系列との一致の度合い(例えば、前方一致しているか否か)を判定する。出力音素および秘匿情報音素系列はいずれも音情報である。このため、音声秘匿装置10は、秘匿情報との一致の判定を行う度に、予め登録されている秘匿情報のデータ型(例えばテキスト)と入力音声のデータ型とを一致させる処理を行う必要がない。したがって、音声秘匿装置10は、秘匿情報判定処理時の処理負荷を低減させ、かつ処理速度の迅速性を維持して入力音声の内容と秘匿情報(例えば個人情報等を含むキーワード)との比較を効率的に行うことができる。
また、本発明による音声秘匿装置10において、音声データ秘匿部15は、判定部13により所定の音声発生源(例えば、音声処理装置1のユーザ)からの入力音声データが個人情報等のキーワードと完全一致する可能性がないと判定された場合に、該入力音声に対応するデジタル音声データの内容を秘匿しない。これにより、音声秘匿装置10は、入力音声データに秘匿情報が含まれるおそれがないと判定された時点で迅速にデジタル音声データを出力して音声認識サーバ100へ送信することができる。このため、音声秘匿装置10は、音声処理装置1のユーザが秘匿を所望する情報(秘匿対象情報)の流出防止と、音声認識サーバ100を利用したサービスの提供速度の維持を両立することができる。
(1−5)音声秘匿プログラム
本実施形態の音声秘匿装置10は、コンピュータやスマートスピーカ等の情報端末装置である音声処理装置1に展開されたソフトウェアプログラム(音声秘匿プログラム)であって、ソフトウェアプログラムの指令により音声処理装置1のCPUが演算処理を実行することによって構成される。すなわち、本実施形態による音声秘匿プログラムは、所定の情報端末装置(本例では音声処理装置1)を、複数のキーワードが音素系列情報に変換された秘匿情報音素系列を記憶可能な記憶部14、所定の音声発生源(例えば、音声処理装置1のユーザ)から入力された入力音声を、逐次音声認識処理により音素レベルで認識した出力音素として出力する音声認識部12、音声認識部12が出力した出力音素と記憶部14の秘匿情報リスト141に記憶されている秘匿情報音素系列情報との一致の度合いに基づいて入力音声データとキーワードとが一致するおそれがあるか否かを逐次判定可能な判定部13、および判定部13により個人情報等のキーワードと一致するおそれがあると判定された入力音声データに対応するデジタル音声データの内容を秘匿可能な音声データ秘匿部15として機能させる。
(第1実施形態の変形例1)
次に、図5Aを用いて、第1実施形態の変形例1について説明する。変形例1は、音声秘匿装置10が実行する秘匿情報判定処理および音声秘匿処理の内容が上記第1実施形態と異なる。具体的には、変形例1において、音声秘匿装置10は、入力音声データ中に個人情報等を含む内容の発話を行うと予測される情報(秘匿予測情報)が含まれるか否かに基づいて入力音声データ中に個人情報等の秘匿情報が含まれるおそれがあるか否かを判定し、該判定に応じてデジタル音声データのバッファ出力の可否を決定する。ここで、秘匿予測情報としては、例えば「電話番号は」、「名前は」のように続けて個人情報が発話されると予測されるキーワードが想定される。
変形例1において記憶部14には、秘匿予測情報リストが記憶されている。秘匿予測情報リストは、秘匿情報リスト141と同様にテーブル形式で複数の秘匿予測情報を蓄積している。また、秘匿予測情報リストに蓄積されている秘匿予測情報は、秘匿情報と同様に、音声処理装置1のユーザが音声処理装置1と接続された所定の情報端末装置を用いて予め登録した情報である。なお、変形例1において、記憶部14には秘匿予測情報リストのみが記憶されていてもよいし、秘匿予測情報リストおよび秘匿情報リスト141の両方が記憶されていてもよい。
図5Aは、変形例1における秘匿情報判定処理および音声秘匿処理を時系列で説明する図である。本例において、秘匿予測情報リストには、秘匿予測情報として「電話番号は」という内容を示す秘匿予測音素系列「(デンワバンゴウワ)」(秘匿予測情報1)および「名前は」という内容を示す秘匿予測音素系列「(ナマエワ)」(秘匿予測情報2)が少なくとも蓄積されているとする。図5Aは、音声入力装置11から入力音声として秘匿予測情報1と完全一致する内容が含まれる音声(本例では「電話番号は09001234567」)が入力された場合における秘匿情報判定処理の一例を示している。本例における一連の入力音声は図3における入力音声と同一内容である。このため、図5Aでは図3と同様に、入力音声が区間1〜16の16個の区間に分けて表されている。
図5Aに示すように、判定部13は、時刻t20において、区間1に含まれるデジタル音声データに対応する出力音素「den(デン)」について、秘匿予測情報1の秘匿予測情報音素系列と前方一致すると判定する。また、判定部13は、秘匿予測音素系列と前方一致した出力音素を所定の記憶領域で保持し、時刻t21までの期間において、区間2〜5に対応するデジタル音声データを順次結合した結合出力音素系列を生成する。
判定部13は、時刻t21の期間において生成した結合出力音素系列「デンワバンゴウワ」(区間1〜5に対応する出力音素の結合)と、秘匿予測情報1の秘匿予測音素系列(「デンワバンゴウワ」)とが完全一致すると判定し、秘匿予測情報1に対応する秘匿予測情報判定信号(個別)を高(High)レベルに設定する。信号レベルが高レベルの秘匿予測情報判定信号は、出力音素が秘匿予測音素系列と完全一致していることを示す。また、判定部13は、時刻t21において、結合出力音素系列「デンワバンゴウワ」と、秘匿予測情報2の秘匿予測音素系列(「ナマエワ」)とが完全一致しないと判定し、秘匿予測情報2に対応する秘匿予測情報判定信号(個別)を低(Low)レベルに設定する。信号レベルが低レベルの秘匿予測情報判定信号(個別)は、出力音素が秘匿予測音素系列と完全一致していないことを示す。判定部13は、秘匿予測情報1、2に対応する秘匿予測情報判定信号(個別)の論理和をとって、高レベルの秘匿予測情報判定信号(総合)を音声データ秘匿部15に出力する。
また、判定部13は、時刻t21において秘匿予測情報1に対応する秘匿予測情報判定信号(個別)を高(High)レベルに設定すると、時刻t22以降、予め定められた一定期間(例えば5秒間)に亘って音声認識部12から出力音素が出力される度に、秘匿予測情報1に対応する秘匿予測情報判定信号(個別)を高レベルに設定し、高レベルの秘匿予測情報判定信号(総合)を音声データ秘匿部15に出力する。音声データ秘匿部15の出力制御部150は、時刻t21において判定部13から高レベルの秘匿予測情報判定信号を受信すると、時刻t22以降、低レベルの秘匿予測情報判定信号(総合)を受信するまでの期間、すなわち上述の一定期間に亘って音声入力装置11からバッファ151に入力されたデジタル音声データを削除する。すなわち、変形例1において、この一定期間が、バッファ151からデジタル音声データが出力されない出力停止期間となる。本例では、図5Aに示すように、時刻t22から時刻t23までの期間において、判定部13がレベルの秘匿予測情報判定信号(総合)を音声データ秘匿部15に出力し、該期間中にバッファ151に入力された区間6〜16に含まれるデジタル音声データ(入力音声「ゼロキューゼロゼロイチニーサンヨンゴロクナナ」に対応)が、出力制御部150により順次削除される。
このように、変形例1において、音声秘匿装置10は、判定部13により入力音声に秘匿予測情報と一致する内容が含まれると判定されたこと、すなわち、入力音声データとキーワード(音声秘匿情報)とが一致するおそれがあると判定されたことに基づいて、判定後の予め定められた一定期間(出力停止期間)に音声処理装置1のユーザから入力された入力音声データに対応するデジタル音声データ(音声入力装置11からバッファ151に入力されたデジタル音声データ)の内容を秘匿する(バッファ出力を停止する)ことができる。これにより、変形例1における音声秘匿装置10は、個人情報等を含む秘匿情報をユーザが発話するよりも前の時点、すなわちユーザが秘匿情報を発話することが予測された時点で入力音声の内容を秘匿することができる。また、出力停止期間において出力制御部150は、バッファ151に入力されたデジタル音声データを削除する。これにより、変形例1における音声秘匿装置10は、個人情報等のユーザが秘匿を所望する情報(秘匿情報)の流出を確実に防止することができる。
(第1実施形態の変形例2)
次に、図5Bを用いて第1実施形態の変形例2について説明する。変形例2は、判定部13により入力音声に秘匿予測情報と一致する内容が含まれると判定された場合における、出力停止期間の判定方法が変形例1と異なる。図5Bは、入力音声を複数区間に分けずに、音声区間と対応付けている点が図5Aと異なるが、この点以外は、図5Aと同様である。変形例2において、音声認識部12のエンジン部120は、所定時間に亘ってユーザによる発話が連続している音声区間と、発話中の息継ぎ等によって生じる一定時間(例えば、500ミリ秒)以上の無音の区間(音声が存在しない区間)とを判別し、音声区間ごとにデジタル音声データを音素レベルで認識して判定部13に出力する。
図5Bに示すように、本例においてエンジン部120は、「デンワバンゴウワ」という一連の入力音声に対応する音声区間ac1(時刻t30から時刻t31)に含まれるデジタル音声データについて音素レベルで認識し、時刻t31において出力音素「denwabangouwa(デンワバンゴウワ)」を判定部13に出力する。判定部13は、時刻t31において出力音素が秘匿予測情報1の秘匿予測音素系列(「デンワバンゴウワ」)と完全一致すると判定し、秘匿予測情報1に対応する秘匿予測情報判定信号(個別)を高(High)レベルに設定する。また、時刻t31において判定部13は、出力音素と秘匿予測情報2の秘匿予測音素系列(「ナマエワ」)とが完全一致しないと判定し、秘匿予測情報2に対応する秘匿予測情報判定信号(個別)を低(Low)レベルに設定する。判定部13は、秘匿予測情報1、2に対応する秘匿予測情報判定信号(個別)の論理和をとって高レベルの秘匿予測情報判定信号(総合)を音声データ秘匿部15に出力する。
また、判定部13は、時刻t31において秘匿予測情報1に対応する秘匿予測情報判定信号(個別)を高(High)レベルに設定すると、以降、所定数分(例えば2個分)の音声区間に対応する期間において、秘匿予測情報1に対応する秘匿予測情報判定信号(個別)を高レベルに設定し、各音声区間に含まれるデジタル音声データに対応する出力音素が音声認識部12から出力される度に高レベルの秘匿予測情報判定信号(総合)を音声データ秘匿部15に出力する。音声データ秘匿部15の出力制御部150は、時刻t31において判定部13から高レベルの秘匿予測情報判定信号を受信すると、時刻t32以降、所定数分(例えば2個分)の音声区間に対応するデジタル音声データをバッファ151から削除する。本例では、図5Bに示すように、秘匿予測情報1の秘匿予測音素系列と一致する内容のデジタル音声データを含む音声区間ac1の後続の音声区間ac2(時刻t32から時刻t33の期間に相当)、ac3(時刻t34から時刻t35の区間に相当)の2つの音声区間に含まれるデジタル音声データ(入力音声「ゼロキューゼロゼロイチニーサンヨンゴロクナナ」に対応)がバッファ151から削除される。このように変形例2において、所定数(本例では2)の音声区間に相当する期間が出力停止期間となる。また、出力停止期間の終了後、判定部13は秘匿予測情報1に対応する秘匿予測情報判定信号(個別)を低(Low)レベルに設定するとともに、低レベルの秘匿予測情報判定信号(総合)を音声データ秘匿部15に出力する。これにより、出力停止期間の終了後において、出力制御部150は、バッファ151に入力されたデジタル音声データのバッファ出力が可能となる。
このように、本変形例2において、音声秘匿装置10は、判定部13により入力音声データに秘匿予測情報と一致する内容が含まれると判定されたことに基づいて、判定後に所定の音声発生源から入力された入力音声データに対応するデジタル音声データのうち所定数の音声区間の音声データの内容を秘匿することができる。すなわち、出力制御部150は、判定部13による判定後の所定数の音声区間に相当する期間(出力停止期間)に音声入力装置11からバッファ151に入力されたデジタル音声データを秘匿する(バッファ出力を停止する)ことができる。これにより、変形例2における音声秘匿装置10は、ユーザが秘匿情報を発話することが予測された時点で入力音声の内容を秘匿することができる。また、出力停止期間において出力制御部150は、バッファ151に入力されたデジタル音声データを削除する。これにより、変形例2における音声秘匿装置10は、個人情報等のユーザが秘匿を所望する情報(秘匿情報)の流出を確実に防止することができる。
音声秘匿装置10は、予め定められた一定時間を出力停止期間とする変形例1と、所定数の音声区間に相当する期間を出力停止期間とする変形例2との両方を実行可能であってもよい。例えば、変形例1における秘匿情報判定処理および音声秘匿処理と、変形例2における秘匿情報判定処理および音声秘匿処理とを、所定の条件で切り替えて、または組み合わせて実行してもよい。例えば、音声秘匿装置10は、予め定められた一定時間を出力停止期間とするか、または所定数の音声区間に相当する期間を出力停止期間とするように構成されもよい。例えば、音声秘匿装置10は、予め定められた一定時間と、所定数の音声区間に相当する期間のいずれかに属する期間のうちの少なくとも一方に属する期間を出力停止期間とするように構成されてもよい。
なお、本実施形態において、音声秘匿装置10は、入力音声とキーワードとが一致するおそれがあるか否かを、秘匿情報音素系列と出力音素との前方一致によって判定するとしたが、秘匿情報音素系列のうち前方一致の対象とする部分(秘匿情報音素系列の先頭からの個数)を、秘匿情報音素系列ごとに設定できるようにしてもよい。これにより、一致のおそれを秘匿情報の内容や音声認識部12の特性等に応じてより適切に判定できる。また、一致の度合いの算出は前方一致に限られず、例えば、中間一致(前方部分のうち混同を生じやすい冒頭の音素を除く部分との一致)により算出してもよい。音声秘匿装置10は、一致の度合いに基づき一致のおそれを判定することで、音声認識における早期の段階、すなわち完全一致を待たずに一致するおそれが生じた段階で、確実かつ迅速に個人情報等を含む秘匿情報の流出を防止することができる。
2.第2実施形態
次に、本発明の第2実施形態による音声秘匿装置について図6および図7を用いて説明する。本実施形態による音声秘匿装置20は、情報端末装置等の一構成要素としてではなく単独で構成される点で、第1実施形態による音声秘匿装置10と異なる。音声秘匿装置20は例えば、スマートスピーカ等の音声認識機能を備えた情報端末装置の近傍に配置されて、情報端末装置のユーザが秘匿を所望する秘匿情報を妨害音の出力により秘匿する装置である。
図6に示すように、音声秘匿装置20は、音声入力部21と、エコーキャンセラ22と、音声認識部12と、判定部13と、記憶部14と、音声データ秘匿部25とを有している。音声秘匿装置20において、第1実施形態による音声秘匿装置10と同一の作用効果を有する構成は、図1に示す音声秘匿装置10と同一の符号を付し、詳細な説明は省略する。
音声入力部21は、第1実施形態による音声秘匿装置10を有する音声処理装置1(図1参照)が備える音声入力装置11と同様の機能を有する。音声入力部21は、入力音声データから生成されたデジタル音声データをサンプリング単位でエコーキャンセラ22に出力する。
エコーキャンセラ22は、音響エコーを抑制、除去する機能を有する。音声秘匿装置20において抑制、除去の対象となる音響エコーは、音声入力部21に収音された、音声秘匿装置20からの妨害音に対応する入力音声データである。例えば、エコーキャンセラ22は、音声入力部21からサンプリング単位で入力されたデジタル音声データから、妨害音に該当する信号を除去して、妨害音が除去されたデジタル音声データを音声認識部12に出力する。これにより、音声認識部12は、妨害音を含まないデジタル音声データについて逐次音声認識処理を実行し、出力音素を判定部13に出力することができる。
音声秘匿装置20における記憶部14は、秘匿情報リスト142を有している。秘匿情報リスト142には、秘匿情報リスト141と同様に音声秘匿装置20のユーザが秘匿を所望する秘匿情報(個人情報等のキーワード)が秘匿情報音素系列として蓄積されている。さらに秘匿情報リスト142には、各秘匿情報音素系列に紐づけて一致度合判定値が記憶されている。一致度合判定値は、秘匿情報音素系列を構成する音素のうち結合出力音素系列と前方一致している音素の割合を示す値である。詳しくは後述するが、音声秘匿装置20における判定部13は、秘匿情報判定処理において一致度合判定値を用いる。
音声データ秘匿部25は、秘匿情報に該当するおそれがある内容を含む音声(秘匿対象音声)を秘匿する音声秘匿処理を実行する。本実施形態による音声秘匿装置20において、秘匿対象音声の秘匿は、秘匿対象音声に重畳させて所定の妨害音を出力することを示す。音声秘匿装置20が妨害音を出力すると、音声秘匿装置20の近傍に配置された情報端末装置には、秘匿対象音声とともに妨害音が入力される。これにより、情報端末装置は、秘匿対象音声の認識が困難となり、秘匿対象音声が情報端末装置を介してネットワーク上に流出することが防止される。
音声データ秘匿部25は、妨害音を出力可能な波形出力器(妨害音出力部の一例)251と、波形出力器が生成した波形に対応する妨害音を出力するスピーカ(妨害音出力部の一例)252と、判定部13による秘匿情報判定結果に基づいて波形出力器251における妨害音声波形の生成を制御することにより、スピーカ252からの妨害音の出力を制御する妨害音出力制御部250と、を有している。波形出力器251が生成する波形による妨害音としては、例えば、テレビ放送等において自主規制音として用いられる音(所謂、ピー音)や、ブザー音等が想定される。妨害音出力制御部250は、判定部13が導出した秘匿情報判定結果に基づいて妨害音の出力可否を決定し、波形出力器251における妨害音声波形の生成を制御する。波形出力器251は、妨害音出力制御部250が妨害音を出力可能と判定した場合に妨害音声波形を生成し、生成した妨害音声波形を含む信号をスピーカ252に送信する。これにより、秘匿情報判定結果に基づいて妨害音声がスピーカ252から出力され、秘匿対象音声が秘匿される。また、波形出力器251が生成する妨害音声波形に相当する音声波形は、予めエコーキャンセラ22に入力されている。このため、エコーキャンセラ22は、入力音声データに含まれる妨害音に相当するデジタル信号を、デジタル音声データから除去することができる。
(2−1)音声秘匿処理
次に、図6を参照しつつ図7を用いて、音声データ秘匿部25における音声秘匿処理の流れの一例を説明する。図7は、音声秘匿処理の流れを説明するフローチャートである。音声秘匿処理は、妨害音出力制御部250による妨害音出力の制御により、秘匿対象音声の認識を困難にする処理である。本実施形態において音声秘匿処理は、秘匿情報判定処理結果が判定部13から音声データ秘匿部25に入力されたことに基づいて実行される。すなわち、音声秘匿処理は、音声入力部21に入力音声データが入力されて、エコーキャンセラ22での音響エコーの除去を経てサンプリング単位で音声認識部12に出力され、判定部13において秘匿情報判定処理が実行される度に繰り返し実行される。
(ステップS31)
ステップS31において、妨害音出力制御部250は、判定部13から秘匿情報判定結果を受信し、ステップS32の処理に移る。
(ステップS32)
ステップS32において妨害音出力制御部250は、判定部13から受信した秘匿情報判定信号に基づいて秘匿情報判定結果を確認し、音声認識部12においてデジタル音声データを音素レベルで認識した出力音素が、秘匿情報音素系列と前方一致しているか否かを判定する。妨害音出力制御部250は、高レベルの秘匿情報判定信号を受信した場合に出力音素が秘匿情報音素系列と前方一致していると判定し、ステップS33の処理に移る。妨害音出力制御部250は、信号レベルが高レベルの秘匿情報判定信号を受信したことで、処理対象のデジタル音声データが秘匿対象音声に対応すると認識する。一方、妨害音出力制御部250は、低レベルの秘匿情報判定信号を受信した場合に出力音素が秘匿情報音素系列と前方一致していないと判定し、ステップS34の処理に移る。妨害音出力制御部250は、信号レベルが低レベルの秘匿情報判定信号を受信したことで、処理対象のデジタル音声データが秘匿対象音声に対応しないと認識する。
(ステップS33)
ステップS33において、妨害音出力制御部250は、波形出力器251から妨害音を出力させ、音声秘匿処理を終了する。妨害音出力制御部250は、ステップS33において出力音素が秘匿情報音素系列と前方一致していないと判定されるまで、波形出力器251における妨害音出力を継続する。
(ステップS34)
ステップS34において、妨害音出力制御部250は、波形出力器251において妨害音が出力中か否かを判定する。妨害音出力制御部250は妨害音が出力中であると判定するとステップS35の処理に移る。一方、妨害音出力制御部250は妨害音が出力中でないと判定すると音声秘匿処理を終了する。
(ステップS35)
ステップS35において、妨害音出力制御部250は、波形出力器251における妨害音の出力を停止して、音声秘匿処理を終了する。
このように、本実施形態による音声秘匿装置20において、音声データ秘匿部25の妨害音出力制御部250は、判定部13により個人情報等のキーワードと入力音声データとが一致するおそれがある(例えば、出力音素が秘匿情報音素系列と前方一致している)と判定された場合に、波形出力器251(妨害音出力部の一例)に妨害音声波形を生成させることで、スピーカ252(妨害音出力部の一例)から妨害音声波形に基づく妨害音(所定の妨害音の一例)を出力させる。これにより、音声秘匿装置20は、ユーザが登録した秘匿情報(例えば個人情報等を含むキーワード)を含むおそれのある秘匿対象音声を秘匿し、秘匿対象音声が音声認識機能を有する情報端末装置を介してネットワーク上に流出(音声認識サーバ等へ送信)されるのを防止することができる。
(2−2)秘匿情報判定処理
次に、第2実施形態による音声秘匿装置20における秘匿情報判定処理について説明する。音声秘匿装置20の判定部13は、秘匿情報音素系列と出力音素との一致の度合が一致度合判定値に達している(所定の度合い以上である)場合に、入力音声データ中に秘匿情報が含まれるおそれがあると判定する。具体的には、判定部13は、秘匿情報判定処理において、秘匿情報音素系列を構成する音素のうち一致度合判定値が示す割合に対応する数の音素が結合出力音素系列(連続した入力音声に対応する出力音素の結合)と前方一致するか否かを判定する。例えば、秘匿情報音素系列を構成する音素が10個、一致度合判定値が60%の場合、秘匿情報音素系列のうち先頭から6個(=10個×60%)の音素が結合出力音素と一致した時点、すなわち秘匿情報音素系列と出力音素との一致度合が60%に到達した時点で、入力音声データと秘匿情報とが一致するおそれがあると判定される。一致度合判定値は、ユーザが任意の値に設定可能である。また一致度合判定値は、値を適宜に変更可能であり、ユーザによって設定されない場合は、デフォルト値(例えば60%)が設定されてもよい。
図6に示す秘匿情報リスト142には、電話番号を示す秘匿情報n「09001234567」に対応付けて、一致度合判定値として「60%」が登録されている。この場合、判定部13は、秘匿情報n「09001234567」に対応する秘匿情報音素系列を構成する39個の音素(zerokyuuzerozeroichiniisanyongorokunana)のうち、60%にあたる23個(小数点は切り捨て)の音素が結合出力音素系列と一致している場合に、秘匿情報nに対応する秘匿情報判定信号(個別)を高レベルに設定し、高レベルの秘匿情報判定信号(総合)を妨害音出力制御部250に出力する。このように判定部13は、一致度合判定値に基づいて、結合出力音素と秘匿情報音素系列との前方一致の有無の判断基準となる秘匿情報音素系列の音素数を算出する。
例えば、秘匿情報nと完全一致する内容を含む入力音声「電話番号は09001234567」が音声秘匿装置20に入力されたとする。この場合、判定部13は、「090012」という内容を含むデジタル音声データに対応する結合出力音素系列が秘匿情報nの秘匿情報音素系列と前方一致すると判定した時点で、秘匿情報nに対応する秘匿情報音素系列と結合出力音素系列との前方一致の度合いが60%に到達したと判定する。これに伴い、判定部13は、入力音声が秘匿対象音声であると判定し、秘匿情報nに対応する秘匿情報判定信号(個別)を高(High)レベルに設定するとともに、高レベルの秘匿情報判定信号(総合)を妨害音出力制御部250に出力する。妨害音出力制御部250の妨害音出力制御部250は、高レベルの秘匿情報判定信号を受信すると、妨害音声波形を生成するように波形出力器251を制御し、波形出力器251から妨害波形信号の入力を受けたスピーカ252が妨害音を出力する(ステップS33)。
これにより、一連の入力音声のうち秘匿情報nの後半にあたる秘匿対象音声「34567」に重畳して妨害音が出力される。このため、音声秘匿装置20の近傍に配置された情報端末装置には、秘匿対象音声の少なくとも一部とともに妨害音が入力される。したがって、情報端末装置は秘匿対象音声の認識が困難となり、秘匿情報が情報端末装置を介してネットワーク上に流出することが防止される。また、一致度合判定値を所定の値以上(例えば、50%以上)に設定することにより、秘匿情報と一致しない入力音声データが秘匿情報と一致のおそれありと判定される頻度が低減され、それにより、不必要な妨害音の発生を抑えることができる。
(第2実施形態の変形例)
音声秘匿装置20における判定部13は、秘匿情報判定処理において、秘匿情報音素系列に変換前のユーザが入力したキーワード(テキスト情報)と、一致度合判定値とを用いて入力音声データ中に秘匿情報が含まれるおそれがあるか否かを判定してもよい。この場合、判定部13は、キーワードを構成する文字のうち一致度合判定値が示す割合に対応する数の文字が入力音声から導出されるテキスト情報と前方一致する場合に、入力音声データ中に秘匿情報が含まれるおそれがあると判定してもよい。本例では、音声認識部12において、音素レベルで認識したデジタル音声データをテキスト情報(音素変換テキスト)に変換し、音素変換テキストを判定部13に出力する。また、秘匿情報音素系列に変換する前のキーワードが秘匿情報リスト142に記憶されている。これにより、判定部13は、キーワードと音素変換テキストとの前方一致の度合いが一致度合判定値に設定された割合に達しているか否かを判定することができる。例えば、一致度合判定値が30%である場合、判定部13は、10文字のキーワードのうち3文字が音素変換テキストと前方一致した場合、すなわち前方一致の度合いが30%である場合に、入力音声データ中に秘匿情報が含まれるおそれがあると判定する。
以上、各実施形態により本発明を説明したが、本発明の範囲は、図示され記載された例示的な実施形態に限定されるものではなく、本発明が目的とするものと均等な効果をもたらす全ての実施形態をも含む。さらに、本発明の範囲は、請求項により画される発明の特徴の組み合わせに限定されるものではなく、全ての開示されたそれぞれの特徴のうち特定の特徴のあらゆる所望する組み合わせによって画されうる。
1 音声処理装置
3 ネットワーク
9 音声認識サービスシステム
10、20 音声秘匿装置
11 音声入力装置
12 音声認識部
13 判定部
14 記憶部
15、25 音声データ秘匿部
21 音声入力部
22 エコーキャンセラ
120 エンジン部
121 モデル
141 秘匿情報リスト
150 出力制御部
151 バッファ
100 音声認識サーバ
250 妨害音出力制御部
251 波形出力器
500 サーバ

Claims (7)

  1. 複数のキーワードが音情報に変換された音素系列情報を記憶可能な記憶部と、
    音声発生源からの入力音声をデジタル信号に変換した音声データを、逐次音声認識処理により音素レベルで認識した情報である出力音素情報として出力する音声認識部と、
    前記音声認識部が出力した出力音素情報と前記記憶部に記憶されている音素系列情報である記憶音素情報との一致の度合いに基づいて前記入力音声と前記キーワードとが一致するおそれがあるか否かを逐次判定可能な判定部と、
    前記判定部により前記キーワードと一致するおそれがあると判定された前記入力音声に対応する音声データの内容を秘匿可能な音声データ秘匿部と、
    を備えることを特徴とする音声秘匿装置。
  2. 前記判定部は、前記音声認識部が出力した出力音素情報と前記記憶部に記憶されている音素系列情報である記憶音素情報との前方一致の度合いに基づいて前記入力音声と前記キーワードとが一致するおそれがあるか否かを逐次判定可能であり、
    前記音声データ秘匿部は、前記判定部により前記記憶音素情報との前方一致の度合いが所定の度合い以上であると判定された前記出力音素情報に対応する音声データの内容を秘匿可能である、
    請求項1に記載の音声秘匿装置。
  3. 前記音声データ秘匿部は、前記判定部により前記入力音声が前記キーワードと完全一致する可能性がないと判定された場合に、該入力音声に対応する音声データの内容を秘匿しないこと
    を特徴とする請求項1又は2に記載の音声秘匿装置。
  4. 前記音声認識部は、前記入力音声を変換した音声データについて音声が存在する音声区間と音声が存在しない無音区間とを判別し、
    前記音声データ秘匿部は、前記判定部により前記入力音声が前記キーワードと一致するおそれがあると判定されたことに基づいて、該判定後の予め定められた一定期間に前記音声発生源から入力された入力音声に対応する音声データの内容、または該判定後に前記音声発生源から入力された入力音声に対応する音声データのうち所定数の音声区間の音声データの内容を秘匿すること
    を特徴とする請求項1から3のいずれか1項に記載の音声秘匿装置。
  5. 前記音声データ秘匿部は、
    前記入力音声を変換した音声データを一時的に蓄積可能なバッファと、
    前記判定部による判定結果に基づいて前記バッファに蓄積されている音声データの出力を制御するバッファ出力制御部と
    を有し、
    前記バッファ出力制御部は、前記判定部により前記キーワードと一致するおそれがあると判定された前記入力音声に対応する音声データを前記バッファから出力しないこと
    を特徴とする請求項1から4のいずれか1項に記載の音声秘匿装置。
  6. 前記音声データ秘匿部は、
    妨害音を出力可能な妨害音出力部と、
    前記判定部による判定結果に基づいて、前記妨害音出力部からの妨害音の出力を制御する妨害音出力制御部と
    を有し、
    前記妨害音出力制御部は、前記判定部により前記キーワードと前記入力音声とが一致するおそれがあると判定された場合に、所定の妨害音を前記妨害音出力部に出力させること
    を特徴とする請求項1から5のいずれか1項に記載の音声秘匿装置。
  7. 所定の情報端末装置を、
    複数のキーワードが音情報に変換された音素系列情報を記憶可能な記憶部、
    音声発生源からの入力音声をデジタル信号に変換した音声データを、逐次音声認識処理により音素レベルで認識した情報である出力音素情報として出力する音声認識部、
    前記音声認識部が出力した出力音素情報と前記記憶部に記憶されている音素系列情報である記憶音素情報との一致の度合いに基づいて前記入力音声と前記キーワードとが一致するおそれがあるか否かを逐次判定可能な判定部、および
    前記判定部により前記キーワードと一致するおそれがあると判定された前記入力音声に対応する音声データの内容を秘匿可能な音声データ秘匿部
    として機能させる音声秘匿プログラム。
JP2018023005A 2018-02-13 2018-02-13 音声秘匿装置および音声秘匿プログラム Active JP7049629B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018023005A JP7049629B2 (ja) 2018-02-13 2018-02-13 音声秘匿装置および音声秘匿プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018023005A JP7049629B2 (ja) 2018-02-13 2018-02-13 音声秘匿装置および音声秘匿プログラム

Publications (2)

Publication Number Publication Date
JP2019139089A true JP2019139089A (ja) 2019-08-22
JP7049629B2 JP7049629B2 (ja) 2022-04-07

Family

ID=67693880

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018023005A Active JP7049629B2 (ja) 2018-02-13 2018-02-13 音声秘匿装置および音声秘匿プログラム

Country Status (1)

Country Link
JP (1) JP7049629B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183086A (zh) * 2020-09-23 2021-01-05 北京先声智能科技有限公司 基于意群标注的英语发音连读标记模型
JP2021149697A (ja) * 2020-03-19 2021-09-27 ヤフー株式会社 出力装置、出力方法及び出力プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010103751A (ja) * 2008-10-23 2010-05-06 Yahoo Japan Corp 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ
JP2015206906A (ja) * 2014-04-21 2015-11-19 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010103751A (ja) * 2008-10-23 2010-05-06 Yahoo Japan Corp 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ
JP2015206906A (ja) * 2014-04-21 2015-11-19 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021149697A (ja) * 2020-03-19 2021-09-27 ヤフー株式会社 出力装置、出力方法及び出力プログラム
US11763831B2 (en) 2020-03-19 2023-09-19 Yahoo Japan Corporation Output apparatus, output method and non-transitory computer-readable recording medium
JP7405660B2 (ja) 2020-03-19 2023-12-26 Lineヤフー株式会社 出力装置、出力方法及び出力プログラム
CN112183086A (zh) * 2020-09-23 2021-01-05 北京先声智能科技有限公司 基于意群标注的英语发音连读标记模型

Also Published As

Publication number Publication date
JP7049629B2 (ja) 2022-04-07

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
US9697206B2 (en) System and method for enhancing voice-enabled search based on automated demographic identification
JP3414735B2 (ja) 複合ワードを有する言語のための音声認識装置
EP2660810B1 (en) Post processing of natural language ASR
JPH096389A (ja) 音声認識対話処理方法および音声認識対話装置
US8185400B1 (en) System and method for isolating and processing common dialog cues
KR20200005617A (ko) 화자 구분
US20230005480A1 (en) Voice Filtering Other Speakers From Calls And Audio Messages
CN116806355A (zh) 具有说话人验证的话音快捷检测
EP4091161A1 (en) Synthesized speech audio data generated on behalf of human participant in conversation
JP6712754B2 (ja) 談話機能推定装置及びそのためのコンピュータプログラム
JP7049629B2 (ja) 音声秘匿装置および音声秘匿プログラム
JPWO2009104332A1 (ja) 発話分割システム、発話分割方法および発話分割プログラム
Suhm et al. Interactive recovery from speech recognition errors in speech user interfaces
US20170221481A1 (en) Data structure, interactive voice response device, and electronic device
WO2018088534A1 (ja) 電子機器、電子機器の制御方法及び電子機器の制御プログラム
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
JP2002041084A (ja) 対話処理システム
JP2003163951A (ja) 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
JP2019132997A (ja) 音声処理装置、方法およびプログラム
JP5493537B2 (ja) 音声認識装置、音声認識方法及びそのプログラム
JP7332132B2 (ja) 言語識別装置及びそのためのコンピュータプログラム
CN110516238B (zh) 语音翻译方法、装置、终端及计算机存储介质
US11914923B1 (en) Computer system-based pausing and resuming of natural language conversations
JP2005292346A (ja) 音声認識用棄却辞書生成システム、音声認識用棄却語彙生成方法及び音声認識用棄却語彙生成プログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190401

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211102

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220317

R150 Certificate of patent or registration of utility model

Ref document number: 7049629

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150