以下、本発明をその実施形態を示す図面に基づいて詳述する。
(実施形態1)
図1は、実施形態1に係る電話機1aを含む報知システム100aの構成例を示すブロック図である。特定の使用者200が使用する電話機1aは、固定電話網Nfに電話回線で接続されている他、アクセスポイント21を介してWi−Fi規格に準拠する無線LAN2に接続されている。固定電話網Nfには、特殊詐欺を目論む詐欺師300が使用する電話機301が更に接続されている。アクセスポイント21には、テレビジョン受信機5のHDMI(High-Definition Multimedia Interface )端子に挿入されたスティック状のパーソナルコンピュータであるスティックPC(Personal Computer )51が更に接続されている。
ここで言う特殊詐欺とは、電話その他の通信手段を用いて、対面することなく被害者をだまし、不正に入手した架空または他人名義の預貯金口座への振り込みなどの方法により、被害者に現金などを交付させたりすることをいう。特殊詐欺には、いわゆるオレオレ詐欺が含まれる。本実施形態1で検出される詐欺は、特殊詐欺に限定されず、通話中の音声に基づいて検出される全ての詐欺である。
アクセスポイント21は、ルータ22及びONU(Optical Network Unit :光回線終端装置)31を介して光回線でインターネットNiに接続されている。アクセスポイント21及びルータ22が一体化された無線ルータを用いてもよい。また、ルータ22が、ADSL(Asymmetric Digital Subscriber Line )のモデムを介して固定電話網Nfの電話回線に接続されていてもよい。この場合は、固定電話網Nfの局内にてインターネットNiへの乗り入れが行われる。インターネットNiには、後述する学習モデルX1(図6参照)を配信する配信サーバ4が更に接続されている。
スティックPC51は、不図示のACアダプタによって常時給電されており、無線LAN2に常時接続されている。スティックPC51の不図示の制御部は、HDMIインタフェースのCEC(Consumer Electronics Control )信号を用いて、スタンバイ状態にあるテレビジョン受信機5に電源をオンさせることができる。テレビジョン受信機5がCEC信号による電源オンに対応しない場合は、スティックPC51に赤外線信号の送信機を備えておき、赤外線信号によってテレビジョン受信機5に電源をオンさせてもよい。なお、テレビジョン受信機5が、スティックPC51を介さずにBluetooth、ZigBee(登録商標)等の近距離無線通信規格に準拠する通信にて電話機1aに接続されてもよい。
図2は、実施形態1に係る電話機1aの構成例を示すブロック図である。電話機1aは、制御部10、記憶部11、表示部12、操作部13、スピーカ14及び送受話器15を備える。電話機1aは、固定電話網Nfに接続するための有線通信部16(第1通信部に相当)及びアクセスポイント21に接続するためのWi−Fi通信部17(第2通信部に相当)を更に備える。有線通信部16には、通話中の音声をデジタル信号に変換して取得するためのA/D変換器(不図示)が内蔵されている。
制御部10は、CPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)等の1又は複数のプロセッサを含む。制御部10は、記憶部11に記憶されている制御プログラムを実行することにより、装置全体を制御する。
記憶部11は、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory )、EEPROM(Electrically Erasable Programmable Read Only Memory )(登録商標)等の不揮発性メモリ、及びDRAM(Dynamic Random Access Memory )、SRAM(Static Random Access Memory )等の書き替え可能なメモリを含む。
不揮発性メモリは、制御部10が実行する制御プログラム及び各種のデータを予め記憶する。書き替え可能なメモリは、一時的に発生するデータ及び自装置で学習した学習モデルX2を記憶すると共に、配信サーバ4から配信された学習モデルX1(学習モデルに相当)を記憶領域11a(記憶部に相当)に記憶する。
表示部12は、液晶ディスプレイ、有機ELディスプレイ等の表示器であり、制御部10に制御されて各種の情報を表示する。操作部13は、ユーザによる操作を受け付けるためのインタフェースであり、例えば物理ボタンで構成されている。操作部13には、送受話器15のオンフック及びオフフックを検出する不図示のフックスイッチが含まれる。
スピーカ14は、有線通信部16による通話中の音声を拡声したり、使用者200に対するガイダンスの音声を拡声したりする他、外部に対して報知する音声を拡声するのに用いられる。送受話器15は、有線通信部16による通話中の音声を受話器から拡声すると共に、送話器からの音声を有線通信部16に入力する他、使用者200に対して報知する音声を拡声するのに用いられる。
有線通信部16は、固定電話網Nfからの着信に応答して電話回線の状態を通信中に移行させる。通信中の音声は、内蔵のA/D変換器に与えられる他、スピーカ14及び送受話器15の受話器にも与えられる(図2にて破線で示す)。A/D変換器で変換された最新の音声は、記憶部11における不図示のバッファ領域に、少なくとも一定区間(例えば0.01秒)分だけ記憶される。
Wi−Fi通信部17は、Wi−Fi規格に準拠する無線通信によって無線LAN2のアクセスポイント21に接続するためのインタフェースである。
上述のとおり構成された電話機1aの制御部10は、固定電話網Nfからの着信があった場合、使用者200によるオフフックの操作を検知して着信に応答することにより、電話回線の状態を通信中に移行させる。制御部10は、通信中に使用者200によるオンフックの操作を検知した場合、又は固定電話網Nfからの切断を検知した場合、通話を終了させる。制御部10は、また、配信サーバ4から学習モデルX1の配信が通知された場合、配信サーバ4から学習モデルX1をダウンロードして記憶領域11aに記憶する。記憶領域11aには、予め一定の学習が行われた学習モデルX1が記憶されている。
制御部10は、記憶部11を介して通話中の音声を時系列的に取得し、取得した音声の特徴量を抽出し、抽出した特徴量に基づいて監視対象の音声をAIで認識する。特殊詐欺に係る音声、例えば金銭の振り込みに誘導する会話に関する音声を検出した場合、制御部10は、その旨を自装置から報知すると共に、テレビジョン受信機5に報知する。
テレビジョン受信機5のHDMI端子に接続されたスティックPC51のプライベートIPアドレスは、表示部12に表示された設定メニューに対する操作部13への使用者200の操作により、予め記憶部11に登録されている。テレビジョン受信機5がBluetoothにて電話機1aと接続される場合は、上記と同様の設定メニューに対する使用者200の操作により、予めペアリング情報が記憶部11に登録されている。従って、制御部10は、登録されたテレビジョン受信機5にスムーズに接続することができる。
以下では、上述した電話機1aの動作を、それを示すフローチャートを用いて説明する。図3は、着信に応答して電話回線を通信中に移行させる制御部10の処理手順を示すフローチャートである。図4は、配信サーバ4から配信された学習モデルX1を記憶する制御部10の処理手順を示すフローチャートである。図5は、実施形態1に係る電話機1aで特殊詐欺に係る音声を検出してその旨を報知する制御部10の処理手順を示すフローチャートである。図6は、実施形態1に係る学習モデルX1の内容例を示す模式図である。図7は、実施形態1に係る電話機1aによる報知の一例を示す説明図である。
図3の処理は、通話中でない時に適時起動される。図4の処理は一定周期(例えば1秒毎)で起動される。また図5の処理は、通話中に一定周期(例えば0.01秒毎)で起動されるが、起動周期がこれらに限定されるものではない。
電話機1aにて図3の処理が起動された場合、制御部10は、有線通信部16が着信を検出したか否かを判定し(S1)、着信を検出しない場合(S1:NO)、着信を検出するまで待機する。有線通信部16は、例えば電話回線の極性反転を伴う16Hzのリンガを検知することにより、着信を検出する。
着信を検出した場合(S1:YES)、制御部10は、不図示のフックスイッチからの信号に基づいて送受話器15がオフフックされたか否かを判定し(S2)、オフフックされない場合(S2:NO)、オフフックされるまで待機する。送受話器15がオフフックされた場合(S2:YES)、制御部10は、有線通信部16により着信応答する(S3)、具体的には、電話回線の直流ループを閉結する。これにより、電話回線の状態が通話中に移行する。
その後、制御部10は、送受話器15がオンフックされたか否かを判定し(S4)、オンフックされない場合(S4:NO)、固定電話網Nfから切断されたか否かを判定する(S5)。固定電話網Nfからの切断の検知は、例えば、電話回線の極性が一定時間だけ反転する転極パルスを検知することによって行われる。固定電話網Nfから切断されない場合(S5:NO)、制御部10は、ステップS4,S5の処理を繰り返すために、ステップS4に処理を移す。
ステップS4で送受話器15がオンフックされた場合(S4:YES)、又はステップS5で固定電話網Nfから切断された場合(S5:YES)、制御部10は、有線通信部16に着信終了させて(S6)、図3の処理を終了する。具体的には、電話回線の直流ループを開放する。これにより、通話が終了して電話回線が空き状態に移行する。
次に、図4の処理が起動された場合、制御部10は、配信サーバ4からの配信通知が有るか否かを判定し(S7)、配信通知が無い場合(S7:NO)、特段の処理を行わずに図4の処理を終了する。
配信サーバ4からの配信通知が有る場合(S7:YES)、制御部10は、配信サーバ4から学習モデルX1をダウンロードして(S8)、記憶部11の記憶領域11aに記憶し(S9)、図4の処理を終了する。これにより、学習モデルX1の内容が更新される。
次に図5の処理が起動された場合、制御部10は、有線通信部16を介して取得されて記憶部11に記憶された一定区間(ここでは0.01秒)の音声を取得し(S11)、取得した音声の周波数スペクトル(周波数成分の強度)を特徴量として抽出する(S12)。抽出された特徴量は、例えば少なくとも最新の11区間分程度が記憶部11に記憶される。
次いで、制御部10は、例えば過去10区間及び現在の区間について抽出した特徴量(即ち、過去のある区間と前後5区間の特徴量)を纏めて学習モデルX1に入力し(S13)、学習モデルX1から詐欺に係る音声の検出の有無情報を取得する(S14:第1取得部に相当)。ステップS13で入力される特徴量は、11区間分の音声の特徴量が結合されたN次元の特徴ベクトルで表される。
ここで一旦図6に移って、上述のステップS13,S14で用いられる学習モデルX1は、連続する区間T1,T2,T3・・それぞれにて結合された音声のN次元の特徴ベクトル(特徴_1〜特徴_N)を入力とし、入力中に監視対象が存在する(即ち詐欺の検出有りの)確率及び監視対象が存在しない(即ち検出無しの)確率を出力とする。出力層の各出力ノードが出力する確率は0〜1.0の値であり、全ての出力ノードが出力する確率の合計は1.0である。ここでの監視対象は、特殊詐欺に係る音声である。
学習モデルX1は、監視対象を含む音声の時系列的な特徴ベクトルと、詐欺であるか否かを識別する情報とを含む教師データを入力した場合に、監視対象の検出の有無情報を出力するように学習されたモデルである。具体的には、特殊詐欺の事例に係る音声の特徴ベクトルに詐欺を示すラベルを付与して大量に収集し、収集した特徴ベクトルを学習モデルX1に順次入力して学習させる。一般の詐欺師ではない第三者の音声についても同様の特徴ベクトルに詐欺ではないことを示すラベルを付与して大量に収集し、学習モデルX1に学習させる。
学習モデルX1には、例えば、深層学習(ディープラーニング)によって学習された多層のリカレントニューラルネットワーク(RNN:Recurrent Neural Network )を用いることができる。RNNに代えて、他の機械学習で学習したものを用いてもよい。RNNは、入力層と出力層との間に中間層を備える。中間層は複数の全結合層を有し、全結合層の数は適宜決定できる。
入力層、中間層及び出力層それぞれには、複数のノードが存在する。各層のノードは、前後の層に存在するノードと所望の重み及びバイアスで結合されている。入力層に入力されたデータが中間層に入力された場合、重み及びバイアスを含む活性化関数を用いて、一の層の出力が算出され、算出された出力が次の層に入力される。この場合、時刻間の影響を考慮するために、ある時刻の中間層からの出力を次の時刻の中間層に伝えるためのパスが存在する。これにより、例えばある時刻の中間層は、同じ時刻の入力層からの入力に加えて、前の時刻の中間層からの入力をも受け取る。以下同様にして、出力層の出力が求められるまで中間層の出力が次々と他の層に伝達される。
図5に戻って、制御部10は、取得した有無情報が監視対象の検出無しを示すか否かを判定し(S15)、検出無しを示す場合(S15:YES)、特段の処理を行わずに図5の処理を終了する。検出無しを示すか否かは、例えば検出無しの確率が0.6より大きいか否かを判定する。判定の閾値は0.6に限定されず、操作部13を介して適宜設定されるものであってもよい。
有無情報が監視対象の検出無しを示さない場合(S15:NO)、制御部10は、詐欺に係る音声の検出の有無情報が詐欺の検出有りを示すか否かを更に判定する(S16)。検出有りを示すか否かは、例えば検出有りの確率が0.6より大きいか否かを判定する。判定の閾値は0.6に限定されない。有無情報が詐欺の検出有りを示す場合(S16:YES)、制御部10は、表示部12及びスピーカ14により、詐欺の旨を報知する(S17:報知部に相当)。送受話器15の受話器により詐欺の旨が報知されるようにしてもよいし、送受話器15の不図示のバイブレータを作動させてもよい。更に、電話機1aの不図示の子機を呼び出して詐欺の旨を音声で報知するか、又は子機の充電スタンドの表示部に詐欺の旨を表示してもよい。
その後、制御部10は、スティックPC51にテレビジョン受信機5の電源をオンさせてテレビジョン受信機5に接続し(S18:第5接続部に相当)、テレビジョン受信機5の画面及びスピーカにより詐欺の旨を報知して(S19:報知部に相当)、図5の処理を終了する。ステップS17及びS19での報知内容は、例えば図7に示すような「詐欺です! ご注意下さい」というものであるが、これに限定されるものではない。
なお、本実施形態1にあっては、配信サーバ4からダウンロードした学習モデルX1を用いて電話回線の通話中に特殊詐欺に係る音声を検出したが、自装置で学習した学習モデルX2を用いて電話回線の通話中に使用者200の家族及び知人に係る音声を検出するようにしてもよい。使用者200の家族及び知人に係る音声が検出された場合は、詐欺電話ではないと判定される。
学習モデルX2を学習させるには、例えば通話中に使用者200が操作部13を操作して学習モードに設定し、発信者が家族又は知人であるか否かを操作部13で操作してラベリングすればよい。これを繰り返すことにより、電話回線の通話中に使用者200の家族又は知人の音声を、学習モデルX2が正しく検出する確率を高めることができる。
以上のように本実施形態1によれば、電話回線からの着信による通話中の音声を、配信サーバ4から配信された学習モデルX1に入力して、特殊詐欺に係る音声の検出の有無情報を取得し、取得した有無情報に基づいて詐欺の旨を報知する。従って、適時更新される最新の学習モデルX1を用いたAI技術で特殊詐欺に係る通話中の音声を認識して多角的に報知することができる。
また、実施形態1によれば、特殊詐欺に係る音声を検出した場合に、予め登録されたテレビジョン受信機5を起動して詐欺の旨を報知する。従って、通話中の電話が詐欺電話であることを、使用者200により的確に報知することができる。
本実施形態1にあっては、通話中に詐欺に係る音声の検出有りの確率が一定の閾値を越えた場合に詐欺の旨を報知したが、報知する内容は詐欺に断定するものには限定されない。例えば、学習モデルX1が出力する詐欺の検出有りの確率そのものを表示部12等に報知して、使用者200に注意を促してもよい。
また、実施形態1にあっては、RNNを用いた学習モデルX1に音声の特徴量を入力した場合に詐欺に係る音声の検出の有無情報が出力されたが、RNNに代えてLSTM(Long Short Term Memory )を用いてもよい。図9は、LSTMを用いた学習モデルX3の内容例を示す模式図である。LSTMはRNNの一種であり、予測対象時点より前の時系列データを入力として、対象時点の予測値を出力するニューラルネットワークである。学習モデルX3に入力される音声は、時系列的に取得された通話中の音声について形態素解析された表現要素の最小単位(形態素:Morpheme )である。
学習モデルX3は、入力層、中間層、及び出力層を有する。入力層は、時系列に沿って各時点の音声の入力をそれぞれ受け付ける複数のニューロンを有する。出力層は、詐欺の予測値(確率)を出力するニューロンを有する。中間層は、入力層の各ニューロンへの入力値から予測値を演算するためのニューロンを有する。中間層のニューロンはLSTM Blockと呼ばれ、過去の時点での入力値に関する中間層での演算結果を用いて次の時点での入力値に関する演算を行うことで、直近時点までの時系列データから次の時点の値を演算する。このような学習モデルX3の出力(詐欺の確率)が所定値以上の場合に詐欺の旨を報知すればよい。
なお、実施形態1にあっては、電話機1aが特殊詐欺に対応する場合を例示したが、これに限定されるものではない。例えば、電話機1aに迷惑電話(嫌がらせ電話を含む)があった場合、通話中の音声の特徴量をAIで解析して迷惑電話に係る音声を検出し、迷惑の旨を報知することができる。具体的には、迷惑に係る音声の検出の有無情報を出力する学習モデルを、配信サーバ4からダウンロードして記憶部11の記憶領域に記憶しておき、この学習モデルに通話中の音声の特徴量を入力し、出力された有無情報に基づいて迷惑の旨を報知又は通知する。ここでの学習モデルの内容は図6に示すものと同様であり、出力の「詐欺」を「迷惑」に置き換えてある。学習方法については、迷惑電話の音声の特徴量に迷惑を示すラベルを付与して大量に収集し、収集した音声の特徴量を学習モデルに順次入力して学習させる。
また、実施形態1にあっては、テレビジョン受信機5に詐欺の旨を報知したが、例えば電話機1aにカメラ(第2撮像部に相当)を備え、テレビジョン受信機5にハードディスク等の録画装置を接続しておき、詐欺又は迷惑の旨の報知と同時に、カメラで撮像した画像及び通話中の音声を、テレビジョン受信機5の録画装置に録画(第2録画部に相当)することができる。これにより、使用者200が詐欺電話又は迷惑電話に応対する様子が録画装置に記録される。
更に、実施形態1にあっては、電話機1aがWi−Fi通信部17を備えているが、電話機1aが第4世代移動通信システム(いわゆる4G、将来的には5G)に対応する公衆無線通信部(第1接続部に相当)を更に備えていてもよい。これにより、4G又は5Gを介して詐欺の旨を報知することができる。なお、使用者200がWi−Fi又は4G若しくは5Gに対応する電話機を所有していない場合であっても、後述する実施形態7の図24に示す構成により、使用者200の携帯電話機に着信したときに、Wi−Fi又は4G若しくは5Gに対応する通信によって報知を行うことができる。
(実施形態2)
実施形態1は、着信時に発信元の地域名を表示しない形態であるのに対し、実施形態2は、着信時に電話機1aに発信元の地域名を表示する形態である。実施形態2に係る電話機1a及び報知システム100aの構成は、実施形態1の場合と同様であるため、対応する箇所には同様の符号を付して図示及びその説明を省略する。
本実施形態2では、有線通信部16がナンバーディスプレイの機能に対応しており、且つ、電話回線にナンバーディスプレイのオプションが付帯されているものとする。ナンバーディスプレイでは、固定電話網Nfからのリンガによる呼び出し前に、起動信号が送られるので、これに応答することにより、発信者番号が通知される。
制御部10は、発信者番号に対応する地域名のテーブルを記憶部11に記憶している。例えば、市外局番の「011」は料金区域の「札幌」に、「03」は「東京」に、「06」は大阪に、それぞれ対応付けられている。制御部10は、通知された発信者番号を記憶部11に記憶したテーブルに基づいて地域名に変換し、変換した地域名を表示部12に表示する。発信者番号の受信完了後は、固定電話網Nfからリンガによる呼び出しが行われるので、実施形態1の図3に示す処理手順で着信に応答することとなる。
図8は、実施形態2に係る電話機1aで発信者番号を取得して表示部12に表示する制御部10の処理手順を示すフローチャートである。図8の処理は、通話中でない時に適時起動される。
図8の処理が起動された場合、制御部10は、固定電話網Nfから情報受信端末起動信号を検出したか否かを判定し(S21)、検出しない場合(S21:NO)、同信号を検出するまで待機する。情報受信端末起動信号を検出した場合(S21:YES)、制御部10は、固定電話網Nfに対し直流ループを閉結して一時応答を行う(S22)。
その後、制御部10は、固定電話網Nfから送られるモデム信号を復調して発信者番号取得し(S23)、取得完了時に直流ループ開放して受信完了とする(S24)。次いで、制御部10は、取得した発信者番号を地域の名称に変換し(S25)、変換した地域の名称を表示部12に表示して(S26)、図8の処理を終了する。
以上のように本実施形態2によれば、電話回線からの着信があった場合に、発信者番号に対応する地域の名称を表示部12に表示する。従って、使用者200は、家族や知人が所在する地域から発信されて着信したか否かを確かめることができる。
なお、本実施形態2にあっては、電話機301の発信者番号に基づいて発信者が所在する地域名を表示部12に表示したが、公衆電話からの発信について、将来的に発信元の番号が通知された場合は、発信元の地域名を表示部12に表示してもよい。また、発信者の位置情報が通知される場合は、発信者が所在する正確な位置を表示してもよい。例えば、GPS機能を有する電話機からの発信について、将来的に発信者の位置情報が通知された場合は、発信者の位置を表示部12に表示することができる。
また、発信者番号が通知された場合、詐欺若しくは迷惑の旨を報知したとき又は使用者200が不図示のボタンを押下したときに、発信者の番号を記憶部11又は611の内部メモリ(番号記憶部に相当)に記憶することにより、同じ発信元からの次回以降の着信を拒否する(通話中に移行させないことに相当)ことができる。着信拒否した番号を表示部12又は612に表示してもよいし、番号の表示を操作部13又は613からの操作でオン/オフできるようにしてもよい。また、着信拒否した相手に対して、例えば記憶部11又は611に予め記憶した「この電話は受けられません」等のアナウンスを返すようにしてもよい。このように記憶した発信者の番号を、使用者の家族又は知人の携帯電話機62等に通知して、関係者の間で着信拒否する発信者番号を共有するようにしてもよい。
(実施形態3)
実施形態1は、詐欺の旨を自装置から報知すると共に、テレビジョン受信機5に報知する形態であるのに対し、実施形態3は、詐欺の旨を予め登録された携帯電話機及びセキュリティ会社の通信装置に報知する形態である。実施形態3に係る電話機1aの構成は、実施形態1の図2に示すものと同様である。
図10は、実施形態3に係る電話機1aを含む報知システム100bの構成例を示すブロック図である。報知システム100bは、実施形態1の図1に示す報知システム100aと比較して、インターネットNiに接続された携帯電話網Nrを介して携帯電話機61(第1携帯端末装置に相当)及び62(第2携帯端末装置に相当)の着信が可能になっている。更に、インターネットNiには、電話機1aの使用者200が契約するセキュリティ会社の通信装置7がルータ33を介して接続されている。なお、アクセスポイント21には、テレビジョン受信機5のHDMI端子に接続されたスティックPC51が接続されていてもよい。図10では、使用者200及び詐欺師300の図示を省略する(後述する他の実施形態についても同様)。
その他、実施形態1の図1及び図2に対応する箇所には同様の符号を付してその説明を省略する。
本実施形態3では、電話回線の通話中に特殊詐欺に係る音声を検出した場合、制御部10は、実施形態1の場合と同様に、表示部12及びスピーカ14により詐欺の旨を報知する。制御部10は、更に、予め登録された使用者200本人の携帯電話機61、使用者200の家族、知人等の携帯電話機62及びセキュリティ会社の通信装置7に対し、使用者200に詐欺電話がかかっている旨をSMS(Short Message Service )、SNS(Social Networking Service )等を用いたメッセージにより報知する。SNS等のアプリは、予め記憶部11にインストールされている。携帯電話機61及び62の電話番号及びメールアドレスは、表示部12に表示された設定メニューに対する操作部13への使用者200の操作により、予め記憶部11に登録されている。
以下では、上述した電話機1aの動作を、それを示すフローチャートを用いて説明する。図11は、実施形態3に係る電話機1aで特殊詐欺に係る音声を検出してその旨を報知する制御部10の処理手順を示すフローチャートである。図12は、実施形態3に係る電話機1aによる報知の一例を示す説明図である。図11の処理は、通話中でない時に適時起動される。図11に示すステップS31からS37までの処理は、実施形態1の図5に示すステップS11からS17までの処理と同様であるため、ここでの説明を省略する。
図11の処理が起動された場合、制御部10は、ステップS11からS37までの処理を実行した後に、予め登録された携帯電話機61及び/又は62に接続する(S40:第1及び第2接続部に相当)。次いで、制御部10は、例えばメッセージにより、本人、家族等が詐欺の電話中である旨を報知する(S41:報知部に相当)。ここで報知される内容は、例えば図12の上段に示すような「ご家族の方に詐欺電話がかかっています! ご注意下さい」というものであるが、これに限定されるものではない。
その後、制御部10は、使用者200が契約しているセキュリティ会社の通信装置7に接続する(S42:第2接続部に相当)。次いで、制御部10は、契約者が詐欺の電話中である旨を報知し(S43:報知部に相当)、図11の処理を終了する。ここで報知される内容は、例えば図12の下段に示すような「契約者(山田太郎様)に詐欺電話がかかっています! 対処が必要です」というものであるが、これに限定されるものではない。
以上のように本実施形態3によれば、特殊詐欺に係る音声を検出した場合に、使用者200の携帯電話機61に接続して詐欺の旨を報知する。従って、通話中の電話が詐欺電話であることを、使用者200により的確に報知することができる。
また、実施形態3によれば、特殊詐欺に係る音声を検出した場合に、使用者200の家族、知人等の携帯電話機62及び使用者200が契約するセキュリティ会社の通信装置7に接続して詐欺の旨を報知する。従って、使用者200が通話中の電話が詐欺電話であることを、使用者200の家族、知人及びセキュリティ会社に報知することができる。
なお、実施形態3にあっては、詐欺の旨を報知したが、実施形態1と同様に、迷惑の旨を報知することができる。
(実施形態4)
実施形態1は、電話回線の通話中に特殊詐欺に係る音声を検出した場合、詐欺の旨を報知する形態であった。これに対し、実施形態4は、使用者200と来訪者の対話中に騙り詐欺に係る音声を検出した場合、又は使用者200による来訪者への応対中に訪問詐欺に係る画像を検出した場合に、詐欺の旨を報知する形態である。
ここで言う騙り詐欺とは、販売員が職業を騙ったり、職業を暗示させるような言動や服装を用いて、商品を販売したり役務提供契約を締結することをいう。騙り詐欺には、例えば警察官を騙る訪問型の振り込め詐欺が含まれる。本実施形態4で検出される詐欺は、騙り詐欺に限定されず、対話中の音声に基づいて検出される詐欺であればよい。一方、訪問詐欺とは、住宅等の施設を訪問して騙り詐欺、訪問販売詐欺等の詐欺行為全般を行うことをいう。
図13は、実施形態4に係る電話機1cを含む報知システム100cの構成例を示すブロック図である。報知システム100cは、実施形態1の図1に示す報知システム100aと比較して、使用者200の住宅の出入口に設けられたワイヤレスマイク8(第1集音部に相当)のレシーバ81が、電話機1cに接続されている。アクセスポイント21には、上記住宅の出入口又は門に設けられたWi−Fiカメラ9(第1撮像部に相当)が接続されている。
ワイヤレスマイク8及びレシーバ81に代えて、例えばインターホンのマイクロフォンが有線で電話機1cに接続されていてもよいし、Bluetoothにて他のワイヤレスマイクが接続されていてもよい。Wi−Fiカメラ9に代えて、例えばインターホンのカメラが有線で電話機1cに接続されていてもよいし、Bluetoothにて他のカメラが接続されていてもよい。マイクロフォン及びカメラがBluetoothにて電話機1cと接続される場合は、表示部12に表示された設定メニューに対する操作部13への使用者200の操作により、予めペアリング情報が記憶部11に登録されている。
図14は、実施形態4に係る電話機1cの構成例を示すブロック図である。電話機1cは、実施形態1の図2に示す電話機1aと比較してUSBI/F191(第3接続部に相当)を備える。また、記憶部11には、後述する学習モデルY(第2の学習モデルに相当)及びZ(第3の学習モデルに相当)それぞれを記憶するための記憶領域11b(第2の記憶部に相当)及び11c(第3の記憶部に相当)が確保されている。
USBI/F191は、ワイヤレスマイク8のレシーバ81と接続するためのインタフェースである。制御部10は、USBI/F191及びレシーバ81を介してワイヤレスマイク8からの音声を常時取得する。取得された最新の音声は、記憶部11における不図示のバッファ領域に、少なくとも一定区間(例えば0.01秒)分だけ記憶される。
その他、実施形態1の図1及び図2に対応する箇所には同様の符号を付してその説明を省略する。
本実施形態4では、制御部10は、配信サーバ4から学習モデルY及びZの配信が通知された場合、配信サーバ4から学習モデルY及びZそれぞれをダウンロードして記憶領域11b及び11cに記憶する。制御部10は、使用者200と来訪者の対話中にワイヤレスマイク8が集音した音声を記憶部11を介して時系列的に取得し、取得した音声の特徴量を抽出し、抽出した特徴量に基づいて監視対象の音声をAIで認識する。騙り詐欺に係る音声を検出した場合、制御部10は、実施形態1の場合と同様に、その旨を自装置から報知すると共に、テレビジョン受信機5に報知する。
制御部10は、また、使用者200による来訪者への応対中にWi−Fiカメラ9が撮像した画像をWi−Fi通信部17(第4接続部に相当)を介して時系列的に取得し、取得した画像から人の顔、人の姿等のオブジェクトの画像を抽出して正規化し、正規化した画像中の監視対象をAIで認識する。訪問詐欺に係る画像を検出した場合、制御部10は、騙り詐欺に係る音声を検出した場合と同様に、詐欺の旨を報知する。
以下では、上述した電話機1cの動作を、それを示すフローチャートを用いて説明する。制御部10が、配信サーバ4から学習モデルY及びZそれぞれをダウンロードして記憶領域11b及び11cに記憶する処理手順を示すフローチャートは、実施形態1の図4に示すものと同様であるので、図示を省略する。但し、ステップS8では、学習モデルY及びZをダウンロードし、ステップS9では、記憶領域11b及び11cにそれぞれ記憶するように読み替える。
実施形態4に係る電話機1cで騙り詐欺に係る音声を検出してその旨を報知する制御部10の処理手順は、通話中であるか否かに関わらずに一定周期(例えば0.01秒)で起動される点を除いて、実施形態1の図3にフローチャートで示すものと同様であるため、ここでの図示を省略する。但し、ステップS11では、制御部10がワイヤレスマイク8から取得して記憶部11に記憶した一定区間の音声を取得するように読み替える。また、ステップS13及びS14(第2取得部に相当)では、学習モデルYを用いるように読み替える。
学習モデルYの内容例を示す模式図は、実施形態1の図6に示すものと同様である。学習方法については、騙り詐欺の事例に係る音声の特徴ベクトルに詐欺を示すラベルを付与して大量に収集し、収集した特徴ベクトルを学習モデルYに順次入力して学習させる。一般の詐欺師ではない第三者の音声についても同様の特徴ベクトルに詐欺ではないことを示すラベルを付与して大量に収集し、学習モデルYに学習させる。このようにして学習させた学習モデルYは、実施形態1の場合と同様に配信サーバ4から配信されるので、制御部10は、配信された学習モデルYを記憶部11の記憶領域11bに記憶して逐次更新する。
図15は、実施形態4に係る電話機1cで訪問詐欺に係る画像を検出してその旨を報知する制御部10の処理手順を示すフローチャートである。図16は、実施形態4に係る学習モデルZの内容例を示す模式図である。図15の処理は、電話回線の通話中であるか否かに関わらずに適時起動される。図15に示すステップS55からS59までの処理は、実施形態1の図5に示すステップS15からS19までの処理と同様であるため、ここでの説明の大部分を省略する。
図15の処理が起動された場合、制御部10は、Wi−Fiカメラ9から1フレーム分の画像を取得し(S51)、取得した画像から人の顔、人の姿等のオブジェクトの画像を抽出して、一定のルールに基づく正規化を行う(S52)。正規化された画像は、例えばL行M列(L,Mは2以上の自然数)の画素の集合である。次いで、制御部10は、正規化したオブジェクトの画像を学習モデルZに入力し(S53)、学習モデルZから詐欺に係る画像の検出の有無情報を取得する(S54:第3取得部に相当)。
ここで一旦図16に移って、上述のステップS53,S54で用いられる学習モデルZは、時刻t1,t2,t3・・それぞれにて正規化されたオブジェクトの画像を構成する各画素の画素値を入力とし、入力画像中に監視対象が存在する(即ち検出有りの)確率及び何れの監視対象も存在しない(即ち検出無しの)確率を出力とする。出力層の各出力ノードが出力する確率は0〜1.0の値であり、全ての出力ノードが出力する確率の合計は1.0である。ここでの監視対象は、訪問詐欺に係る画像である。
学習モデルZは、時系列的に取得されて正規化されたオブジェクトの画像と、人を識別する情報とを含む教師データを入力した場合に、監視対象の検出の有無情報を出力するように学習されたモデルである。具体的には、詐欺を働こうとする人を撮像した画像に詐欺師を示すラベルを付与して大量に収集し、収集した画像を学習モデルZに順次入力して学習させる。詐欺師以外の第三者についても同様の画像に詐欺師ではないことを示すラベルを付与して大量に収集し、学習モデルZに学習させる。
学習モデルY及びZには、例えば、深層学習によって学習された多層のリカレントニューラルネットワーク(RNN)を用いることができる。RNNに代えて、他の機械学習で学習したものを用いてもよい。なお、学習モデルZは、時点t1,t2,t3・・それぞれにて1つの画像のN個の画素に基づいて監視対象の検出の有無情報を出力するものであってもよい。
図15に戻って、制御部10は、取得した有無情報が監視対象の検出無しを示すか否かを判定し(S55)、検出無しを示す場合(S55:YES)、特段の処理を行わずに図15の処理を終了する。有無情報が監視対象の検出無しを示さない場合(S55:NO)、制御部10は、詐欺に係る画像の検出の有無情報が詐欺の検出有りを示すか否かを更に判定する(S56)。以下の処理手順は、実施形態1の図5に示す場合と同様である。
以上のように本実施形態4によれば、使用者200の住宅の出入口で集音した音声を、配信サーバ4から配信された学習モデルYに入力して、騙り詐欺に係る音声の検出の有無情報を取得し、取得した有無情報に基づいて詐欺の旨を報知する。従って、適時更新される最新の学習モデルYを用いたAI技術で騙り詐欺に係る対話中の音声を認識して多角的に報知することができる。
また、実施形態4によれば、使用者200の住宅の出入口又は門の周囲を撮像した画像を、配信サーバ4から配信された学習モデルZに入力して、訪問詐欺に係る画像の検出の有無情報を取得し、取得した有無情報に基づいて詐欺の旨を報知する。従って、適時更新される最新の学習モデルZを用いたAI技術で訪問詐欺に係る画像を認識して多角的に報知することができる。
本実施形態4にあっては、使用者200と来訪者の対話中に騙り詐欺に係る音声を検出した場合、又は使用者200による来訪者への応対中に訪問詐欺に係る画像を検出した場合に、詐欺の旨を報知したが、これに限定されるものではない。例えば、使用者200による来訪者への応対中に、騙り詐欺に係る音声を検出し、且つ訪問詐欺に係る画像を検出した場合に、詐欺の旨を報知してもよい。
なお、実施形態4にあっては、ワイヤレスマイク8で集音した音声の特徴量をAIで解析して詐欺に係る音声を検出したが、同音声の特徴量をAIで解析して迷惑対話に係る音声を検出し、その旨を報知することができる。この場合の学習モデルは、実施形態1で通話中に迷惑に係る音声を検出するのに用いた学習モデルと同等である。学習方法については、迷惑対話の音声の特徴量に迷惑を示すラベルを付与して大量に収集し、収集した音声の特徴量を学習モデルに順次入力して学習させる。
また、実施形態4にあっては、Wi−Fiカメラ9で撮像した画像をAIで解析して詐欺に係る画像を検出したが、同画像をAIで解析して迷惑行為に係る画像を検出し、その旨を報知することができる。具体的には、迷惑に係る画像の検出の有無情報を出力する学習モデルを、配信サーバ4からダウンロードして記憶部11の記憶領域に記憶しておき、この学習モデルにWi−Fiカメラ9から取得して正規化した画像を入力し、出力された有無情報に基づいて迷惑の旨を報知又は通知する。ここでの学習モデルの内容は図16に示すものと同様であり、出力の「詐欺」を「迷惑」に置き換えてある。学習方法については、迷惑行為を撮像した画像に迷惑を示すラベルを付与して大量に収集し、収集した画像を学習モデルに順次入力して学習させる。
更に、実施形態4にあっては、訪問詐欺に係る画像を検出して詐欺の旨を報知したが、テレビジョン受信機5にハードディスク等の録画装置を接続しておき、詐欺又は迷惑の旨の報知と同時に、Wi−Fiカメラ9で撮像した画像を、テレビジョン受信機5の録画装置に録画(第5接続部及び第1録画部に相当)することができる。これにより、使用者200が詐欺師又は迷惑行為に応対する様子が録画装置に記録される。Wi−Fiカメラ9が音声も集音する場合は、集音された音声を含めて録画装置に録画すればよい。
更に、実施形態4にあっては、訪問詐欺に係る画像を検出したが、使用者の住宅内を撮像するカメラ(第3撮像部に相当)で撮像した画像をAIで解析して空き巣や強盗(即ち犯罪者の侵入)に係る画像を検出し、その旨を報知(第3の報知部に相当)することができる。例えば、パトライト(登録商標)、ブザー又は照明によって報知してもよいし、使用者200又はその家族の携帯電話機61又は62に通知してもよい。具体的には、犯罪者の侵入に係る画像の検出の有無情報を出力する第5の学習モデルを、配信サーバ4からダウンロードして記憶部11の記憶領域(第5の記憶部に相当)に記憶しておき、上記カメラから取得して正規化した画像を第5の学習モデルに入力して出力を取得し(第5取得部に相当)、取得した有無情報に基づいて侵入があった旨を報知又は通知する。第5の学習モデルの内容は、図16に示すものと同様であり、出力の「詐欺」を「侵入」に置き換えてある。学習方法については、施設に侵入する犯罪者を撮像した画像に侵入を示すラベルを付与して大量に収集し、収集した画像を第5の学習モデルに順次入力して学習させる。
(変形例)
実施形態4は、リカレントニューラルネットワーク(RNN)を用いた学習モデルZに2次元の画像データを時系列的に入力して訪問詐欺に係る画像を検出する形態であった。これに対し、変形例は、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network )を用いた学習モデルに、時間軸を含む3次元の画像データを入力して訪問詐欺に係る画像を検出する形態である。
変形例に係る報知システム100c及び電話機1cの構成は、実施形態4の図13及び図14に示す構成と同様であるため、実施形態4に対応する箇所には同様の符号を付してその説明を省略する。
本変形例では、電話機1cの制御部10の処理手順を、実施形態4の図15に示すフローチャートを引用して説明する。具体的には、図15のステップS53の処理を以下の処理に置き換える。制御部10は、ステップS52で正規化したオブジェクトの画像を記憶部11内のオブジェクトメモリに一時的に記憶し、最新のKフレーム(Kは2以上の自然数)分の(即ち3次元の)オブジェクトの画像を学習モデルZ2に入力する。ステップS51,S52及びステップS54〜S59の処理は変更する必要がない。
図17は、変形例に係る学習モデルZ2の内容例を示す模式図である。学習モデルZ2は、Kフレーム分の3次元のオブジェクトの画像を構成する各画素の画素値を入力とし、入力画像中に監視対象が存在する(即ち検出有りの)確率及び何れの監視対象も存在しない(即ち検出無しの)確率を出力とする。学習モデルZ2に対する最新のKフレーム分のオブジェクトの画像の入力は、実行する時刻を小刻みにシフトさせながら繰り返される。出力層の各出力ノードが出力する確率は0〜1.0の値であり、全ての出力ノードが出力する確率の合計は1.0である。ここでの監視対象は、訪問詐欺に係る画像である。
学習モデルZ2は、実施形態4の学習モデルZと同様の教師データを用いて学習されるので、ここでの学習方法の説明を省略する。学習モデルZ2は、実施形態4の学習モデルZと同様に配信サーバ4から配信された場合に、記憶部11の記憶領域11cに記憶すればよい。
学習モデルZ2には、深層学習(ディープラーニング)によって学習された多層のCNNを用いることができる。CNNは、入力層と出力層との間に中間層を備える。中間層は、複数段からなる畳み込み層及びプーリング層、並びに最終段の全結合層を有する。全結合層の数は適宜決定できる。
入力層、中間層及び出力層それぞれには、複数のノードが存在する。各層のノードは、前後の層に存在するノードと一方向に所望の重み及びバイアスで結合されている。入力層に入力されたデータが中間層に入力された場合、重み及びバイアスを含む活性化関数を用いて、一の層の出力が算出され、算出された出力が後の層に入力される。以下同様にして、出力層の出力が求められるまで中間層の出力が次々と後の層に伝達される。この間に、時間軸上で離れたフレーム内のオブジェクトの画素についても畳み込み結合が行われるため、人の動作が認識されるようになる。
以上のように本変形例によれば、使用者200の住宅の出入口又は門の周囲を撮像した画像を、配信サーバ4から配信された学習モデルZ2に入力して、訪問詐欺に係る画像の検出の有無情報を取得し、取得した有無情報に基づいて詐欺の旨を報知する。従って、適時更新される最新の学習モデルZ2を用いたAI技術で訪問詐欺に係る画像を認識して多角的に報知することができる。
(実施形態5)
実施形態1は、電話回線の通話中に特殊詐欺に係る音声を検出した場合、詐欺の旨を報知する形態であった。これに対し、実施形態5は、電話機の周囲で介助を求める音声を検出した場合に、人の介助を要する旨を報知する形態である。実施形態5に係る報知システムの構成は、実施形態3の図10に示す報知システム100bと同様であるため、図示を省略する。
図18は、実施形態5に係る電話機1dの構成例を示すブロック図である。電話機1dは、実施形態1の図2に示す電話機1aと比較して周囲の音声を集音するマイクロフォン192(第2集音部に相当)を更に備える。また、記憶部11には、後述する学習モデルW(第4の学習モデルに相当)を記憶するための記憶領域11d(第4の記憶部に相当)が確保されている。制御部10は、マイクロフォン192からの音声を常時取得する。取得された最新の音声は、記憶部11における不図示のバッファ領域に、少なくとも一定区間(例えば0.01秒)分だけ記憶される。
その他、実施形態1の図1及び図2に対応する箇所には同様の符号を付してその説明を省略する。
本実施形態5では、制御部10は、配信サーバ4から学習モデルWの配信が通知された場合、配信サーバ4から学習モデルWをダウンロードして記憶領域11dに記憶する。制御部10は、マイクロフォン192が集音した音声を記憶部11を介して時系列的に取得し、取得した音声の特徴量を抽出し、抽出した特徴量に基づいて監視対象の音声をAIで認識する。介助を求める音声を検出した場合、制御部10は、予め登録された使用者200の家族又は知人の携帯電話機62及びセキュリティ会社の通信装置7に対し、使用者200が人の介助を要する旨を報知する。この報知は、例えば使用者200が契約している介助サービス施設等に行ってもよい。
以下では、上述した電話機1dの動作を、それを示すフローチャートを用いて説明する。制御部10が、配信サーバ4から学習モデルWをダウンロードして記憶領域11dに記憶する処理手順を示すフローチャートは、実施形態1の図4に示すものと同様であるので、図示を省略する。但し、ステップS8では、学習モデルWをダウンロードし、ステップS9では、記憶領域11dに記憶するように読み替える。
図19は、実施形態5に係る電話機1dで介助を求める音声を検出してその旨を報知する制御部10の処理手順を示すフローチャートである。図20は、実施形態5に係る学習モデルWの内容例を示す模式図である。図21は、実施形態5に係る電話機1dによる報知の一例を示す説明図である。
図19の処理は、電話回線の通話中であるか否かに関わらずに一定周期(例えば0.01秒)で起動される。図19に示すステップS61からS63までの処理は、実施形態1の図5に示すステップS11からS13までの処理と同様であるため、ここでの説明の一部を省略する。
図19の処理が起動された場合、制御部10は、記憶部11に記憶された一定区間(ここでは0.01秒)の音声を取得し(S61)、取得した音声の周波数スペクトルを特徴量として抽出する(S62)。次いで、制御部10は、過去のある区間と前後5区間の特徴量を纏めて学習モデルWに入力し(S63)、学習モデルWから介助を求める音声の検出の有無情報を取得する(S64:第4取得部に相当)。
ここで一旦図20に移って、上述のステップS63,S64で用いられる学習モデルWは、連続する区間T1,T2,T3・・それぞれにて結合された音声のN次元の特徴ベクトル(特徴_1〜特徴_N)を入力とし、入力中に監視対象が存在する(即ち介助要の検出有りの)確率及び監視対象が存在しない(即ち検出無しの)確率を出力とする。ここでの監視対象は、介助を求める音声である。
学習モデルWは、監視対象を含む音声の時系列的な特徴ベクトルと、介助を求めているか否かを識別する情報とを含む教師データを入力した場合に、監視対象の検出の有無情報を出力するように学習されたモデルである。具体的には、体調不良及び不安の訴え、何らかの援助の要請、並びに乳児の泣き声等を示す音声の特徴ベクトルに介助要を示すラベルを付与して大量に収集し、収集した特徴ベクトルを学習モデルWに順次入力して学習させる。介助を求めていない第三者の音声についても同様の特徴ベクトルに救助要ではないことを示すラベルを付与して大量に収集し、学習モデルWに学習させる。
図19に戻って、制御部10は、取得した有無情報が監視対象の検出無しを示すか否かを判定し(S65)、検出無しを示す場合(S65:YES)、特段の処理を行わずに図19の処理を終了する。有無情報が監視対象の検出無しを示さない場合(S65:NO)、制御部10は、介助を求める音声の検出の有無情報が介助要の検出有りを示すか否かを更に判定する(S66)。
有無情報が介助要の検出有りを示す場合(S66:YES)、制御部10は、予め登録された家族等の携帯電話機62に接続する(S67)。次いで、制御部10は、例えばメッセージにより、本人、家族等が人の介助を要する旨を報知する(S68:第2の報知部に相当)。ここで報知される内容は、例えば図21の上段に示すような「ご家族の方に介助が必要です! 対処して下さい」というものであるが、これに限定されるものではない。
その後、制御部10は、使用者200が契約しているセキュリティ会社の通信装置7に接続する(S69)。次いで、制御部10は、契約者が人の介助を要する旨を報知し(S70:第2の報知部に相当)、図19の処理を終了する。ここで報知される内容は、例えば図21の下段に示すような「契約者(山田太郎様)に介助が必要です! 対処して下さい」というものであるが、これに限定されるものではない。
以上のように本実施形態5によれば、電話機1dの周囲の音声を、配信サーバ4から配信された学習モデルWに入力して、介助を求める音声の検出の有無情報を取得し、取得した有無情報に基づいて人の介助を要する旨を報知する。従って、適時更新される最新の学習モデルWを用いたAI技術で介助を求める使用者200の音声を認識して多角的に報知することができる。
(実施形態6)
実施形態5は、電話機1dが周囲で介助を求める音声を検出した場合に、人の介助を要する旨を報知する形態であった。これに対し、実施形態6は、電話機とは別体のインテリジェントスピーカ400が周囲で介助を求める音声を検出した場合に、人の介助を要する旨を報知する形態である。実施形態6に係る電話機1aの構成は、実施形態1の図2に示すものと同様である。
図22は、実施形態6に係る電話機1aを含む報知システム100dの構成例を示すブロック図である。報知システム100dは、実施形態1の図1に示す報知システム100aと比較して、アクセスポイント21にインテリジェントスピーカ400が接続されている。また、インターネットNiには、電話機1aの使用者200が契約するセキュリティ会社の通信装置7がルータ33を介して接続されている。更に、インターネットNiに接続された携帯電話網Nrを介して携帯電話機62の着信が可能になっている。なお、アクセスポイント21には、テレビジョン受信機5のHDMI端子に接続されたスティックPC51が接続されていてもよい。
その他、実施形態1の図1及び図2に対応する箇所には同様の符号を付してその説明を省略する。
図23は、インテリジェントスピーカ400の構成例を示すブロック図である。インテリジェントスピーカ400は、制御部410、記憶部411、表示部412、操作部413、スピーカ414(音出力部に相当)、マイクロフォン415(集音部に相当)及びWi−Fi通信部417(通信部に相当)を備える。
制御部410は、CPU、GPU等のプロセッサと、メモリ等を含む。制御部410は、プロセッサ、メモリ、記憶部411、Wi−Fi通信部417等を集積した1つのハードウェア(SoC:System On a Chip )として構成してもよい。制御部410は、記憶部411に記憶されている制御プログラム(不図示)に基づく制御を行う。
記憶部411は、例えばフラッシュメモリ等の不揮発性メモリを含む。記憶部411は、上記の制御プログラムを記憶する他、学習モデルW(第4の学習モデルに相当)を記憶するための記憶領域411a(学習記憶部に相当)が確保されている。
表示部412は、液晶ディスプレイ、有機ELディスプレイ等の表示器であり、制御部410に制御されて各種の情報を表示する。操作部413は、ユーザによる操作を受け付けるためのインタフェースであり、物理ボタンで構成してもよいし、表示部412と一体化されたタッチパネルで構成してもよい。
スピーカ414は、使用者200と対話するための音声を拡声する他、例えばインターネットNiからアクセスポイント21及びWi−Fi通信部417を介してダウンロードした音楽等を拡声する。マイクロフォン415は、使用者200の音声を含む周囲の音声を集音するためのものである。集音された最新の音声は、記憶部411における不図示のバッファ領域に、少なくとも一定区間(例えば0.01秒)分だけ記憶される。Wi−Fi通信部417は、Wi−Fi規格に準拠する無線通信によって無線LAN2のアクセスポイント21に接続するためのインタフェースである。
本実施形態6では、制御部410は、配信サーバ4から学習モデルWの配信が通知された場合、配信サーバ4から学習モデルWをダウンロードして記憶領域411aに記憶する。制御部410は、また、マイクロフォン415が集音した音声を記憶部411を介して時系列的に取得し、取得した音声の特徴量を抽出し、抽出した特徴量に基づいて監視対象の音声をAIで認識する。介助を求める音声を検出した場合、制御部410は、予め登録された使用者200の家族、知人等の携帯電話機62及びセキュリティ会社の通信装置7に対し、使用者200が人の介助を要する旨を報知する。
制御部410が、配信サーバ4から学習モデルWをダウンロードして記憶領域411aに記憶する処理手順を示すフローチャートは、実施形態1の図4に示すものと同様であるので、図示を省略する。但し、ステップS8では、学習モデルWをダウンロードし、ステップS9では、記憶領域411aに記憶するように読み替える。
制御部410が、介助を求める音声を検出してその旨を報知する(介助報知部に相当)処理手順を示すフローチャートは、実施形態5の図19に示すものと同様であるので、図示を省略する。但し、ステップS61では、記憶部411に記憶された一定区間(ここでは0.01秒)の音声を取得し、ステップS63及びS64(取得部に相当)では、記憶領域411aに記憶された学習モデルWを用いるように読み替える。
なお、インテリジェントスピーカ400が携帯電話機62に接続するには、先ずインテリジェントスピーカ400がインターネットNi上の不図示のサーバに接続し、該サーバが携帯電話網Nrに乗り入れて、予め登録された携帯電話機62に着信するようにしておく必要がある。
以上のように本実施形態6によれば、インテリジェントスピーカ400の周囲の音声を、配信サーバ4からインテリジェントスピーカ400に配信された学習モデルWに入力して、介助を求める音声の検出の有無情報を取得し、取得した有無情報に基づいて人の介助を要する旨を報知する。従って、適時更新される最新の学習モデルWを用いたAI技術で介助を求める使用者200の音声を認識して多角的に報知することができる。
なお、実施形態5及び6にあっては、介助を求める音声を検出して報知したが、報知された使用者200の家族等が、使用者200の室内のIOT(Internet Of Things )機器にアクセスして様々な操作が行えるようにしてもよい。例えば、エアコンの温度や湿度の設定、床暖房のオン/オフ、照明のオン/オフ、浴槽への給湯のオン/オフ、テレビジョン受信機の録画設定、自動掃除機のオン/オフ、洗濯機のオン/オフ、介助ロボットの作動、介護ロボットの作動等が行えることが好ましい。一般的には、実施形態3の図10に示すアクセスポイント21があれば、アクセスポイント21にWI−Fiで接続されたIOT機器に対し、携帯電話機61,62からアクセスしてIOT機器の動作を制御することができる。
また、実施形態6にあっては、インテリジェントスピーカ400で介助を求める音声を検出して報知したが、これを更に発展させてもよい。具体的には、いわゆるAIカメラを使用者200の住宅の室内、玄関等に設置しておき、使用者200又はその家族が、外出先から上記AIカメラにアクセスして、室内、玄関等の様子を確認することができるようにしてもよい。一般的には、実施形態3の図10に示すアクセスポイント21があれば、アクセスポイント21に接続されたWi−Fiカメラに対し、携帯電話機61,62からアクセスして室内等をモニタすることができる。
(実施形態7)
実施形態1及び3は、電話機1aによる通話中に特殊詐欺に係る音声を検出した場合、詐欺の旨を報知する形態であった。これに対し、実施形態7は、携帯電話機61による通話中に特殊詐欺に係る音声を検出した場合に、詐欺の旨を報知する形態である。
図24は、実施形態7に係る携帯電話機61を含む報知システム100eの構成例を示すブロック図である。報知システム100eは、実施形態1の図1に示す報知システム100aと比較して、電話機1aが削除されている。また、固定電話網Nfに接続された携帯電話網Nrを介して携帯電話機61及び62の発着信が可能になっている。その他、実施形態1の図1に対応する箇所には同様の説明を付してその説明を省略する。
図25は、実施形態7に係る携帯電話機61の構成例を示すブロック図である。携帯電話機61は、例えばスマートフォンであるが、タブレット端末、汎用のPC、又はスマートウォッチ等のウェアラブルデバイスであってもよい。携帯電話機61は、制御部610、記憶部611、表示部612、操作部613、スピーカ614、マイクロフォン615、Wi−Fi通信部617及び公衆無線通信部618を備える。操作部613は、表示部612と一体化されたタッチパネルであるが、これに限定されるものではない。
制御部610は、CPU、GPU等のプロセッサと、メモリ等を含む。制御部610は、プロセッサ、メモリ、記憶部611、Wi−Fi通信部617、公衆無線通信部618等を集積した1つのハードウェア(SoC:System On a Chip )として構成してもよい。制御部610は、記憶部611に記憶されているアプリプログラム611aに基づく制御を行う。
記憶部611は、例えばフラッシュメモリ等の不揮発性メモリを含む。記憶部611は、アプリプログラム611aを記憶する。アプリプログラム611aがWebブラウザ機能を含んでもよいし、汎用のWebブラウザプログラムが別途記憶部611に記憶されていてもよい。アプリプログラム611aは、記憶媒体619に記憶されたものを制御部610がWi−Fi通信部617、公衆無線通信部618又は図示しない入出力部を介して読み出して記憶部611に複製したものであってもよい。
Wi−Fi通信部617は、Wi−Fi規格に準拠する無線通信によって無線LAN2のアクセスポイント21に接続するためのインタフェースである。公衆無線通信部618は、移動通信システムの規格に準拠する無線通信により、携帯電話網Nrを介して無線電話の発着信及び通話を行うためのインタフェースである。通話中の最新の音声は、記憶部611における不図示のバッファ領域に、少なくとも一定区間(例えば0.01秒)分だけ記憶される。
本実施形態7では、制御部610は、配信サーバ4から学習モデルWの配信が通知された場合、配信サーバ4から学習モデルX1をダウンロードして記憶領域611bに記憶する。制御部610は、また、携帯電話網Nrからの着信があった場合、通話中の音声を記憶部611を介して時系列的に取得し、取得した音声の特徴量を抽出し、抽出した特徴量に基づいて監視対象の音声をAIで認識する。特殊詐欺に係る音声を検出した場合、制御部610は、その旨を自装置から報知すると共に、テレビジョン受信機5及び携帯電話機62に報知する。
制御部610が、配信サーバ4から学習モデルX1をダウンロードして記憶領域611bに記憶する処理手順を示すフローチャートは、実施形態1の図4に示すものと同様であるので、図示を省略する。但し、ステップS9では、記憶領域611bに記憶するように読み替える。
制御部610が、特殊詐欺に係る音声を検出してその旨を報知する処理手順を示すフローチャートは、実施形態1の図5のステップS19の後に、実施形態3の図11のステップS40,S41の処理を追加したものと同様であるので、図示を省略する。但し、図3のステップS11では、記憶部611に記憶された一定区間(ここでは0.01秒)の音声を取得し、ステップS13及びS14では、記憶領域611bに記憶された学習モデルX1を用いるように読み替える。また、ステップS17では、表示部612及びスピーカ614により、詐欺の旨を報知するように読み替える。
以上のように本実施形態7によれば、配信サーバ4から配信された学習モデルX1に通話中の音声を入力して、特殊詐欺に係る音声の検出の有無情報を取得し、取得した有無情報に基づいて詐欺の旨を報知する。従って、適時更新される最新の学習モデルX1を用いたAI技術で特殊詐欺に係る通話中の音声を認識して多角的に報知することができる。
また、実施形態7によれば、特殊詐欺に係る音声を検出した場合に、予め登録されたテレビジョン受信機5を起動して詐欺の旨を報知する。従って、通話中の電話が詐欺電話であることを、使用者200により的確に報知することができる。
更に、実施形態7によれば、特殊詐欺に係る音声を検出した場合に、使用者200の家族又は知人の携帯電話機62に接続して詐欺の旨を報知する。従って、通話中の電話が詐欺電話であることが、使用者200の家族又は知人に的確に報知することができる。
なお、実施形態7は、実施形態1及び3に係る電話機1aを携帯電話機61に置き換えた形態であるが、他の実施形態2及び4−6に係る電話機1a、1c又は1dを携帯電話機61に置き換えてもよい。
また、実施形態1から6に係る電話機1a、1c又は1dにMiracast(登録商標)、AirPlay(登録商標)、Google Cast(登録商標)等のワイヤレスディスプレイアダプタ機能を搭載してもよい。これにより、携帯電話機61,62等の携帯情報機器が表示画像及び音声をワイヤレスディスプレイアダプタ機能により無線化して伝送した場合に、電話機1a、1c又は1dからテレビジョン受信機5等の映像機器に、携帯情報機器の表示画像及び音声を中継することができる。
例えば、携帯電話機61,62がMiracastの機能により無線化した表示画像及び音声の信号をWi−Fi directで電話機1a、1c又は1dに伝送した場合(外部装置から接続された場合に相当)、電話機1a、1c又は1dは伝送された信号をHDMI又はBluetoothの通信部(第5接続部に相当)を介してテレビジョン受信機5に送信する。これにより、例えば、携帯電話機61,62を用いたテレビ電話又はSNSの通信(Line、メール等)において、テレビジョン受信機5を大画面のモニタとして利用することができる。
更に、実施形態1から6に係る電話機1a、1c又は1dにAIスピーカを内蔵することができる。具体的には、電話機1a、1c又は1dにマイクロフォン(第2集音部に相当)と、集音された音声を認識する音声認識部とを備えておき、音声認識部の認識結果に基づいて、無線LAN2にWi−Fiで接続されたIOT機器を制御する(音声認識制御部に相当)。
更に、実施形態1から6に係る電話機1a、1c又は1dに音声認識機能を搭載しておき、音声による操作が可能であるようにすることができる。具体的には、電話機1a、1c又は1dにマイクロフォン(第2集音部に相当)と、集音された音声を認識する音声認識部とを備えておき、音声認識部の認識結果に基づいて、自装置を制御する(音声認識制御部に相当)。これにより、使用者200が身体の不自由な場合であっても、音声により着信に応答してオフフックしたり、通話終了時にオンフックしたりすることができる。
更に、実施形態1から6に係る電話機1a、1c若しくは1dに無線LAN2を介して自治体等から災害情報がメール等によって通知された場合、又は実施形態7に係る携帯電話機61に4G又は5Gを介して災害情報が通知された場合、通知された災害情報を、各電話機の表示部12又は612に表示し、スピーカ14又は614で拡声することができる。各電話機に通知された災害情報を、無線LAN2を介してテレビジョン受信機5に表示及び拡声させることもできる。この場合、実施形態1と同様にテレビジョン受信機5の電源を自動的にオンさせ、詐欺又は迷惑の旨の報知と同様に災害情報を表示及び拡声させてもよいし、上述のワイヤレスディスプレイアダプタ機能により、通知された災害情報をテレビジョン受信機5に中継してもよい。テレビジョン受信機5で拡声される災害情報の音量を自動的にアップさせてもよい。災害情報が、テレビジョン受信機5に接続されたスティックPC51に無線LAN2を介して通知される場合は、テレビジョン受信機5単体で災害情報を表示及び拡声させることができる。このような構成により、情報の取得に不慣れな老人等に積極的に災害情報を通知することができる。
更にまた、実施形態1から6に係る電話機1a、1c又は1dに、種々のセンサやカメラ(室温センサ、湿度センサ、音センサ、人感センサ、動体検知センサ、暗視カメラ、首振り式のカメラ等)を搭載しておき、これらを用いた種々のアプリケーションに対応可能としておくことが好ましい。
更にまた、実施形態1から6で用いられるテレビジョン受信機5にチャット用のカメラ及びマイクロフォンを取り付けておき、スティックPC51及び無線LAN2を介して遠方の医療機関との間でオンライン医療が可能となるようにすることができる。
今回開示された実施形態は、全ての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上述した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内での全ての変更が含まれることが意図される。また、各実施形態で記載されている技術的特徴は、お互いに組み合わせることが可能である。