JP2007096833A

JP2007096833A - ドアホン装置

Info

Publication number: JP2007096833A
Application number: JP2005284355A
Authority: JP
Inventors: Toshihiro Oshima; 智弘大島; Chihiro Morita; 智比呂森田; Takeshi Tanaka; 健田中; Naotake Yamamoto; 尚武山本
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2005-09-29
Filing date: 2005-09-29
Publication date: 2007-04-12

Abstract

【課題】本発明は、来訪者があったとき、応答する前にこの来訪者を特定するとともに関連情報を表示でき、この情報の入力に負担がかからず、操作性に優れたドアホン装置を提供することを目的とする。
【解決手段】本発明は、ドアホン親機６には、ドアホン子機のマイクから入手した音声から人物を特定する単語情報を抽出するとともに、抽出した単語情報をテキスト情報に変換する音声文字変換部５１が設けられ、音声文字変換部５１によって変換された取得済みテキスト情報をこれと関係付けられた来訪者情報と共に格納するデータベース部３８と、マイクからの音声から変換されたテキスト情報と取得済みテキスト情報とが一致するか否かを照合する音声認証部５０とが設けられ、照合結果が一致した場合に、画像情報と共に来訪者情報が表示部に表示されることを特徴とする。
【選択図】図３

Description

この発明は、来訪者があったとき、応答する前にこの来訪者を特定するとともに関連情報を表示でき、この情報の入力に負担がかからず、操作性に優れたドアホン装置に関する。

従来のドアホン装置１０１は、図８に示すようにドアホン端末１０２と宅内に配置された応答端末１０３との２つの装置から構成されている。図８は従来のドアホン装置の概略構成図である。このドアホン端末１０２には、来訪者を撮影してその画像を表す画像信号を出力するカメラ１２１と、来訪者によって操作される呼び出しスイッチ１２２と、宅内からの音声を来訪者に知らせるためのスピーカ１２３と、来訪者の声を宅内に伝達するためのマイク１２４が設けられている。

カメラ１２１は応答端末１０３内の画像表示部１３１に接続され、カメラ１２１からの画像信号は画像表示部１３１によって処理され、そのモニタに来訪者の顔が表示される。また、応答端末１０３には、呼び出しスイッチ１２２の操作に応答して呼び出し信号を発生する呼び出し音信号発生部１３２が設けられ、アンプ１３３によって増幅されてスピーカ１３４から呼び出し音が出力される。さらに、応答端末１０３には、呼び出し音に応答して通話を行うために、ドアホン端末１０２のスピーカ１２３及びマイク１２４とアンプ１３５を介して接続された送受話器１３６が設けられ、呼び出し音に応答して応対者が送受話器１３６を取り上げると、ドアホン端末１０２と応答端末１０３との間に通話回路が形成されるとともに、カメラ１２１及び画像表示部１３１が作動状態になるようになっている。

しかし、この従来のドアホン装置１０１においては、呼び出しがあったとき、宅内の応対者は送受話器１３６を取り上げて実際に通話し、カメラ１２１と画像表示部１３１を作動させる等の操作を行わない限り、呼び出しスイッチ１２２を操作したのが誰なのかを確認することができなかった。

そこで、図９に示すように、ドアホン端末１０２の呼び出しスイッチ１２２を操作する可能性のある人物に関する画像データを蓄積した人物データベース１４２と、呼び出しスイッチ１２２を操作した人物の画像データを取り込んで、これと人物データベース１４２に蓄積された画像データとを照合する画像認識部を備えた人物認証ドアホン装置が提案された（特許文献１参照）。図９は従来の人物認証ドアホン装置の概略構成図である。

このドアホン装置１０１によれば、呼び出しスイッチ１２２が操作された場合、制御部１４３はカメラ１２１、画像表示部１３１、画像認識部１４１、人物データベース１４２を作動させ、画像認識部１４１はカメラ１２１から送られてきた操作者の画像データと人物データベース１４２に蓄積されている各データとを照合する。両画像データを照合した結果、人物データベース１４２にこの人物の画像データが蓄積されていたときには、この人物の対応に適した応対者の特有な呼び出し音を呼び出し音データベース１４４から読み出し、スピーカ１３４から出力する。また、このときこの人物の画像データが蓄積されていなかったときには、呼出音の発生の有無に関する設定により、例えば一般呼び出し音を発生したりする。

人物の画像データは人物確認の結果によって登録するか否かが決定される。登録しておく必要があるときには、この画像データを人物データベース１４２に、また人物に最も適した応対者の呼び出し音のデータを呼び出し音データベース１４４に登録する。また、人物データベース１４２の画像の更新処理を行うこともできるものである。

しかし、以上説明した図９の（特許文献１）のドアホン装置１０１は、呼び出し音データベース１４４等のメモリ容量などで人物推定できる人数に制約が出てくるし、呼び出し方法を変更するときにはドアホン端末１０２を設計し直さなければならなかった。このため、応答端末１０３の人物認証後、人物認証結果情報を別のインターフェースを介して容量のあるメモリを有する外部接続端末装置、例えばコードレス電話親機に送信して、受信した画像で来訪者を特定し、人物認証の報知処理を行い、選択された呼び出し装置、例えばコードレス電話子機に所定の呼び出し音情報を送信する技術が提案された。呼び出し音等の情報は外部接続端末装置のメモリに記憶されるものである（特許文献２参照）。
特許第３２５０７９７号公報特開２０００−２８７１９６号公報

以上説明したように、（特許文献１）の人物認証ドアホン装置は、呼び出しスイッチ１２２を操作した人物の画像データを取り込んで、これと人物データベース１４２に蓄積された画像データとを照合するため、操作者が誰であるか直ちに分り、この操作者に最も適した応対者が応対することができるものであった。

しかし、呼び出しスイッチ１２２を操作した人物を対応するのに適した者に対して、来訪者があったことを単に報知するに止まり、せっかくの人物認証も十分役に立っているとはいえないものであった。しかも、メモリ容量などで人物推定できる人数に制約があり、実用性の面で問題が残るものであった。

この点、（特許文献２）のドアホン装置は、インターフェースを介して外部接続端末装置に人物認証の報知処理プログラムや呼び出し音情報を格納しておくことができ、実用性の面では上記の従来の技術を向上させたが、まだ人物認証したことが十分役立っているとはいえないものであった。基本的には上記従来の技術と同様、操作者に最も適した応対者に報知するだけのものであった。

しかし、最近、地域社会の人々の絆が薄くなり、従来のように安全は当たり前とはいえず、各家族で自衛が必要になってきている。ドアホン装置が単なる呼び出し装置というに止まらず、トラブルに巻き込まれるのを未然に防止する手段として機能できれば、また、来訪者に実際に面会する前にこの来訪者の情報を予め入手する手段として利用できれば、予め人物認証することが役立つことになる。また、家族全員にとって訪問を拒絶した方が望ましい人物もあり、このような人物であると判断された場合には、家族に対応拒否の警告をすることができる手段も必要である。さらに、認証情報や関連情報は常に変化を伴う場合が多く、情報更新がなされなければ人物認証の精度も低下するし、過去の履歴が面会するか否かの判断の大きな材料になる。

ところで、人物認証に当ってこのような来訪者の情報を予め入手するとしても、このための入力に大きな負担がかかるのではあまり意味がない。人物認証を行うとともに、この来訪者の情報を自動的に入力できるのであれば、このドアホン装置の価値を大きく高めるものとなる。さらに、上述したような絶対に訪問を拒絶したい人物に対して、家族全体で対応拒否の警告をすると同時に、その操作が簡単でなければならない。

そこで本発明は、来訪者があったとき、応答する前にこの来訪者を特定するとともに関連情報を表示でき、この情報の入力に負担がかからず、操作性に優れたドアホン装置を提供することを目的とする。

上記従来の課題を解決するために本発明は、上記の目的を達成するために、スピーカ、マイク及びカメラが設けられたドアホン子機と、ドアホン子機と音声通話しカメラの撮影した画像情報を表示する表示部が設けられたドアホン親機とを備えたドアホン装置であって、ドアホン親機には、ドアホン子機のマイクから入手した音声から人物を特定する単語情報を抽出して該単語情報をテキスト情報に変換する音声文字変換部と、音声文字変換部によって変換された取得済みテキスト情報を該テキスト情報と関係付けられた来訪者の来訪者情報と共に格納する来訪者情報記憶部と、マイクからの音声から変換されたテキスト情報と取得済みテキスト情報とが一致するか否かを照合する照合部とが設けられ、照合部の照合結果が一致した場合に、カメラからの来訪者の画像情報と共に来訪者情報が表示部に表示されることを主要な特徴とする。

本発明によれば、来訪者があったとき、来訪者のカメラによる画像情報によって、あるいはマイクによる音声情報、画像情報及び音声情報によって、応答前にこの来訪者を特定するとともに、併せてこの来訪者に関連情報を表示でき、この情報の入力に負担がかからず、操作性に優れたドアホン装置を提供できる。

上記課題を解決するために本発明の第１の発明は、スピーカ、マイク及びカメラが設けられたドアホン子機と、ドアホン子機と音声通話しカメラの撮影した画像情報を表示する表示部が設けられたドアホン親機とを備えたドアホン装置であって、ドアホン親機には、ドアホン子機のマイクから入手した音声から人物を特定する単語情報を抽出して該単語情報をテキスト情報に変換する音声文字変換部と、音声文字変換部によって変換された取得済みテキスト情報を該テキスト情報と関係付けられた来訪者の来訪者情報と共に格納する来訪者情報記憶部と、マイクからの音声から変換されたテキスト情報と取得済みテキスト情報とが一致するか否かを照合する照合部とが設けられ、照合部の照合結果が一致した場合に、カメラからの来訪者の画像情報と共に来訪者情報が表示部に表示されるドアホン装置であり、来訪者があったとき、来訪者の音声によって、応答前にこの来訪者を特定するとともに、併せてこの来訪者に関連情報を表示できるので、応答者が迅速に対応できる。また、来訪者の音声から人物を特定する単語を抽出して取得済みテキスト情報として自動的に格納するので、来訪者情報の入力がまったく負担にならない。

本発明の第２の発明は、第１の発明の音声文字変換部に代えて、ドアホン子機のマイクから入手した音声から単語情報を抽出してこれから人物を特定する単語情報を選択する音声認識部と、該音声認識部が抽出した単語をテキスト情報に変換するテキスト情報生成部とが設けられたドアホン装置であり、来訪者の音声から人物を特定する単語情報を抽出して取得済みテキスト情報として自動的に格納するので、来訪者情報の入力がまったく負担にならない。

本発明の第３の発明は、スピーカ、マイク及びカメラが設けられたドアホン子機と、ドアホン子機と音声通話しカメラの撮影した画像情報を表示する表示部が設けられたドアホン親機とを備え、ドアホン親機には、来訪者に対する取得済み音声情報と該音声情報を格納する来訪者情報記憶部と、マイクからの音声情報と取得済み音声情報とが一致するか否かを照合する照合部とが設けられ、照合部の照合結果が一致した場合に、カメラからの来訪者の画像情報と共に来訪者情報が表示部に表示されるドアホン装置であって、ドアホン親機には、ドアホン子機のマイクから入手した単語情報を抽出する抽出部と、人物を特定する単語情報を選択する推論選択部と、該推論選択部が抽出した単語情報をテキスト情報に変換するテキスト情報生成部とが設けられるとともに、来訪者情報記憶部には、抽出部によって抽出された単語情報が取得済み音声情報として格納されるとともに、テキスト情報生成部によって変換されたテキスト情報が来訪者の来訪者情報として格納されるドアホン装置であり、照合部によるマイクからの音声情報と取得済み音声情報とが一致するか否かの照合は、それぞれ抽出部によって抽出された単語情報を基に作成された特徴パラメータを使った認証を行い、マイクから入手した音声は来訪者情報を構成するテキスト情報とされるので、人物認証の手段が広がって、認証精度が向上するとともに、来訪者の関連情報を取得済みテキスト情報として自動的に格納するので、来訪者情報の入力がまったく負担にならない。

本発明の第４の発明は、スピーカ、マイク及びカメラが設けられたドアホン子機と、ドアホン子機と音声通話しカメラの撮影した画像情報を表示する表示部が設けられたドアホン親機とを備え、ドアホン親機には、来訪者に対する取得済み画像情報と該画像情報を格納する来訪者情報記憶部と、カメラの撮影した画像情報と取得済み画像情報とが一致するか否かを照合する照合部とが設けられ、照合部の照合結果が一致した場合に、カメラからの来訪者の画像情報と共に来訪者情報が表示部に表示されるドアホン装置であって、ドアホン子機のマイクから入手した音声から単語情報を抽出してこれから人物を特定する単語情報を選択する音声認識部と、音声認識部が抽出した単語をテキスト情報に変換するテキスト情報生成部とが設けられ、来訪者情報記憶部にはテキスト情報生成部によって変換された来訪者の来訪者情報として格納されるドアホン装置であり、照合部によるカメラの撮影した画像情報と取得済み画像情報が一致するか否かの照合は、それぞれ特徴パラメータを使った認証を行い、マイクから入手した音声は来訪者情報を構成するテキスト情報とされるので、人物認証の手段が広がって、認証精度が向上するとともに、来訪者の関連情報を取得済みテキスト情報として自動的に格納するので、来訪者情報の入力がまったく負担にならない。

本発明の第５の発明は、第１〜４のいずれかの発明に従属する発明であって、テキスト情報には、氏名、所属、住所、職業のいずれか１以上のテキスト情報が含まれるドアホン装置であり、氏名、所属、住所、職業のいずれか１以上のテキスト情報は、氏名であれば確実に、またその他のテキスト情報であっても１以上の情報があれば、来訪者の特定が十分行える。

本発明の第６の発明は、第１〜４のいずれかの発明に従属する発明であって、来訪者情報記憶部には、開錠許可又は開錠不可を示す開錠許可情報が格納されているドアホン装置であり、応対を拒絶したい人物に対しては開錠不可を設定できる。

本発明の第７の発明は、第１〜６のいずれかの発明に従属する発明であって、照合部の照合結果が一致したとき、来訪者情報の開錠許可情報が開錠不可であった場合に、表示部に開錠不可を表示するドアホン装置であり、応対を拒絶したい人物について開錠不可が設定されるとともに、表示部に表示されるので、宅内の人間がこの情報を共有できる。

本発明の第８の発明は、第１〜７のいずれかの発明に従属する発明であって、表示部の表示画面にタッチパネルが配置され、表示部の表示画面上にはタッチパネルで入力可能な開錠許可情報の表示がなされるドアホン装置であり、タッチパネルの開錠許可情報の表示から入力するので、操作が容易である。

本発明の第９の発明は、第７または８の発明に従属する発明であって、開錠許可情報の表示が開錠不可の場合に、開錠許可情報の表示を開錠許可に変更させることで開錠されるドアホン装置であり、開錠不可の設定がなされているとき、タッチパネルの開錠許可情報の表示を変更させて開錠表示にするので比較的簡単に開錠の変更が行える。

（実施の形態１）
本発明の実施の形態１におけるドアホン装置は音声のテキスト情報を介して人物認証を行うものである。図１（ａ）は本発明の実施の形態１におけるドアホン装置のドアホン子機の正面図、図１（ｂ）は本発明の実施の形態１におけるドアホン装置のドアホン親機の正面図、図２は本発明の実施の形態１におけるドアホン装置のドアホン子機のブロック構成図、図３は本発明の実施の形態１におけるドアホン装置のドアホン親機のブロック構成図である。

図１（ａ）において、１は実施の形態１のドアホン装置のドアホン子機、２はドアホン子機１本体正面に設けられたＣＣＤ等のカメラ、３は後述するドアホン親機６から入力された音声を出力するためのドアホン子機１本体に設けられたスピーカ、４はドアホン子機１に音声を入力するためのマイク、５は来訪者がドアホン親機６の呼び出し行う操作ボタンである。１２はドアホン子機１前に人物等が接近あるいは側を通過するときその体温等の温度でこれを検出する感知センサである。

図１（ｂ）において、６はドアホン子機１のカメラ２が撮影した来訪者の顔等の映像を受信するとともに、ドアホン子機１のマイク４から入力された音声を受信して、人物認証を行うことができるドアホン親機である。実施の形態１のドアホン親機６は、来訪者の音声から人物認証を行うものである。また、７はドアホン親機６の正面に設けられたＬＣＤ等の表示部である。表示部７は透明なタッチパネル（図示しない）で覆われ、表示部７の表示画面上でタッチすると、タッチパネルの座標が検出されて、この座標若しくはこれを含む領域の表示に対応した機能が実現できる。

図１（ｂ）ではドアホン親機６の表示部７に表示された表示画面は幾つかに分割され、７ａはドアホン子機１から送信された人物の映像の画面領域、７ｂは表示部７に表示されたこの人物に関する開錠拒否の設定がなされている旨を警告する警告領域、７ｃは表示部７に表示された人物の過去の訪問履歴表示領域、７ｄはこの人物認証で来訪者が特定されたため表示される氏名や企業名、電話番号、アドレス等の関連情報の情報表示領域である。この訪問履歴表示領域７ｃには、過去の来訪時にどのような対応がなされたのかを示す面会の有無情報７ｃ₁も表示されている。警告領域７ｂに表示された開錠不可の表示７ｂ₁は予め設定されることにより表示され、別途タッチパネルに表示されるマニュアル操作の表示に触れることで、開錠許可に一時的に変更できる。

８はスピーカ、９はマイク、１０は表示部７の表示を見て応答すると判断したとき押すための応答スイッチ、１１は氏名や企業名、電話番号、アドレスを入力するための入力キーボード（実施の形態１の入力部）である。

続いて、図２に基づいて実施の形態１のドアホン子機１の構成について説明する。図２において、２ａは撮像部２０のズーム等の制御を行う撮像制御部、５ａは操作ボタン５が押されたときこれを検出する操作処理部である。操作ボタン５のＯＮによりプルアップ電圧が急激に電圧降下することを利用する。また、１２は焦電センサ等の上述の感知センサ、１２ａは感知センサ１２から入力された信号を検出するセンサ検知部である。そして、２０はカメラ２を構成するＣＣＤ等の撮像部、２１は撮像部２０から出力された信号を処理して映像信号を出力する撮像処理部、２３は撮像処理部２１から出力された映像信号の周波数変調を行って８．５ＭＨｚ〜１０ＭＨｚのＦＭ信号を出力する映像信号変調部である。

２４はドアホン子機制御部であり、２５はプログラムやデータを記憶したメモリ部である。ドアホン子機制御部２４はハードウェア的には中央演算処理装置（以下、ＣＰＵ）から構成され、メモリ部２５やその他のメモリからプログラムを読み込んでソフトウェア的に機能実現手段として各機能を実行する。２６，２７はそれぞれスピーカ３とマイク４の出力を増幅するアンプ、２８はビデオ信号と音声信号のドアホン親機６に対する第１信号線、２９は後述する感知センサ１２等からの入力信号をドアホン親機６に伝送する第２信号線である。

なお、実施の形態１の場合第１信号線２８は２−ワイヤで構成され、一方に直流＋２２Ｖが印加され、他方は接地されている。また、実施の形態１では操作処理部５ａや後述するドアホン操作検知部３６を使って第１信号線２８によって映像信号と音声信号を伝送するが、このほかの方法として、ドアホン子機１とドアホン親機６にそれぞれ通信制御部を設け、ネットワークケーブル等で結んで所定のプロトコルで通信を行う有線ＬＡＮまたは無線ＬＡＮを構成するのもよい。詳細な説明は省略する。

さて、マイク４から入力された通常５００Ｈｚ〜２ｋＨｚの人間の音声はアンプ２７で増幅され、そのまま映像信号変調部２３からの８．５ＭＨｚ〜１０ＭＨｚのＦＭ信号と重畳され、さらにこれに直流電圧＋２２Ｖが重畳されて第１信号線２８を介してドアホン親機６に伝送される。すなわち、待機時にはドアホン親機６からドアホン子機１に＋５Ｖが給電されているが、この状態で操作ボタン５を押すと、操作処理部５ａの作用で第１信号線２８に急激な電圧降下を起こし、＋２２Ｖが給電され、ドアホン親機６において操作ボタン５が押下されたことが検知されてその後＋２２Ｖが重畳されたＦＭ信号が伝送され、ドアホン親機６は表示部７に映像を表示する。なお、ドアホン親機６の動作中に操作ボタン５を押した場合はＦＭ信号に影響しないように検知信号が重畳されて伝送される。この後、ドアホン親機６は人物認証を開始し、その結果によって関連情報、例えば警告領域７ｂに表示開錠不可の表示７ｂ₁や、訪問履歴表示領域７ｃに訪問履歴、情報表示領域７ｄには氏名や企業名等を表示することになる。

続いて、図３に基づいてドアホン親機６の構成について説明する。２８は第１信号線、２９は第２信号線である。２８ａは第１信号線２８を介して重畳して伝送された２つの信号、すなわち映像信号変調部２３で周波数変調されたＦＭ信号とこれに重畳された音声信号をフィルターで分離する信号分離部である。そして、３０はこのＦＭ信号を復調させるためのＦＭ信号復調部、３１は復調されたアナログのビデオ信号を画像処理や画像認証を行うためにデジタル信号に変換するＡ／Ｄ変換部である。

また、３２はＡ／Ｄ変換部３１で変換されたデジタルビデオ信号を画像処理し、所定の画像を生成する画像処理生成部である。実施の形態１においては、図１（ｂ）の表示部７に表示された表示画面は分割され、映像とその他の関連情報が分割されて表示されるので、画像処理生成部３２がこの処理を行う。３３はこの表示部７に表示される表示画面のテンプレート等のデータを格納した画像メモリ部である。画像処理生成部３２は、カメラ２で撮影している映像部分のサイズを調整若しくは切り出してテンプレートの画面領域７ａに貼り付け、また、開錠不可の設定を示すテキスト情報及び開錠不可の表示７ｂ₁は警告領域７ｂに、さらに訪問履歴に関するテキスト情報を訪問履歴表示領域７ｃに、さらに氏名や企業名等を情報表示領域７ｄに表示して、１画面分のデータとして生成する。

３４は画像処理したデジタルのビデオ信号をアナログ信号に変換するＤ／Ａ変換部である。３５はこのビデオ信号を表示部７に表示するための表示制御部であり、カメラ２で撮影した映像はＬＣＤ等の表示部７に表示される。３６はドアホン子機１の操作ボタン５が押下されたとき、ドアホン親機６側でこれを検知するドアホン操作検知部であり、検出信号は以下説明する主制御部３９に入力され、これをトリガとしてドアホン親機６の各動作が開始される。

３９はドアホン親機６の主制御部である。主制御部３９はハードウェア的にはＣＰＵから構成され、後述する記憶部４７やその他のメモリからプログラムを読み込んでソフトウェア的に機能実現手段として各機能を実行する。実施の形態１の機能実現手段の各機能については後述する。

４０は第１信号線２８と接続された音声処理部、４３，４４はスピーカ８とマイク９のそれぞれのアンプである。音声処理部４０は音声のとぎれ等を検出し、ドアホン親機６とドアホン子機１との間の通話の切り替えなど音声通信の制御を行う。また、４１はタッチパネル制御部、４２は表示部７の表面を覆う透明なタッチパネルである。表示部７の表示画面上でタッチすると、タッチパネル制御部４１によってタッチパネル４２の座標が検出されて、この座標若しくはこれを含む所定の領域（表示のシンボル）に対応して入力があったことが主制御部３９に入力され、この座標若しくはこれを含む所定の領域に対応した所定の機能が実行されるものである。

次に４５は入力キーボード１１の操作ボタンを使って入力する入力部、４６は応答スイッチ１０を押してドアホン子機１との間で通信を開始する応答スイッチ部である。そして、４７は主制御部３９のためのプログラムやデータを記憶した記憶部であり、４８は履歴を残すための時計部である。

ところで、実施の形態１のドアホン親機６は、訪問した人物の顔等の映像を表示部７に表示するとともに、この人物の音声による音声認証（音声による照合）を行うものである。なお、ここで音声認証とは音声を比較して同一人物か否かを推定するという意味であるから、本来、照合というべきであるが、照合後に宅内への侵入を許可するという意味を込めて以下、実施の形態上は認証という。このため次の構成を有している。

図３に示す３８は、後述する音声認証部５０で行う認証のために蓄積した過去の来訪者や家族等の個人別の取得済み音声データと、その個人情報を蓄積したデータベース部（実施の形態１の来訪者情報記憶部）である。また、４９はドアホン子機１のマイク４から入力された音声信号を音声処理部４０から受信して符号化し、あるいはマイク９からの音声信号を符号化して後述の音声文字変換部５１と音声認証部５０に解析のためにデジタルデータとして渡すとともに、その後それを復号化して音声処理部４０またはスピーカ８に出力するＡ／Ｄ・Ｄ／Ａ変換部である。

５０は人物の音声認証を行う音声認証部（実施の形態１の照合部）であり、５１は音声認証のための取得済みの音声テキストデータを作成するとともに、認証のための音声テキストデータを作成することができる音声文字変換部である。５１ａはＡ／Ｄ・Ｄ／Ａ変換部４９から出力された音声データの中から音声の各特徴を基に単語候補を抽出する抽出手段、５１ｂは抽出した単語候補の中から辞書を参照して個人情報に関する単語候補を選択する推論選択手段、５１ｃはこれをテキストデータに変換するテキスト情報生成手段である。

すなわち、リアルタイムに音声認証のために取り込まれる音声データや、データベース部３８に格納されている各個人の取得済み音声データは、マイク４，９から取り込まれ、Ａ／Ｄ・Ｄ／Ａ変換部４９から出力されたデジタル音声信号（音声データ）をケプストラム分析などして、音声の特徴パラメータ、例えば音声に含まれる各周波数の包絡線の特徴を示すＬＰＣケプストラム係数や、音声信号がゼロ電圧線と交差する数を示すゼロクロス数、音声の大きさを示すパワー値などを抽出し、予め登録されている特徴パラメータ、すなわち各単語ごとに収集された音声のＬＰＣケプストラム係数、ゼロクロス数、パワー値などを参照することにより、推論選択手段５１ｂによって所定の単語と推定され、テキスト情報生成手段５１ｃによって単語ごとにテキストデータに変換されて、音声認証の場合は音声認証部５０へ送信され、また、同時に更新のためデータベース部３８に格納される。なお、来訪者の音声認証とは別に家族等の宅内の人間が、自分たちの音声データを入力することもできる。

ところで、来訪した人物を特定する単語候補としては、氏名や所属する企業名、場所、電話番号、アドレス等の情報がある。音声文字変換部５１にはこれらに関係する標準パターンの単語辞書が設けられており、この標準パターンと比較してこれらに属するか否かの属否の推論を行い、各情報にそれぞれ該当すると推定されたときには、氏名や所属する企業名、電話番号等としてそれぞれの格納場所に格納される。そして実際に来訪者があったとき、来訪者の映像を表示するとともに、リアルタイムに発声された言葉からキーとなる単語を抽出し、これらの情報を基に来訪者を特定し、関連情報として情報表示領域７ｄに表示する。なお、抽出されたが、どの情報に該当するか不明の場合は、そのままその他の単語の集合としてデータベース部３８内に画像やその他の個人情報と関係付けて格納しておき、認証判断の材料にする。

このように実施の形態１の音声認証は、来訪者の音声を基に、リアルタイムに単語を抽出してテキストデータ化し、データベース部３８内の取得済みのテキストの単語情報から、来訪者の氏名等を推論して、関連情報を表示するものである。きわめて簡単に来訪者の特定が可能になる。

そこで、本発明の実施の形態１の主制御部３９に搭載された機能実現手段について説明する。図４（ａ）は本発明の実施の形態１におけるドアホン装置のドアホン親機のブロック図、図４（ｂ）は本発明の実施の形態１におけるデータベース部の構成図、図５は本発明の実施の形態１におけるデータベース部の個人情報部構成図である。

図４（ａ）に示すように、主制御部３９内には履歴情報を処理するため、次の機能実現手段が設けられている。３９ａは来訪者があったときに時計部４８の時刻とともに自動的に画像認証した人物の関連情報を記録する履歴情報記録手段、３９ｂはこの訪問履歴の各回にドアホン親機６から応答したか否かを記録する応答履歴記録手段である。来訪者の中には、絶対対応を拒否したい人物もあり、３９ｃはこのような場合に開錠不可又は開錠許可を設定するための開錠許可設定手段である。この設定は、タッチパネル４２の開錠不可の表示７ｂ₁に触るだけで、設定画面に切り替わり、簡単に設定することができる。開錠不可には個人差があり、一時的にこの拒否を解除したいときは、タッチパネルに表示されるマニュアル操作の表示に触れることで、開錠許可に一時的に変更できる。しかし、これらの履歴はすべて応答履歴記録手段３９ｂによって履歴として記録される。開錠不可キーを押下した人物、これを一時的に解除した人物の記録も残され、これらを警告領域７ｂに表示することもできる。

３９ｅはデータベース部３８に格納されている音声データを、最新のデータに更新したいときに実行する音声データ更新手段である。既に述べたように、入力キーボード１１の中の更新キーを押下することで更新することができる。また、更新キーを長押しなどすることにより、自動設定機能にすることができ、この場合来訪者があれば自動的に音声データを更新させることができる。さらに、３９ｈはデータ修正手段であって、入力キーボード１１のキーを使って誤って入力されている訪問履歴や個人情報をデータ修正手段３９ｈにより修正、変更することができる。

ところで図４（ｂ）には、データベース部３８の内部構成が示されている。３８ｄは音声データ部であって、単語単位で実際に過去に発声されて取得した多数のテキストデータの集合が氏名等の個人情報と関係付けられて格納されている。３８ｂはその氏名等の個人情報を記録した個人情報部であって、３８ｂ₁は訪問履歴を記録した履歴情報部、３８ｂ₂は開錠不可キーを押下したとき禁止フラグを設定するための開錠禁止部である。また、３８ｃは実際に応答するのでなく、所定のメッセージを利用して応答するために設けられた応答メッセージ部である。応答メッセージ部３８ｃ内には、「唯今留守にしております」等の家族で共通のメッセージのほかに、個人別のメッセージ、例えば「学校のクラブで会おう」といったメッセージが格納されている。応答スイッチ部４６をおさないで、入力キーボード１１の中から自動応答のキーを選んで、希望するメッセージを送出する。

図５はこの個人情報部３８ｂの詳細を示すものである。図５において、３８ｂ₁₁は来訪者の氏名である。この氏名３８ｂ₁₁は上述の音声データ部３８ｄのテキストデータと関係付けられている。３８ｂ₁₂は来訪者の所属する企業名、３８ｂ₁₃は連絡先の電話番号、３８ｂ₁₄はメールアドレスである。これらは音声文字変換部５１によって自動的に生成されるが、誤入力があったときには修正が必要で、このときは入力キーボード１１の中の文字入力キーを使って手入力する。

次に、３８ｂ₁₅はこの人物の過去に訪問したときの履歴をすべて時系列に記録したもの訪問履歴である。例えば、Ｈ１６，０１，０４，１４，１２，応答というのは平成１６年１月４日１４時１２分に来訪し、応答したことを示している。しかし、Ｈ１６，０１，２０，１５，３２，不応答と記録されているように、平成１６年１月２０日１５時３２分に来訪し、応答しなかったことが分る。

これらは応答履歴記録手段３９ｂによって自動的に記録される。また、３８ｂ₁₆は禁止フラグであり、開錠許可設定手段３９ｃによって開錠禁止部３８ｂ₂内に設定される。これらの情報はすべて音声認証した人物の個人情報と関係付けられて、図１（ｂ）に示す表示部７の訪問履歴表示領域７ｃ、開錠不可フラグは警告領域７ｂ、関連情報は情報表示領域７ｄにテンプレートを使って表示される。

このように本発明の実施の形態１のドアホン装置においては、来訪者があったとき、音声を基にリアルタイムに単語を抽出してテキストデータ化し、取得済みのテキストデータと照合することにより、この来訪者を特定し、表示部に氏名や企業名、電話番号等のほか、訪問履歴情報などの関連情報をドアホン親機に表示するので、この表示を見てトラブルを未然に防いだり、また、来訪者に実際に面会する前にこの来訪者の有力情報を予め入手したりできるので、来訪者の応対が容易で迅速に行える。また、家族全員にとって開錠不可するのが望ましい人物の場合に、予め開錠拒否を容易に設定できるし、これによって家族に警告することができる。音声によるので関連情報の入力に負担がかからず、操作性に優れたドアホン装置を提供できる。

（実施の形態２）
本発明の実施の形態１の人物認証は、音声のテキスト情報を介して人物認証を行うものであった。これに対し、本発明の実施の形態２におけるドアホン装置は音声の特徴により人物認証を行うものである。図６（ａ）は本発明の実施の形態２におけるデータベース部の構成図、図６（ｂ）は本発明の実施の形態２における音声認識と文字変換の構成図である。

図６（ａ）に示すように、実施の形態２においては、データベース部３８内（実施の形態２の来訪者情報記憶部）に音声データとしてテキストデータが格納されるのではなく、音声の特徴パラメータ、例えば音声に含まれる各周波数の包絡線の特徴を示すＬＰＣケプストラム係数や、音声信号がゼロ電圧線と交差する数を示すゼロクロス数、音声の大きさを示すパワー値などが格納されている。図６（ａ）において、３８ｄ₁はこのような音声の特徴パラメータを格納した音声特徴データ部である。それ以外の構成は実施の形態１と同一の構成であるから説明は省略する。

また、図６（ｂ）は実施の形態２の音声認証の要部のブロックを示したものである。図６（ｂ）において、５２は単語の抽出と選択を行う音声認識部である。５２ａはＡ／Ｄ・Ｄ／Ａ変換部４９から出力された音声データの中から音声の各特徴を基に単語候補を抽出する抽出手段、５２ｂは抽出した単語候補の中から辞書を参照して個人情報に関する単語候補を選択する推論選択手段である。なお、選択された単語候補をテキストデータに変換するテキスト情報生成手段５１ｃは実施の形態１と同一構成であり、実施の形態１の音声文字変換部５１との違いは、テキスト情報生成手段５１ｃが行うテキスト化の機能以外の機能を、音声認識部５２の抽出手段５２ａと推論選択手段５２ｂで実行する点である。

すなわち、実施の形態２の音声データの特徴を抽出する機能は抽出手段５２ａで実行され、音声認証は、音声認証部５０（実施の形態２の照合部）によってリアルタイムに入力された音声の特徴パラメータと、データベース部３８内に格納された特徴パラメータとを比較することで行われる。そして、テキスト情報生成手段５１ｃは抽出手段５２ａによって抽出され、推論選択手段５２ｂによって選択された氏名や企業名、住所等の関連情報をテキスト化する。

このように本発明の実施の形態２のドアホン装置においては、実施の形態１と同様に、来訪者があったときこの来訪者を音声認証で特定し、表示部に氏名や企業名、電話番号等のほか、訪問履歴情報などの関連情報をドアホン親機に表示するとともに、この表示を見てトラブルを未然に防いだり、また、来訪者に実際に面会する前にこの来訪者の有力情報を予め入手したりできるので、来訪者の応対が容易で迅速に行える。また、家族全員にとって開錠を拒否するのが望ましい人物もあり、このような場合に開錠拒否を設定できるし、家族に予め警告することができる。また、来訪者の関連情報を自動的に更新することができる。

さらに、実施の形態２のドアホン装置は、イントネーションなども含め音声認証を音声の特徴パラメータ同士で比較するので、テキスト情報間の比較で人物の同一性判断をするより精度の高い判断が行える。

（実施の形態３）
本発明の実施の形態２におけるドアホン装置は音声の特徴で人物認証を行うものであったが、実施の形態３におけるドアホン装置は画像により人物認証を行うものである。図７は本発明の実施の形態２におけるドアホン装置のドアホン親機のブロック構成図である。実施の形態１，２のドアホン装置と実施の形態３のドアホン装置は、基本的に同一の構成であり、同一符号は同一構成を示しているから、重複するため説明は省略する。

図７において、３７は、Ａ／Ｄ変換部３１から出力されたビデオ信号を基に１画面分の画像を取り出して個人別に蓄積されている多数の取得済み画像情報と比較し、人物推定を行う画像認証部である。そして、この画像認証部３７（実施の形態３の照合部）で行う認証のために、データベース部３８（実施の形態３の来訪者情報記憶部）の画像データ部（図示しない）内には、過去の来訪者や家族等の個人別に蓄積した取得済み画像のデータとそれに関係付けられた関連情報が格納されている。データベース部３８に格納されている取得済み画像は、氏名等とともに、撮影したカメラのズーム等のカメラ条件、明るさ等の環境条件、また画像のサイズや付属物、例えば眼鏡の有無等の対象データ情報が、画像と関係付けられて格納されている。

画像認証部３７は、これらの条件と現在の画像の条件を比較してマッチングさせ、眼や鼻、口の位置や形状、骨格等の所定の位置の特徴点を抽出して、両者の特徴空間上での距離を測って、所定の範囲内であれば同一人であると推定する。格納してある取得済み画像の特徴点をパラメータとして予めデータ保存しておくのが好適である。この場合、画像認証部３７は映像から画像を取り出し、所定の部分を切り出して、保存してある取得済み画像のデータとのマッチングを行い、パラメータを比較するだけで同一人か否かの推定ができる。このため多人数との比較が直ちに行える。なお、後述するように、データベース部３８に格納されている取得済み画像は、入力キーボード１１の中の更新キーを押下することで、簡単に更新することができるし、自動更新することもできる。また、画像認証の特徴点を比較して認証する方法は、人間の静脈や、眼を利用したりする多くの方法があり、これらを利用するのもよい。

ところで、実施の形態２においては、音声認証部５０を設けたが、これは実施の形態３の画像認証部３７の併設ができないものでなく、両者を同時に設けて、認証精度を向上させるのも好適である。この場合、例えば画像認証部３７による画像認証の後、音声認証部５０による音声認証を行って、特徴空間上での距離が所定の閾値内にあるときのみ同一人と推定するなど、することになる。また、この逆もありえる。

このように本発明の実施の形態３のドアホン装置においては、来訪者があったときこの来訪者を画像認証で特定するとともに、氏名や企業名、電話番号等のほか、訪問履歴情報などの関連情報をドアホン親機に表示することができ、画像認証を行うため精度の高い人物認証を行うことができる。

本発明は、来訪者があったとき、応答する前にこの来訪者を特定するとともに関連情報を表示できるドアホン装置に適用できる。

（ａ）本発明の実施の形態１におけるドアホン装置のドアホン子機の正面図、（ｂ）本発明の実施の形態１におけるドアホン装置のドアホン親機の正面図本発明の実施の形態１におけるドアホン装置のドアホン子機のブロック構成図本発明の実施の形態１におけるドアホン装置のドアホン親機のブロック構成図（ａ）本発明の実施の形態１におけるドアホン装置のドアホン親機の履歴制御のブロック図、（ｂ）本発明の実施の形態１におけるデータベース部の構成図本発明の実施の形態１におけるデータベース部の個人情報部構成図本発明の実施の形態２におけるドアホン装置のドアホン親機のブロック構成図本発明の実施の形態２におけるドアホン装置のドアホン親機のブロック構成図従来のドアホン装置の概略構成図従来の人物認証ドアホン装置の概略構成図

符号の説明

１ドアホン子機
２カメラ
２ａ撮像制御部
３スピーカ
４マイク
５操作ボタン
５ａ操作処理部
６ドアホン親機
７表示部
７ａ画面領域
７ｂ警告領域
７ｂ₁ 開錠不可
７ｃ訪問履歴表示領域
７ｃ₁ 面会の有無情報
７ｄ情報表示領域
８スピーカ
９マイク
１０応答スイッチ
１１入力キーボード
１２感知センサ
１２感知センサ
１２ａセンサ検知部
２０撮像部
２１撮像処理部
２３映像信号変調部
２４ドアホン子機制御部
２５メモリ部
２６，２７，４３，４４アンプ
２８第１信号線
２８ａ信号分離部
２９第２信号線
３０ＦＭ信号復調部
３１Ａ／Ｄ変換部
３２画像処理生成部
３３画像メモリ部
３４Ｄ／Ａ変換部
３５表示制御部
３６ドアホン操作検知部
３７画像認証部
３８データベース部
３８ａ画像データ部
３８ｂ個人情報部
３８ｂ₁ 履歴情報部
３８ｂ₂ 開錠禁止部
３８ｂ₁₁ 氏名
３８ｂ₁₂ 企業名
３８ｂ₁₃ 電話番号
３８ｂ₁₄ メールアドレス
３８ｂ₁₅ 訪問履歴
３８ｂ₁₆ 禁止フラグ
３８ｃ応答メッセージ部
３８ｄ音声データ部
３９主制御部
３９ａ履歴情報記録手段
３９ｂ応答履歴記録手段
３９ｃ開錠許可設定手段
３９ｅ音声データ更新手段
３９ｈデータ修正手段
４０音声処理部
４１タッチパネル制御部
４２タッチパネル
４５入力部
４６応答スイッチ部
４７記憶部
４８時計部
４９Ａ／Ｄ・Ｄ／Ａ変換部
５０音声認証部
５１音声文字変換部
５１ａ，５２ａ抽出手段
５１ｂ，５２ｂ推論選択手段
５１ｃテキスト情報生成手段
５２音声認識部
１０１ドアホン装置
１０２ドアホン端末
１０３応答端末
１２１カメラ
１２２呼び出しスイッチ
１２３スピーカ
１２４マイク
１３１画像表示部
１３２呼び出し音信号発生部
１３３，１３５アンプ
１３４スピーカ
１３６送受話器
１４１画像認識部
１４２人物データベース
１４３制御部
１４４呼び出し音データベース

Claims

スピーカ、マイク及びカメラが設けられたドアホン子機と、前記ドアホン子機と音声通話し前記カメラの撮影した来訪者の画像情報を表示する表示部が設けられたドアホン親機とを備えたドアホン装置であって、
前記ドアホン親機は、
前記ドアホン子機のマイクから入手した音声から人物を特定する単語情報を抽出して該単語情報をテキスト情報に変換する音声文字変換部と、
前記音声文字変換部によって変換されたテキスト情報を上記来訪者の来訪者情報と関連付けて共に格納する来訪者情報記憶部と、
前記マイクからの音声から変換されたテキスト情報と前記来訪者情報記憶部のテキスト情報とが一致するか否かを照合する照合部と、を備え、
前記照合部の照合結果が一致した場合に、前記カメラからの前記来訪者の画像情報と共に前記来訪者情報記憶部の来訪者情報が前記表示部に表示されることを特徴とするドアホン装置。
スピーカ、マイク及びカメラが設けられたドアホン子機と、前記ドアホン子機と音声通話し前記カメラの撮影した来訪者の画像情報を表示する表示部が設けられたドアホン親機とを備えたドアホン装置であって、
前記ドアホン親機は、
前記ドアホン子機のマイクから入手した音声から単語情報を抽出して人物を特定する単語情報を選択する音声認識部と、
該音声認識部が抽出した単語をテキスト情報に変換するテキスト情報生成部と、
前記テキスト情報生成部によって変換されたテキスト情報を前記来訪者の来訪者情報と関連付けて共に格納する来訪者情報記憶部と、
前記マイクからの音声から変換されたテキスト情報と前記来訪者情報記憶部のテキスト情報とが一致するか否かを照合する照合部とが設けられ、
前記照合部の照合結果が一致した場合に、前記カメラからの前記来訪者の画像情報と共に前記来訪者情報記憶部の来訪者情報が前記表示部に表示されることを特徴とするドアホン装置。
スピーカ、マイク及びカメラが設けられたドアホン子機と、前記ドアホン子機と音声通話し前記カメラの撮影した来訪者の画像情報を表示する表示部が設けられたドアホン親機とを備え、前記ドアホン親機は、来訪者に対する取得済み音声情報と該音声情報を格納する来訪者情報記憶部と、前記マイクからの音声情報と前記取得済み音声情報とが一致するか否かを照合する照合部とが設けられ、前記照合部の照合結果が一致した場合に、前記カメラからの前記来訪者の画像情報と共に前記来訪者情報が前記表示部に表示されるドアホン装置であって、
前記ドアホン親機には、
前記ドアホン子機のマイクから入手した単語情報を抽出する抽出部と、
人物を特定する単語情報を選択する推論選択部と、
該推論選択部が抽出した単語情報をテキスト情報に変換するテキスト情報生成部と、が設けられるとともに、
前記来訪者情報記憶部には、
前記抽出部によって抽出された単語情報が前記取得済み音声情報として格納されるとともに、前記推論選択部及び前記テキスト情報生成部によって変換されたテキスト情報が前記来訪者の来訪者情報として格納されることを特徴とするドアホン装置。
スピーカ、マイク及びカメラが設けられたドアホン子機と、前記ドアホン子機と音声通話し前記カメラの撮影した来訪者の画像情報を表示する表示部が設けられたドアホン親機とを備え、前記ドアホン親機には、来訪者に対する取得済み画像情報と該画像情報を格納する来訪者情報記憶部と、前記カメラの撮影した画像情報と前記取得済み画像情報とが一致するか否かを照合する照合部とが設けられ、前記照合部の照合結果が一致した場合に、前記カメラからの前記来訪者の画像情報と共に前記来訪者情報が前記表示部に表示されるドアホン装置であって、
前記ドアホン子機のマイクから入手した音声から単語情報を抽出してこれから人物を特定する単語情報を選択する音声認識部と、前記音声認識部が抽出した単語をテキスト情報に変換するテキスト情報生成部と、が設けられ、
前記来訪者情報記憶部には前記テキスト情報生成部によって変換されたテキスト情報が前記来訪者の来訪者情報として格納されることを特徴とするドアホン装置。
前記テキスト情報には、氏名、所属、住所、職業のいずれか１以上のテキスト情報が含まれることを特徴とする請求項１〜４のいずれかに記載のドアホン装置。
前記来訪者情報記憶部には、開錠許可又は開錠不可を示す開錠許可情報が格納されていることを特徴とする請求項１〜５のいずれかに記載のドアホン装置。
前記照合部の照合結果が一致したとき、前記来訪者情報の開錠許可情報が開錠不可であった場合に、前記表示部に開錠不可を表示することを特徴とする請求項１〜６のいずれかに記載のドアホン装置。
前記表示部の表示画面にタッチパネルが配置され、前記表示部の表示画面上には前記タッチパネルで入力可能な前記開錠許可情報の表示がなされることを特徴とする請求項１〜７のいずれかに記載のドアホン装置。
前記開錠許可情報の表示が開錠不可の場合に、前記開錠許可情報の表示を開錠許可に変更させることで開錠されることを特徴とする請求項７または８記載のドアホン装置。