JP6628853B2

JP6628853B2 - 音声映像追跡装置

Info

Publication number: JP6628853B2
Application number: JP2018190818A
Authority: JP
Inventors: 翔一郎齊藤; 尚植松; 一成森内
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-10-09
Filing date: 2018-10-09
Publication date: 2020-01-15
Anticipated expiration: 2035-04-23
Also published as: JP2019046482A

Description

この発明は、音声コマンド入力による操作が可能な音声映像入出力装置である。

近年、困難な作業や熟練していない作業を行う工場作業員などに対し、音声や映像などのマルチメディア技術や情報通信技術を駆使して作業効率を上げるニーズが高まっている。しかしながら、作業に必要な用具と別にノートパソコンやタブレット端末などの情報通信機器を持ち歩くことは作業員にとって大きな負担となる。また、そのような機器ではキーボード操作や画面操作が主であるが、作業員は両手を自由に使える環境にあるとは限らず、直観的な操作性が不足していることが多い。そのため、音声や映像と連携して作業を行おうとしても、作業者の意図した作業を行うことが難しいという課題がある。また、そのような環境では騒音が大きいことが多く、コミュニケーションが円滑に行えない場合が多いという課題もある。

上述のようなニーズに対して、必要な情報を現実の視野に重畳して表示する眼鏡型ウェラブルデバイスが開発されている。例えば、非特許文献１、２などに記載されたGoogle Glass（登録商標）がある。Google Glassは、音声によるコマンド入力（例えば、「OK glass.」と発話するなど。詳しくは、非特許文献１参照。）と、ゼスチャーによるコマンド入力（例えば、指のタッチや本体の傾きの状態など。詳しくは、非特許文献２参照。）を利用して操作することが可能になっている。

Google, Inc.、"Google Glass - Help - Voice actions"、[online]、[平成27年4月3日検索]、インターネット<URL：https://support.***.com/glass/answer/3079305?hl=en> Google, Inc.、"Google Glass - Help - Glass gestures"、[online]、[平成27年4月3日検索]、インターネット<URL：https://support.***.com/glass/answer/3064184?hl=en>

しかしながら、従来の眼鏡型ウェラブルデバイスでは高騒音環境下での利用を想定しておらず、例えば工場内など周囲の騒音が大きい環境では音声が雑音に埋もれてしまい、音声によるコマンド入力が誤りやすい。また、工場内での作業者は分厚い手袋をして作業を行うことが多く、従来の眼鏡型ウェラブルデバイスが備えるようなタッチパッドでは静電式、圧電式にかかわらず細かな操作をすることが難しい。また、工場内ではヘルメットのような頭部への装着物が必要となる場合も多く、これらの装着物と物理的に干渉し、正規の着用方法ができない場合もある。さらに、落下事故を防ぐために落下防止ストラップなどを装着する必要もあり、装着準備に手間がかかる。

この発明の目的は、高騒音環境やタッチ操作が困難な利用状況であっても円滑な操作を可能とする音声映像入出力装置を提供することである。

上記の課題を解決するために、この発明の音声映像入出力装置は、利用者の音声を含む周囲の音を収音する複数の収音部と、利用者の視野に対応する領域を撮影する撮影部と、利用者の視野に入る位置に画面が配置された映像表示部と、回転操作に応じて回転方向および回転角度を示すダイヤル操作信号を出力するダイヤル操作部と、ダイヤル操作部の表面において回転軸の位置に配置され押下状態を示すボタン操作信号を出力するボタン操作部と、収音部を用いて取得した音響信号を音声認識して音声認識結果を生成する音声認識部と、撮影部を用いて映像信号を取得する映像取得部と、映像信号を用いて生成した出力映像信号を映像表示部へ出力する映像生成部と、ダイヤル操作信号、ボタン操作信号、および音声認識結果に基づいて、映像取得部、音声認識部、および映像生成部の機能を制御する制御信号を生成する機能制御部と、を含む。

この発明の音声映像入出力装置は、複数の収音部から収音した音響信号を用いて音声認識するため、高騒音環境であっても音声コマンド入力が安定的に動作する。また、ダイヤルとボタンによる物理的な操作が可能であるため、タッチ操作が困難な利用状況でも操作が容易である。したがって、高騒音環境やタッチ操作が困難な利用状況であっても円滑な操作が可能である。

図１は、第一実施形態に係る音声映像入出力装置の機能構成を例示する図である。図２は、第一実施形態に係る音声映像入出力装置の機能構成を例示する図である。図３は、環境設定機能の利用イメージを例示する図である。図４は、音量設定機能の利用イメージを例示する図である。図５は、映像ズーム機能の利用イメージを例示する図である。図６は、映像追跡機能の利用イメージを例示する図である。図７は、第二実施形態に係る音声映像入出力装置の機能構成を例示する図である。図８は、第二実施形態に係る音声映像入出力装置の機能構成を例示する図である。図９は、音声ズーム機能の利用イメージを例示する図である。図１０は、音声追跡機能の利用イメージを例示する図である。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

[第一実施形態］
この発明の第一実施形態は、例えば工場内のような高騒音の作業現場において、利用者が頭部に装着して利用することを想定したヘルメット一体型の音声映像入出力装置である。本形態の音声映像入出力装置は、図１に例示するように、n（≧2）個の収音部Ｍ₁,…,Ｍ_n、放音部Ｓ、撮影部Ｖ、映像表示部Ｇ、ダイヤル操作部Ｄ、ボタン操作部Ｂ、および通信記録部Ｃを含む。

収音部Ｍ₁,…,Ｍ_nは、利用者が装着した際に利用者の周囲の音を収音するマイクロホンである。図１の例では、１個の収音部Ｍ₁が利用者の口元に配置され、n-1個の収音部Ｍ₂,…,Ｍ_nが後頭部に水平に配列される構成を示したが、利用者の発話を含む周囲の音を収音可能であればどのような配置でもよい。

放音部Ｓは、利用者が装着した際に利用者の耳に対応する位置に配置されたヘッドホンである。ヘッドホンは一般的に両耳に対して用意されるものであるが、本形態の放音部Ｓは、少なくとも片方の耳に対して用意されていればよく、通常どおり両耳に対して用意されていてもよい。

撮影部Ｖは、利用者が装着した際に利用者の視野に対応する領域に画角が設定され、利用者の視野に対応する領域を撮影するビデオカメラである。図１の例では、利用者の額の位置に配置される構成を示したが、利用者の視野に対応する領域が撮影可能であればどのような位置に配置されてもよい。ただし、撮影部Ｖは、利用者の視野を遮らない位置に配置されることが望ましい。

映像表示部Ｇは、利用者が装着した際に利用者の視野に入る位置に画面が配置された透過スクリーンを用いた小型ディスプレイである。映像表示部Ｇは透過型であるため、映像出力がない状態では利用者の視界を遮ることがなく、映像出力がある状態では利用者から見て前方の光景に対して映像が重畳して視認される。ここでは工場内などの作業現場における利用を想定しているため、粉塵等の飛来物から利用者の目を守る効果もある。映像表示部Ｇは、利用者の視野の範囲外に退避させることが可能な可動式となっている。例えば、正確な色彩を確認するなどで肉眼による確認が必要な場合には利便性が高い。退避させた際には、撮影部Ｖの画角に入らない位置に収納されることが望ましい。

ダイヤル操作部Ｄは、放音部Ｓの表面のうち利用者が装着した際に利用者の耳と反対側になる面に配置され、利用者の耳の位置を中心軸として回転自在な大型ダイヤルである。ダイヤル操作部Ｄは、円形のダイヤルの側面に複数の凸凹が形成されており、例えば利用者が厚い手袋などを装着している状況であっても指先で容易に操作が可能となるように形成される。ダイヤル操作部Ｄは、回転操作が行われた際に操作された回転方向および回転角度を示すダイヤル操作信号dを出力する。ダイヤル操作部Ｄの位置は必ずしも放音部Ｓの表面でなくともよく、利用者が操作可能な位置であればどのように配置してもよい。

ボタン操作部Ｂは、ダイヤル操作部Ｄの表面のうち回転軸の位置に配置され、回転ダイヤルの中心軸の方向へ押下可能なボタンである。ボタン操作部Ｂは、キャップ部分が無押下状態でもダイヤル操作部Ｄの表面からわずかにくぼんだ位置になるように設定することで、意図しないボタン押下により誤動作を起こすことを防止できる。ボタン操作部Ｂは、押下操作が行われた際に押下状態を示すボタン操作信号bを出力する。

通信記録部Ｃは、遠隔にいる通信相手と無線もしくは有線の通信経路を確立し、音声信号および映像信号の送受信を行う。また、送受信を行った音声信号および映像信号や、収音部Ｍ₁,…,Ｍ_nを用いて取得した音声信号および撮影部Ｖを用いて取得した映像信号を記録媒体等に記録する。

図２を参照して、第一実施形態の音声映像入出力装置の動作を説明する。本形態の音声映像入出力装置は、収音部Ｍ₁,…,Ｍ_n、放音部Ｓ、撮影部Ｖ、映像表示部Ｇ、ダイヤル操作部Ｄ、ボタン操作部Ｂ、および通信記録部Ｃに加えて、入力音声強調部１、音声認識部２、機能制御部３、音声生成部４、映像取得部５、および映像生成部６を含む。通信記録部Ｃは、図２に示すように、音声出力部Ｃ１、音声入力部Ｃ２、映像出力部Ｃ３、および映像入力部Ｃ４を含む。

入力音声強調部１は、収音部Ｍ₁,…,Ｍ_nがそれぞれ収音した音響信号x₁,…,x_nに対して目的音強調処理を行い、音響信号x₁,…,x_nに含まれる音声が強調された音声強調信号a_oを出力する。音声強調信号a_oは音声認識部２、音声生成部４、および音声出力部Ｃ１へ送られる。利用者の口元にある収音部Ｍ₁が収音した音響信号x₁には利用者の音声と環境雑音が含まれており、利用者の音声が届きにくい位置に配置された収音部Ｍ₂,…,Ｍ_nがそれぞれ収音した音響信号x₂,…,x_nには環境雑音のみが含まれていることが期待できる。したがって、音響信号x₁において音響信号x₂,…,x_nに含まれる環境雑音を抑圧することで、利用者の音声を強調した音響信号を得ることができる。目的音強調処理は上記の方法に限定されず、公知のどのような方法を適用してもよい。例えば、下記参考文献１に記載の音響信号強調技術を利用することができる。
〔参考文献１〕特開２０１３−１７９３８８号公報

音声認識部２は、音声強調信号a_oに対して音声認識を行い、音声認識結果opを出力する。音声認識処理は公知のどのような方法を適用してもよい。音声認識結果opは機能制御部３へ送られる。音声認識部２は音声認識処理を自ら実行するものでなくてもよく、遠隔に設置された音声認識装置に対して音声強調信号a_oを送信し、その音声認識装置から返信される音声認識結果を音声認識結果opとして出力するものであってもよい。このとき、音声認識装置との通信は、通信記録部Ｃを用いて行えばよい。

機能制御部３は、ダイヤル操作部Ｄからのダイヤル操作信号d、ボタン操作部Ｂからのボタン操作信号b、および音声認識部２からの音声認識結果opに基づいて、音声映像入出力装置の機能を制御するための制御信号c₁,…,c₅を生成する。制御信号の内容は、利用者が映像表示部Ｇの表示に従ってダイヤル操作、ボタン操作、および音声コマンド入力により選択した内容により定まる。個別の機能に対する操作例は後述するが、ダイヤル操作、ボタン操作、および音声コマンド入力をどのように組み合わせて操作インターフェースを構成するかは任意である。例えば、基本的な操作として、音声コマンド入力により機能の呼び出しを行い、ダイヤル操作により選択肢の選択を行い、ボタン操作により選択を確定する流れが考えられる。また、音声コマンド入力により選択肢の指定から確定までを一括で行うことも可能である。制御信号は制御対象とする構成部に応じて個別に生成される。例えば、制御信号c₁は入力音声強調部１に対する制御を行う信号である。制御信号c₂は音声生成部４に対する制御を行う信号である。制御信号c₃は映像取得部５に対する制御を行う信号である。制御信号c₄は映像生成部６に対する制御を行う信号である。制御信号c₅は音声認識部２に対する制御を行う信号である。

音声出力部Ｃ１は、入力音声強調部１の出力する音声強調信号a_oを遠隔の通信相手へ向けて送信する。もしくは音声強調信号a_oを図示していない記録媒体に記憶する。

音声入力部Ｃ２は、遠隔の通信相手から遠隔音声信号a_iを受信する。受信した遠隔音声信号a_iは音声生成部４へ送られる。遠隔音声信号a_iは、例えば、遠隔の通信相手が利用者に対して行うべき作業内容を指示する音声などである。

音声生成部４は、入力音声強調部１の出力する音声強調信号a_oと、音声入力部Ｃ２の出力する遠隔音声信号a_iがあれば遠隔音声信号a_iとを用いて出力音響信号a_sを生成し、その出力音響信号a_sを放音部Ｓへ出力する。音声強調信号a_oは、例えば、高騒音環境で利用しており自分の話す声も自分で聞き取りづらい場合などに、利用者の音声をフィードバックするために利用される。また、あらかじめ録音した音声を通信記録部Ｃなどに記憶しておき、その音声を再生することで遠隔音声信号a_iとして利用してもよい。

映像取得部５は、撮影部Ｖを用いて撮影した映像信号v_oを取得する。取得した映像信号v_oは映像出力部Ｃ３へ送られる。

映像出力部Ｃ３は、映像取得部５の出力する映像信号v_oを遠隔の通信相手へ向けて送信する。もしくは映像信号v_oを図示していない記録媒体に記憶する。

映像入力部Ｃ４は、遠隔の通信相手から遠隔映像信号v_iを受信する。受信した遠隔映像信号v_iは映像生成部６へ送られる。遠隔映像信号v_iは、例えば、利用者が行うべき作業において必要とされる参考情報などである。

映像生成部６は、映像取得部５の出力する映像信号v_oと、映像入力部Ｃ４が出力する遠隔映像信号v_iがあれば遠隔映像信号v_iとを用いて出力映像信号v_sを生成し、その出力映像信号v_sを映像表示部Ｇへ出力する。

図３は、本形態の音声映像入出力装置において環境設定を行う際の利用イメージである。まず、利用者は音声コマンド入力により「環境」と入力する。機能制御部３は「環境」という音声認識結果opに基づいて、環境設定機能を呼び出すための制御信号c₄を映像生成部６へ送る。映像生成部６は現在の環境設定を映像表示部Ｇの透過スクリーンに表示する。図３の例では、現在の環境設定は「建設現場」であり、その他の設定候補として「トンネル」や「サーバ室」などが表示される。これらの選択肢とそれに紐づく動作パラメータはあらかじめ設定しておく。利用者がダイヤル操作部Ｄを回転させると、ダイヤル操作信号dが機能制御部３へ入力され、環境設定候補を変更するための制御信号c₄が映像生成部６へ送られる。ダイヤル操作により所望の環境設定候補を選択した後にボタン操作部Ｂを押下すると、ボタン操作信号bが機能制御部３へ入力され、環境設定の変更を確定するための制御信号c₁およびc₅が入力音声強調部１および音声認識部２へ送られる。入力音声強調部１および音声認識部２は制御信号c₁およびc₅に従って動作パラメータを変更する。目的音強調処理や音声認識処理は環境により最適な動作パラメータが異なることが一般的であるため、利用環境を正しく設定することでより精度の高い処理結果が得られることが期待できる。

図４は、本形態の音声映像入出力装置において音量設定を行う際の利用イメージである。まず、利用者は音声コマンド入力により「音量」と入力する。機能制御部３は「音量」という音声認識結果opに基づいて、音量設定機能を呼び出すための制御信号c₄を映像生成部６へ送る。映像生成部６は現在の音量設定を映像表示部Ｇの透過スクリーンに表示する。図４の例では、現在の音量設定は「50」である。利用者がダイヤル操作部Ｄを回転させると、ダイヤル操作信号dが機能制御部３へ入力され、音量設定を変更するための制御信号c₂が音声生成部４へ、音量表示を変更するための制御信号c₄が映像生成部６へ送られる。音声生成部４は制御信号c₂に従って放音部Ｓへ出力する出力音響信号a_sの音量を上下させる。映像生成部６は制御信号c₄に従って音量表示を上下させる。

図５は、本形態の音声映像入出力装置において映像ズームを行う際の利用イメージである。まず、利用者は音声コマンド入力により「映像ズーム」と入力する。機能制御部３は「映像ズーム」という音声認識結果opに基づいて、映像ズーム機能を呼び出すための制御信号c₄を映像生成部６へ送る。映像生成部６は撮影部Ｖが現在撮影している映像を映像表示部Ｇの透過スクリーンに表示する。利用者がダイヤル操作部Ｄを回転させると、ダイヤル操作信号dが機能制御部３へ入力され、映像ズームの倍率を変更するための制御信号c₃が映像取得部５へ送られる。映像取得部５は撮影部Ｖの倍率を変化させて映像信号v_oを取得する。ハンズフリーで映像撮影をするときには頭上等に取り付けられたカメラ単体では正確に被写体が撮影者にわからないという課題があり、また撮影部Ｖを直接触るような操作も行いづらい。上述のような操作により映像ズームを行うことが可能であれば、映像範囲の確認や映像のズーム操作をスムーズに行うことが可能である。

図６は、本形態の音声映像入出力装置において映像追跡を行う際の利用イメージである。まず、利用者は音声コマンド入力により「映像追跡」と入力する。機能制御部３は「映像追跡」という音声認識結果opに基づいて、映像追跡機能を呼び出すための制御信号c₄を映像生成部６へ送る。映像生成部６は撮影部Ｖが現在撮影している映像において映像中の追跡対象候補をハイライトさせながら映像表示部Ｇの透過スクリーンに表示する。図６の例では、３個の物体が追跡対象候補として表示されており、透過スクリーン左上に位置する物体が追跡対象候補としてハイライト表示されている。ここで利用者がダイヤル操作部Ｄを回転させると、ダイヤル操作信号dが機能制御部３へ入力され、追跡対象候補を切り替えるための制御信号c₄が映像生成部６へ送られる。利用者がダイヤル操作により所望の追跡対象候補を選択し、その状態でボタン操作部Ｂを押下すると、ボタン操作信号bが機能制御部３へ入力され、追跡対象を決定するための制御信号c₃が映像取得部５へ送られる。映像取得部５は、制御信号c₃に従って決定した追跡対象の映像追跡を開始する。以降、追跡対象が撮影部Ｖの画角に存在する限り、その追跡対象を中心とした映像信号v_oが撮影される。映像追跡と映像ズームを組み合わせることにより、視界内の任意の物体をズームしながら追跡することが可能である。この場合、撮影部Ｖはパン・チルト・ズーム機能に対応している必要がある。利用者がダイヤル操作を行うことが困難な状況を想定して音声コマンド入力による追跡対象の選択も可能である。利用者が「右」「左」などを音声コマンド入力することで追跡対象候補を切り替えたり、画面上の座標を直接音声コマンド入力することにより追跡対象候補を選択したりする方法が考えられる。音声コマンド入力による追跡対象の選択を行うことで完全にハンズフリーでの操作が可能となる。

［第二実施形態］
第二実施形態の音声映像入出力装置は、図７に例示するように、n（≧2）個の収音部Ｍ₁,…,Ｍ_n、放音部Ｓ、撮影部Ｖ、映像表示部Ｇ、ダイヤル操作部Ｄ、ボタン操作部Ｂ、および通信記録部Ｃを第一実施形態と同様に含み、さらにm-n個（m≧4）の前方収音部Ｍ_n+1,…,Ｍ_mを含む。また、本形態の音声映像入出力装置は、図８に例示するように、第一実施形態の音声映像入出力装置の各構成部に加えて、目的音強調部７をさらに含む。

前方収音部Ｍ_n+1,…,Ｍ_mは、利用者が装着した際に利用者の視野に対応する方向から到来する音を収音するマイクロホンである。図７では、前方収音部Ｍ_n+1,…,Ｍ_mが前頭部の撮影部Ｖ近傍に水平に配列される例を示したが、利用者の視野に対応する方向から到来する音を収音可能であればどのような配置でもよい。

目的音強調部７は、前方収音部Ｍ_n+1,…,Ｍ_mがそれぞれ収音した前方音響信号x_n+1,…,x_mに対して目的音強調処理を行い、特定の音が強調された目的音強調信号a_o2を出力する。目的音強調信号a_o2は音声生成部４および音声出力部Ｃ１へ送られる。強調すべき音の特定は、利用者が音声コマンド入力、ダイヤル操作、およびボタン操作を用いて行う。具体的な特定の操作は後述する。目的音強調処理は公知のどのような方法を適用してもよく、例えば上記参考文献１に記載の音響信号強調技術を利用することができる。

図９は、本形態の音声映像入出力装置において音声ズームを行う際の利用イメージである。音声ズームとは、特定の音源から到来する音を集中的に収音する機能である。まず、利用者は音声コマンド入力により「音声ズーム」と入力する。機能制御部３は「音声ズーム」という音声認識結果opに基づいて、音声ズーム機能を呼び出すための制御信号c₄を映像生成部６へ送る。映像生成部６は現在の音声ズームの設定（中心位置と倍率）を映像表示部Ｇの透過スクリーンに表示する。図９の例では、太線の円の中心がズーム位置を示し、円の半径がズーム倍率の大きさを示している。利用者はダイヤル操作とボタン操作により音声ズームの設定を変更する。まずダイヤル操作部Ｄを回転させると透過スクリーン上でズーム位置の横座標が移動する。所望の位置でボタン操作部Ｂを押下すると横座標が確定する。次にダイヤル操作部Ｄを回転させると透過スクリーン上でズーム位置の縦座標が移動する。所望の位置でボタン操作部Ｂを押下すると縦座標が確定する。その後ダイヤル操作部Ｄを回転させるとズームの倍率が変化する。最後にボタン操作部Ｂを押下すると、音声ズーム設定の変更を確定するための制御信号制御信号c₁が目的音強調部７へ送られる。目的音強調部７は特定された方向から到来する音を指定の倍率で強調した目的音強調信号a_o2を出力する。音声ズームは工事現場もしくは災害現場などで、装着者の視点からの映像と音声を記録する用途が考えられる。特に、騒音下で遠距離の人物や物体の音を選択的に聞き分ける際に、透過スクリーンと連動して音声ズーム設定が行えることにより、直観的かつ効率的に操作をすることができる。上述のような操作方法は、装着者の目の位置と前方収音部Ｍ_n+1,…,Ｍ_mの位置関係が近くかつ一定であるというヘルメット一体型の装置であるがゆえに実現できるものである。

図１０は、本形態の音声映像入出力装置において音声追跡を行う際の利用イメージである。まず、利用者は音声コマンド入力により「音声追跡」と入力する。機能制御部３は「音声追跡」という音声認識結果opに基づいて、音声追跡機能を呼び出すための制御信号c₄を映像生成部６へ送る。映像生成部６は撮影部Ｖが現在撮影している映像において映像中の追跡対象候補をハイライトさせながら映像表示部Ｇの透過スクリーンに表示する。図１０の例では、３個の物体が追跡対象候補として表示されており、透過スクリーン左上に位置する物体が追跡対象候補としてハイライト表示されている。利用者がダイヤル操作部Ｄを回転させると、ダイヤル操作信号dが機能制御部３へ入力され、追跡対象候補を切り替えるための制御信号c₄が映像生成部６へ送られる。利用者がダイヤル操作により所望の追跡対象候補を選択し、その状態でボタン操作部Ｂを押下すると、ボタン操作信号bが機能制御部３へ入力され、追跡対象を決定するための制御信号c₁が目的音強調部７へ送られる。目的音強調部７は、制御信号c₁に従って決定した追跡対象の音声追跡を開始する。以降、追跡対象が撮影部Ｖの画角に存在する限り、その追跡対象の方向から到来する音を強調した目的音強調信号a_o2が出力される。音声追跡と音声ズームを組み合わせることにより、音声強調の倍率を指定することも可能である。利用者がダイヤル操作を行うことが困難な状況を想定して音声コマンド入力による追跡対象の選択も可能である。利用者が「右」「左」などを音声コマンド入力することで追跡対象候補を切り替えたり、画面上の座標を直接音声コマンド入力することにより追跡対象候補を選択したりする方法が考えられる。音声コマンド入力による追跡対象の選択を行うことで完全にハンズフリーでの操作が可能となる。

［第三実施形態］
第一実施形態および第二実施形態において、音声生成部４が外部雑音抑圧機能を備えるように構成してもよい。この場合、音声生成部４は、既存の収音部、前方収音部、もしくは専用の収音部を用いて放音部Ｓ周辺の環境雑音を取得し、その環境雑音を抑圧する信号を生成して出力音響信号a_sに加算することで環境雑音を抑圧する。このように構成することにより、騒音下で利用する場合に、放音部Ｓから出力される出力音響信号a_sが利用者にとってより聞き取りやすくなる効果がある。外部雑音抑圧処理は、公知のどのような方法を適用してもよく、例えば下記参考文献２に記載された雑音抑圧技術を用いることができる。
〔参考文献２〕特開平７−３０３１３５号公報

この発明の音声映像入出力装置のポイントは以下のとおりである。一点目は、一体型ヘルメットに目的音強調用の複数のマイクロホンを設置し、装着者の発話や周囲の音を容易に集音できるようにした点である。二点目は、装着されたカメラと複数のマイクロホンをコントロールする直観的なインターフェースとして透過スクリーンと、音声コマンド入力やダイヤル操作、ボタン操作の機能を備え、映像と音声のコントロールを直観的かつ効率的に行えるようにした点である。

この発明の音声映像入出力装置は、目的音強調機能を有しているため、高騒音環境下でも装着者の音声が明瞭に収音できる。その結果、装着者の意図を装置に伝える手段として音声コマンド入力を安定的に用いることができる。また、ダイヤルと透過スクリーンを具備したヘルメット一体型の装置とすることにより、マイクやカメラの撮影・収音について方向や強調率・倍率といったパラメータを直観的に操作することができるようになる。さらに、一体型とすることにより、装着者は両手をフリーにしながら、通信相手と現場の動画を共有しつつ、遠隔から指示を受けるなどの作業が可能となる。特に、高騒音の場所や工事現場など危険な場所で遠隔の指示者とやり取りをしながら、もしくは電子データを確認しながら作業を行う必要があるようなケースで、この発明の音声映像入出力装置を用いることで安全かつ正確、効率的に作業を行うことが可能となる。

この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

［プログラム、記録媒体］
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Ｍ収音部
Ｓ放音部
Ｖ撮影部
Ｇ映像表示部
Ｃ通信記録部
Ｄダイヤル操作部
Ｂボタン操作部
１入力音声強調部
２音声認識部
３機能制御部
４音声生成部
５映像取得部
６映像生成部
７目的音強調部
Ｃ１音声出力部
Ｃ２音声入力部
Ｃ３映像出力部
Ｃ４映像入力部

Claims

利用者の音声と環境雑音とを含む周囲の音を収音する複数の収音部と、
上記利用者の視野に対応する領域を撮影する撮影部と、
上記利用者の視野に入る位置に画面が配置された映像表示部と、
回転操作に応じて回転方向および回転角度を示すダイヤル操作信号を出力するダイヤル操作部と、
上記ダイヤル操作部の表面において回転軸の位置に配置され押下状態を示すボタン操作信号を出力するボタン操作部と、
上記収音部を用いて取得した音響信号を音声認識して音声認識結果を生成する音声認識部と、
上記撮影部を用いて映像信号を取得する映像取得部と、
上記映像信号を用いて生成した出力映像信号を上記映像表示部へ出力する映像生成部と、
上記ダイヤル操作信号、上記ボタン操作信号、および上記音声認識結果に基づいて、上記映像取得部、上記音声認識部、および上記映像生成部の機能を制御する制御信号を生成する機能制御部と、を含み、
上記複数の収音部は、
上記利用者の音声と上記環境雑音とを収音するために上記利用者の口元に配置された第一マイクロホンと、上記環境雑音のみを収音するために上記利用者の音声が届きにくい位置に配置された第二マイクロホンと、を含み、
上記ダイヤル操作部と上記ボタン操作部とを交互に操作することで、上記映像表示部に表示された映像のうち音声ズームの対象とする座標および範囲を変更可能とし、さらに、
上記機能制御部は、上記音声認識結果が音声追跡機能を呼び出すためのものであった場合、
上記表示部に前記映像信号に含まれる複数の追跡対象候補をハイライト表示し、
上記利用者の操作に基づく上記ダイヤル操作信号と上記ボタン操作信号若しくは上記利用者が発した音声コマンドに基づき上記追跡対象候補の選択を切り替え、選択された追跡対象候補を追跡対象とし、
上記追跡対象が上記撮影部の画角に存在する限り、上記追跡対象として選択された方向から到来する音を、音声ズームの対象とし続ける
音声映像入出力装置。
請求項１に記載の音声映像入出力装置であって、
上記第二マイクロホンは、上記利用者を中心として上記利用者の視野に対応する方向と反対方向に配置され、
上記複数の収音部は、上記利用者の視野に対応する方向から到来する音を収音するために上記撮影部の近傍に配置された第三マイクロホンをさらに含む、
音声映像入出力装置。