JP2007034238A

JP2007034238A - 現場作業支援システム

Info

Publication number: JP2007034238A
Application number: JP2005221648A
Authority: JP
Inventors: Takayuki Hiekata; 孝之稗方; Makiyuki Nakayama; 万希志中山
Original assignee: Kobe Steel Ltd
Current assignee: Kobe Steel Ltd
Priority date: 2005-07-29
Filing date: 2005-07-29
Publication date: 2007-02-08

Abstract

【課題】作業現場の映像や音声をその作業現場と基地局とで共有でき，作業現場での複数音源からの音声各々を区別して把握しつつ現場作業支援を行えること。
【解決手段】作業現場で音声入力するマイクロホン１１ａ〜１１ｃと，入力した複数音源からの音声が重畳された混合音声信号から音源各々に対応する分離信号各々を音源分離処理部Ｚで生成し，生成した複数の分離信号からマルチプレクサ１４によりいずれかを選択若しくは複数を選択し，現場映像をカメラ１８で撮像し，マルチプレクサ１４で選択された分離信号及びカメラ１８で得た現場映像を無線通信部２３等によりネットワーク７０を通じて基地局装置Ｃへ送信し，基地局装置Ｃにおいて受信した分離信号をスピーカ６３で音声出力し，受信した現場映像を表示部６２ａに表示し，基地局装置Ｃで現場の支援情報を設定して現場の端末装置Ａに送信し，その支援情報を現場でＨＭＤ２５に表示させる。
【選択図】図１

Description

本発明は，作業現場と基地局との間で情報伝送を行うことにより現場作業を支援する現場作業支援システムに関するものである。

設備の保全や故障診断等の作業を行うにあたって，多くの場合，実際に広大な工場における設備の設置場所や出張先における設備の運転場所等の作業現場に出向いて現場作業が行われる。
一方，現場作業に精通した熟練者の数は年々減少する傾向にあり，少ない熟練者によって日々の現場作業を効率的に行いながら，後継者を育成することが重要課題となっている。
これに対し，熟練者を工場における中央制御室や基地となる事務所等の基地局に，非熟練作業者を各作業現場に各々配置し，各作業現場から基地局へ現場の情報を伝送することによって現場作業者と基地局の熟練者との間で現場の情報を共有するとともに，熟練者が存在する基地局から作業現場へ作業の支援情報を伝送することにより，現場作業を支援する現場作業支援システムが有効である。これにより，熟練者は，基地局に居ながらにして各作業現場の非熟練作業者を支援でき，非熟練作業者を通じて間接的に日々の現場作業を行いつつ，その非熟練作業者を育成指導できる。
また，特許文献１には，設備機器の過去の状態を表す履歴データを，作業管理サーバから現場作業者が身に付けるウェアラブルコンピュータへ伝送し，現場作業者側でその履歴データを表示させる現場支援システムが示されている。
特開２００２−２８７８１５号公報特開２００４−１４５１７２号公報特開平８−２７５２８１号公報猿渡洋，「アレー信号処理を用いたブラインド音源分離の基礎」電子情報通信学会技術報告，vol.EA2001-7，pp.49-56，April 2001. 高谷智哉他，「SIMOモデルに基づくICAを用いた高忠実度なブラインド音源分離」電子情報通信学会技術報告，vol.US2002-87，EA2002-108，January 2003. N.Murata and S. Ikeda. A on-line algorithm for blind source separation on speech signals. In Proceedings of NOLTA'98, pp. 923-926,1998 梶田，小林，武田，板倉，「ヒューマンスピーチライク雑音に含まれる音声的特徴の分析」，日本音響学会誌，53巻5号，pp.337-345 (1997) 鵜飼訓史他，「周波数領域ＩＣＡと時間領域ＩＣＡを統合したＳＩＭＯモデル信号のブラインド抽出法の評価」，電子情報通信学会技術報告，vol.EA2004-23, pp.37-42,June 2004 T.Nishikawa, H.Saruwatari, and K.Shikano,"Comparison of blind source separation methods based on time-domain ICA using nonstationarity and multistage ICA",IEICE Technical Report, vol.EA2001-112, pp49-56, April 2001. R.F.Lyon, "A computational model of binaural localization and separation," In Proc. ICASSP, 1983. M. Bodden, "Modeling human sound-source localization and the cocktail-party-effect," Acta Acoustica, vol.1, pp.43--55, 1993.

ところで，現場作業においては，作業現場において実際に稼働中の設備の目視情報（映像情報）に加え，その設備が発する音の情報が状況判断をする上で重要となる場合が多い。そこで，作業現場における映像や音声を基地局に伝送し，熟練者がその映像や音声に基づいて現場の状況判断を行うことが望ましい。しかしながら，作業現場にマイクロホンを配置した場合，そのマイクロホンには，複数の設備各々からの運転音や他の作業者の話し声等の様々な音源からの音声が重畳された混合音声信号が入力される場合が多く，それをそのまま基地局の熟練者に伝送しても，熟練者はその混合音声に基づいて設備の状況を的確に把握することが難しいという問題点があった。
従って，本発明は上記事情に鑑みてなされたものであり，その目的とするところは，作業現場の映像や音声をその作業現場と基地局とで共有できるとともに，作業現場における複数の音源からの音声各々を区別して把握できる現場作業支援システムを提供することにある。
なお，複数の音源からの音声信号が混合された信号から各音源に対応する信号を分離する技術としては，以下のようなものがある。
例えば，所定の音響空間に複数の音源と複数のマイク（音声入力手段）とが存在する場合，その複数のマイクごとに，複数の音源各々からの個別音声信号（以下，音源信号という）が重畳された音声信号（以下，混合音声信号という）が取得される。このようにして取得（入力）された複数の前記混合音声信号のみに基づいて，前記音源信号各々を同定（分離）する音源分離処理の方式は，ブラインド音源分離方式（Blind Source Separation方式，以下，ＢＳＳ方式という）と呼ばれる。
さらに，ＢＳＳ方式の音源分離処理の１つに，独立成分分析法（Independent Component Analysis，以下，ＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理がある。このＩＣＡ法に基づくＢＳＳ方式は，複数のマイクを通じて入力される複数の前記混合音声信号（時系列の音声信号）において，前記音源信号どうしが統計的に独立であることを利用して所定の分離行列（逆混合行列）を最適化し，入力された複数の前記混合音声信号に対して最適化された分離行列によるフィルタ処理を施すことによって前記音源信号の同定（音源分離）を行う処理方式である。その際，分離行列の最適化は，ある時点で設定されている分離行列を用いたフィルタ処理により同定（分離）された信号（分離信号）に基づいて，逐次計算（学習計算）により以降に用いる分離行列を計算することによって行われる。このようなＩＣＡ法に基づくＢＳＳ方式の音源分離処理は，例えば，非特許文献１〜５等に詳説されている。さらに，非特許文献６には，多段階のＩＣＡ法に基づくＢＳＳ方式の音源分離処理について示されている。
また，特許文献２には，周波数領域におけるブラインド音源分離処理において，permutation（周波数解析窓ごとに分離音源の入れ替わりが発生する現象）の問題を分離信号の類似度計算によって解決する技術が示されている。
また，その他の音源分離処理としては，例えば，バイノーラル信号処理（分解）を起源として３つ以上の音源信号の分離が可能なバイナリーマスキング処理等による音源分離処理も知られている。バイノーラル信号処理は，人間の聴覚モデルに基づいて複数の入力音声信号に時変のゲイン調節を施して音源分離を行うものであり，比較的低い演算負荷で実現できる音源分離処理である。これについては，例えば，非特許文献７や非特許文献８等に詳説されている。また，帯域フィルタ処理や，複数の音源が空間的に離れている場合に，複数のマイクロホンに到達する波面の時間差を遅延器によって調整することにより，同定対象とする音源を強調して分離する遅延和型ビームフォーマ音源分離処理等もある。

上記目的を達成するために本発明は，所定の作業現場と基地局との間で情報（信号）の伝送を行うことにより，作業現場での作業を基地局側から支援する現場作業支援システムとして構成されるものであり，作業現場において音声を入力する現場音声入力手段と，これにより入力される複数の音源からの音声が重畳された混合音声の信号からその音源各々に対応する音声信号を分離した分離信号各々を生成する音源分離手段と，これにより生成された複数の前記分離信号からいずれかを選択若しくは複数を選択する分離信号選択手段と，作業現場において映像を撮像する撮像手段と，前記分離信号選択手段により選択された前記分離信号及び前記撮像手段により撮像された現場の映像信号を所定の信号伝送媒体を通じて基地局へ送信する現場信号送信手段と，前記基地局において前記現場信号送信手段からの送信信号を受信する基地局信号受信手段と，前記基地局において前記基地局信号受信手段により受信された前記分離信号を音声出力する基地局音声出力手段と，前記基地局において前記基地局信号受信手段により受信された前記現場の映像信号に基づく映像を表示する基地局映像表示手段と，前記基地局において所定の支援情報を設定する支援情報設定手段と，これにより設定された前記支援情報を前記信号伝送媒体を通じて前記作業現場へ送信する支援情報送信手段と，前記作業現場において前記支援情報送信手段による送信情報を受信する支援情報受信手段と，前記作業現場において前記支援情報受信手段により受信された前記支援情報に基づく情報を出力（表示若しくは音声出力）する支援情報出力手段と，を具備する現場作業支援システムとして構成されるものである。
これにより，作業現場の映像や音声をその作業現場と基地局とで共有できるとともに，基地局側において，作業現場における複数の音源からの音声各々の中から聞きたい音源の音声のみを聞くことができ，作業現場の音の状況を的確に把握できる。

ここで，前記支援情報設定手段が，前記基地局映像表示手段の表示映像における任意の部分を指定する映像部分指定情報を前記支援情報として設定する映像部分指定手段を備えるとともに，前記支援情報出力手段が，前記撮像手段により得られる前記現場の映像信号に基づく映像と，前記支援情報受信手段によって受信された前記映像部分指定情報による指定部分を特定する映像（指定部分を指し示す矢印映像や指定部分を囲む枠映像等）とを併せて映像表示する現場映像表示手段を備えたものであれば好適である。
これにより，作業現場で視認される特定の設備や設備の特定箇所を基地局側から指定しながらの作業指示等の的確な作業支援を行うことが可能となる。
また，前記支援情報設定手段が，前記支援情報の候補を予め記憶する支援情報記憶手段の記憶情報の中から前記作業現場に送信する前記支援情報を選択して設定する支援情報選択手段を備えたものであれば好適である。
これにより，現場作業に有用な設備の説明情報や過去の作業履歴情報等を迅速に現場作業者に提供することができ，迅速かつ的確な作業支援を行うことが可能となる。
これらの他，基地局が，各設備の温度や回転数等の運転情報を監視するシステムが配置されている中央制御室等であるような場合には，前記支援情報設定手段が，その監視システムを通じて得られる作業現場に存在する設備の現在の運転情報（監視画面の映像や運転情報の数値そのもの等）を前記支援情報として設定するものであっても有効である。

また，前記分離信号選択手段が，前記基地局において所定の操作入力手段を通じて入力される選択情報（第１の選択情報）を前記信号伝送媒体を通じて前記作業現場に伝送し，その選択情報に従って前記作業現場において前記分離信号を選択する遠隔選択手段を備えたものであれば，熟練者が主導で分離信号の選択を行えるので，円滑なシステム運用に好適である。
また，前記現場信号送信手段を，前記分離信号選択手段により複数の前記分離信号が選択された場合に，選択された複数の前記分離信号を合成した音声信号を前記現場の映像信号とともに前記基地局へ送信するよう構成したものも考えられる。
これにより，前記音源分離手段により必要以上に音源が細分化された前記分離信号が生成された場合に，前記分離信号を現場状況の判断に必要な単位にまとめて（合成して）基地局側で把握することが可能となる。また，複数の前記分離信号を分けて伝送する場合に比べ，伝送する音声の情報量を減らし，伝送トラフィックを低減することができる。

一方，前記作業現場において前記分離信号選択手段により選択された前記分離信号を音声出力する現場音声出力手段を設ければ，作業現場においても各音源からの音声を区別して聞くことができ好適である。
この場合，前記分離信号選択手段が，前記作業現場における所定の操作入力手段を通じて入力される選択情報（第２の選択情報）に従って前記分離信号を選択する現場選択手段を備えたものであればなお好適である。
これにより，例えば基地局からの支援を受けずに現場作業者が自らの判断で分離信号を選択して聞きたい場合に対応できる。
また，前述した基地局側と同様に，前記現場音声出力手段が，前記分離信号選択手段により複数の前記分離信号が選択された場合に，選択された複数の前記分離信号を合成した音声信号を音声出力するものであれば，作業現場側においても，前記分離信号を現場状況の判断に必要な単位にまとめて（合成して）把握することが可能となり好適である。
また，前記現場音声入力手段，前記撮像手段及び前記支援情報出力手段が，前記作業現場における作業者の身体に装着可能に構成された（いわゆる，ウェアラブルな）ものであれば，現場作業者の作業性が高まり好適である。

本発明によれば，作業現場の映像や音声をその作業現場と基地局とで共有できるとともに，基地局側において，作業現場における複数の音源からの音声各々の中から聞きたい音源の音声のみを聞くことができ，作業現場の音の状況を的確に把握した上で，基地局から作業現場へ支援情報を提供できる。その結果，基地局側から作業現場側に対して的確な作業支援を行うことが可能となる。

以下添付図面を参照しながら，本発明の実施の形態について説明し，本発明の理解に供する。尚，以下の実施の形態は，本発明を具体化した一例であって，本発明の技術的範囲を限定する性格のものではない。
ここに，図１は本発明の実施形態に係る現場作業支援システムＸの概略構成図，図２は現場作業支援システムＸにおける端末装置Ａをウェアラブルに構成した場合の外観の一例を表す図，図３は現場作業支援システムＸにおける基地局側と現場側の各表示画面例を表す図，図４は現場作業支援システムＸが備える音源分離処理部Ｚに適用され得るＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離装置Ｚ１の概略構成を表すブロック図，図５は音源分離処理部Ｚに適用され得るＦＤＩＣＡ法に基づく音源分離処理を行う音源分離装置Ｚ２の概略構成を表すブロック図，図６はＩＣＡ−ＢＳＳ方式の音源分離処理における分離行列計算の第１例を説明するためのタイムチャート，図７はＩＣＡ−ＢＳＳ方式の音源分離処理における分離行列計算の第２例を説明するためのタイムチャート，図８は音源分離処理部Ｚに適用され得るバイナリーマスキング処理を説明するための図である。

まず，図１に示す概略構成図を参照しつつ，本発明の実施形態に係る現場作業支援システムＸ（以下，支援システムＸという）について説明する。
支援システムＸは，所定の作業現場と基地局との間で情報（信号）の伝送を行うことにより，作業者による作業現場での作業を，熟練者によって基地局側から支援する現場作業支援システムである。
図１に示すように，支援システムＸは，端末装置Ａと中継装置Ｂと基地局装置Ｃとを備えて構成されている。
端末装置Ａは，作業者が居る工場等の作業現場に存在し，作業者のヘルメット等に装着されて作業者とともに移動する。
中継装置Ｂは，作業現場に配置され，端末装置Ａと無線ＬＡＮ通信等によって無線通信を行うとともに，インターネットやＬＡＮ等の所定のネットワーク７０を介して基地局装置Ｃと通信を行うことにより，端末装置Ａと基地局装置Ｃとの間の通信を中継する。
一方，基地局装置Ｃは，熟練者が居る工場等における管理棟や所定の事務所等である基地局に配置され，中継装置Ｂ及びネットワーク７０を介して端末装置Ａと通信を行う。

次に，端末装置Ａについてより詳細に説明する。
端末装置Ａは，作業現場において音声を入力する複数のマイクロホン１１ａ〜１１ｄ（現場音声入力手段の一例）と，そのマイクロホンによる入力音声信号を増幅するアンプ１２ａ〜１２ｄと，アンプにより増幅された音声信号をＡ／Ｄ変換するＡ／Ｄコンバータ１３とを備える。
作業現場には運転中の複数の設備や他の作業者等が存在するため，各マイクロホン１１ａ〜１１ｄには，複数の設備各々からの運転音や他の作業者の話し声等，様々な音源からの音声が重畳された混合音声信号が入力される。
さらに，端末装置Ａは，複数（図１では３つ）のマイクロホン１１ａ〜１１ｃにより入力される混合音声信号から，音源各々に対応する音声信号を分離した分離信号各々を音源分離に用いた混合音声信号の数（マイクロホン１１ａ〜１１ｃの数）だけ生成する音源分離処理部Ｚと，これにより生成された複数の分離信号（音声信号）からいずれか１つ又は複数を選択するマルチプレクサ１４（分離信号選択手段の一例）と，これにより選択された分離信号が複数である場合にその複数の分離信号（音声信号）を合成する音声合成部１５と，２つのマイクロホン１１ｃ，１１ｄにより入力された音声信号について，Ａ／Ｄ変換後にそれらの差分を求める減算器１６とを具備している。以下，減算器１６による減算処理後の分離信号（音声信号）を差分音声信号という。
また，音声合成部１５は，ＰＣＭデジタル信号（音声信号）を加算すること等により音声合成を行い，マルチプレクサ１４により１つの分離信号のみが選択された場合は，それをそのまま出力する。
ここで，音源分離処理部Ｚは，独立成分分析に基づく音源分離法や，マイクロホンアレイの遅延和型ビームフォーマ，或いはバイナリーマスク法等に基づく音源分離処理により，マイクロホン１１ａ〜１１ｃが置かれた音響環境に存在する複数の音源からの音声を分離（同定）するものである。音源分離処理の具体例については後述する。

また，端末装置Ａは，作業現場において映像を撮像する撮像手段であるカメラ１８と，これにより入力される映像信号を増幅するアンプ１２ｅと，増幅後の映像信号をＡ／Ｄ変換するＡ／Ｄコンバータ１３（前述）とを具備している。
さらに，端末装置Ａは，カメラ１８により得られた映像信号（Ａ／Ｄ変換後），前記差分音声信号及び前記音声合成部１５が出力する音声信号（分離信号若しくは複数の分離信号の合成信号）の各々に対して所定の符号化処理を施す符号化部２０と，ＣＰＵ及びその周辺装置からなるコンピュータである制御演算部２２と，この制御演算部２２に接続された表示装置であるＨＭＤ２５(Head Mounted Display)と，同じく制御演算部２２に接続された操作部２６と，制御演算部２２と中継装置Ｂとの間における無線ＬＡＮ等プロトコルに基づく無線通信制御を行う無線通信部２３とを具備している。この無線通信部２３は，無線通信に用いる無線信号を送受信するアンテナ２４とを備えている。
そして，制御演算部２２及び無線通信部２３は，マルチプレクサ１４により選択された分離信号と，カメラ１８により撮像された現場の映像信号と，前記差分音声信号とを，無線通信及びネットワーク７０（信号伝送媒体）を通じて，基地局側の基地局装置Ｃへ送信する（現場信号送信手段の一例）。
また，前述した音声合成部１５の機能により，マルチプレクサ１４（分離信号選択手段）によって複数の分離信号が選択された場合には，選択された複数の分離信号を合成した音声信号が，基地局装置Ｃ側へ送信される。

また，端末装置Ａは，マルチプレクサ１４により選択された分離信号が符号化部２０により符号化された音声信号，或いは基地局側から送信されてくる符号化された音声信号が制御演算部２２に取り込まれた際に，そのいずれかを復号化する復号化部２１と，復号化された音声信号をＤ／Ａ変換するＤ／Ａコンバータ１７と，Ｄ／Ａ変換後の音声信号を増幅するアンプ１２ｆと，増幅後の音声信号を音声出力するスピーカ１９とを具備している。なお，前述した音声合成部１５の機能により，マルチプレクサ１４（分離信号選択手段）によって複数の分離信号が選択された場合には，選択された複数の分離信号を合成した音声信号が，スピーカ１９により音声出力される。
即ち，スピーカ１９は，基地局側から受信した音声信号を音声出力する手段であるとともに，作業現場においてマルチプレクサ１４により選択された分離信号を音声出力する手段（現場音声出力手段の一例）でもある。
また，前述した音声合成部１５の機能により，マルチプレクサ１４（分離信号選択手段）により複数の分離信号が選択された場合には，選択された複数の分離信号を合成した音声信号が，スピーカ１９から音声出力される。
一方，中継装置Ｂは，アンテナ５１を備えたアクセスポイント装置５０と，このアクセスポイント装置５０とネットワーク７０との間で信号変換を行うモデム５２とを具備している。
アクセスポイント装置５０は，端末装置Ａとの間で無線ＬＡＮ等による無線通信を行うとともに，ＴＣＰ／ＩＰプロトコル等に基づく通信を基地局装置Ｃとの間で行うことにより，無線端末Ａと基地局装置Ｃとの間の通信を中継する。

図２は，端末装置Ａが備えるマイクロホン１１ａ〜１１ｄ，カメラ１８，スピーカ１９及びＨＭＤ２５等を，ヘルメット４０に取り付けることにより作業現場における作業者の身体に装着可能に構成した場合，いわゆるウェアラブルに構成した場合の外観の一例を表した図である。
図２に示す例では，２つのマイクロホン１１ａ，１１ｂが，作業者が身に付けるヘルメット４０の上部や側面部等に取り付けられ，カメラ１８がヘルメット４０の正面に取り付けられている。
また，ヘルメット４０の側面下部には，当該ヘルメット４０をかぶる作業者の耳に近接するようにスピーカ１９が内蔵されるとともに，アンテナ２４が支持されたヘッドホン４１が取り付けられている。従って，後述するように基地局装置Ｃにおいて熟練者の発する音声が入力され，その音声信号が無線通信部２３及び制御演算部２２により受信され，スピーカ１９により音声出力されると，ヘルメット４０をかぶる作業者により聴取される。これにより，基地局側からの熟練者による音声による作業指示等を作業現場の作業者が聞き取ることができる。
なお，スピーカ１９は，ヘッドホン４１として構成されたものの他，作業者の耳穴に挿入されるイヤホンとして構成されたものも考えられる。いずれにしても，ヘッドホンやイヤホンのように，周りの騒音を遮断してその影響を受けにくい構成とすることが望ましい。
また，特許文献３に示されるように，ノイズキャンセル型ヘッドフォンを用いれば，雑音除去による周囲の音の遮音効果はさらに高まる。
なお，端末装置Ａが備える図２に示すもの以外の構成要素については，例えば，ヘッドホン４１に内蔵させることや，ベルト等に装着可能な本体ユニットに内蔵させ，その本体ユニットとマイクロホン１１ａ〜１１ｄやカメラ１８等とを所定の信号線で接続した構成とすること等が考えられる。

さらに，ヘッドホン４１には，ヘルメット４０をかぶる作業者の片目の斜め前方に位置するように，ＨＭＤ２５がアーム部４２を介して支持されている。
これにより，作業者は，作業を行いながらＨＭＤ２５の表示内容を見ることができる。
また，残り２つのマイクロホン１１ｃ，１１ｄは，ヘッドホン４１に設けられたアーム部４３により，ヘルメット４０をかぶる作業者の口元に近接する位置に支持されている。但し，その一方のマイクロホン１１ｄは，作業者の口元に向けて取り付けられ，他方のマイクロホン１１ｃは，その反対方向に向けて取り付けられている。ここで，口元に向けられたマイクロホン１１ｄは，向けられた方向に対して指向性を有する。
このような配置により，作業者が発する声は，マイクロホン１１ｃ，１１ｄの両方に入力（集音）されるが，マイクロホン１１ｄの方に，より効率的に（高い強度で）入力（集音）される。同時に，マイクロホン１１ｃ，１１ｄは近接しているので，周囲にある設備の運転音等の雑音についてはほぼ同等のレベルで入力される。従って，マイクロホン１１ｄによる入力音声信号からマイクロホン１１ｃによる入力音声信号を差し引いた前記差分音声信号（減算器１６の出力信号）は，雑音の混入が少なく作業者が発する音声がよりクリアに再現された音声信号となる。この差分音声信号を基地局側に送信し，基地局装置Ｃを通じて音声出力することにより，作業現場における雑音のボリュームが大きい場合であっても，基地局側で作業者の声をクリアに聞き取ることが可能となる。
ここで，図１に示したように，マイクロホン１１ｃにより入力される音声信号は，音源分離処理にも用いられる。従って，マイクロホン１１ｃは，作業者の発する音声の入力用と，音源分離に用いる混合音声信号の入力用とに兼用されるものである。

次に，基地局装置Ｃについて説明する。
図１に示すように，基地局装置Ｃは，モデム６１，計算機６２，スピーカ６３及びマイクロホン６４を備えている。
モデム６１は，計算機６２とネットワーク７０との間において無線信号の変換を行う。
計算機６２は，ＣＰＵ及びその周辺装置を備えた不図示の演算処理部，及びモデム６１を通じて端末装置Ａとの通信を行う不図示の通信インターフェースに加え，読み書き可能なハードディスク等の不揮発性記憶手段である記憶装置６２ｃと，マウスやキーボード等からなる操作入力手段である操作入力部６２ｂと，液晶ディスプレイ等の表示手段である表示部６２ａとを備えたパーソナルコンピュータ等である。

ここで，支援システムＸは，以下の各機能を備えている。なお，以下に示す各機能における，基地局装置Ｃが分担する部分は，予め計算機６２の記憶装置６２ｃに記憶された所定のプログラム（現場作業支援プログラム）を計算機６２の演算処理部（不図示）が実行することにより具現される。
まず，支援システムＸは，基地局装置Ｃにおいて，作業現場における端末装置Ａの無線通信部２３（現場信号送信手段の一例）からの送信信号（送信データ）を，中継装置Ｂ及びネットワーク並びにモデム６１を通じて受信する基地局信号受信機能を有する。
受信される信号（データ）としては，作業現場における端末装置Ａの音源分離処理部Ｚによって混合音声信号から分離された分離信号（音声信号）のうち，マルチプレクサ１４でいずれかの分離信号が選択された場合にはその分離信号（音声信号）のデータが，マルチプレクサ１４によって複数の分離信号が選択された場合にはそれらが音声合成部１５によって合成された音声信号のデータが受信される。
さらに，端末装置Ａのカメラ１８で撮像される映像信号のデータも受信される。
そして，支援システムＸは，基地局装置Ｃにおいて，受信した映像信号のデータに復号化処理を施し，さらに復号化後の映像信号のデータに基づく映像（作業現場の映像）を，計算機６２の表示部６２ａに表示させる映像表示制御機能を有する。即ち，表示部６２ａは，基地局において受信された作業現場の映像信号に基づく映像を表示する手段（基地局映像表示手段）と，当該計算機６２を操作する際のマンマシンインターフェース機能を果たす表示手段とを兼ねたものである。
加えて，支援システムＸは，基地局装置Ｃにおいて，受信した音声信号のデータ，即ち，端末装置Ａの音源分離処理部Ｚにより生成された分離信号若しくは複数の分離信号の合成信号，及び主として作業現場の作業者が発する音声が主となっている前記差分音声信号の各データに復号化処理を施し，さらに復号化後の音声信号のデータに基づく音声を，スピーカ６３を通じて音声出力させる基地局音声出力機能と，作業現場の端末装置Ａにおけるマルチプレクサ１４を基地局装置Ｃ側から遠隔制御して分離信号を選択する遠隔選択機能を有する。なお，スピーカ６３は，作業現場の端末装置Ａにおいてマルチプレクサ１４（分離信号選択手段）により選択された分離信号（不図示の通信インターフェースを介して受信した分離信号）を音声出力する手段（基地局音声出力手段）と，現場の作業者が発する音声を基地局側で音声出力する手段とを兼ねたものである。

ここで，図３に示す基地局側（ａ）と現場側（ｂ）の各表示画面例を参照しつつ，遠隔選択機能及び基地局音声出力機能について詳説する。
まず，遠隔選択機能について説明する。
計算機６２において現場作業支援プログラムが起動されると，基地局側の表示部６２ａには，図３（ａ）に示すように，音源選択メニューｇ３（図３（ａ）ではプルダウンメニュー）と，音源音声（分離信号）の出力／停止の切替ボタンｇ４とを含む画面が表示される。
基地局の計算機６２は，その操作部６２ａに対し，音源選択メニューｇ３における選択肢である音源ａ，音源ｂ，音源ｃの中からの任意の１つ又は複数の組み合わせを選択する操作が行われると，その音源選択情報（第１の選択情報）が前記通信インターフェースにより，作業現場の端末装置Ａに対してネットワーク７０を通じて伝送される。
これに対し，作業現場の端末装置Ａにおける制御演算部２２は，無線通信部２３を通じて受信された音源選択情報に従って，マルチプレクサ１４を制御することにより分離信号を選択するとともに，現在の選択状況を表す情報ｇ３’をＨＭＤ２５に表示させる。これが遠隔選択機能である。
なお，端末装置Ａにおいて，操作部２６から入力される所定の選択情報に従って制御演算部２２がマルチプレクサ１４を制御することにより，端末装置Ａ側で分離信号の選択を可能とする現場選択機能を加えた構成や，或いは遠隔選択機能をこの現場選択機能に置き換えた構成等も考えられる。

次に，基地局音声出力機能について説明する。
前述の遠隔選択機能により１又は複数の分離信号が選択されると，選択された１つの分離信号若しくは選択された複数の分離信号の合成信号が音声合成部１５から出力され，それが符号化部２０によって符号化されて制御演算部２２に取り込まれる。
一方，基地局装置Ｃにおいて，計算機６２の操作部６２ｂを通じて切替ボタンｇ４の操作がなされ，「出力」又は「停止」のいずれかが選択されると，その選択結果を表す出力選択情報が計算機６２の通信インターフェースによりネットワーク７０を通じて作業現場の端末装置Ａに送信される。

これに対し，端末装置Ａでは，無線通信部２３により上記出力選択情報が受信され，制御演算部２２に取り込まれる。そして，その出力選択情報が「出力」である場合は，制御演算部２２は，その後，その出力選択情報に対応する情報ｇ４’をＨＭＤ２５に表示させるとともに，無線通信部２３を制御することによって符号化部２０から逐次入力される符号化後の音声信号（分離信号又は合成信号）を，ネットワーク７０を通じて基地局装置Ｃに対して逐次送信する。さらにそれと並行して，符号化後の分離信号若しくはその合成信号を復号化部２１によって復号化，及びＤ／Ａコンバータ１７によってＤ／Ａ変換し，スピーカ１９によって音声出力する。一方，受信された出力選択情報が「停止」である場合は，制御演算部２２は，以後，その出力選択情報に対応する情報ｇ４’をＨＭＤ２５に表示させるとともに，新たに「出力」の出力選択情報が得られるまで分離信号又はその合成信号については，基地局装置Ｃに対して送信しない。
これにより，切替ボタンｇ４により「出力」が選択されている間は，分離信号若しくはその合成信号が作業現場の端末装置Ａから基地局装置Ｃに逐次伝送され，前述の基地局信号受信機能により，基地局装置Ｃにおける計算機６２によって分離信号若しくはその合成信号が受信され，受信された分離信号若しくはその合成信号が計算機６２によって復号化及びＤ／Ａ変換されてスピーカ６３により音声出力される。これが基地局音声出力機能である。
このように，基地局において，作業現場における複数の音源からの音声各々の中から聞きたい音源の音声のみを選択して聞くことができ，熟練者は，作業現場の音の状況を的確に把握できる。

さらに，支援システムＸは，基地局装置Ｃにおいて現場作業の支援情報を設定する支援情報設定機能，設定された支援情報をネットワーク７０を通じて作業現場の端末装置Ａに送信する支援情報送信機能，その送信情報を作業現場において受信する支援情報受信機能，及びその支援情報受信機能により受信された支援情報に基づく情報を作業現場において出力する支援情報出力機能を有している。
以下，図３の表示画面例を参照しつつ，支援情報設定機能及びその関連機能について説明する。
計算機６２において現場作業支援プログラムが起動されると，基地局側の表示部６２ａには，図３（ａ）に示すように，前述した音源選択メニューｇ３及び音源音声の出力／停止の切替ボタンｇ４に加え，検索キーワード入力枠ｇ１と，検索ボタンｇ２と，現場映像ｇ５と，検索結果送信ボタンｇ６と，検索結果表示枠ｇ７と，現場映像内の部分指定ポインタｇ８とが表示される。
計算機６２の記憶装置６２ｃには，作業現場に設置された各設備に関する取扱説明書や，過去の保守記録情報等，現場の作業者にとって有用な各種の支援情報が，設備名や各情報の名前（取扱説明書，保守履歴，…）等の１又は複数のキーワードと関連付けられた支援情報データベースとして予め登録（記憶）されている。ここで，記憶装置６２ｃが支援情報記憶手段の一例である。
そして，操作部６２ｂを通じて検索キーワード入力枠ｇ１にキーワードが入力され，検索ボタンｇ２が操作されると，入力されたキーワードに関連する支援情報が検索され，検索結果である支援情報が検索結果表示枠ｇ７に表示される。これは，検索キーワードに基づいて，支援情報データベースに登録（記憶）された支援情報の候補の中から，作業現場に送信する支援情報を選択して設定する処理である（支援情報選択手段の一例）。
このように検索結果が得られた状態で，検索結果送信ボタンｇ６が操作されると，その検索結果（支援情報）が，前記通信インターフェース及びモデム６１（支援情報送信手段の一例）により，ネットワーク７０を通じて作業現場の端末装置Ａに送信される。これが支援情報送信機能である。

一方，端末装置Ａでは，作業現場側のモデム５２及びアクセスポイント５０を通じて伝送されてくる支援情報が，無線通信部２３（支援情報受信手段の一例）により受信される。これが支援情報受信機能である。
さらに，制御演算部２２によりＨＭＤ２５が制御され，受信された支援情報がＨＭＤ２５の表示画面における支援情報表示枠ｇ７’に表示（画像として出力）される。これが支援情報出力機能である。
これにより，基地局側から作業現場に適切な情報を提供して効果的な現場作業の支援を行うことができる。
例えば，音源分離処理部Ｚにより得られた分離信号から，ある設備の異常な運転音が確認された場合に，その設備の取扱説明書や過去の保守情報等を支援情報として作業現場のＨＭＤ２５に表示させれば，作業者は，迅速に適切な処置をとることができる。また，比較的経験の浅い作業者の訓練にもなる。
一方，基地局の計算機６２は，その表示部６２ａに作業現場から送信されてきた現場映像ｇ５を表示させるが，操作部６２ｂの所定の操作（マウス操作等）に従って，例えば矢印形状の部分指定ポインタｇ８の表示位置を現場映像ｇ５の表示範囲で任意に移動させ，その部分指定ポインタｇ８の移動によって現場映像ｇ５における任意の部分を指定できる映像部分指定機能を備えている。
さらに，基地局の計算機６２は，現場映像ｇ５内における部分指定ポインタｇ８の位置情報（座標情報（映像部分指定情報の一例））を，前記通信インターフェースにより作業現場の端末装置Ａへ送信する機能を備える。

一方，端末装置Ａでは，基地局側から送信されてくる部分指定ポインタｇ８の位置情報が無線通信部２３（支援情報受信手段の一例）により受信される。
さらに，図３（ｂ）に示すように，端末装置Ａの制御演算部２２は，カメラ１８により得られる作業現場の映像信号に基づく現場映像ｇ５’をＨＭＤ２５に表示させるとともに，その現場映像ｇ５’と併せて，受信された部分指定ポインタｇ８の位置情報に対応する位置（部分）を指し示す位置に部分指定ポインタｇ８’の映像をＨＭＤ２５に表示させる。これにより，基地局の熟練者が，作業現場における特定の設備等を指し示しながら指示を与えることができる等，的確な現場支援が可能となる。即ち，部分指定ポインタｇ８の位置情報も，基地局装置Ｃから作業現場の端末装置Ａに送信する支援情報の一つといえ，その部分指定ポインタｇ８の位置情報を設定（指定）する上記映像部分指定機能は，支援情報設定機能の一例として捉えることができる。
なお，部分指定ポインタｇ８，ｇ８’は，矢印状の映像（画像）の他，所定の範囲（部分）を囲む枠の映像や，あるポイントを指す「×」状の映像等，各種考えられ，それらを切り替え可能に構成してもよい。

また，支援システムＸは，基地局装置Ｃのマイクロホン６４により入力された音声信号を作業現場の端末装置Ａに送信し，その音声信号を作業端末Ａのスピーカ１９により音声出力する基地局音声現場出力機能を有する。
この基地局音声現場出力機能は，基地局装置Ｃにおいて，マイクロホン６４を通じて入力された音声信号をＡ／Ｄ変換及び符号化して作業現場の端末装置Ａに送信するとともに，端末装置Ａにおいて，その音声信号を無線通信部２３を通じて受信するとともに，その音声信号について復号化部２１による復号化及びＤ／Ａコンバータ１７によるＤ／Ａ変換を行った後にスピーカ１９によって音声出力することにより実現される。
これにより，基地局の熟練者は，音声によって作業現場の作業者に指示やアドバイスを送ることができ，円滑な作業支援が行える。
ここで，基地局装置Ｃで入力される音声信号も，基地局装置Ｃから作業現場の端末装置Ａに送信する支援情報の一つといえ，その音声信号を入力（設定）する機能は，支援情報設定機能の一例として捉えることができる。

次に，音源分離処理部Ｚによる音源分離処理の具体例について説明する。
まず，音源分離処理部Ｚに適用可能な音源分離処理の一例として，図４及び図５に示すブロック図を参照しつつ，独立成分分析法に基づくブラインド音源分離方式（以下，ＩＣＡ−ＢＳＳ方式という）の音源分離処理について説明する。
なお，以下に示すＩＣＡ−ＢＳＳ方式の音源分離処理は，いずれも所定の音響空間に複数の音源と複数のマイクロホン（現場音声入力手段）とが存在する状態で，そのマイクロホン各々を通じて入力される前記音源各々からの個別の音声信号（以下，音源信号という）が重畳された複数の混合音声信号から，１以上の音源信号を分離（同定）した分離信号を生成して出力信号とする音源分離処理或いはその処理を行う装置等に関するものである。
図４は，ＩＣＡ法の一種である時間領域独立成分分析法（time-domain independent component analysis法，以下，ＴＤＩＣＡ法という）に基づくＢＳＳ方式の音源分離処理を行う従来の音源分離装置Ｚ１の概略構成を表すブロック図である。なお，本処理の詳細は，非特許文献１や非特許文献２等に示されている。
音源分離装置Ｚ１は，分離フィルタ処理部１００により，２つの音源１，２からの音源信号Ｓ1(ｔ)，Ｓ2(ｔ)（音源ごとの音声信号）を２つのマイクロホン（現場音声入力手段）１１ａ，１１ｂで入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)，ｘ２(ｔ)について，分離行列Ｗ(ｚ)によりフィルタ処理を施すことによって音源分離を行う。
図４には，２つの音源１，２からの音源信号Ｓ1(ｔ)，Ｓ2(ｔ)（個別音声信号）を２つのマイクロホン１１ａ，１１ｂで入力した２チャンネル（マイクロホンの数）の混合音声信号ｘ１(ｔ)，ｘ２(ｔ)に基づいて音源分離を行う例について示しているが，２チャンネル以上であっても同様である。ＩＣＡ法に基づくＢＳＳ方式による音源分離の場合，（入力される混合音声信号のチャンネル数ｎ（即ち，マイクロホンの数））≧（音源の数ｍ）であればよい。
複数のマイクロホン１１ａ，１１ｂ各々で集音された各混合音声信号ｘ１(ｔ)，ｘ２(ｔ)には，複数音源からの音源信号が重畳されている。以下，各混合音声信号ｘ１(ｔ)，ｘ２(ｔ)を総称してｘ(ｔ)と表す。この混合音声信号ｘ(ｔ)は音源信号Ｓ(ｔ)の時間的空間的な畳み込み信号として表現され，次の（１）式のように表される。

ＴＤＩＣＡによる音源分離の理論は，この音源信号Ｓ(ｔ)のそれぞれの音源同士が統計的に独立であることを利用すると，ｘ(ｔ)がわかればＳ(ｔ)を推測することができ，従って，音源を分離することができるという発想に基づく理論である。
ここで，当該音源分離処理に用いる分離行列をＷ(ｚ)とすれば，分離信号（即ち，同定信号）ｙ(ｔ)は，次の（２）式で表される。

ここで，Ｗ(ｚ)は，出力ｙ(ｔ)から逐次計算（学習計算）により求められる。また，分離信号は，チャンネルの数だけ得られる。
なお，音源合成処理はこのＷ(ｚ)に関する情報により，逆演算処理に相当する配列を形成し，これを用いて逆演算を行えばよい。また，分離行列Ｗ(ｚ)の逐次計算を行う際の分離行列の初期値（初期行列）は，予め定められたものが設定される。
このようなＩＣＡ法に基づくＢＳＳ方式による音源分離を行うことにより，例えば，人の歌声とギター等の楽器の音とが混合した複数チャンネル分の混合音声信号から，歌声の音源信号と楽器の音源信号とが分離（同定）される。
ここで，（２）式は，次の（３）式のように書き換えて表現できる。

そして，（３）式における分離フィルタ（分離行列）Ｗ(ｎ)は，次の（４）式により逐次計算される。即ち，前回（ｊ）の出力ｙ(ｔ)を（４）式に逐次適用することより，今回（ｊ＋１）のＷ(ｎ)を求める。

次に，図５に示すブロック図を用いて，ＩＣＡ法の一種であるＦＤＩＣＡ法（Frequency-Domain ICA）に基づく音源分離処理を行う従来の音源分離装置Ｚ２について説明する。
ＦＤＩＣＡ法では，まず，入力された混合音声信号ｘ(ｔ)について，ＳＴ−ＤＦＴ処理部１０１によって所定の周期ごとに区分された信号であるフレーム毎に短時間離散フーリエ変換（Short Time Discrete Fourier Transform，以下，ＳＴ−ＤＦＴ処理という）を行い，観測信号の短時間分析を行う。そして，そのＳＴ−ＤＦＴ処理後の各チャンネルの信号（各周波数成分の信号）について，分離フィルタ処理部１００ｆにより分離行列Ｗ(ｆ)に基づく分離フィルタ処理を施すことによって音源分離（音源信号の同定）を行う。ここでｆを周波数ビン，ｍを分析フレーム番号とすると，分離信号（同定信号）ｙ(ｆ，ｍ)は，次の（５）式のように表すことができる。

ここで，分離フィルタＷ(ｆ)の更新式は，例えば次の（６）式のように表すことができる。

このＦＤＩＣＡ法によれば，音源分離処理が各狭帯域における瞬時混合問題として取り扱われ，比較的簡単かつ安定に分離フィルタ（分離行列）Ｗ(ｆ)を更新することができる。
ここで，ＦＤＩＣＡ法における分離行列Ｗ(ｆ)の学習計算では，周波数ビンごとに独立して学習が可能である（相互に演算結果が干渉しない）。従って，全周波数帯域を周波数ビンの単位で複数に区分すれば，その区分した周波数帯域各々について学習計算を並行処理（並列処理）することができる。
このＦＤＩＣＡ法（ＦＤＩＣＡ方式）に基づく音源分離処理を音源分離処理部Ｚに適用すれば，比較的小さな演算負荷で音源分離処理を行うことができる。

次に，図６及び図７に示すタイムチャートを用いて，ＩＣＡ−ＢＳＳ方式の音源分離における分離行列Ｗ（Ｗ(ｚ)又はＷ(ｆ)）の学習に用いられる混合音声信号と，その学習により得られる分離行列Ｗを用いて音源分離処理が施される混合音声信号との対応関係の第１例（図６）及び第２例（図７）について説明する。
ここで，図６は，分離行列Ｗの計算と音源分離処理（フィルタ処理）との各々に用いる混合音声信号の区分の第１例をタイムチャート的に表したものである。
この第１例は，逐次入力される混合音声信号を所定時間長（例えば３秒）分のフレーム信号（以下，Frameという）ごとに，その全てを用いて学習計算を行う例である。
また，図６に示す例は，分離行列の学習計算と，その分離行列に基づくフィルタ処理（行列演算）により分離信号を生成（同定）する処理とを，異なるFrameを用いて実行する場合を表す。
図６に示すように，時刻Ｔi〜Ｔi+1の期間（周期：Ｔi+1−Ｔi）に入力された前記混合音声信号全てに相当するFrame(i)を用いて分離行列の計算（学習）を行い，それにより求められた分離行列を用いて時刻(Ｔi+1＋Ｔd)〜(Ｔi+2＋Ｔd)の期間に入力された前記混合音声信号全てに相当するFrame(i+1)’について分離処理（フィルタ処理）を実行する。ここで，Ｔdは１つのFrameを用いた分離行列の学習に要する時間である。即ち，ある１期間の混合音声信号に基づき計算された分離行列を用いて，Frame時間長＋学習時間だけずれた次の１期間の混合音声信号について分離処理（同定処理）を行う。但し，処理の開始時から１Frame分の時間長＋学習時間Ｔｄが経過するまでは，予め定められた初期行列を分離行列として用いることになる。このとき，ある１期間のFrame(i)を用いて計算（学習）された分離行列を，次の１期間のFrame(i+1)’を用いて分離行列を計算（逐次計算）する際の初期値（初期分離行列）として用いれば，学習計算の収束が早まり好適である。
これにより，マイクロホン１１ａ，１１ｂを通じて逐次入力される混合音声信号に対し，生成される分離信号に時間遅れが生じず，他の映像信号や作業者が発する音声の信号との間で同期のとれた分離信号若しくはその合成信号を生成することができる。

ところで，１つのFrameの時間長以内に，１つのFrame全体に基づく分離行列の学習計算を完了させることができれば，全ての混合音声信号を学習計算に反映させながらリアルタイムでの音源分離処理が可能となる。
しかしながら，学習計算を複数のプロセッサで分担して並行処理する等により高速化した場合でも，１つのFrameの時間範囲内（Ｔi〜Ｔi+1）に，十分な音源分離性能を確保できるだけの十分な学習計算（逐次計算処理）を常には完了させられないことも考え得る。
そこで，図７に示す例は，逐次入力される混合音声信号を所定時間長（例えば３秒）分のフレーム信号（Frame）ごとに，そのフレーム信号の先頭側の一部を用いて学習計算を行う例，即ち，分離行列の逐次計算に用いる混合音声信号のサンプル数を通常よりも減らす（間引く）例である。
これにより，学習計算の演算量が抑えられるので，より短周期で分離行列の学習を行うことが可能となる。
図７も，図６と同様に，分離行列Ｗの学習計算と音源分離処理との各々に用いる混合音声信号の区分の第２例をタイムチャート的に表したものであり，分離行列の学習計算と，その分離行列に基づくフィルタ処理（行列演算）により分離信号を生成（同定）する処理とを，異なるFrameを用いて実行する例である。
図７に示すように，時刻Ｔi〜Ｔi+1の期間（周期：Ｔi+1−Ｔi）に入力された前記混合音声信号（Frame）であるFrame(i)のうち，先頭側の一部（例えば，先頭から所定時間分）の信号（以下，Sub-Frame(i)という）を用いて分離行列の計算（学習）を行い，それにより求められた分離行列を用いて時刻Ｔi+1〜Ｔi+2の期間に入力された前記混合音声信号全てに相当するFrame(i+1)について分離処理（フィルタ処理）を実行する。即ち，ある１期間の混合音声信号の先頭側の一部に基づき計算された分離行列を用いて次の１期間の混合音声信号の分離処理（同定処理）を行う。このとき，ある１期間のFrame(i)の先頭側の一部を用いて計算（学習）された分離行列を，次の１期間のFrame(i+1)を用いて分離行列を計算（逐次計算）する際の初期値（初期分離行列）として用いれば，逐次計算（学習）の収束が早まり好適である。
このような処理によっても，マイクロホン１１ａ，１１ｂを通じて逐次入力される混合音声信号に対し，生成される分離信号に時間遅れが生じず，他の映像信号や作業者が発する音声の信号との間で同期のとれた分離信号若しくはその合成信号を生成することができる。

次に，音源分離処理部Ｚに適用可能な他の音源分離処理の一例である，バイノーラル信号処理について説明する。
図８は，バイナリーマスキング処理を説明するための図である。このバイナリーマスキング処理は，バイノーラル信号処理の考え方を起源とする信号処理の一例であって，比較的処理がシンプルでありリアルタイム処理に適している。なお，バイノーラル信号処理による信号分離処理は，人間の聴覚モデルに基づいて前記混合音声信号に時変のゲイン調節を施して音源分離を行うものであり，例えば，非特許文献７や非特許文献８等に詳説されている。
バイナリーマスキング処理を行う音源分離処理部Ｚは，複数の入力信号（複数の混合音声信号Ｘi(ｔ)）の比較処理を行う比較部３１と，その比較部３１による比較処理の結果に基づいて入力信号にゲイン調節を施して信号分離（音源分離）を行う分離部３２とを有して構成される。
バイナリーマスキング処理では，まず，前記比較部３１において，入力信号各々について周波数成分ごとの信号レベル（振幅）分布ＡＬ，ＡＲを検出し，同じ周波数成分における信号レベルの大小関係を判別する。

図８において，ＢＬ，ＢＲは，入力信号各々における周波数成分ごとの信号レベル分布と，その信号レベルごとに他方の対応する信号レベルに対する大小関係（○，×）とを表した図である。図中，「○」印は，前記比較部３１による判別の結果，他方の対応する信号レベルよりも当該信号の信号レベルの方が大きかったことを表し，「×」印は同じく当該信号レベルの方が小さかったことを表している。
次に，前記分離部３２により，前記比較部３１による信号比較の結果（大小判別の結果）に基づいて，入力信号各々にゲイン乗算（ゲイン調節）を施すことにより分離信号（同定信号）を生成する。この分離部３２における最も簡単な処理の例としては，入力信号について，周波数成分ごとに，信号レベルが最も大きいと判別された入力信号の周波数成分にゲイン１を乗算し，その他の入力信号全ての同じ周波数成分にゲイン０（ゼロ）を乗算すること等が考えられる。
これにより，入力信号と同数の分離信号（同定信号）ＣＬ，ＣＲが得られる。この分離信号ＣＬ，ＣＲのうち，一方は，入力信号の同定の対象となった音源信号に相当するものとなり，他方は入力信号に混在するノイズ（同定対象の音源信号以外の音源信号）に相当するものとなる。
なお，図８には，２つの入力信号に基づくバイナリーマスキング処理の例を示すが，３つ以上の入力信号に基づく処理であっても同様である。

以上の他，音源分離処理部Ｚに適用され得る音源分離処理としては，帯域フィルタ処理やビームフォーマ等の音源分離処理も考えられる。ビームフォーマによる音源分離は，分離対象となる音源とその他の雑音源とが空間的に離れている場合に，マイクに到達する波面の時間差を遅延器によって調整することにより，分離対象となる音源の音声信号を強調して分離する遅延和型ビームフォーマ等がある。
これら帯域フィルタ処理やビームフォーマでは，長くても数ms〜数百ms程度の瞬時の混合音声信号のみを用いて音源分離が可能であり，演算負荷が小さくリアルタイム処理に適している。
また，音源分離処理部Ｚにビームフォーマを適用した場合，制御演算部２２等により，カメラ１８で得られた映像から作業者が向いている方向を検知し，その検知方向に基づいて音源分離処理部Ｚ及びマルチプレクサ１４を制御することにより，作業者の向いている方向に存在する音源に対応する分離信号を自動選択することも考えられる。

本発明は，現場作業支援システムへの利用が可能である。

本発明の実施形態に係る現場作業支援システムＸの概略構成図。現場作業支援システムＸにおける端末装置Ａをウェアラブルに構成した場合の外観の一例を表す図。現場作業支援システムＸにおける基地局側と現場側の各表示画面例を表す図。現場作業支援システムＸが備える音源分離処理部Ｚに適用され得るＴＤＩＣＡ法に基づくＢＳＳ方式の音源分離処理を行う音源分離装置Ｚ１の概略構成を表すブロック図。音源分離処理部Ｚに適用され得るＦＤＩＣＡ法に基づく音源分離処理を行う音源分離装置Ｚ２の概略構成を表すブロック図。ＩＣＡ−ＢＳＳ方式の音源分離処理における分離行列計算の第１例を説明するためのタイムチャート。ＩＣＡ−ＢＳＳ方式の音源分離処理における分離行列計算の第２例を説明するためのタイムチャート。音源分離処理部Ｚに適用され得るバイナリーマスキング処理を説明するための図。

符号の説明

Ｘ…現場作業支援システム
Ａ…作業現場の端末装置
Ｂ…中継装置
Ｃ…基地局装置
１１ａ〜１１ｄ…マイクロホン
１３…Ａ／Ｄコンバータ
１４…マルチプレクサ
１５…音声合成部
１６…減算器
１７…Ｄ／Ａコンバータ
１８…作業現場のカメラ
１９…作業現場のスピーカ
２０…符号化部
２１…復号化部
２２…制御演算部
２３…無線通信部
２５…ＨＭＤ(Head Mounted Display)
５０…アクセスポイント装置
６２…計算機
６３…基地局のスピーカ
６４…作業現場のマイクロホン

Claims

所定の作業現場において音声を入力する現場音声入力手段と，
前記現場音声入力手段により入力される複数の音源からの音声が重畳された混合音声の信号から前記音源各々に対応する音声信号を分離した分離信号各々を生成する音源分離手段と，
前記音源分離手段により生成された複数の前記分離信号からいずれかを選択若しくは複数を選択する分離信号選択手段と，
前記作業現場において映像を撮像する撮像手段と，
前記分離信号選択手段により選択された前記分離信号及び前記撮像手段により撮像された現場の映像信号を所定の信号伝送媒体を通じて所定の基地局へ送信する現場信号送信手段と，
前記基地局において前記現場信号送信手段からの送信信号を受信する基地局信号受信手段と，
前記基地局において前記基地局信号受信手段により受信された前記分離信号を音声出力する基地局音声出力手段と，
前記基地局において前記基地局信号受信手段により受信された前記現場の映像信号に基づく映像を表示する基地局映像表示手段と，
前記基地局において所定の支援情報を設定する支援情報設定手段と，
前記支援情報設定手段により設定された前記支援情報を前記信号伝送媒体を通じて前記作業現場へ送信する支援情報送信手段と，
前記作業現場において前記支援情報送信手段による送信情報を受信する支援情報受信手段と，
前記作業現場において前記支援情報受信手段により受信された前記支援情報に基づく情報を出力する支援情報出力手段と，
を具備してなることを特徴とする現場作業支援システム。
前記支援情報設定手段が，前記基地局映像表示手段の表示映像における任意の部分を指定する映像部分指定情報を前記支援情報として設定する映像部分指定手段を備え，
前記支援情報出力手段が，前記撮像手段により得られる前記現場の映像信号に基づく映像と前記支援情報受信手段によって受信された前記映像部分指定情報による指定部分を特定する映像とを併せて映像表示する現場映像表示手段を備えてなる請求項１に記載の現場作業支援システム。
前記支援情報の候補を予め記憶する支援情報記憶手段を具備し，
前記支援情報設定手段が，前記支援情報記憶手段の記憶情報の中から前記作業現場に送信する前記支援情報を選択して設定する支援情報選択手段を備えてなる請求項１又は２のいずれかに記載の現場作業支援システム。
前記分離信号選択手段が，前記基地局において所定の操作入力手段を通じて入力される第１の選択情報を前記信号伝送媒体を通じて前記作業現場に伝送し，該第１の選択情報に従って前記作業現場において前記分離信号を選択する遠隔選択手段を備えてなる請求項１〜３のいずれかに記載の現場作業支援システム。
前記現場信号送信手段が，前記分離信号選択手段により複数の前記分離信号が選択された場合に，選択された複数の前記分離信号を合成した音声信号を前記現場の映像信号とともに前記基地局へ送信してなる請求項１〜４のいずれかに記載の現場作業支援システム。
前記作業現場において前記分離信号選択手段により選択された前記分離信号を音声出力する現場音声出力手段を具備してなる請求項１〜５のいずれかに記載の現場作業支援システム。
前記分離信号選択手段が，前記作業現場における所定の操作入力手段を通じて入力される第２の選択情報に従って前記分離信号を選択する現場選択手段を備えてなる請求項６に記載の現場作業支援システム。
前記現場音声出力手段が，前記分離信号選択手段により複数の前記分離信号が選択された場合に，選択された複数の前記分離信号を合成した音声信号を音声出力してなる請求項６又は７のいずれかに記載の現場作業支援システム。
前記現場音声入力手段，前記撮像手段及び前記支援情報出力手段が，前記作業現場における作業者の身体に装着可能に構成されてなる請求項１〜８のいずれかに記載の現場作業支援システム。