JP2013229658A - 処理装置、処理方法、プログラム、記録媒体及び処理システム - Google Patents

処理装置、処理方法、プログラム、記録媒体及び処理システム Download PDF

Info

Publication number
JP2013229658A
JP2013229658A JP2012098763A JP2012098763A JP2013229658A JP 2013229658 A JP2013229658 A JP 2013229658A JP 2012098763 A JP2012098763 A JP 2012098763A JP 2012098763 A JP2012098763 A JP 2012098763A JP 2013229658 A JP2013229658 A JP 2013229658A
Authority
JP
Japan
Prior art keywords
unit
sound
sound signal
control information
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012098763A
Other languages
English (en)
Inventor
Shogo Ishida
将吾 石田
Junichi Takami
淳一 鷹見
Akihito Aiba
亮人 相場
Hirofumi Horikawa
裕文 堀川
Tomoko Nakamura
智子 中村
Masayoshi Kato
正良 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2012098763A priority Critical patent/JP2013229658A/ja
Publication of JP2013229658A publication Critical patent/JP2013229658A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Selective Calling Equipment (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】入力される音に含まれる非音声音に応じて被制御部を制御し、入力される音から非音声音を除去することが可能な処理装置を提供すること。
【解決手段】周囲の音を集音して音信号に変換する音信号変換部と、前記音信号変換部によって変換された前記音信号から非音声音信号を検出する非音声音検出部と、前記非音声音信号の検出パターンと被制御部の制御情報とを対応させて記憶する記憶部と、前記非音声音検出部によって検出された検出パターンに対応する制御情報を前記記憶部から取得する制御情報取得部と、前記パターン認識部によって取得される前記制御情報に基づいて前記被制御部を制御する制御部と、前記音信号から前記非音声音検出部によって検出された前記非音声音信号を除去する非音声音除去部とを備える処理装置。
【選択図】図1

Description

本発明は、処理装置、処理方法、プログラム、記録媒体及び処理システムに関する。
例えばテレビ、ビデオ、プロジェクタ等の様に、ユーザが離れた位置から利用できる様々な装置がある。この様な装置において、例えばテレビの音量、プロジェクタの画像調整、或いはテレビ会議システム等におけるカメラの向きやマイクの音量等を操作する場合には、利用者が装置本体に設けられている操作部で直接操作するか、リモコン等を用いて操作を行うのが一般的である。
しかし、本体の操作部で直接操作する場合には、利用者が離れた位置から装置本体まで移動する必要が生じる。また、リモコンを用いる場合であっても、複数人での利用時には操作者にリモコンを手渡しする等の動作が必要となり、何れの場合にも煩雑な動作を要する。
そこで、発音部により発生されるリズム音に合わせた声や手打ち等の音波を検知することで、チャンネル、音量及び電源の操作を行うリモコン装置が知られている(例えば特許文献1参照)。特許文献1に記載されているリモコン装置によれば、利用者は離れた位置から装置の操作を行うことができる。
しかしながら、例えば装置が集音した音声等を保存する場合や、集音した音声等をネットワークを介して接続される他の装置に送信する場合等には、保存や送信等される音声に装置を操作するための音が含まれてしまう、という問題がある。
本発明は上記に鑑みてなされたものであって、入力される音に含まれる非音声音に応じて被制御部を制御し、入力される音から非音声音を除去することが可能な処理装置を提供することを目的とする。
本発明の一態様によれば、周囲の音を集音して音信号に変換する音信号変換部と、前記音信号変換部によって変換された前記音信号から非音声音信号を検出する非音声音検出部と、前記非音声音信号の検出パターンと被制御部の制御情報とを対応させて記憶する記憶部と、前記非音声音検出部によって検出された検出パターンに対応する制御情報を前記記憶部から取得する制御情報取得部と、前記パターン認識部によって取得される前記制御情報に基づいて前記被制御部を制御する制御部と、前記音信号から前記非音声音検出部によって検出された前記非音声音信号を除去する非音声音除去部とを備える。
本発明の実施形態によれば、入力される音に含まれる非音声音に応じて被制御部を制御し、入力される音から非音声音を除去することが可能な処理装置を提供できる。
第1の実施形態に係る会議端末の機能構成を例示するブロック図である。 第1の実施形態に係る会議端末のハードウェア構成を例示する図である。 第1の実施形態に係る会議端末の制御フローチャートを例示する図である。 第1の実施形態に係る会議端末の音信号変換部に入力される音を例示する図である。 第1の実施形態に係る会議端末の非音声音検出部の機能構成を例示するブロック図である。 第1の実施形態に係る会議端末の非音声音検出部における非音声音信号の検出処理のフローチャートを例示する図(1)である。 第1の実施形態に係る会議端末の非音声音検出部による非音声音の検出結果を例示する図である。 第1の実施形態に係る会議端末の非音声音検出部における非音声音信号の検出処理のフローチャートを例示する図(2)である。 第1の実施形態に係る会議端末における被制御部の制御手順のシーケンスを例示する図である。 第1の実施形態に係る会議端末における制御情報取得部の認識部が備えるバッファに記憶される非音声音検出結果を例示する図である。 第1の実施形態に係る会議端末の制御情報記憶部の制御情報を例示する図である。 第1の実施形態に係る会議端末において制御情報の確認を行う制御フローチャートを例示する図である。 第1の実施形態に係る会議端末におけるディスプレイへの制御情報の表示例を示す図である。 第1の実施形態に係る会議端末の制御情報記憶部の確認情報を例示する図である。 第2の実施形態に係る会議システムにおける会議端末及び他の会議端末のハードウェア構成を例示する図である。 第2の実施形態に係る会議システムにおける会議端末及び他の会議端末の機能構成を例示するブロック図である。
以下、図面を参照して発明を実施するための形態について説明する。各図面において、同一構成部分には同一符号を付し、重複した説明を省略する場合がある。
[第1の実施形態]
第1の実施形態として、本発明に係る処理装置の一例としての会議端末100について説明するが、本発明の実施形態はこれに限るものではなく、例えばテレビ、ビデオカメラ、デジタルカメラ、ICレコーダ等の様々な装置に適用することが可能である。
<会議端末の機能構成>
図1は、第1の実施形態に係る会議端末100の機能構成を例示するブロック図である。
図1に示す様に、会議端末100は、音信号変換部101、非音声音検出部102、非音声音除去部103、制御情報取得部104、制御情報記憶部105、制御部106、被制御部107、送信部108、保存部109等を有する。
音信号変換部101は、会議端末100の周囲の音を集音して音信号に変換し、非音声音検出部102及び非音声音除去部103に音信号を送信する。音信号変換部101は、例えばマイクロホン等を含んで構成できる。
非音声音検出部102は、音信号変換部101から入力される音信号に非音声音信号が含まれているか否かを判定し、非音声音検出結果を非音声音除去部103と制御情報取得部104に送信する。
非音声音除去部103は、非音声音検出部102から送信される非音声音検出結果に基づいて、受信部101から送信される音信号から非音声音信号を除去し、被制御部107、保存部109に出力する。
制御情報取得部104は、非音声音検出部102による非音声音信号の検出パターンを認識する。制御情報取得部104は、検出パターンに対応する制御情報を制御情報記憶部105から取得し、制御部106に送信する。制御情報取得部104が非音声音信号の検出パターンを認識し、制御情報を取得する方法については後述する。
制御情報記憶部105は、制御情報取得部104によって認識される非音声音信号の検出パターンと、被制御部107の制御情報とを対応して記憶する記憶部の一例である。
制御部106は、制御情報取得部104から送信される制御情報に基づく制御信号を送信することで、被制御部107の制御を行う。
被制御部107は、ディスプレイ107a、スピーカ107b、カメラ107cを有する。ディスプレイ107aは、カメラ107cによって撮影される映像、若しくは他の装置から受信する映像等を表示する。スピーカ107bは、非音声音除去部103によって非音声音信号が除去された音信号を外部に出力する。カメラ107cは、ディスプレイ107a若しくは他の装置に表示させる映像を撮影する。なお、被制御部107は、第1の実施形態において例示する構成に限るものではなく、例えば照明等の他の装置を含んで構成しても良い。
制御部106は、例えば被制御部107のディスプレイ107aのズームイン及びズームアウト、スピーカ107bの音量、カメラ107cの向き等の制御を、制御情報に基づいて行う。
送信部108は、非音声音除去部103が非音声音信号を除去して出力する音信号を受け取り、ネットワーク等を介して接続する他の装置に音信号を送信する。また、被制御部107のカメラ107cが撮影した映像等を他の装置に送信できる。
保存部109は、非音声音除去部103により非音声音信号が除去された音信号を保存して録音する。保存部109に保存された音信号は、後からスピーカ107bにより再生することができ、また他の装置や記録媒体等にデータとして出力することもできる。
<会議端末のハードウェア構成>
図2は、第1の実施形態に係る会議端末100のハードウェア構成を例示する図である。
図2に示す様に、会議端末100は、音信号変換部101、被制御部107、CPU111、HDD(Hard Disk Drive)112、ROM(Read Only Memory)113、RAM(Read and Memory)114、操作部115、ネットワークI/F部116、記録媒体I/F部117等を備え、それぞれがバスBで相互に接続されている。
CPU111は、HDD112やROM113等の記憶装置からプログラムやデータをRAM114上に読み出して処理を実行することで、会議端末100が備える各機能を実現する演算装置である。CPU111は、図1に示す非音声音検出部102、非音声音除去部103、制御情報取得部104、制御部106等として機能する。
HDD112は、プログラムやデータを格納している不揮発性の記憶装置である。格納されるプログラムやデータには、会議端末100全体を制御する基本ソフトウェアであるOS(Operating System)、及びOS上において各種機能を提供するアプリケーションソフトウェア等がある。また、HDD112は、制御情報記憶部105、保存部109等として機能する。
ROM113は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ(記憶装置)である。ROM113には、会議端末100の起動時に実行されるBIOS(Basic Input/Output System)、OS設定、及びネットワーク設定等のプログラムやデータが格納されている。RAM114は、プログラムやデータを一時保持する揮発性の半導体メモリ(記憶装置)である。
操作部115は、ユーザインターフェースの役割を果たし、例えばキースイッチ(ハードキー)等で構成され、会議端末100に各操作信号を入力するのに用いられる。
ネットワークI/F部116は、有線及び/又は無線回線などのデータ伝送路により構築されたLAN(Local Area Network)、WAN(Wide Area Network)などのネットワークを介して接続される通信機能を有する周辺機器と会議端末100とのインタフェースである。
記録媒体I/F部117は、記録媒体とのインタフェースである。会議端末100は記録媒体I/F117を介して、記録媒体118の読み取り及び/又は書き込みを行うことができる。記録媒体118にはフレキシブルディスク、CD、DVD(Digital Versatile Disk)、SDメモリカード(SD Memory card)、USBメモリ(Universal Serial Bus memory)等がある。
<会議端末における入力音に基づく被制御部の制御>
次に、第1の実施形態に係る会議端末100における入力音に基づく被制御部107の制御について説明する。
図3は、第1の実施形態に係る会議端末100における制御フローチャートを例示する図である。
まず、ステップS1にて、音信号変換部101が会議端末100の周囲の音を集音し、集音した入力音を音信号に変換する。次に、ステップS2にて、非音声音検出部102が、音信号変換部101によって変換された入力音信号から非音声音信号の検出を行う。非音声音信号とは、会議端末100を使用するユーザが発する音声以外の音であり、例えば机を叩く音、手を叩く音等をいう。
ステップS2にて、入力音信号から非音声音信号が検出された場合には、ステップS3にて、非音声音除去部103が入力音信号から非音声音信号の除去を行い、ステップS4にて、送信部108から非音声音信号が除去された音信号を外部に出力する。また、保存部109に、非音声音信号が除去された音信号を保存しても良い。
ステップS2にて、入力音信号に非音声音信号が検出された場合には、さらにステップS5にて、制御情報取得部104が、非音声音信号の検出パターンを認識する。制御情報取得部104が認識する非音声音信号の検出パターンとは、例えば所定の時間以内に検出される非音声音信号の数、種類、検出される非音声音信号の時間間隔等である。
ステップS6にて、制御情報取得部104は、制御情報記憶部106に検出パターンに合致する制御情報がある場合にはこれを取得して制御部106に送信する。次にステップS7にて、制御部106が、制御情報取得部104が取得した制御情報に基づく制御信号を送信し、被制御部107を制御する。
以上で説明した様に、第1の実施形態に係る会議端末100は、会議端末100に入力される音声以外の非音声音信号を検出し、被制御部107の制御を行う。したがって、会議端末100を利用するユーザは、非音声音を発することにより会議端末100のディスプレイ107a、スピーカ107b、カメラ107cといった被制御部107を、装置本体の操作部115やリモコン等を用いずに操作することができる。
次に、会議端末100の各部が行う処理の詳細について、図面に基づいて説明する。
≪音信号への変換≫
図4は、会議端末100の音信号変換部101に入力される音を例示する図である。図4は、音信号変換部101が集音する音を、横軸を時間、縦軸を振幅とするグラフで表示したものである。
例えば会議端末100の周囲で音声等が生じると、音信号変換部101がこれを集音することで、図中の実線枠で示される振幅の大きい音が入力される。音信号変換部101は、この様に入力される音を図中破線で示す単位時間間隔に区切って入力音信号に変換する。
≪非音声音の検出≫
図5は、入力音信号から非音声音の検出を行う非音声音検出部102の機能構成を例示するブロック図である。
図5に示す様に、非音声音検出部102は、線形予測誤差計算部20、平均値計算部21、非音声音判定部A22、切替部23、FFT計算部24、MFCC計算部25、尤度計算部26、非音声音判定部B27、最終判定部28、音モデル記憶部29を備える。
非音声音検出部102に、音信号変換部101によって変換された入力音信号が入力されると、まず線形予測誤差計算部20が、入力音信号の線形予測誤差信号を一定区間ごとに計算して出力する。
例えば、現在の時刻をkとし、ある区間ごとの音信号の値xを以下の様に表す。
…, xk-1, xk, xk+1, …
このとき、ある区間の音信号の値xk+1を当該区間の前までの値x〜xを用いて以下の式により予測する際に、最適となる線形予測係数a(n=0〜N−1)を求める。
x^ k+1 = a0 xk + a1 xk-1 + a2 xk-2 + ・・・ + aN-1 xk-(N-1)
次に、上式で予測される予測値x^ k+1と、実際の値xk+1との差として、線形予測誤差ek+1を以下の式により求めることができる。
ek+1 = x^ k+1 - xk+1
この誤差は予測と実測とのずれを示すことから、誤差が大きいほど、入力音波形に急峻な変化(=音声、非音声音の混入)が起きていると考えることができる。
この様に、線形予測誤差計算部20が上式に基づいて線形予測誤差を算出し、平均値計算部21が、誤差の平均値を一定区間ごとに計算し、非音声音判定部A22に出力する。
非音声音判定部A22は、平均値計算部21によって計算される線形予測誤差の平均値と、例えば予め設定される閾値とを比較し、平均値が閾値よりも大きい場合には、平均値を算出した入力音信号には音声又は非音声音信号が含まれていると判定し、判定結果情報1を出力する。
切替部23は、非音声音判定部A22において線形予測誤差の平均値が閾値を上回った場合に、入力音信号をFFT計算部24に入力する。なお、本実施形態では、非音声音判定部A22において線形予測誤差の平均値が、予め設定される閾値を上回った場合に、切替部23がFFT計算部24に入力音信号を入力する様に信号の切り替えを行うが、常にFFT計算部24に入力音信号を入力する様に構成しても良い。
FFT計算部24は、入力音信号に対してある一定区間ごとに高速フーリエ変換(FFT)を行い、周波数スペクトルを計算する。
MFCC計算部25は、FFT計算部24によって計算された周波数スペクトルからメル周波数ケプストラム係数(MFCC)を計算する。MFCCは、人間の聴覚の性質を取り入れた特徴量であり、音声認識等に用いられる。
MFCCの計算は、FFTにより得られる周波数スペクトルに対して、(1)絶対値を取る、(2)メル尺度(人間の聴覚に応じた音の高さの尺度)上で等間隔なフィルタバンクにかけて、各帯域のスペクトルの和を求める、(3)対数を取る、(4)離散コサイン変換(DCT)を行う、(5)低次成分を取り出す、というものである。
尤度計算部26は、音モデル記憶部29に記憶されているモデルパラメータを読み込み、MFCC計算部25により求められるMFCCに対する尤度を計算する。
音モデル記憶部29には、音声及び検出対象とする非音声音信号の音モデルのモデルパラメータが記憶されている。ここで、音モデルとは、音声等の特徴をモデル化したものであり、例えばガウス混合モデル(GMM)等で音声等の特徴がモデル化され、その場合には各多次元ガウス分布の重み、平均や共分散等がモデルパラメータとなる。モデルパラメータは、予め収集される音声及び非音声音のデータベースから抽出した特徴量を用いて推定される。
尤度計算部26により求められる尤度は、音モデル記憶部29に記憶されている音モデルに対する尤もらしさを示すものであり、この場合、尤度が高いほど入力音信号は音声又は検出対象とする非音声音である可能性が高いということになる。
尤度計算部26における尤度Lは、例えばGMMに対して行う場合には以下の式により求めることができる。
Figure 2013229658
ここで、xがMFCCのベクトル、Wがk番目の分布の重み、Nがk番目の多次元ガウス分布を表す。
非音声音判定部B27は、尤度計算部26によって計算される尤度と、例えば予め設定される閾値とを比較することで、この区間における入力音声信号に対して音声信号又は非音声音信号の有無等を判定し、判定結果情報2を出力する。
最終判定部28は、非音声音判定部A22による判定結果情報1と、非音声音判定部B27による判定結果情報2とに基づいて、最終的な検出結果を出力する。例えば、入力音信号に音声信号又は非音声音信号が有るという判定結果情報1と、入力音信号に非音声音信号が有るという判定結果情報2を得た場合にのみ、非音声音信号有りという検出結果を出力する。
図6は、非音声音検出部102における非音声音信号の検出処理のフローチャートを例示する図(1)である。
図6に示す様に、非音声音検出部102では、まずステップS11にて、線形予測誤差計算部20が、入力音信号から線形予測誤差を計算する。次にステップS12にて、平均値計算部21が、線形予測誤差計算部20による線形予測誤差のある区間における平均値を計算する。
ステップS13にて、非音声音判定部A22が平均値計算部21によって計算される平均値と予め設定される閾値1とを比較し、線形予測誤差の平均値が閾値1以下の場合には、ステップS21にて、最終判定部28が非音声音信号なしと最終判定して処理を終了する。
ステップS13にて、線形予測誤差の平均値が閾値1よりも大きい場合には、切替部23が入力音信号をFFT計算部24に送信し、ステップS14にて、FFT計算部24が入力音信号から周波数スペクトルを計算する。
次に、ステップS15にて、FFT計算部24によって計算される周波数スペクトルから、MFCC計算部25がMFCCを計算し、ステップS16にて、尤度計算部26が音モデル記憶部29に記憶されている音声の音モデルに対する尤度を計算する。
ステップS17にて、尤度計算部26によって計算された尤度が、予め設定される閾値2以上の場合には、入力音信号には人間が発する音声が含まれているものとして、ステップS21にて、最終判定部28が非音声音信号なしと最終判定して処理を終了する。
ステップS17にて、尤度計算部26によって計算された音声の音モデルとの尤度が、閾値2よりも小さい場合には、ステップS18にて、尤度計算部26が検出対象とする非音声音の音モデルに対する尤度を計算する。
次にステップS19にて、非音声音判定部B27が尤度と閾値3とを比較し、尤度が閾値3より大きい音モデルが存在する場合には、ステップS20にて、最終判定部28が検出対象とする非音声音信号が入力音信号に含まれていると最終判定して処理を終了する。
ステップS19にて、尤度が閾値3より大きい音モデルが存在しない場合には、ステップS22にて、入力音には検出対象とする非音声音信号は含まれていないものと最終判定して処理を終了する。
図7は、非音声音検出部102による非音声音信号の検出結果を例示する図である。
図7に示す様に、非音声音検出部102は、入力音信号における単位時間ごとに非音声音信号を検出し、単位時間ごとに付与される区間ID、非音声音の有無、非音声音の種類といった情報と共に出力する。
非音声音検出部102が検出する非音声音信号の種類は、例えば机を叩く音、手を叩く音(手拍子)等である。なお、音モデル記憶部29にさらに多くの種類の非音声音信号の音モデルを記憶させることで、非音声音検出部102において多様な種類の非音声音信号を検出する様に設けることができる。また、入力音信号に含まれる非音声音信号の有無のみを検出する様に設けても良い。
非音声音信号の有無のみを検出する場合には、音モデル記憶部29に音声の音モデルが記憶され、非音声音検出部102は、図8に示すフローチャートに基づいて非音声音信号の検出処理を行う。
図8に示す様に、まずステップS31にて、線形予測誤差計算部20が、入力音信号から線形予測誤差を計算する。次にステップS32にて、平均値計算部21が、線形予測誤差計算部20による線形予測誤差の平均値を計算する。
ステップS33にて、非音声音判定部A22が平均値計算部21によって計算される平均値と閾値1とを比較し、線形予測誤差の平均値が閾値1以下の場合には、ステップS39にて、最終判定部28が非音声音信号なしと最終判定して処理を終了する。
ステップS33にて、線形予測誤差の平均値が予め設定される閾値1よりも大きい場合には、切替部23が入力音信号をFFT計算部24に送信し、ステップS34にて、FFT計算部24が入力音信号から周波数スペクトルを計算する。
次に、ステップS35にて、FFT計算部24によって計算される周波数スペクトルから、MFCC計算部25がMFCCを計算し、ステップS36にて、尤度計算部26が音モデル記憶部29に記憶されている音声の音モデルに対する尤度を計算する。
ステップS37にて、尤度計算部26によって計算された尤度が、予め設定される閾値2以上の場合には、入力音信号には人間が発する声が含まれているものとして、ステップS39にて、最終判定部28が非音声音信号なしと最終判定して処理を終了する。
ステップS37にて、尤度計算部26によって計算された音声の音モデルとの尤度が、閾値2以上の場合には、入力音信号には人間が発する声が含まれているものとして、ステップS39にて、最終判定部28が非音声音信号なしと最終判定して処理を終了する。
ステップS37にて、尤度計算部26によって計算された音声の音モデルとの尤度が閾値2より小さい場合には、ステップS39にて、最終判定部28が非音声音信号ありと最終判定して処理を終了する。
この様に、会議端末100は、入力音信号に対して非音声音信号の有無を検出し、非音声音信号の有無に基づいて被制御部107の制御を行うことも可能である。
≪被制御部の制御≫
非音声音検出部102にて、上記した処理により入力音信号に含まれる非音声音の有無が検出されると、次に制御情報取得部104が非音声音信号の検出パターンを認識する。
図9は、第1の実施形態に係る会議端末100における被制御部107の制御手順のシーケンスを例示する図である。
会議端末100の制御情報取得部104は、認識部104a、監視部104bを備え、非音声音検出部102による検出結果は、認識部104aに入力される。
図9に示す様に、非音声音検出部102は入力音信号から非音声音信号の検出を行い、非音声音検出結果を制御情報取得部104の認識部104aに出力する(ステップS101)。
制御情報取得部104の認識部104aは、監視部104bに非音声音信号が検出されたことを通知し、監視部104bは、時間の計測を開始する(ステップS102)。また、認識部104aは、非音声音検出結果を認識部104aが備えるバッファに記憶させる(ステップS103)。
同様に、非音声音検出部102によって非音声音信号が検出された場合には、非音声音検出部102が非音声音検出結果を制御情報取得部104の認識部104aに出力し(ステップS104,S106)、認識部104aが非音声音検出結果をバッファに記憶させる(ステップS105,S107)。
図10は、制御情報取得部104の認識部104aが備えるバッファに記憶される非音声音検出結果の例である。図10に示す様に、認識部104aのバッファには、非音声音信号の検出結果として、付与される非音声音ID、非音声音信号が検出された区間ID、非音声音信号の種類が記憶される。
次に、時間の計測を開始していた監視部104bは、一定の時間t秒(例えば2秒等)が経過した時点で、認識部104aに一定の時間t秒が経過したことを通知する(ステップS108)。次に、制御情報取得部104の認識部104aが制御情報記憶部105との間で検出パターンの照合を行う(ステップS109)。
ここで、制御情報記憶部105には、図11に例示する様に、非音声音信号の検出パターンに対応する被制御部107の制御情報が記憶されている。検出パターンは、非音声音検出部102によって検出される非音声音信号の数、種類、間隔等によって構成される。
例えば、[制御ID:0]は、上記した監視部104bによって計測される所定の時間t秒の間に、非音声音信号として「机を叩く音」が間隔t1で2回検出された場合には、被制御部107のカメラ107cをズームイン制御する、という制御情報である。また、[制御ID:1]は、非音声音信号として「机を叩く音」が間隔t2、t3で3回検出された場合には、被制御部107のスピーカ107bのボリュームを上げる様に制御する、という制御情報である。また、[制御ID:2]は、[制御ID:1]と非音声音信号の種類、回数は同じだが、非音声音信号の検出間隔が異なり、カメラ107cをズームアウトする、という制御情報である。さらに、[制御ID:3]は、非音声音信号として「手を叩く音」が間隔t6で2回検出された場合には、ディスプレイ107aの画面レイアウトを変える様に制御する、という制御情報である。
なお、制御情報記憶部105に記憶される検出パターンに対応する被制御部107の制御情報は、図11に示す例に限るものではなく、異なる検出パターンに対応して異なる制御情報を記憶させても良い。制御情報は、所定の時間以内に検出される非音声音信号についての、数、時間間隔及び種類のうち少なくとも1つ以上を用いた組み合わせにより、多様な種類の制御を行うことが可能になる。また、非音声音検出部102にて、非音声音信号の有無のみを検出する場合には、例えば非音声音信号の検出回数と、検出される非音声音信号の間隔等を組み合わせることで、複数の検出パターンを構成できる。
図9のシーケンス図に戻り、認識部104aは、バッファに記憶させた非音声音信号の数、種類及び区間IDから求められる間隔に基づいて検出パターンを認識し、制御情報記憶部106に記憶されている制御情報との照合を行う(ステップS109)。
認識部104aのバッファに記憶された検出パターンに合致する検出パターンが制御情報記憶部105に存在する場合には、認識部104aは、制御情報記憶部105からこの検出パターンに対応する制御情報を取得する(ステップS110)。
認識部104aは、制御情報を取得すると、制御部106に制御情報を送信し(ステップS111)、制御部106が制御情報に基づいて被制御部107に制御信号を送信する(ステップS112)。
この様に、会議端末100を使用する利用者は、予め設定されている制御情報の検出パターンに対応する非音声音を発することで、会議端末100の操作部115や、リモコン等を直接操作することなく、被制御部107の動作を制御することが可能になる。
≪非音声音の除去≫
非音声音除去部103には、音信号変換部101が入力音から変換して生成する入力音信号と、非音声音検出部102によって検出される非音声音信号とが入力され、入力音信号と非音声音信号との差分を出力音信号として出力する。
この様に、非音声音除去部103は、入力音信号から非音声音信号を除去することで、会議端末100の被制御部107を制御するために発せられる本来不必要な非音声音を除去した出力音信号を、例えば他の装置に送信したり、保存することが可能になる。したがって、例えば会議端末100の送信部108から他の端末に出力音信号を送信する場合に、会議端末100のユーザが非音声音を発して被制御部107の制御を行っても、相手側の他の端末には、不必要な非音声音は送信されずに済む。また、例えば保存部109に、会議端末100が集音した音を保存する場合にも、保存に不必要な非音声音が除去され、本来必要な音声等を保存することが可能になる。
≪制御情報の表示≫
ここで、会議端末100の制御情報取得部104が制御情報記憶部106から取得した制御情報を、例えば被制御部107のディスプレイ107aに表示させ、会議端末100のユーザに確認させる様にしても良い。
図12は、第1の実施形態に係る会議端末100において制御情報の確認を行う制御フローチャートを例示する図である。
まず、ステップS41にて、音信号変換部101が会議端末100の周囲の音を集音して音信号に変換する。次に、ステップS42にて、非音声音検出部102が、音信号変換部101によって変換された入力音信号から非音声音信号の検出を行う。
ステップS42にて、入力音信号から非音声音信号が検出された場合には、ステップS43にて、非音声音除去部103が入力音信号から非音声音信号の除去を行い、ステップS44にて、送信部108から非音声音信号が除去された音信号を外部に出力する。また、保存部109に、非音声音信号が除去された音信号を保存しても良い。
ステップS42にて、入力音信号から非音声音信号が検出された場合には、さらにステップS45にて、制御情報取得部104が、非音声音信号の検出パターンを認識する。
ステップS46にて、制御情報取得部104が、検出パターンに合致する制御情報が制御情報記憶部106にある場合にはこれを取得する。
ここで、ステップS46にて、制御情報取得部104が制御情報を取得した場合には、ステップS47にて、制御情報取得部104が制御情報を制御部106に送信し、制御部106は表示部の一例としての被制御部107のディスプレイ107aに、制御情報の内容を表示させる制御信号を送信する。
図13は、ディスプレイ107aによる制御情報の表示例であり、例えば制御情報取得部104によって取得された制御情報が、スピーカ107bの音量を上げる、という内容だった場合に、ディスプレイ107aの右上に「Volume Up」と表示させる。
この様に、制御情報をディスプレイ107aに表示させ、会議端末100のユーザは、ディスプレイ107aに表示されている制御情報が、ユーザ自身が意図する制御内容に一致する場合又は一致しない場合に、それぞれ所定の非音声音を発する。
この場合において制御情報記憶部106には、図14に例示する様に、非音声音信号の検出パターンに対応する確認情報が記憶されている。例えばユーザは、ディスプレイ107aに表示されている制御情報が、意図する制御情報と一致する場合には所定時間内に机を2回叩き、意図する制御情報と一致しない場合には所定時間内に机を1回叩く、といったことによって、会議端末100は制御情報の一致/不一致を検出することが可能になる。
そこで、図12に示すフローチャートに戻り、ステップS47にて制御情報をディスプレイ107aに表示した状態で、ステップS48にて、非音声音検出部102が入力音信号から非音声音信号の検出を行う。
ステップS48にて、非音声音検出部102により非音声音信号が検出された場合には、制御情報取得部104が非音声音信号の検出パターンと制御情報記憶部106に記憶されている確認情報との照合を行う。
ステップS40にて、制御情報取得部104の制御情報がユーザの意図と一致する場合には、ステップS41にて、ディスプレイ107aに表示した制御情報に基づいて、制御部106が被制御部107の制御を行って処理を終了する。
この様に、ディスプレイ107aに制御情報を表示し、ユーザへの確認を行うことによって、会議端末100が、ユーザが意図しない制御を行うことを防止できる。
以上で説明した様に、第1の実施形態に係る会議端末100によれば、ユーザは所定の非音声音を発することで、会議端末100の装置本体や、リモコン等を操作することなく、会議端末100の被制御部107の制御を行うことが可能である。
また、会議端末100は、非音声音除去部103が入力音信号から非音声音を除去した音信号を、例えば送信部108を介して他の装置に送信したり、保存部109に保存することができる。したがって、会議端末100を操作するために発せられる非音声音が、他の装置に送信される音信号や、保存部109に保存される音信号に含まれるのを防止することができる。
[第2の実施形態]
次に、第2の実施形態について図面に基づいて説明する。なお、既に説明した実施形態と同一構成部分についての説明は省略する。
<会議システムのハードウェア構成>
図15は、第2の実施形態に係る会議システム300のハードウェア構成を例示する図である。
図15に示す様に、会議システム300は、会議端末100と、会議端末200とがネットワーク400を介して接続することにより構成されている。会議システム300を構成する会議端末の数はこれに限らず、ネットワーク400等を介して接続するさらに多数の会議端末で構成しても良い。
会議システム300の会議端末100は、第1の実施形態と同様の構成を有し、ネットワークI/F部115が、ネットワーク400を介して会議端末200と接続している。
会議端末200は、図15に示す様に、ディスプレイ201、スピーカ202、カメラ203、マイクロホン204、CPU205、HDD(Hard Disk Drive)206、ROM(Read Only Memory)207、RAM(Read and Memory)208、操作部209、ネットワークI/F部210等を備え、それぞれがバスBで相互に接続されている。
ディスプレイ201は、例えばCRT,液晶ディスプレイ等であり、カメラ203で撮影した映像や、ネットワーク400を介して接続する他の装置から送信される映像等を表示する。また、例えばスクリーン等に画像を拡大して投影するプロジェクタ等であっても良い。
スピーカ202は、マイクロホン204で集音した音声や、ネットワーク400を介して接続する他の装置から送信される音信号に基づいて音を出力する音出力部である。
カメラ203は、例えば会議端末200の周囲のユーザ等を撮影する。カメラ203が撮影した映像はディスプレイ201に表示させることも可能であり、ネットワークを介して接続する他の装置に送信することもできる。
マイクロホン204は、会議端末200の周囲の音を集音する。マイクロホン204が集音した音声はスピーカ202から出力させることも可能であり、ネットワークを介して接続する他の装置に送信することもできる。
CPU205は、HDD206やROM207等の記憶装置からプログラムやデータをRAM208上に読み出して処理を実行することで、会議端末200が備える各機能を実現する演算装置である。
HDD206は、プログラムやデータを格納している不揮発性の記憶装置である。格納されるプログラムやデータには、会議端末200全体を制御する基本ソフトウェアであるOS(Operating System)、及びOS上において各種機能を提供するアプリケーションソフトウェア等がある。
ROM207は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ(記憶装置)である。ROM207には、会議端末200の起動時に実行されるBIOS(Basic Input/Output System)、OS設定、及びネットワーク設定等のプログラムやデータが格納されている。RAM208は、プログラムやデータを一時保持する揮発性の半導体メモリ(記憶装置)である。
操作部209は、ユーザインターフェースの役割を果たし、例えばキースイッチ(ハードキー)等で構成され、会議端末200に各操作信号を入力するのに用いられる。
ネットワークI/F部210は、有線及び/又は無線回線などのデータ伝送路により構築されたLAN(Local Area Network)、WAN(Wide Area Network)などのネットワークを介して接続される通信機能を有する周辺機器と会議端末200とのインタフェースである。
<会議システムの機能構成>
図16は、第2の実施形態に係る会議システム300の機能構成を例示するブロック図である。
図16に示す様に、会議端末100は、音信号変換部101、非音声音検出部102、非音声音除去部103、制御情報取得部104、制御情報記憶部105、制御部106、被制御部107、送信部108、保存部109、受信部110等を備える。
会議端末100は、音信号変換部101が会議端末100の周囲の音を集音して音信号に変換し、非音声音検出部102が非音声音信号の検出を行う。制御情報取得部104は、制御情報記憶部105に記憶されている制御情報と、検出される非音声音信号の検出パターンとの照合を行い、制御部106に制御情報を送信する。制御部106は、送信される制御情報に基づいて、被制御部107のディスプレイ107a、スピーカ107b、カメラ107cに制御信号を送信して制御を行う。
また、会議端末100は、非音声音除去部103が、入力音信号から非音声音信号を除去した音信号を、送信部108又は保存部109に出力する。
さらに、会議端末100は、送信部108、受信部110を備え、ネットワーク400を介して接続する会議端末200との間で音声や映像を送受信できる。送信部108は、非音声音除去部103により非音声音が除去された音信号や、被制御部107cのカメラ107cで撮影した映像等を会議端末200に送信する。受信部110は、会議端末200から送信される映像や音声等を受信することで、会議端末100のディスプレイ107aは受信した映像を表示し、スピーカ107bは受信した音声を出力できる。
また、保存部109には、被制御部107のカメラ107cによって撮影された映像信号や、受信部110が受信する音信号及び映像信号等を保存しても良い。
会議端末200は、受信部211、送信部212を備え、ネットワーク400に接続することで、会議端末100との間で音声や映像を送受信できる。受信部211は、会議端末100から送信される映像や音声等を受信し、ディスプレイ201、スピーカ202に表示又は出力させることができる。また、送信部212は、カメラ203で撮影した映像や、マイクロホン204で集音した音声を送信する。
会議システム300は、上記した構成により、遠隔地にそれぞれ設置される会議端末100,200の間で音声及び映像を送受信することで、会議システム300の各会議端末100,200のユーザは、お互いの音声や映像を介して会議等を行うことができる。
また、会議端末100のユーザは、所定の非音声音を発することで、会議端末100の装置本体や、リモコン等を操作することなく、会議端末100の被制御部107の制御を行うことができる。このとき、ユーザが発する非音声音は、非音声音除去部103によって音信号除去され、非音声音信号が除去された音信号が送信部108から会議端末200に送信される。したがって、会議端末200のユーザは、会議システム100の被制御部107を制御するために発せられる非音声音に煩わされることなく、円滑に会議等を行うことが可能になる。
また、ユーザが発する非音声音により被制御部107を制御できる会議端末100を、ネットワーク400を介して複数接続させる様に構成しても良い。各会議端末100のユーザは、非音声音により被制御部107を制御することができ、被制御部107を制御するために発する非音声音は除去されるため、各ユーザ間で円滑に会議を行うことが可能になる。
ここまで、上記各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に係る会議端末100が有する機能は、上記に説明を行った各処理手順を、上記各実施形態に係る会議端末100にあったプログラミング言語でコード化したプログラムとしてコンピュータで実行することで実現することができる。よって、上記各実施形態に係る会議端末100を実現するためのプログラムは、コンピュータが読み取り可能な記録媒体118に格納することができる。
よって、上記各実施形態に係るプログラムは、フレキシブルディスク、CD、DVD、USBメモリ等の記録媒体118に記憶させることによって、これらの記録媒体118から、会議端末100にインストールすることができる。また、会議端末100は、ネットワークI/F部115を有していることから、上記各実施形態に係るプログラムは、インターネット等の電気通信回線を介してダウンロードし、インストールすることもできる。
以上、本発明の実施形態について説明したが、上記実施形態に挙げた構成等に、その他の要素との組み合わせなど、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。
100 会議端末
101 音信号変換部
102 非音声音検出部
103 非音声音除去部
104 制御情報取得部
105 制御情報記憶部(記憶部)
106 制御部
107 被制御部
107a ディスプレイ(表示部)
108 送信部
109 保存部
118 記録媒体
202 スピーカ(音発生部)
211 受信部
300 会議システム
特開平3−54989号公報

Claims (8)

  1. 周囲の音を集音して音信号に変換する音信号変換部と、
    前記音信号変換部によって変換された前記音信号から非音声音信号を検出する非音声音検出部と、
    前記非音声音信号の検出パターンと被制御部の制御情報とを対応させて記憶する記憶部と、
    前記非音声音検出部によって検出された検出パターンに対応する制御情報を前記記憶部から取得する制御情報取得部と、
    前記パターン認識部によって取得される前記制御情報に基づいて前記被制御部を制御する制御部と、
    前記音信号から前記非音声音検出部によって検出された前記非音声音信号を除去する非音声音除去部とを備える
    ことを特徴とする処理装置。
  2. 前記非音声音除去部により前記非音声音信号が除去された前記音信号を保存する保存部を備えることを特徴とする請求項1に記載の処理装置。
  3. 前記被制御部は、映像を表示する表示部を備え、
    前記制御部は、前記制御情報取得部によって取得される前記制御情報を前記表示部に表示させる
    ことを特徴とする請求項1又は2に記載の処理装置。
  4. 前記記憶部に記憶される前記検出パターンは、所定の時間以内に検出される前記非音声音信号についての、数、時間間隔及び種類のうち少なくとも1つ以上で構成されている
    ことを特徴とする請求項1から3の何れか一項に記載の処理装置。
  5. 周囲の音を集音して音信号に変換する音信号変換ステップと、
    前記音信号変換ステップによって前記音信号から非音声音信号を検出する非音声音検出ステップと、
    前記非音声音検出ステップによって検出された検出パターンに対応する制御情報を、前記非音声音信号の検出パターンと前記被制御部の制御情報とを対応させて記憶する記憶部から取得する制御情報取得ステップと、
    前記制御情報取得ステップによって取得された前記制御情報に基づいて被制御部を制御する制御ステップと、
    前記音信号から前記非音声音検出部によって検出される前記非音声音信号を除去する非音声音除去ステップとを備える
    ことを特徴とする処理方法。
  6. 請求項5に記載の処理方法をコンピュータに実行させるためのプログラム。
  7. 請求項6に記載のプログラムを記録したことを特徴とするコンピュータが読み取り可能な記録媒体。
  8. 第1の処理装置と第2の処理装置とを少なくとも備え、音に応じて前記第1の処理装置が備える被制御部の制御処理を行う処理システムであって、
    前記第1の処理装置は、
    周囲の音を集音して音信号に変換する音信号変換部と、
    前記音信号から非音声音信号を検出する非音声音検出部と、
    前記非音声音検出部で検出された前記非音声音信号の検出パターンと前記被制御部の制御情報とを対応させて記憶する記憶部と、
    前記非音声音検出部によって検出された前記非音声音信号の検出パターンに対応する前記制御情報を前記記憶部から取得する制御情報取得部と、
    前記制御情報取得部によって取得された前記制御情報に基づいて前記被制御部を制御する制御部と、
    前記音信号から前記非音声音検出部によって検出される前記非音声音信号を除去する非音声音除去部と、
    前記非音声音信号が除去された前記音信号を送信する送信部とを備え、
    第2の処理装置は、
    前記音信号を受信する受信部と、
    受信した前記音信号に基づいて音を発生する音発生部とを備える
    ことを特徴とする処理システム。
JP2012098763A 2012-04-24 2012-04-24 処理装置、処理方法、プログラム、記録媒体及び処理システム Pending JP2013229658A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012098763A JP2013229658A (ja) 2012-04-24 2012-04-24 処理装置、処理方法、プログラム、記録媒体及び処理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012098763A JP2013229658A (ja) 2012-04-24 2012-04-24 処理装置、処理方法、プログラム、記録媒体及び処理システム

Publications (1)

Publication Number Publication Date
JP2013229658A true JP2013229658A (ja) 2013-11-07

Family

ID=49676916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012098763A Pending JP2013229658A (ja) 2012-04-24 2012-04-24 処理装置、処理方法、プログラム、記録媒体及び処理システム

Country Status (1)

Country Link
JP (1) JP2013229658A (ja)

Similar Documents

Publication Publication Date Title
JP4796309B2 (ja) モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
KR101610151B1 (ko) 개인음향모델을 이용한 음성 인식장치 및 방법
JP5075664B2 (ja) 音声対話装置及び支援方法
RU2373584C2 (ru) Способ и устройство для повышения разборчивости речи с использованием нескольких датчиков
JP5998603B2 (ja) 音検出装置、音検出方法、音特徴量検出装置、音特徴量検出方法、音区間検出装置、音区間検出方法およびプログラム
JP6182895B2 (ja) 処理装置、処理方法、プログラム及び処理システム
US20160125880A1 (en) Method and system for identifying location associated with voice command to control home appliance
US7406303B2 (en) Multi-sensory speech enhancement using synthesized sensor signal
JP2014153663A (ja) 音声認識装置、および音声認識方法、並びにプログラム
CN111508511A (zh) 实时变声方法及装置
CN107452398B (zh) 回声获取方法、电子设备及计算机可读存储介质
CN108880815A (zh) 身份验证方法、装置和***
JP2019061129A (ja) 音声処理プログラム、音声処理方法および音声処理装置
CN109064720B (zh) 位置提示方法、装置、存储介质及电子设备
JP2013229658A (ja) 処理装置、処理方法、プログラム、記録媒体及び処理システム
JP2000276200A (ja) 声質変換システム
CN111107400B (zh) 数据收集方法、装置、智能电视及计算机可读存储介质
JP2013229657A (ja) 処理装置、処理方法、プログラム、記録媒体及び処理システム
KR101605848B1 (ko) 음성인식 성능 평가 방법 및 그 장치
JP4408205B2 (ja) 話者認識装置
JP4840149B2 (ja) 発音期間を特定する音信号処理装置およびプログラム
CN111540378A (zh) 一种音频检测方法、装置和存储介质
JP2019045527A (ja) 音声処理プログラム、音声処理方法および音声処理装置
CN113228170B (zh) 信息处理装置及非易失性存储介质