JP2006203548A - Voice signal processor for processing voice signals of a plurality of speakers, and program - Google Patents
Voice signal processor for processing voice signals of a plurality of speakers, and program Download PDFInfo
- Publication number
- JP2006203548A JP2006203548A JP2005013039A JP2005013039A JP2006203548A JP 2006203548 A JP2006203548 A JP 2006203548A JP 2005013039 A JP2005013039 A JP 2005013039A JP 2005013039 A JP2005013039 A JP 2005013039A JP 2006203548 A JP2006203548 A JP 2006203548A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- data
- attribute
- audio
- signal processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、会議等の状況下において、音響機器を用いた複数話者による同時発声を可能とする音声信号処理技術に関する。 The present invention relates to an audio signal processing technique that enables simultaneous speech by a plurality of speakers using an acoustic device in a meeting or the like.
多地点に配置された者が、通信回線に接続された音響機器を用いて、音声会議に参加することを可能とする技術がある。すなわち、各地点に配置された音響機器により拾音された各々の話者の音声を示す音声信号は各々中央装置に送信され、中央装置においてミキシングされた後、各音響機器に送信される。その結果、各地点に配置された音響機器からは、多地点に配置された話者の音声がミキシングされた音声が発音され、音声会議が成立する。そのような従来技術を開示した文献として、例えば特許文献1がある。
従来技術による場合、会議の参加者は全ての話者の音声を聞くことになる。そのため、参加者は、全ての音声の中から自分が聞く必要があると考える音声を判別する必要があった。また、記録された過去の会議の音声を再生して聞く場合にも、聞き手は会議の全ての音声を聞く必要があり、上記と同様の問題があった。 According to the prior art, conference participants will hear the voices of all speakers. For this reason, the participant has to determine the voice that he / she needs to hear from all the voices. In addition, when reproducing and listening to recorded past conference audio, the listener needs to listen to all the audio of the conference, and there is a problem similar to the above.
上記の状況に鑑み、本発明は、複数話者の音声を合成して発音するシステムにおいて、聞き手が聞く必要があると考える音声部分のみを発音可能とする手段を提供することを目的とする。 In view of the above situation, an object of the present invention is to provide a means for enabling sound generation of only a voice part that a listener thinks needs to be heard in a system that synthesizes and sounds a plurality of speakers.
上記課題を達成するために、本発明は、複数の端末装置から出力される音声信号を当該音声信号の属性を示す属性データとともに受け取る音声信号入力手段と、前記音声信号入力手段により受け取られた音声信号および属性データを対応付けて記憶する音声信号記憶手段と、任意の属性を指定する属性指定データを受け取る属性指定データ入力手段と、前記音声信号記憶手段に記憶された音声信号のうち、前記属性指定データにより指定された属性を示す属性データに対応付けて記憶されている音声信号を抽出する抽出手段と、前記抽出手段により抽出された音声信号を出力する出力手段とを備えることを特徴とする音声信号処理装置を提供する。 In order to achieve the above object, the present invention provides audio signal input means for receiving audio signals output from a plurality of terminal devices together with attribute data indicating attributes of the audio signals, and audio received by the audio signal input means. Audio signal storage means for storing signals and attribute data in association with each other, attribute designation data input means for receiving attribute designation data for designating an arbitrary attribute, and among the audio signals stored in the audio signal storage means, the attribute An extraction means for extracting a sound signal stored in association with attribute data indicating an attribute designated by the designated data, and an output means for outputting the sound signal extracted by the extraction means An audio signal processing apparatus is provided.
かかる構成の音声信号処理装置によれば、記憶された音声信号のうち、聞き手が希望する属性を備える音声信号のみが抽出され出力される結果、聞き手にとって不要な音声を含まない音声の再生が可能となる。 According to the audio signal processing apparatus having such a configuration, only the audio signal having the attribute desired by the listener is extracted and output from the stored audio signals, and as a result, it is possible to reproduce audio that does not include unnecessary audio for the listener. It becomes.
また、本発明は、任意の属性を指定する属性指定データを受け取る属性指定データ入力手段と、複数の端末装置から出力される音声信号を当該音声信号の属性を示す属性データとともに受け取る音声信号入力手段と、前記音声信号入力手段により受け取られた音声信号のうち、前記属性指定データにより指定された属性を示す属性データとともに受け取られた音声信号を抽出する抽出手段と、前記抽出手段により抽出された音声信号を出力する出力手段とを備えることを特徴とする音声信号処理装置を提供する。 Also, the present invention provides attribute designation data input means for receiving attribute designation data for designating an arbitrary attribute, and audio signal input means for receiving audio signals output from a plurality of terminal devices together with attribute data indicating the attributes of the audio signals. Extraction means for extracting the audio signal received with the attribute data indicating the attribute designated by the attribute designation data from among the audio signals received by the audio signal input means; and the voice extracted by the extraction means There is provided an audio signal processing device comprising output means for outputting a signal.
かかる構成の音声信号処理装置によれば、リアルタイムで入力される音声信号のうち、聞き手が希望する属性を備える音声信号のみが抽出され出力される結果、聞き手にとって不要な音声を含まない音声の再生が可能となる。 According to the audio signal processing apparatus having such a configuration, only the audio signal having the attribute desired by the listener is extracted and output from the audio signals input in real time. Is possible.
また、好ましい態様において、前記抽出手段により複数の音声信号が抽出された場合、当該複数の音声信号をミキシングするミキシング手段をさらに備え、前記出力手段は、前記抽出手段により音声信号が1のみ抽出された場合は当該音声信号を出力し、前記抽出手段により複数の音声信号が抽出された場合は前記ミキシング手段によりミキシングされた音声信号を出力するように構成してもよい。 Further, in a preferred aspect, when a plurality of audio signals are extracted by the extraction unit, the output unit further includes a mixing unit that mixes the plurality of audio signals, and the output unit extracts only one audio signal by the extraction unit. In this case, the audio signal may be output, and when a plurality of audio signals are extracted by the extraction unit, the audio signal mixed by the mixing unit may be output.
かかる構成の音声信号処理装置によれば、複数の話者の音声を示す音声信号を個別に出力する場合と比較し、出力される信号量が少なくなる。 According to the audio signal processing device having such a configuration, the amount of signal to be output is reduced as compared with the case where audio signals indicating the voices of a plurality of speakers are individually output.
また、好ましい態様において、前記属性指定データ入力手段は、一の端末装置から前記属性指定データを受け取り、前記出力手段は、当該一の端末装置に音声信号を出力するように構成してもよい。 In a preferred aspect, the attribute designation data input means may receive the attribute designation data from one terminal device, and the output means may output a voice signal to the one terminal device.
かかる構成の音声信号処理装置によれば、端末装置の使用者の希望に応じて抽出された音声信号が当該使用者の端末装置に出力される結果、各々の聞き手に応じた音声信号の提供が可能となる。 According to the audio signal processing device having such a configuration, the audio signal extracted according to the user's request of the terminal device is output to the user's terminal device, so that the audio signal corresponding to each listener can be provided. It becomes possible.
また、好ましい態様において、前記属性データは音声信号の出力元の端末装置の識別子であり、前記属性指定データは1以上の端末装置の識別子を指定するデータであるように構成してもよい。 In a preferred aspect, the attribute data may be an identifier of a terminal device from which an audio signal is output, and the attribute specifying data may be data specifying an identifier of one or more terminal devices.
かかる構成の音声信号処理装置によれば、端末装置の識別子により、聞き手が聞きたいと思う音声信号が特定される。 According to the audio signal processing device having such a configuration, the audio signal that the listener wants to hear is specified by the identifier of the terminal device.
また、好ましい態様において、前記複数の端末装置はネットワークを介して前記音声信号入力手段と接続されており、前記識別子は前記ネットワーク上で端末装置に割り当てられたアドレスであるように構成してもよい。 In a preferred aspect, the plurality of terminal devices may be connected to the audio signal input means via a network, and the identifier may be an address assigned to the terminal device on the network. .
かかる構成の音声信号処理装置によれば、ネットワークアドレスにより、聞き手が聞きたいと思う音声信号が特定される。 According to the audio signal processing apparatus having such a configuration, the audio signal that the listener wants to hear is specified by the network address.
また、好ましい態様において、前記属性データは音声信号の生成された時刻を示す時刻データであり、前記属性指定データは任意の時間帯を指定する時間帯指定データであり、前記抽出手段は、前記時間帯指定データにより指定された時間帯に含まれる時刻を示す時刻データに対応付けられた音声信号を抽出するように構成してもよい。 Further, in a preferred aspect, the attribute data is time data indicating a time when an audio signal is generated, the attribute specifying data is time zone specifying data specifying an arbitrary time zone, and the extracting means includes the time You may comprise so that the audio | voice signal matched with the time data which shows the time contained in the time slot | zone designated by the band designation | designated data may be extracted.
かかる構成の音声信号処理装置によれば、聞き手が指定する時間帯において発言された音声を示す音声信号のみが抽出され、不要な時間帯の音声信号を聞き手が選択する必要がなくなる。 According to the audio signal processing device having such a configuration, only the audio signal indicating the audio uttered in the time zone specified by the listener is extracted, and it is not necessary for the listener to select an audio signal in an unnecessary time zone.
また、好ましい態様において、前記音声信号処理装置は一の種類の属性を示す属性データと他の種類の属性を示す属性データとの対応関係を示す対応データを記憶する対応データ記憶手段をさらに備え、前記抽出手段は、前記音声信号入力手段により受け取られた一の種類の属性データに代えて、前記対応データに従い当該属性データに対応する他の種類の属性データを用いて、音声信号の抽出を行うように構成してもよい。 In a preferred aspect, the audio signal processing apparatus further includes correspondence data storage means for storing correspondence data indicating a correspondence relationship between attribute data indicating one type of attribute and attribute data indicating another type of attribute, The extraction unit extracts an audio signal using another type of attribute data corresponding to the attribute data according to the corresponding data instead of the one type of attribute data received by the audio signal input unit. You may comprise as follows.
かかる構成の音声信号処理装置によれば、音声信号に直接対応付けられている属性データとは異なる種類の属性により、聞きたい音声を抽出するための条件を指定することが可能となる。 According to the audio signal processing apparatus having such a configuration, it is possible to specify a condition for extracting a desired voice by using an attribute of a different type from the attribute data directly associated with the audio signal.
また、好ましい態様において、前記対応データは、端末装置の識別子と当該端末装置を使用する話者の属性を示す話者データとの対応関係を示し、前記音声信号入力手段は、音声信号とともに当該音声信号の出力元の端末装置の識別子を属性データとして受け取り、前記属性指定データ入力手段は、話者の属性を指定するデータを属性指定データとして受け取り、前記抽出手段は、前記属性指定データにより指定された属性を示す話者データに対応する端末装置の識別子を前記対応データに従い特定し、特定した識別子とともに受け取られた音声信号を抽出するように構成してもよい。 Further, in a preferred aspect, the correspondence data indicates a correspondence relationship between an identifier of the terminal device and speaker data indicating an attribute of the speaker using the terminal device, and the voice signal input means includes the voice signal and the voice data. An identifier of a terminal device that is a signal output source is received as attribute data, the attribute designation data input means receives data that designates a speaker attribute as attribute designation data, and the extraction means is designated by the attribute designation data The terminal device identifier corresponding to the speaker data indicating the attribute may be specified according to the corresponding data, and the voice signal received together with the specified identifier may be extracted.
かかる構成の音声信号処理装置によれば、音声信号が端末装置の識別子により特定可能な場合であっても、聞き手は音声信号の話者の属性により、聞きたいと思う音声の抽出を指定することができる。 According to the audio signal processing device having such a configuration, even when the audio signal can be specified by the identifier of the terminal device, the listener specifies the extraction of the audio to be heard by the attribute of the speaker of the audio signal. Can do.
また、本発明は、上記の音声信号処理装置により行われる処理をコンピュータに実行させるプログラムを提供する。 The present invention also provides a program that causes a computer to execute processing performed by the above-described audio signal processing apparatus.
[1.第1実施形態]
[1.1.音声会議システムの構成]
図1は、本発明の第1実施形態にかかる音声会議システム1の構成を示したブロック図である。音声会議システム1は、互いに異なる場所にいる会議参加者が、音声により会議を行うことを可能とするシステムである。音声会議システム1は、複数の通信機器を相互に接続するネットワーク10と、ネットワーク10に各々接続された複数の端末装置11と、端末装置11の各々に接続されたヘッドセット12と、ネットワーク10に接続された音声信号処理サーバ13を備えている。
[1. First Embodiment]
[1.1. Configuration of audio conference system]
FIG. 1 is a block diagram showing a configuration of an
複数の端末装置11およびヘッドセット12の各々は、会議の参加者19の各々により使用される。音声会議システム1を利用した会議に参加可能な参加者の数、すなわち端末装置11およびヘッドセット12の数は任意に変更可能であり、さらに会議の進行中に参加者の構成が変動してもよい。
Each of the plurality of
図1に示すように、異なる参加者19および当該参加者19が使用する端末装置11およびヘッドセット12を互いに区別する必要がある場合には、それぞれ、参加者19−n、端末装置11−nおよびヘッドセット12−nのように、末尾に「−n」を付してそれらを区別する。ただし、「n」は任意の自然数である。また、異なる参加者19および当該参加者19が使用する端末装置11およびヘッドセット12を互いに区別する必要がない場合には、それぞれ、単に参加者19、端末装置11およびヘッドセット12と呼ぶ。
As shown in FIG. 1, when
ネットワーク10は、有線または無線により相互接続された1以上の中継装置を備え、異なる通信機器間のデータの中継を行う。ネットワーク10は、インターネット等の利用者を限定しないオープンネットワークであってもよいし、イントラネットやインターネットプロトコル以外の通信プロトコルを用いるLAN(Local Area Network)等のいずれであってもよい。
The
端末装置11は、参加者19の音声を示す音声信号を音声信号処理サーバ13に送信するとともに、音声信号処理サーバ13から他の参加者19の音声を示す音声信号が合成された合成音声信号を受信する装置であり、例えば、汎用のパーソナルコンピュータ、PDA(Personal Digital Assistant)、専用端末装置等のいずれであってもよい。端末装置11は、所定時間ごとにクロック信号を発する発振器を備え発せられたクロック信号をカウントすることにより現在の時刻を示す時刻データを生成する計時部111と、端末装置11が音声信号処理サーバ13から受信すべき音声信号の属性を指定する指定データをネットワーク10に送信する指定データ送信部112と、ヘッドセット12から入力されるアナログ音声信号をデジタル音声信号に変換しその時点における時刻データを対応づけて音声信号送信部114に引き渡すとともに記憶部116に記憶されているデジタル音声信号をアナログ音声信号に変換してヘッドセット12に出力する音声信号処理部113と、音声信号処理部113から音声信号および時刻データを受け取ってネットワーク10に送出する音声信号送信部114と、ネットワーク10から音声信号を受け取って記憶部116に書き込む音声信号受信部115と、端末装置11の制御プログラム等を記憶するとともに他の構成部のワークエリアとして利用される記憶部116を備えている。また、端末装置11の各々には互いに異なる端末IDが予め割り当てられており、記憶部116に記憶されている。
The
ヘッドセット12は、参加者19の音声を示すアナログ音声信号を生成して端末装置11に出力するマイクと、端末装置11から入力されるアナログ音声信号を音声に変換して発音するヘッドフォンを備えている。
The
音声信号処理サーバ13は、複数の端末装置11の各々から音声信号を受信し、受信した複数の音声信号をミキシングもしくはグループ化した後、複数の端末装置11の各々に送信する装置である。音声信号処理サーバ13は、ネットワーク10から指定データを受信して記憶部139に書き込む指定データ受信部131と、ネットワーク10から音声信号および時刻データを受信して記憶部139に書き込む音声信号受信部132と、記憶部139に記憶された音声信号のうち所定の条件を満たす音声信号を抽出する抽出部133と、抽出部133により抽出された複数の音声信号をミキシングして合成音声信号を生成するミキシング部134と、抽出部133により抽出された音声信号もしくはミキシング部134により生成された合成音声信号をネットワーク10に送信する音声信号送信部135と、音声信号処理サーバ13の制御プログラム等を記憶するとともに他の構成部のワークエリアとして利用される記憶部139を備えている。
The audio
記憶部139は、予め会議データ1391および参加者データ1392を記憶している。会議データ1391は、過去に音声会議システム1により開催された会議および将来開催予定の会議の参加者等を示すデータである。図2は会議データ1391の内容を例示した図である。会議データ1391は、会議ID、日付、時間帯、議題、参加者IDおよび役割の項目からなるレコードを、日付および時間帯順に複数含んでいる。各レコードは各会議に対応している。各レコードの参加者IDの項目には、参加者の数に応じて複数の参加者IDが含まれ得る。また、各レコードの役割の項目には、参加者IDで特定される各参加者の会議における役割を示すデータが含まれる。役割を示すデータとしては、例えば「司会」、「発表者」、「通訳」、「ゲスト」、「一般参加者」等がある。例えば、現在が2004年12月1日の朝であるとすると、例えば会議ID「20040001」で特定される会議(以下、会議「20040001」のように呼ぶ)は、既に過去に開催された会議の参加者等の記録を示す。一方、例えば会議「20040315」は将来開催される予定の会議の参加者等を示す。
The
参加者データ1392は、音声会議システム1を用いて会議に参加可能な者の氏名等を示すデータである。図3は参加者データ1392の内容を例示した図である。ただし、図3においては、会議「20040315」への参加者に関するレコードをピックアップして例示している。参加者データ1392は、参加者ID、氏名、所属、役職およびパスワードの項目からなるレコードを複数含んでいる。参加者データ1392に含まれる参加者IDは、会議データ1391に含まれる参加者IDと共通である。参加者データ1392において、各レコードは各々異なる人物に対応しているため、参加者IDがレコード間で重複して用いられることはないが、会議データ1391に含まれる参加者IDは、同じ人物が異なる会議に参加することが可能であるため、異なるレコードに同じ参加者IDが含まれ得る。会議データ1391および参加者データ1392は、例えば音声会議システム1の管理者により作成され、必要に応じて更新される。
全ての参加者19には、予め、音声会議システム1の管理者等から参加者データ1392に登録されている各人の参加者IDおよびパスワードが通知されている。また、会議データ1391の各レコードに含まれる参加者IDの各々に対応する参加者19には、予め、音声会議システム1の管理者等から、当該レコードに含まれる会議ID、日付、時間帯、議題および役割が通知されている。
All
[1.2.音声会議システムの動作]
続いて、複数の参加者19が音声会議システム1を用いて会議を行う場合の音声会議システム1の動作を、会議「20040315」が開催される場合を例として説明する。図4は、会議「20040315」が開催される際の参加者19、端末装置11、端末装置11と音声信号処理サーバ13との間に確立されるコネクション、音声信号処理サーバ13のデータバッファの対応関係を示す図である。会議データ1391(図2参照)に示されるように、会議「20040315」へは、参加者ID「0425」、「0025」、「3747」、「0074」、「0362」および「9125」が割り当てられている6名の参加者19が参加する。以下、それら6名の参加者を、順に参加者19−1、参加者19−2、・・・、参加者19−6とする。
[1.2. Operation of the audio conference system]
Next, the operation of the
まず、参加者19−1〜6の各々は、端末装置11−1〜6を操作して、端末装置11と音声信号処理サーバ13との間に通信コネクションを確立させる。例として、端末装置11−1〜6の各々には、端末ID「0041」、「0301」、「0278」、「0075」、「0123」および「0084」が割り当てられているものとする。音声信号処理サーバ13は、端末装置11−1〜6の各々との間に通信コネクションを確立し、確立した通信コネクションの各々にコネクションIDを割り当てる。通信コネクションの確立の方法は従来技術によるものと同様であるので、説明を省略する。端末装置11は、各々、任意のタイミングで音声信号処理サーバ13との間に通信コネクションを確立することができるので、参加者19は任意のタイミングで会議に参加したり、会議から離脱したりすることができる。以下、例として、音声信号処理サーバ13は端末装置11−1〜6の各々との間に確立される通信コネクションに対し、それぞれコネクションID「0004」、「0015」、「0034」、「0021」、「0023」および「0009」を割り当てるものとする。
First, each of the participants 19-1 to 19-6 operates the terminal devices 11-1 to 6 to establish a communication connection between the
音声信号処理サーバ13は、上記のように端末装置11との間に通信コネクションを確立すると、確立した通信コネクションを介して受信される音声信号を一時的に記憶するためのデータバッファ1393を記憶部139に確保する。以下、音声信号処理サーバ13が端末装置11−1〜6の各々との間に確立した通信コネクションのそれぞれのために確保するデータバッファをデータバッファ1393−1〜6とする。データバッファ1393−1〜6には対応する通信コネクションのコネクションIDが対応付けられ、当該コネクションIDにより、各々のデータバッファ1393に記憶される音声信号が、いずれの通信コネクションを介して受信されたものであるかが識別される。一方、端末装置11もまた、通信コネクションの確立に際して、音声信号処理サーバ13から受信する音声信号を一時的に記憶するためのデータバッファ1161を記憶部116に確保する。
When the audio
また、音声信号処理サーバ13は、端末装置11との間に通信コネクションを確立する際、端末装置11から端末IDを取得し、当該端末装置11に割り当てたコネクションIDと端末IDとの対応関係を示すデータを作成する。図5は音声信号処理サーバ13において作成されるコネクションIDと端末IDの対応関係を示すデータの例を示している。音声信号処理サーバ13はこのデータに従い、コネクションIDにより、そのコネクションIDにより特定される通信コネクションを用いた通信の相手の端末装置11を特定することができる。
Further, when establishing a communication connection with the
上記のように端末装置11と音声信号処理サーバ13との間に通信コネクションの確立が行われると、続いて参加者19は端末装置11を操作して、参加者IDおよびパスワードを音声信号処理サーバ13に送信し、音声信号処理サーバ13は受信した参加者IDおよびパスワードの組合せが参加者データ1392(図3参照)に含まれる参加者IDおよびパスワードの組合せと一致するかを判定することにより、参加者19の認証を行う。その判定により参加者19が正しく認証されると、続いて参加者19は端末装置11を操作して、参加したい会議の会議ID「20040315」を音声信号処理サーバ13に送信する。音声信号処理サーバ13は会議データ1391(図2参照)を参照し、受信した会議ID「20040315」に対応するレコードの参加者IDの項目に、先に受信した参加者IDが含まれているかを判定することにより、参加者19が会議「20040315」への参加資格を有することを確認する。
When the communication connection is established between the
音声信号処理サーバ13は、上記判定により参加者19が会議「20040315」への参加資格を有することを確認すると、会議「20040315」の参加者19の各々について対応するコネクションID等の各種属性を示す対応データ1394を生成し、記憶部139に記憶する。図6は会議「20040315」に関する対応データ1394の内容を例示した図である。ただし、図6は会議「20040315」への参加者の全てに関し、上記のように音声信号処理サーバ13により会議への参加資格の確認が行われた後の対応データ1394を示している。対応データ1394は、コネクションID、端末ID、参加者ID、氏名、所属、役職および役割の項目からなるレコードを複数含んでいる。対応データ1394の各レコードは会議への参加者に対応している。
When the audio
音声信号処理サーバ13は、各々の参加者19について会議への参加資格があることを確認すると、その参加者19が用いている端末装置11と音声信号処理サーバ13との間で確立されている通信コネクションのコネクションIDに対し、先に生成したコネクションIDと端末IDの対応関係を示すデータ(図5参照)に基づき、対応する端末IDを特定する。また、音声信号処理サーバ13は、端末装置11から受信した参加者IDを検索キーとして参加者データ1392(図3参照)からレコードを検索し、検索したレコードに含まれる氏名、所属および役職を特定する。さらに、音声信号処理サーバ13は、端末装置11から受信した会議IDを検索キーとして会議データ1391(図2参照)からレコードを検索し、検索したレコードの役割の項目に含まれるデータのうち、端末装置11から受信した参加者IDに対応するものを特定する。音声信号処理サーバ13は上記のように各々特定したデータを対応付け、対応データ1394のレコードとして格納する。
When the audio
上記のように生成される対応データ1394に含まれる各項目は、参加者19の異なる種類の属性を示している。すなわち、コネクションIDは参加者19の使用する通信コネクションを示し、端末IDは参加者19の使用する端末装置11を示し、氏名、所属、役職および役割は、各々、その名称により示される参加者19の属性を示している。さらに、対応データ1394の各レコードは、後述するように、参加者IDにより各参加者19の音声を示す音声信号と対応付けられる。その結果、対応データ1394は各音声信号の属性をも意味するデータとなる。すなわち、例えば氏名「ササキ コウジ」は、参加者ID「0425」に対応付けられた音声信号の話者の氏名を示すデータである。
Each item included in the
音声信号処理サーバ13は、会議データ1391に従い、会議「20040315」の開催日時である2004年12月1日13:00になると、会議「20040315」に関し生成されている対応データ1394に従い、端末装置11−1〜6の各々との間で音声信号の送受信を開始する。その結果、参加者19−1〜6はヘッドセット12を用いて会議の参加者に対し発言を行うとともに、他の参加者の発言を聞くことができるようになる。以下、そのための音声会議システム1の動作を説明する。
In accordance with the
参加者19の発音した音声は、ヘッドセット12のマイクによりアナログ音声信号に変換され、端末装置11の音声信号処理部113に入力される。音声信号処理部113はヘッドセット12から受け取ったアナログ音声信号をデジタル音声信号に変換した後、変換後の音声信号を含むデータパケットを生成する。
The sound produced by the
図7は、音声信号が複数のデータパケットに含まれる様子を模式的に示した図である。音声信号処理部113は、音声信号を先頭から順に所定のデータ長の音声信号ブロックに分割する。音声信号処理部113は、音声信号ブロックの間の順序を示すブロック番号を音声信号ブロックの前に付加する。さらに、音声信号処理部113はブロック番号の前に、コネクションID、送信元IDおよび送信先IDを順次付加する。送信元IDは端末装置11の端末IDであり、送信先IDは音声信号処理サーバ13のネットワーク10におけるIDである。さらに、音声信号処理部113は、その時点で計時部111から受け取った時刻データを、音声信号ブロックの後に付加する。音声信号処理部113は、そのように各種データの付加された音声信号ブロックの前および後に、一連のデータの区切りを示すデータとして、HOD(Head of Data)およびEOD(End of Data)を付加する。このように生成されたHODで始まりEODで終わる一連のデータがデータパケットである。
FIG. 7 is a diagram schematically illustrating how an audio signal is included in a plurality of data packets. The audio signal processing unit 113 divides the audio signal into audio signal blocks having a predetermined data length in order from the top. The audio signal processing unit 113 adds a block number indicating the order between the audio signal blocks to the front of the audio signal block. Furthermore, the audio signal processing unit 113 sequentially adds a connection ID, a transmission source ID, and a transmission destination ID before the block number. The transmission source ID is a terminal ID of the
データパケットに含まれる時刻データは、正確にはデータパケットの生成時刻を示すデータであるが、参加者19による発声からデータパケットの生成までの時間が十分に短い場合、時刻データは、当該音声信号ブロックに対応する音声が参加者19により発せられた時刻もしくは当該音声信号ブロックが生成された時刻を示すデータである。従って、時刻データは、当該音声信号ブロックの属性を示す属性データの一種であると言える。
The time data included in the data packet is exactly data indicating the generation time of the data packet, but when the time from the utterance by the
音声信号処理部113は、上記のように生成したデータパケットを順次、音声信号送信部114に引き渡し、音声信号送信部114は受け取ったデータパケットを順次、ネットワーク10に送出する。ネットワーク10に含まれる中継装置は、送信先IDによりネットワーク10において特定される通信機器へ到達可能な通信経路を示すルーティングテーブルを記憶しており、端末装置11から送出されたデータパケットに含まれる送信先IDに基づき、ルーティングテーブルにより送信先IDにより特定される通信機器へ到達可能な通信経路上の隣接する中継装置にデータパケットを転送する。その結果、データパケットは音声信号処理サーバ13に送り届けられる。ルーティングテーブルの更新方法等は従来技術によるものと同様であるので、説明を省略する。
The audio signal processing unit 113 sequentially transfers the data packets generated as described above to the audio
ネットワーク10を介して上記のように音声信号処理サーバ13に送り届けられたデータパケットは、音声信号処理サーバ13の音声信号受信部132により受信される。音声信号受信部132は、受信したデータパケットに含まれるコネクションIDに従い、当該コネクションIDに対応するデータバッファ1393の当該データパケットに含まれるブロック番号に応じた領域に、当該データパケットに含まれる音声信号ブロックを記憶させる。端末装置11から送出された複数のデータパケットは、各々、ネットワーク10において通過する通信経路が異なる結果、送出順に音声信号処理サーバ13に受信されるとは限らない。しかしながら、音声信号受信部132により、ブロック番号に応じた順序でデータバッファ1393に音声信号ブロックが記憶される結果、データバッファ1393に記憶される一連の音声信号は、端末装置11においてデータパケットに分割される前の音声信号を再現したものとなる。データパケットの一部が何らかの理由で音声信号処理サーバ13に到達しなかった場合には、音声信号処理サーバ13により到達しなかったデータパケットに含まれる音声信号が前後の音声信号に基づき補間される等の処理が行われるが、それらの処理は従来技術によるものと同様であるため、説明を省略する。
The data packet sent to the audio
図8は、端末装置11−1〜6の各々から送信された音声信号が、音声信号処理サーバ13のデータバッファ1393−1〜6に各々記憶される様子を模式的に示した図である。既に述べたように、データバッファ1393−1〜6は会議「20040315」の参加者の各々の音声信号を記憶するために確保されており、参加者に対応するコネクションIDにより、いずれの参加者の音声信号を記憶するためのデータバッファであるかが識別可能となっている。例えば、コネクションID「0004」に対応するデータバッファ1393−1には、コネクションID「0004」により特定される通信コネクションを介して端末装置11−1より受信した音声信号ブロックがブロック番号に従い組み立てられ、参加者19−1の音声を示す音声信号が復元される。ただし、データバッファ1393において復元される音声信号には、各音声信号ブロックとともにデータパケットに含まれていた時刻データが、音声信号における各音声信号ブロックの位置に対応付けて記憶されている。従って、データバッファ1393に記憶されているデータによれば、音声信号の各部分により示される音声が発声された時刻が特定可能である。
FIG. 8 is a diagram schematically showing how audio signals transmitted from each of the terminal devices 11-1 to 6 are stored in the data buffers 1393-1 to 1393-1 of the audio
ところで、参加者19の各々は端末装置11を操作して音声信号処理サーバ13に指定データを送信することにより、特定の属性を備えた音声信号のみを自分の使用する端末装置11に送信するよう、音声信号処理サーバ13に指示を与えることができる。既定の状態、すなわち参加者19が指示データを端末装置11から音声信号処理サーバ13に送信していない状態では、音声信号処理サーバ13はデータバッファ1393−1〜6に記憶される音声信号の全てを、順次、ミキシングした後、端末装置11に送信する。一方、参加者19が指示データを端末装置11から音声信号処理サーバ13に送信した後は、音声信号処理サーバ13はデータバッファ1393−1〜6に記憶される音声信号のうち、指定データにより示される条件を満たす音声信号を抽出し、抽出した音声信号のみをミキシングして端末装置11に送信する。これらの音声信号処理サーバ13による処理は、端末装置11−1〜6の各々に関し個別に行われる。従って、以下、端末装置11−1に対し、音声信号処理サーバ13から音声信号が送信される場合を例として、その具体的な動作を説明する。
By the way, each
まず、音声信号処理サーバ13が端末装置11−1から指定データを受信していない場合、抽出部133はデータバッファ1393−1〜6の各々から、音声信号のサンプリングレートに等しい周期で新たに書き込まれた音声信号の各サンプルを読み出し、読み出した音声信号をミキシング部134に引き渡す。ミキシング部134は抽出部133から受け取ったサンプルを加算して1つのサンプルを生成し、生成したサンプルを順次音声信号送信部135に引き渡す。このようにミキシング部134から順次音声信号送信部135に引き渡されるサンプルは、全体として、参加者19−1〜6の音声をミキシングした音声を示す合成音声信号である。
First, when the audio
音声信号送信部135は、ミキシング部134から合成音声信号を受け取ると、受け取った合成音声信号を用いてデータパケットを生成し、生成したデータパケットを順次、ネットワーク10に送出する。音声信号送信部135がデータパケットを生成する方法は、音声信号送信部114がデータパケットを生成する方法と同様である(図7参照)。ただし、この場合、データパケットに含まれる送信元IDは音声信号処理サーバ13のIDであり、送信先IDは端末装置11−1の端末IDである。また、本実施形態においては端末装置11において時刻データが利用されることはないので、音声信号処理サーバ13から送出されるデータパケットには時刻データが含まれないようにしてもよい。
When the voice
音声信号送信部135からネットワーク10に送出されたデータパケットは含まれる送信先IDに基づき、端末装置11−1に送り届けられる。端末装置11−1の音声信号受信部115はデータパケットを受信すると、受信したデータパケットに含まれる音声信号ブロックをブロック番号に応じたデータバッファ1161の領域に順次書き込んでゆく。その一方で、音声信号処理部113はデータバッファ1161に書き込まれた音声信号をアナログ音声信号に変換し、ヘッドセット12のヘッドフォンにそれぞれ出力する。ヘッドセット12のヘッドフォンは、音声信号処理部113から入力された音声信号を音に変換し発音する。その結果、参加者19−1は、自分を含む全ての参加者の発言を聞くことができ、会議「20040315」の他の参加者との間で議論を行うことができる。
The data packet transmitted from the audio
次に、端末装置11−1から音声信号処理サーバ13に対し指定データが送信される場合の音声会議システム1の動作について説明する。端末装置11−1の指定データ送信部112は、参加者19−1の操作に応じて、指定データ1395−1を生成し音声信号処理サーバ13に送信する。指定データは、例えば[役職=部長 or 役割=ゲスト or (所属=海外部 and 役職=一般職員)]のような形式のデータである。この指定データは、対応データ1394(図6参照)に示される属性に基づき、音声信号処理サーバ13がいずれの参加者19の音声信号を端末装置11−1に送信すべきかを指示している。
Next, the operation of the
端末装置11−1から送信された指定データは、音声信号処理サーバ13の指定データ受信部131に受信され、記憶部139に端末装置11−1のコネクションID「0004」とともに一時的に記憶される。以下、記憶部139に記憶された指定データを、その送信元である端末装置11−1〜6の各々に応じて、指定データ1395−1〜6と呼ぶ(図1参照)。すなわち、例えば指定データ1395−1にはコネクションID「0004」が対応付けられている。抽出部133は指定データ1395−1が記憶部139に記憶されている場合、対応データ1394から指定データ1395−1の条件を満たすレコードを抽出し、抽出したレコードのコネクションIDを取り出す。例えば指定データ1395−1が[役職=部長 or 役割=ゲスト or (所属=海外部 and 役職=一般職員)]である場合、抽出部133は役職が「部長」であるレコードのコネクションID「0004」、役割が「ゲスト」であるレコードのコネクションID「0009」、所属が「海外部」であり役職が「一般職員」であるレコードのコネクションID「0023」を抽出する。
The designation data transmitted from the terminal device 11-1 is received by the designation
抽出部133は、上記のように抽出したコネクションIDに、指定データ1395−1に対応付けられて記憶されているコネクションID「0004」が含まれていない場合には、抽出したコネクションIDに、コネクションID「0004」を追加する。ただし、上記の例の場合、コネクションID「0004」は既に抽出されているため、コネクションIDの追加の処理は行われない。このように、抽出したコネクションIDに指定データの送信元の端末装置11のコネクションIDを追加する結果、以下に説明する抽出部133およびミキシング部134の処理において当該端末装置11から送信された音声信号が当該端末装置11に送信される音声信号にミキシングされ、参加者19が自分の発言を含む会議全体の音声を聞くことができるのである。
When the connection ID “0004” stored in association with the specified data 1395-1 is not included in the connection ID extracted as described above, the
抽出部133は、上記のように抽出したコネクションIDに対応するデータバッファ1393から音声信号のサンプルを順次読み出しミキシング部134に引き渡す。この場合、コネクションID「0004」、「0023」および「0009」に対応するデータバッファ1393−1、データバッファ1393−5およびデータバッファ1393−6からサンプルが読み出され、ミキシング部134に引き渡されることになる。
The
ミキシング部134はデータバッファ1393−1、データバッファ1393−5およびデータバッファ1393−6から読み出されたサンプルを順次受け取ると、受け取ったサンプルを加算して1つのサンプルを生成し、生成したサンプルを順次音声信号送信部135に引き渡す。このようにミキシング部134から順次音声信号送信部135に引き渡されるサンプルは、全体として、参加者19−1、参加者19−5および参加者19−6の音声をミキシングした音声を示す合成音声信号である。
When the
音声信号送信部135は、ミキシング部134から合成音声信号を受け取ると、受け取った合成音声信号をコネクションID「0004」により特定される端末装置11−1に送信する。合成音声信号は端末装置11−1に受信され、ヘッドセット12−1により音に変換されて発音される。その結果、参加者19−1は、指定データにより指定した希望する参加者19の音声のみを含む会議の音声を聞くことができる。
When receiving the synthesized voice signal from the mixing
端末装置11−1〜6は各々異なる指定データを音声信号処理サーバ13に送信することができ、抽出部133は端末装置11−1〜6の各々について、指定データにより示される異なる条件で音声信号の抽出を行う。抽出部133により端末装置11−1〜6の各々について抽出された音声信号は、個別にミキシング部134によりミキシングされ、音声信号送信部135から対応する端末装置11に送信される。従って、参加者19−1〜6は、会議における発言のうち、各自の希望する参加者の発言のみを聞くことができる。また、指定データ受信部131は端末装置11−1〜6の各々から新たに受け取った指定データを、既に記憶部139に記憶されている指定データ1395−1〜6に上書きするため、参加者19−1〜6は指定データを音声信号処理サーバ13に送信し直すことにより、任意のタイミングでヘッドセット12から発せられる音に含まれる発言の話者の構成を変更することができる。
Each of the terminal devices 11-1 to 6 can transmit different designated data to the audio
会議「20040315」が終了すると、音声信号処理サーバ13はデータバッファ1393−1〜6に記憶されている音声信号(図8参照)を含む音声記録ファイルを生成し、記憶部139に記憶する。その結果、記憶部139には、過去に開催された会議の音声を各々記録した複数の音声記録ファイルが音声記録ファイル群1396として記憶されることになる。
When the conference “2004315” ends, the audio
図9は、音声記録ファイル群1396に含まれる音声記録ファイルの内容を模式的に示した図である。音声記録ファイルには、データバッファ1393の各々に記憶された音声信号が、対応付けられている時刻データにより示される時刻が互いに一致するように時系列的に配置された状態で格納される。また、音声記録ファイルに格納されている音声信号の各々には、対応データ1394(図6参照)の対応するレコードに含まれる参加者ID、氏名、所属、役職および役割の項目が対応付けられる。さらに、音声記録ファイルには、会議データ1391(図2参照)の対応するレコードに含まれる会議ID、日付、時間帯および議題の項目が管理データとして追加される。音声信号処理サーバ13は、そのように構成された音声記録ファイルに、例えば会議IDをファイル名に付して記憶部139に記憶させる。以下、例えばファイル名が「20040315」である音声記録ファイルを、音声記録ファイル「20040315」と呼ぶ。
FIG. 9 is a diagram schematically showing the contents of audio recording files included in the audio
音声会議システム1の利用が許可されている者、すなわち参加者データ1392(図3参照)にデータが登録されている者は、音声信号処理サーバ13に記憶されている音声記録ファイルを用いて、過去の会議の音声を聞くことができる。以下、参加者19−xが会議「20040315」の音声を聞く場合の音声会議システム1の動作を説明する。ここで、参加者19−xは会議「20040315」の参加者である必要はない。
A person who is permitted to use the
参加者19−xは端末装置11−xを操作して、端末装置11−xと音声信号処理サーバ13との通信コネクションの確立、認証等の処理を行わせた後、過去の会議のリストを要求する要求データを端末装置11−xから音声信号処理サーバ13に送信する。その要求に応じて、音声信号処理サーバ13は会議データ1391(図2参照)を用いて、会議リストを示す画面データを生成し、端末装置11−xに送信する。その結果、端末装置11−xの表示部には会議リストを含む画面が表示される。図10は、端末装置11−xの表示部に表示される画面を例示した図である。この画面において、参加者19−xがいずれかの会議のデータ行を選択し、「OK」ボタンを押下する操作を行うと、端末装置11−xは選択されたデータ行に含まれる会議IDを音声信号処理サーバ13に送信する。ここで、参加者19−xは会議「20040315」を選択し、音声信号処理サーバ13に会議ID「20040315」が送信されたものとする。
The participant 19-x operates the terminal device 11-x to establish communication connection between the terminal device 11-x and the audio
音声信号処理サーバ13は、端末装置11−xから会議ID「20040315」を受信すると、音声記録ファイル「20040315」を音声記録ファイル群1396から読み出す。音声信号処理サーバ13は、音声記録ファイル「20040315」に含まれる会議の時間帯を示すデータと、音声信号に各々対応付けられている参加者の氏名等のデータを用いて、参加者選択および時間帯指定の画面を示す画面データを生成する。音声信号処理サーバ13は生成した画面データを端末装置11−xに送信する。その結果、端末装置11−xの表示部には先に選択した会議の参加者リストを含む画面が表示される。
When the audio
図11は、端末装置11−xの表示部に表示される画面を例示した図である。この画面において、参加者19−xが音声を聞きたい参加者の選択、音声を聞きたい時間帯の指定および無声部分を削除するか否かの選択ボタンの選択を行った後、「OK」ボタンの押下操作を行うと、端末装置11−xは参加者19−xの操作に応じた指定データを生成し、音声信号処理サーバ13に送信する。以下、ユーザにより図11に例示した参加者の選択、時間帯の指定および無声部分の削除の選択が行われたものとする。
FIG. 11 is a diagram illustrating a screen displayed on the display unit of the terminal device 11-x. In this screen, after the participant 19-x selects a participant who wants to hear the voice, specifies a time zone in which he / she wants to hear the voice, and selects whether or not to delete the silent part, an “OK” button is displayed. The terminal device 11-x generates designation data corresponding to the operation of the participant 19-x and transmits it to the audio
この場合、端末装置11−xが音声信号処理サーバ13に送信する指定データは、[(参加者ID=0425 or 参加者ID=0025 or 参加者ID=0074 or 参加者ID=0362) and (時刻データ≧13:20 and 時刻データ≦14:00) and (レベル≧10 or レベル≦−10)]のようになる。ここで、レベルとは音声信号の振幅を示し、[(レベル≧10 or レベル≦−10)]は、音声信号のうち振幅が10以上または−10以下のもののみを抽出することにより、振幅が10と−10の間のものは無声部分であるとしてカットすることを指示している。
In this case, the designation data transmitted from the terminal device 11-x to the audio
音声信号処理サーバ13の指定データ受信部131は、端末装置11−xから指定データを受信すると、受信した指定データを記憶部139に一時的に記憶する。以下、記憶部139に記憶された指定データを指定データ1395と呼ぶ。指定データ1395が記憶部139に書き込まれると、抽出部133は音声記録ファイル「20040315」(図9参照)に含まれる音声信号のうち、指定データ1395の条件を満たす部分を抽出する。より具体的には、参加者ID「0425」、「0025」、「0074」および「0362」に対応付けられた音声信号をまず選択し、選択した音声信号から、13:20〜14:00の時間帯に含まれる時刻を示す時刻データに対応付けられた部分を取り出す。
When the designated
さらに、抽出部133は取り出した複数の音声信号に含まれるサンプルを先頭から順次読み出し、同じ時刻に対応するサンプルの振幅がいずれも−10より大きく10より小さい期間が所定時間(例えば5秒間)以上継続する部分を発見すると、その部分を順次削除する。このように、振幅が−10より大きく10より小さい期間が所定時間以上継続することを削除の条件とするのは、発言が継続中における言葉の切れ目等の無声部分がカットされてしまわないようにするためである。
Further, the
抽出部133は、上記のように音声信号の抽出を行うと、得られた音声信号をミキシング部134に引き渡す。ミキシング部134は抽出部133から受け取った音声信号をミキシングし、生成した合成音声信号を音声信号送信部135に引き渡す。音声信号送信部135はミキシング部134から受け取った合成音声信号を端末装置11−xに送信する。その結果、端末装置11−xに接続されたヘッドセット12−xのヘッドフォンからは、参加者19−xの希望する会議における希望する時間帯の希望する参加者の音声のみが発音される。また、所定時間以上誰も発言しなかった部分の音声信号はカットされ、全体として発音される音声の時間が短くなる。
When the
以上のように、音声会議システム1によれば、会議に参加するものは自分が聞きたいと思う参加者の発言のみを聞きながら会議に参加できる。従って、例えば社長や部長といったキーパーソンの発言のみを聞きながら会議に参加したい参加者にとって都合がよい。
As described above, according to the
また、音声会議システム1によって過去の会議の記録音声を聞く場合、自分が聞きたいと思う参加者の発言のみを聞くことができる。従って、キーパーソンの発言のみを聞きたい場合、通訳の音声は聞く必要がない場合、外国語を話す者の発言は聞く必要がない場合など、それらの音声部分以外の部分のみを聞くことができ、聞く者にとって都合がよい。その場合、記録音声を聞くために要する時間も短くて済む。
In addition, when listening to recorded audio of past conferences by the
上記のように、音声会議システム1を用いれば、会議の参加者のうち、特定の参加者の発言のみを聞くことができるため、聞き手は各参加者の発言を個別に取り出して聞くことにより、各参加者の意見をより容易に理解することもできる。
As described above, since the
ところで、上記の実施形態においては、音声記録ファイルには会議に参加する全ての参加者19の音声信号が含まれるものとして説明した。しかしながら、例えば音声会議システム1の管理者等により、予め音声記録ファイルに含めるべき音声信号の条件を指定する指定データを記憶部139に記憶させておき、その指定データに従って抽出部133が抽出した音声信号のみを音声記録ファイルに含めるようにしてもよい。そうすれば、音声記録ファイルのサイズを小さくすることができる。
By the way, in the above embodiment, it has been described that the audio recording file includes the audio signals of all the
また、上記の実施形態においては、参加者19はヘッドセット12を用いて会議に参加するものとして説明した。しかしながら、参加者19は指向性の強いマイクおよび発する音をビーム制御可能なスピーカアレイ等を備えたハンズフリーの音響装置をヘッドセット12の代わりに用いるようにしてもよい。
Moreover, in said embodiment, the
また、上記の実施形態においては、音声信号処理サーバ13により端末装置11から受信された音声信号は、いったんデータバッファ1393に記憶された後、抽出部133による抽出処理に利用されるものとして説明した。しかしながら、音声信号処理サーバ13が音声信号のサンプルを順序どおりに受信可能な状況においては、音声信号受信部132は受信した音声信号のサンプルをデータバッファ1393に記憶することなく抽出部133に引き渡すようにしてもよい。その場合、抽出部133は受け取ったサンプルのうち指定データ1395の条件を満たすもののみを順次ミキシング部134に引き渡す。
In the above embodiment, the audio signal received from the
また、上記の実施形態においては、会議に参加する参加者19はいずれも会議における発言が可能なものとして説明した。しかしながら、一部の参加者19には発言を許可せず、傍聴のみを可能とするようにしてもよい。
Moreover, in said embodiment, all the
また、音声会議システム1において、端末装置11と音声信号処理サーバ13との間で送受信されるデータパケットに含まれる音声信号を暗号化するように構成してもよい。その場合、音声信号送信部114および音声信号送信部135において、送信される音声信号が暗号化された後、データブロックに分割され、データパケットに含められる。また、音声信号受信部132および音声信号受信部115は、データパケットに含まれるデータブロックを組み立てた後、それを復号化して音声信号を復元する。このように音声信号を暗号化すると、会議の内容が第三者に漏洩することが防止される。
Further, the
また、上記の実施形態においては、音声信号の各部分の生成時刻を示す時刻データが端末装置11により生成され、音声信号に対応付けられるものとして説明した。しかしながら、端末装置11においては時刻データの生成および対応付けを行うことなく、音声信号処理サーバ13が計時部を備えるようにし、音声信号を端末装置11から受信した時点で、その時点の時刻を示す時刻データを受信した音声信号に対応付けるようにしてもよい。その場合、時刻データの示す時刻は参加者19の発言が行われた時刻に通信に要した時間を加えた時刻となるが、通信に要する時間が無視できる程度に短い場合には、音声信号処理サーバ13が音声信号を受信した時刻を発言の時刻とみなすことができる。また、音声信号処理サーバ13において時刻データを生成する際に、通信に要する推定時間を現在時刻より差し引いた時刻を示す時刻データを生成することにより、時刻データにより示される時刻と発言の時刻との誤差を小さくするようにしてもよい。
Further, in the above embodiment, the time data indicating the generation time of each part of the audio signal is generated by the
また、音声信号処理サーバ13および端末装置11は、専用のハードウェアにより実現されてもよいし、音声信号の入出力が可能な汎用コンピュータにアプリケーションプログラムに従った処理を実行させることにより実現されてもよい。音声信号処理サーバ13が汎用コンピュータにより実現される場合、抽出部133およびミキシング部134は、汎用コンピュータが備えるCPU(Central Processing Unit)およびCPUの制御下で動作するDSP(Digital Signal Processor)が、アプリケーションプログラムに含まれる各モジュールに従った処理を同時並行して行うことにより、汎用コンピュータの機能として実現される。また、音声信号処理サーバ13の音声信号受信部132および音声信号送信部135は、汎用コンピュータがデータパケットをネットワーク10との間で送受信するために備える入出力インタフェースと、アプリケーションプログラムに含まれる各モジュールに従ったデータパケットの生成および組み立てに関するCPUの処理により、汎用コンピュータの機能として実現される。
The audio
[1.3.変形例]
上述した音声会議システム1においては、端末装置11の各々は互いに離れた位置に配置され、ネットワーク10を介して音声信号処理サーバ13との間でデータ通信を行うことにより、多地点間の会議を実現する。しかしながら、本発明の実施形態は、ネットワーク10を介することなく、各端末装置11が直接、音声信号処理サーバ13に接続するように変形することもできる。そのような変形を加えた音声会議システムは、例えば数十名が一同に介して会議を行うような場合に便利なシステムである。
[1.3. Modified example]
In the above-described
図12は、ネットワーク10を介することなく、端末装置11が直接、音声信号処理サーバ13に接続されて構成される音声会議システム101を示した図である。音声会議システム101において、端末装置11の音声信号送信部114は音声信号ブロックを含むデータパケットを生成することはなく、音声信号処理部113により生成される音声信号をそのままの形式で音声信号処理サーバ13に出力する。音声信号処理サーバ13の音声信号受信部132は、データパケットを受信することはなく、各々の端末装置11から音声信号をそのままの形式で受け取る。音声信号処理サーバ13において、各々の端末装置11から入力される音声信号は音声信号処理サーバ13の音声信号受信部132に設けられた複数の入力端子のIDにより互いに区別される。すなわち、音声会議システム101の音声信号処理サーバ13においては、コネクションIDの代わりに入力端子のIDが用いられる。
FIG. 12 is a diagram showing an
また、音声会議システム101において、音声信号処理サーバ13の音声信号送信部135はミキシング部134により生成される音声信号をそのままの形式で、音声信号処理サーバ13に接続されている各々の端末装置11に対し出力する。端末装置11の音声信号受信部115は、音声信号処理サーバ13から入力される音声信号をそのまま音声信号処理部113に引き渡す。
In the
音声会議システム101においては、端末装置11および音声信号処理サーバ13において音声信号を音声信号ブロックに分割してデータパケットに含めたり、データパケットに含まれる音声信号ブロックを組み立てて音声信号を復元したりする処理が不要であるので、システムが音声会議システム1と比べ簡素化され、また処理速度も音声会議システム1と比べ高速化することが可能となる。また、音声会議システム1においては、音声信号をネットワーク10を介して送信するために、アナログ音声信号とデジタル音声信号の間の変換が必要とされたが、音声会議システム101においてはアナログ音声信号のままで全ての処理を行うことも可能である。また、一部の処理をアナログ音声信号を用いて行い、他の処理をデジタル音声信号を用いて行うようにしてもよい。
In the
[2.第2実施形態]
上述した音声会議システム1においては、音声信号の抽出処理およびミキシング処理は、音声信号処理サーバ13において行われる。以下に説明する第2実施形態にかかる音声会議システム2は、音声信号の抽出処理およびミキシング処理が、音声信号処理サーバ13ではなく端末装置11の各々において行われる。音声信号の抽出処理およびミキシング処理は会議に参加する参加者19の各々について行われる必要があるため、音声信号処理サーバ13の処理能力が高くない場合において、一般的に音声会議システム2は音声会議システム1よりも速い処理を実現可能である。
[2. Second Embodiment]
In the
図13は音声会議システム2の構成を示したブロック図である。音声会議システム2の構成および機能は音声会議システム1のものと多くの部分が共通しているため、以下、音声会議システム2が音声会議システム1と異なる点のみを説明する。また、図13において、上述した音声会議システム1の構成部(図1参照)と同じ構成部もしくは対応する機能を有する構成部には、音声会議システム1における場合と同じ符合が付されている。
FIG. 13 is a block diagram showing the configuration of the audio conference system 2. Since the configuration and functions of the audio conference system 2 have many parts in common with those of the
音声会議システム2においては、音声信号の抽出の条件を指定する指定データを端末装置11から音声信号処理サーバ13に送信する必要がないため、端末装置11は指定データ送信部112を備えておらず、また音声信号処理サーバ13は指定データ受信部131を備えていない。また、音声会議システム2においては、音声信号の抽出処理および抽出された音声信号のミキシング処理が各々の端末装置11において行われるため、音声信号処理サーバ13は抽出部133およびミキシング部134を備えず、端末装置11が抽出部133およびミキシング部134を備えている。さらに、音声会議システム2においては、音声記録ファイルの記憶は端末装置11において行われる。
In the audio conference system 2, it is not necessary to transmit the specification data for specifying the audio signal extraction condition from the
音声会議システム2においては、端末装置11が音声信号処理サーバ13との間で会議のための通信コネクションを確立した後、音声信号処理サーバ13から端末装置11に対し、会議データ1391(図2参照)の該当するレコードと、対応データ1394(図6参照)が送信される。また、音声信号処理サーバ13との間で会議のための通信コネクションを確立している端末装置11の構成に変更が生じた場合、音声信号処理サーバ13はその変更を反映した対応データ1394を端末装置11に送信する。端末装置11は対応データ1394を受信すると、受信した対応データ1394を記憶部116に一時的に記憶する。
In the audio conference system 2, after the
会議中において、参加者19の音声を示す音声信号のサンプルが端末装置11から音声信号処理サーバ13に送信され、各々、データバッファ1393に記憶されると、音声信号送信部135が新たにデータバッファ1393に記憶された音声信号のサンプルを同じ時刻における複数の音声を示すサンプルとしてグループ化し、順次端末装置11の各々に送信する。すなわち、音声信号処理サーバ13から端末装置11に送信される音声信号は、個々の参加者19の音声を示す音声信号がミキシングされていない状態のものであり、いずれの端末装置11にも同じ内容の音声信号が送信されることになる。
During the conference, when a sample of the audio signal indicating the audio of the
端末装置11は、音声信号処理サーバ13から複数の音声信号を示すサンプルを順次受信すると、受信したサンプルの各々をデータバッファ1161−1〜nの各々に順次記憶してゆく。すなわち、データバッファ1161−1〜nには、会議に参加している参加者19−1〜nの各々の音声信号が個別に記憶される。
When the
例えば、参加者19−1は、端末装置11−1を操作して、発言を聞きたいと思う参加者を指定する。端末装置11−1は、参加者19−1の操作に応じて指定データを生成し、指定データ1395として記憶部116に一時的に記憶する。端末装置11の抽出部133は、記憶部116に記憶されている指定データ1395および対応データ1394に従い、データバッファ1161−1〜nに記憶される音声信号から参加者19−1が指定した条件を満たす音声信号を抽出し、ミキシング部134に引き渡す。ミキシング部134は抽出部133から受け取った音声信号をミキシングして合成音声信号を生成し、音声信号処理部113に引き渡す。その結果、ヘッドセット12−1からは、音声会議システム1における場合と同様に、参加者19−1の希望する参加者の発言のみを含む音声が発音される。
For example, the participant 19-1 operates the terminal device 11-1 and designates a participant who wants to hear a remark. The terminal device 11-1 generates designated data in response to the operation of the participant 19-1 and temporarily stores it as the designated
会議が終了すると、端末装置11はデータバッファ1161−1〜nに記憶されている音声信号、先に音声信号処理サーバ13から受信した会議データ1391の該当するデータおよび対応データ1394を用いて、音声記録ファイル(図9参照)を作成し、記憶部116に記憶する。
When the conference is ended, the
参加者19は、過去の会議の記録音声を聞きたい場合、音声記録ファイル群1396に含まれる音声記録ファイルのリストを端末装置11に表示させ、記録音声を聞きたい会議を選択する。さらに、参加者19は選択した会議の参加者のうち、発言を聞きたい参加者を選択し、必要に応じて聞きたい発言の時間帯等を指定する。その操作に応じて、端末装置11は指定データを生成し指定データ1395として記憶部116に一時的に記憶した後、抽出部133による抽出処理を開始する。すなわち、端末装置11の抽出部133は、参加者19の指定する会議に関する音声記録ファイルに含まれる音声信号から、指定データ1395により示される条件を満たす音声信号を抽出する。
When the
抽出部133により抽出された音声信号はミキシング部134に引き渡され、ミキシング処理された後、音声信号処理部113を介してヘッドセット12のヘッドフォンに出力され、発音される。音声会議システム2においては、参加者19が過去の会議の記録音声を聞きたい場合、音声信号処理サーバ13と端末装置11との間に通信コネクションが確立される必要がない。
The audio signal extracted by the
以上説明したように、音声会議システム2によっても、音声会議システム1における場合と同様に、参加者19は希望する発言者の発言のみを聞きながら会議に参加したり、過去の会議の記録音声のうち、希望する発言者の発言のみを聞くことができる。
As described above, according to the audio conference system 2, as in the
第2実施形態に関しても、第1実施形態と同様に、音声信号処理サーバ13および端末装置11は、専用のハードウェアにより実現されてもよいし、音声信号の入出力が可能な汎用コンピュータにアプリケーションプログラムに従った処理を実行させることにより実現されてもよい。また、音声会議システム2においても、音声会議システム1と同様の変形を行うことが可能である。
Also in the second embodiment, as in the first embodiment, the audio
1・2・101…音声会議システム、10…ネットワーク、11…端末装置、12…ヘッドセット、13…音声信号処理サーバ、19…参加者、111…計時部、112…指定データ送信部、113…音声信号処理部、114・135…音声信号送信部、115・132…音声信号受信部、116・139…記憶部、131…指定データ受信部、133…抽出部、134…ミキシング部、1161・1393…データバッファ、1391…会議データ、1392…参加者データ、1394…対応データ、1395…指定データ、1396…音声記録ファイル群。
DESCRIPTION OF
Claims (11)
前記音声信号入力手段により受け取られた音声信号および属性データを対応付けて記憶する音声信号記憶手段と、
任意の属性を指定する属性指定データを受け取る属性指定データ入力手段と、
前記音声信号記憶手段に記憶された音声信号のうち、前記属性指定データにより指定された属性を示す属性データに対応付けて記憶されている音声信号を抽出する抽出手段と、
前記抽出手段により抽出された音声信号を出力する出力手段と
を備えることを特徴とする音声信号処理装置。 Audio signal input means for receiving audio signals output from a plurality of terminal devices together with attribute data indicating attributes of the audio signals;
Audio signal storage means for storing the audio signal and attribute data received by the audio signal input means in association with each other;
Attribute designation data input means for receiving attribute designation data for designating an arbitrary attribute;
Extraction means for extracting a voice signal stored in association with attribute data indicating an attribute designated by the attribute designation data from among the voice signals stored in the voice signal storage means;
An audio signal processing apparatus comprising: output means for outputting the audio signal extracted by the extracting means.
複数の端末装置から出力される音声信号を当該音声信号の属性を示す属性データとともに受け取る音声信号入力手段と、
前記音声信号入力手段により受け取られた音声信号のうち、前記属性指定データにより指定された属性を示す属性データとともに受け取られた音声信号を抽出する抽出手段と、
前記抽出手段により抽出された音声信号を出力する出力手段と
を備えることを特徴とする音声信号処理装置。 Attribute designation data input means for receiving attribute designation data for designating an arbitrary attribute;
Audio signal input means for receiving audio signals output from a plurality of terminal devices together with attribute data indicating attributes of the audio signals;
Extracting means for extracting the audio signal received together with the attribute data indicating the attribute designated by the attribute designation data, out of the audio signals received by the audio signal input means;
An audio signal processing apparatus comprising: output means for outputting the audio signal extracted by the extracting means.
前記出力手段は、前記抽出手段により音声信号が1のみ抽出された場合は当該音声信号を出力し、前記抽出手段により複数の音声信号が抽出された場合は前記ミキシング手段によりミキシングされた音声信号を出力する
ことを特徴とする請求項1または2に記載の音声信号処理装置。 In the case where a plurality of audio signals are extracted by the extraction means, further comprising a mixing means for mixing the plurality of audio signals,
The output unit outputs the audio signal when only one audio signal is extracted by the extraction unit, and outputs the audio signal mixed by the mixing unit when a plurality of audio signals are extracted by the extraction unit. The audio signal processing apparatus according to claim 1, wherein the audio signal processing apparatus outputs the sound signal.
前記出力手段は、当該一の端末装置に音声信号を出力する
ことを特徴とする請求項1または2に記載の音声信号処理装置。 The attribute designation data input means receives the attribute designation data from one terminal device,
The audio signal processing apparatus according to claim 1, wherein the output unit outputs an audio signal to the one terminal device.
前記属性指定データは1以上の端末装置の識別子を指定するデータである
ことを特徴とする請求項1または2に記載の音声信号処理装置。 The attribute data is an identifier of a terminal device from which an audio signal is output,
The audio signal processing apparatus according to claim 1 or 2, wherein the attribute specifying data is data specifying an identifier of one or more terminal devices.
前記識別子は前記ネットワーク上で端末装置に割り当てられたアドレスである
ことを特徴とする請求項5に記載の音声信号処理装置。 The plurality of terminal devices are connected to the audio signal input means via a network,
The audio signal processing apparatus according to claim 5, wherein the identifier is an address assigned to a terminal apparatus on the network.
前記属性指定データは任意の時間帯を指定する時間帯指定データであり、
前記抽出手段は、前記時間帯指定データにより指定された時間帯に含まれる時刻を示す時刻データに対応付けられた音声信号を抽出する
ことを特徴とする請求項1または2に記載の音声信号処理装置。 The attribute data is time data indicating the time when the audio signal is generated,
The attribute designation data is time zone designation data for designating an arbitrary time zone,
3. The audio signal processing according to claim 1, wherein the extraction unit extracts an audio signal associated with time data indicating a time included in a time zone specified by the time zone specifying data. apparatus.
前記抽出手段は、前記音声信号入力手段により受け取られた一の種類の属性データに代えて、前記対応データに従い当該属性データに対応する他の種類の属性データを用いて、音声信号の抽出を行う
ことを特徴とする請求項1または2に記載の音声信号処理装置。 A correspondence data storage unit for storing correspondence data indicating a correspondence relationship between attribute data indicating one type of attribute and attribute data indicating another type of attribute;
The extraction unit extracts an audio signal using another type of attribute data corresponding to the attribute data according to the corresponding data instead of the one type of attribute data received by the audio signal input unit. The audio signal processing apparatus according to claim 1 or 2,
前記音声信号入力手段は、音声信号とともに当該音声信号の出力元の端末装置の識別子を属性データとして受け取り、
前記属性指定データ入力手段は、話者の属性を指定するデータを属性指定データとして受け取り、
前記抽出手段は、前記属性指定データにより指定された属性を示す話者データに対応する端末装置の識別子を前記対応データに従い特定し、特定した識別子とともに受け取られた音声信号を抽出する
ことを特徴とする請求項8に記載の音声信号処理装置。 The correspondence data indicates a correspondence relationship between the identifier of the terminal device and speaker data indicating the attribute of the speaker who uses the terminal device;
The audio signal input means receives the identifier of the terminal device that is the output source of the audio signal together with the audio signal as attribute data,
The attribute designation data input means receives data for designating speaker attributes as attribute designation data,
The extraction means specifies an identifier of a terminal device corresponding to speaker data indicating an attribute designated by the attribute designation data according to the correspondence data, and extracts a voice signal received together with the identified identifier. The audio signal processing device according to claim 8.
受け取った音声信号および属性データを対応付けて記憶する処理と、
任意の属性を指定する属性指定データを受け取る処理と、
前記音声信号のうち、前記属性指定データにより指定された属性を示す属性データに対応付けて記憶されている音声信号を抽出する処理と、
抽出した音声信号を出力する処理と
をコンピュータに実行させることを特徴とするプログラム。 A process of receiving audio signals output from a plurality of terminal devices together with attribute data indicating attributes of the audio signals;
A process of storing the received audio signal and attribute data in association with each other;
A process of receiving attribute specification data specifying an arbitrary attribute;
A process of extracting an audio signal stored in association with attribute data indicating an attribute designated by the attribute designation data from the audio signal;
A program for causing a computer to execute processing for outputting an extracted audio signal.
複数の端末装置から出力される音声信号を当該音声信号の属性を示す属性データとともに受け取る処理と、
受け取った音声信号のうち、前記属性指定データにより指定された属性を示す属性データとともに受け取った音声信号を抽出する処理と、
抽出した音声信号を出力する処理と
をコンピュータに実行させることを特徴とするプログラム。 A process of receiving attribute specification data specifying an arbitrary attribute;
A process of receiving audio signals output from a plurality of terminal devices together with attribute data indicating attributes of the audio signals;
A process of extracting a received audio signal together with attribute data indicating an attribute specified by the attribute specifying data from the received audio signal;
A program for causing a computer to execute processing for outputting an extracted audio signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005013039A JP2006203548A (en) | 2005-01-20 | 2005-01-20 | Voice signal processor for processing voice signals of a plurality of speakers, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005013039A JP2006203548A (en) | 2005-01-20 | 2005-01-20 | Voice signal processor for processing voice signals of a plurality of speakers, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006203548A true JP2006203548A (en) | 2006-08-03 |
Family
ID=36961156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005013039A Withdrawn JP2006203548A (en) | 2005-01-20 | 2005-01-20 | Voice signal processor for processing voice signals of a plurality of speakers, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006203548A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009290410A (en) * | 2008-05-28 | 2009-12-10 | Nippon Telegr & Teleph Corp <Ntt> | Video conference apparatus |
JP2010028506A (en) * | 2008-07-22 | 2010-02-04 | Brother Ind Ltd | Method of connecting video conference system, server for video conference system and connection program for video conference system |
WO2010125802A1 (en) * | 2009-04-30 | 2010-11-04 | パナソニック株式会社 | Digital voice communication control device and method |
JP2010534956A (en) * | 2007-06-28 | 2010-11-11 | レベルヴォックス,エルエルシー | Telecommunications and multimedia management method and apparatus |
JP2013128282A (en) * | 2011-12-19 | 2013-06-27 | Fujitsu Ltd | System for securely recording and sharing voice memo |
WO2014020723A1 (en) * | 2012-08-01 | 2014-02-06 | 株式会社コナミデジタルエンタテインメント | Processing device, method for controlling processing device, and processing device program |
JP2015022632A (en) * | 2013-07-22 | 2015-02-02 | 株式会社プラットフィールド | Information communication system |
US9031849B2 (en) | 2006-09-30 | 2015-05-12 | Huawei Technologies Co., Ltd. | System, method and multipoint control unit for providing multi-language conference |
US9392036B2 (en) | 2014-02-19 | 2016-07-12 | Ricoh Company, Ltd. | Terminal device and communication system |
-
2005
- 2005-01-20 JP JP2005013039A patent/JP2006203548A/en not_active Withdrawn
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9031849B2 (en) | 2006-09-30 | 2015-05-12 | Huawei Technologies Co., Ltd. | System, method and multipoint control unit for providing multi-language conference |
JP2010534956A (en) * | 2007-06-28 | 2010-11-11 | レベルヴォックス,エルエルシー | Telecommunications and multimedia management method and apparatus |
JP2009290410A (en) * | 2008-05-28 | 2009-12-10 | Nippon Telegr & Teleph Corp <Ntt> | Video conference apparatus |
JP2010028506A (en) * | 2008-07-22 | 2010-02-04 | Brother Ind Ltd | Method of connecting video conference system, server for video conference system and connection program for video conference system |
WO2010125802A1 (en) * | 2009-04-30 | 2010-11-04 | パナソニック株式会社 | Digital voice communication control device and method |
JPWO2010125802A1 (en) * | 2009-04-30 | 2012-10-25 | パナソニック株式会社 | Digital voice communication control apparatus and method |
US8775170B2 (en) | 2009-04-30 | 2014-07-08 | Panasonic Corporation | Digital voice communication control device and method |
JP2013128282A (en) * | 2011-12-19 | 2013-06-27 | Fujitsu Ltd | System for securely recording and sharing voice memo |
WO2014020723A1 (en) * | 2012-08-01 | 2014-02-06 | 株式会社コナミデジタルエンタテインメント | Processing device, method for controlling processing device, and processing device program |
JP2015022632A (en) * | 2013-07-22 | 2015-02-02 | 株式会社プラットフィールド | Information communication system |
US9392036B2 (en) | 2014-02-19 | 2016-07-12 | Ricoh Company, Ltd. | Terminal device and communication system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006203548A (en) | Voice signal processor for processing voice signals of a plurality of speakers, and program | |
JP5033756B2 (en) | Method and apparatus for creating and distributing real-time interactive content on wireless communication networks and the Internet | |
JP4787328B2 (en) | Method and apparatus for capturing audio during a conference call | |
WO2007086151A1 (en) | PoC DATA TRANSMITTING METHOD, PoC TELEPHONE COMMUNICATION SYSTEM AND APPARATUS | |
JP2008159034A (en) | Server and voice signal collection/distribution method | |
JP2006246239A (en) | System for processing speech signal of a plurality of loudspeakers, terminal device, server device, and program | |
JP2020141208A (en) | Communication system | |
KR100450319B1 (en) | Apparatus and Method for Communication with Reality in Virtual Environments | |
JP2009194661A (en) | Conference terminal | |
EP2207311A1 (en) | Voice communication device | |
JP2007201906A (en) | Mobile terminal device and image display method | |
JPH10215331A (en) | Voice conference system and its information terminal equipment | |
JP2002101205A (en) | Conference support equipment and method, and storage medium used therein | |
JP2008141348A (en) | Communication apparatus | |
JP2006180251A (en) | Voice signal processor for enabling callers to perform simultaneous utterance, and program | |
JP2009053342A (en) | Minutes preparation apparatus | |
JP2001224000A (en) | Multi-spots tv conference system | |
JP4069207B2 (en) | Communication device | |
JP2005149529A (en) | Voice interactive system | |
JP4357175B2 (en) | Method and apparatus for creating and distributing real-time interactive content on wireless communication networks and the Internet | |
JP2008124597A (en) | Audio teleconference system | |
JP6610076B2 (en) | Information processing apparatus, information processing system, program, and recording medium | |
JP4422734B2 (en) | server | |
JP2006252458A (en) | Voice signal processor for processing voice signals of a plurality of speakers, and program | |
JP2004072354A (en) | Audio teleconference system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071120 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20090128 |