JP6532666B2

JP6532666B2 - 方法、電子機器、およびプログラム

Info

Publication number: JP6532666B2
Application number: JP2014227270A
Authority: JP
Inventors: 隆一山口
Original assignee: Dynabook Inc
Current assignee: Dynabook Inc
Priority date: 2014-11-07
Filing date: 2014-11-07
Publication date: 2019-06-19
Anticipated expiration: 2034-11-07
Also published as: US20160133268A1; JP2016092683A

Description

本発明の実施形態は、方法、電子機器、およびプログラムに関する。

従来、複数の話者の複数の発話区間を含む音声を記録し、記録した音声を再生する技術が知られている。

特開２００３−００６２０８号公報

上記のような技術では、ユーザが指定した区間の音声と他の音声とを聴覚的に識別することができれば便利である。

実施形態による方法は、複数の話者毎の複数の発話区間を含む音声信号を電子機器の複数のスピーカから再生出力するための方法である。この方法は、前記複数の話者毎の前記複数の発話区間を含む前記音声信号を前記電子機器のメモリに記録し、前記メモリから前記音声信号を再生する際に、前記複数の話者毎に発話区間を識別可能なように前記電子機器のディスプレイ画面に表示し、前記ディスプレイ画面に表示された前記複数の話者毎の前記複数の発話区間のうち、第１話者による第１発話区間の第１音声をタグ指定するための画面操作を受け取り、前記複数のスピーカを用いて、前記タグ指定された前記第１発話区間の前記第１音声を前記電子機器の第１方向から聞こえるように再生し、前記複数のスピーカを用いて、前記タグ指定がない第２話者による前記第１発話区間以外の第２発話区間の第２音声を前記電子機器の前記第１方向とは異なる第２方向から聞こえるように再生する。

図１は、実施形態による携帯端末の外観構成を示した例示図である。図２は、実施形態による携帯端末の内部構成を示した例示ブロック図である。図３は、実施形態による携帯端末が実行する録音／再生プログラムの機能的構成を示した例示ブロック図である。図４は、実施形態による携帯端末が記録音声を再生する際にディスプレイに表示される画像を示した例示図である。図５は、実施形態による携帯端末によって用いられる立体音響技術の概略を説明するための例示図である。図６は、実施形態による携帯端末を用いてユーザが話者毎の音声の到来方向を設定するための画像の一例を示した例示図である。図７は、実施形態による携帯端末を用いてユーザが話者毎の音声の到来方向を設定するための画像の他の一例を示した例示図である。図８は、実施形態による携帯端末が記録音声を再生する際に実行する処理を示した例示フローチャートである。図９は、実施形態において話者毎の音声の到来方向が設定される場合に携帯端末が実行する処理を示した例示フローチャートである。

以下、実施形態を図面に基づいて説明する。

まず、図１を参照して、実施形態による携帯端末１００の外観構成について説明する。携帯端末１００は、「電子機器」の一例である。図１は、タブレット型コンピュータとして実現された携帯端末１００の外観を示している。なお、実施形態の技術は、スピーカを備えた電子機器であれば、スマートフォンなどの、タブレット型コンピュータ以外の携帯端末にも適用可能であるし、携帯型ではない一般的な情報処理装置にも適用可能である。

図１に示すように、携帯端末１００は、表示モジュール１０１と、カメラ１０２と、マイク１０３Ａおよび１０３Ｂと、スピーカ１０４Ａおよび１０４Ｂとを備える。

表示モジュール１０１は、静止画や動画などの映像を表示（出力）する出力デバイスとしての機能と、ユーザの操作（タッチ操作）を受け付ける入力デバイスとしての機能とを有する。より具体的には、後述の図２に示すように、表示モジュール１０１は、静止画や動画などの映像を表示するためのディスプレイ１０１Ａと、携帯端末１００に対する各種操作（タッチ操作）を行うための操作部として機能するタッチパネル１０１Ｂとを備える。

カメラ１０２は、カメラ１０２の正面側（Ｚ方向側）に位置する領域の画像を取得するための撮像デバイスである。マイク１０３Ａおよび１０３Ｂは、表示モジュール１０１の周囲に居るユーザの音声を取得するための集音デバイスである。スピーカ１０４Ａおよび１０４Ｂは、音声を出力するための出力デバイスである。なお、図１は、スピーカ１０４Ａおよび１０４Ｂが２つ設けられた例を示しているが、実施形態では、スピーカ１０４Ａおよび１０４Ｂの個数が１つであってもよいし、３つ以上であってもよい。同様に、実施形態では、マイク１０３Ａおよび１０３Ｂの個数が１つであってもよいし、３つ以上であってもよい。

次に、図２を参照して、携帯端末１００の内部構成について説明する。

図２に示すように、携帯端末１００は、上記の表示モジュール１０１、カメラ１０２、マイク１０３Ａ、１０３Ｂ、スピーカ１０４Ａおよび１０４Ｂに加えて、ＣＰＵ１０５と、不揮発性メモリ１０６と、主メモリ１０７と、ＢＩＯＳ−ＲＯＭ１０８と、システムコントローラ１０９と、グラフィクスコントローラ１１０と、サウンドコントローラ１１１と、通信コントローラ１１２と、オーディオキャプチャ１１３と、センサ群１１４とを備える。

ＣＰＵ１０５は、通常のコンピュータで用いられるプロセッサと同様のプロセッサであり、携帯端末１００内の各種モジュールの動作を制御するように構成されている。このＣＰＵ１０５は、ストレージデバイスである不揮発性メモリ１０６から主メモリ１０７にロードされる各種ソフトウェアを実行するように構成されている。図２には、主メモリ１０７にロードされるソフトウェアの例として、ＯＳ（オペレーティングシステム）２０１と、録音／再生プログラム２０２とが示されている。なお、録音／再生プログラム２０２の詳細については、後述する。

また、ＣＰＵ１０５は、ＢＩＯＳ−ＲＯＭ１０８に格納された基本入出力システムプログラム（ＢＩＯＳプログラム）も実行するように構成されている。なお、ＢＩＯＳプログラムとは、ハードウェアの制御を行うためのプログラムである。

システムコントローラ１０９は、ＣＰＵ１０５のローカルバスと、携帯端末１００に備えられた各種コンポーネントとの間を接続するためのデバイスである。

グラフィクスコントローラ１１０は、ディスプレイ１０１Ａを制御するデバイスである。ディスプレイ１０１Ａは、グラフィクスコントローラ１１０から入力される表示信号に基づいて画面イメージ（静止画や動画などの映像）を表示するように構成されている。

サウンドコントローラ１１１は、スピーカ１０４Ａおよび１０４Ｂを制御するデバイスである。スピーカ１０４Ａおよび１０４Ｂは、サウンドコントローラ１１１から入力される音声信号に基づいて音声を出力するように構成されている。

通信コントローラ１１２は、ＬＡＮなどを介した無線または有線の通信を実行するための通信デバイスである。オーディオキャプチャ１１３は、マイク１０３Ａおよび１０３Ｂにより取得された音声に対して各種信号処理を施す信号処理デバイスである。

センサ群１１４は、加速度センサや、方位センサや、ジャイロセンサなどを含む。加速度センサとは、携帯端末１００が移動する際における携帯端末１００の加速度の向きおよび大きさを検出する検出デバイスである。方位センサは、携帯端末１００の方位を検出する検出デバイスである。ジャイロセンサは、携帯端末１００が回転する際における携帯端末１００の角速度（回転角度）を検出する検出デバイスである。

次に、図３を参照して、ＣＰＵ１０５により実行される録音／再生プログラム２０２の機能的構成について説明する。この録音／再生プログラム２０２は、以下で説明するようなモジュール構成となっている。

図３に示すように、録音／再生プログラム２０２は、録音処理部２０３と、再生処理部２０４と、入力受付部２０５と、表示処理部２０６と、フィルタ係数算出部２０７と、到来方向設定部２０８とを備える。これらの各モジュールは、携帯端末１００のＣＰＵ１０５が不揮発性メモリ１０６から録音／再生プログラム２０２を読み出して実行した結果として主メモリ１０７上に生成される。

録音処理部２０３は、マイク１０３Ａおよび１０３Ｂを介して取得された音声信号を記録（録音）する処理を行うように構成されている。実施形態による録音処理部２０３は、複数の話者による複数の発話区間を含む音声を記録する際に、音声と同時に、各話者間の位置関係、すなわち各話者がどの方向からマイクに音声を入力したかを示す情報も記録することが可能なように構成されている。

再生処理部２０４は、録音処理部２０３により記録された音声（以下、記録音声という）を再生（出力）する処理を行うように構成されている。入力受付部２０５は、タッチパネル１０１Ｂなどを介したユーザの入力操作を受け付ける処理を行うように構成されている。表示処理部２０６は、ディスプレイ１０１Ａに出力する表示データを制御する処理を行うように構成されている。

フィルタ係数算出部２０７は、後述するフィルタ１１１Ｂおよび１１１Ｃ（図５参照）に設定するフィルタ係数を算出する処理を行うように構成されている。到来方向設定部２０８は、後述する到来方向を設定・変更する処理を行うように構成されている。

ここで、実施形態による表示処理部２０６は、再生処理部２０４が記録音声を再生する処理を行う際に、図４に示すような画像ＩＭ１をディスプレイ１０１Ａに出力するように構成されている。この画像ＩＭ１は、記録音声に含まれる複数の話者の複数の発話区間を識別可能に表示するものである。

画像ＩＭ１は、記録音声の大まかなステータスを表示する領域Ｒ１と、記録音声の詳細なステータスを表示する領域Ｒ２と、記録音声の再生の開始や停止などを行うための各種操作ボタンを表示する領域Ｒ３とを含む。

領域Ｒ１には、記録音声の全体を示すバーＢ１と、現在の再生位置を示すマークＭ１とが表示されている。また、領域Ｒ１には、記録音声の時間長（「０３：００：００」という表示参照）も表示されている。

領域Ｒ２には、現在の再生位置の前後の所定期間内における記録音声の詳細が表示されている。図４の例では、領域Ｒ２は、現在の再生位置の前後の所定期間内に、話者［Ｂ］の発話区間Ｉ１と、話者［Ａ］の発話区間Ｉ２と、話者［Ｄ］の発話区間Ｉ３と、話者［Ｂ］の発話区間Ｉ４と、話者［Ａ］の発話区間Ｉ５とが含まれていることを示している。これらの発話区間Ｉ１〜Ｉ５は、話者毎に色分けされた状態で表示されていてもよい。

領域Ｒ２の中央に表示されるバーＢ２は、現在の再生位置を示している。図４の例では、バーＢ２が話者［Ｄ］の発話区間Ｉ３に重なるように表示されているため、現在再生されている音声の話者が［Ｄ］であることが分かる。なお、画像ＩＭ１は、記録音声に含まれる各発話区間の各話者を表示するための領域Ｒ４が含まれている。図４の例では、領域Ｒ４内の［Ｄ］という表示の近くに、現在再生されている音声の話者を示すマークＭ２が表示されているため、これによっても、現在再生されている音声の話者が［Ｄ］であることが分かる。

また、領域Ｒ２には、発話区間Ｉ１〜Ｉ５に対応するように設けられる複数の星形のマークＭ３が表示されている。これらのマークＭ３は、たとえば、対応する発話区間のみを後で抽出して再生することを可能にするためのマーキング（いわゆるタグ付け）を行うためのものである。図４の例では、発話区間Ｉ２に対応するマークＭ３の周囲に細長い部分Ｐ１が表示されている。これにより、図４の例では、ユーザが発話区間Ｉ２に対応するマークＭ３をタッチすることによって発話区間Ｉ２に対してタグ付けを行ったことが分かる。

なお、領域Ｒ３には、記録音声の再生の開始や停止などを行うための各種操作ボタンの他に、記録音声全体の中での現在の再生位置を示す時間（「００：４９：５９」という表示参照）が表示されている。

ここで、実施形態による再生処理部２０４は、記録音声を再生する場合に、その記録音声に含まれる複数の発話区間のうちユーザが指定した第１発話区間の第１音声の出力形態を、第１発話区間以外の第２発話区間の第２音声と異ならせることが可能なように構成されている。

たとえば、実施形態による再生処理部２０４は、ユーザが図４の画像ＩＭ１上でタグ付けを行った発話区間の音声が後ろ側から聴こえるとユーザに感じさせ、ユーザがタグ付けを行っていない発話区間の音声が正面側から聴こえるとユーザに感じさせるように、いわゆる立体音響技術を用いて記録音声を再生するように構成されている。

ここで、図５を参照して、立体音響技術の概略について簡単に説明する。

図５に示すように、実施形態によるサウンドコントローラ１１１（図２参照）は、音声信号出力部１１１Ａと、２つのフィルタ１１１Ｂおよび１１１Ｃと、信号増幅部１１１Ｄとを備える。立体音響技術では、２つのフィルタ１１１Ｂおよび１１１Ｃに設定するフィルタ係数を変更することにより、ユーザに感じさせる音声の到来方向を制御することができる。

フィルタ係数算出部２０７は、フィルタ係数を、スピーカ１０４Ａおよび１０４Ｂとユーザとの位置関係に応じた頭部伝達関数と、設定したい到来方向に対応する仮想音源Ｖとユーザとの位置関係に応じた頭部伝達関数とに基づいて算出する。

たとえば、２つのスピーカ１０４Ａおよび１０４Ｂから出力される音声が後ろ側から聴こえるとユーザに感じさせたい場合、フィルタ係数算出部２０７は、図５に示す位置に仮想音源Ｖを設定し、一方のスピーカ１０４Ａの位置からユーザの両耳の位置までの２つの頭部伝達関数と、他方のスピーカ１０４Ｂの位置からユーザの両耳の位置までの２つの頭部伝達関数と、仮想音源Ｖの位置からユーザの両耳の位置までの２つの頭部伝達関数とを用いて、２つのフィルタ１１１Ｂおよび１１１Ｃの各々に設定するフィルタ係数を算出する。そして、再生処理部２０４は、算出されたフィルタ係数をフィルタ１１１Ｂおよび１１１Ｃに設定することにより、２つのスピーカ１０４Ａおよび１０４Ｂから出力される音声が仮想音源Ｖから聴こえるとユーザに感じさせるように、２つのスピーカ１０４Ａおよび１０４Ｂから出力される２つの音声間に位相差や音量差などを設ける。なお、実施形態では、状況に応じた複数の頭部伝達関数が携帯端末１００に予め記憶されているものとする。

このように、実施形態による再生処理部２０４は、ユーザが指定した第１発話区間の第１音声に基づいて２つのスピーカ１０４Ａおよび１０４Ｂからそれぞれ出力される２つの音声が、携帯端末１００に対向する第１方向（図５では方向Ｄ１）以外の第２方向（図５では方向Ｄ２）で強め合うように、２つの音声間に少なくとも位相差を設けることが可能なように構成されている。

また、実施形態による再生処理部２０４は、上記の立体音響技術を用いて、発話区間の音声が話者毎に異なる到来方向から聴こえてくるとユーザに感じさせるように記録音声を再生することが可能なように構成されている。ここで、話者毎の音声の到来方向は、デフォルトでは、記録音声の記録時に録音処理部２０３により取得される各話者間の位置関係に基づいて設定される。また、デフォルトで設定された話者毎の音声の到来方向は、ユーザの操作によって変更することが可能である。このように到来方向を設定・変更する処理は、到来方向設定部２０８によって行われる。

たとえば、実施形態による表示処理部２０６は、話者毎の音声の到来方向をユーザに設定させるために、図６に示す画像ＩＭ２や、図７に示す画像ＩＭ３などをディスプレイ１０１Ａに表示することが可能なように構成されている。

図６の画像ＩＭ２には、ユーザの位置を示すマークＭ１０と、マークＭ１０を囲む環状の点線Ｌ１とが表示されている。そして、点線Ｌ１上には、ユーザに対する話者［Ａ］〜［Ｄ］の位置をそれぞれ示すマークＭ１１〜Ｍ１４が表示されている。ユーザは、各マークＭ１１〜Ｍ１４を点線Ｌ１に沿って移動させるドラッグ操作を行うことにより、各話者［Ａ］〜［Ｄ］の音声の到来方向を変更することができる。なお、図６の例では、話者［Ａ］の音声がユーザの正面側から聴こえ、話者［Ｂ］の音声がユーザの左側から聴こえ、話者［Ｃ］の音声がユーザの後ろ側から聴こえ、話者［Ｄ］の音声がユーザの右側から聴こえるように、話者毎の音声の到来方向が設定されている。

同様に、図７の画像ＩＭ３には、ユーザの位置を示すマークＭ２０と、ユーザに対するテーブルＴを隔てた話者［Ａ］〜［Ｄ］の位置をそれぞれ示すマークＭ２１〜Ｍ２４とが表示されている。ユーザは、各マークＭ２１〜Ｍ２４を移動させるドラッグ操作を行うことにより、各話者［Ａ］〜［Ｄ］の音声の到来方向を変更することができる。なお、図７の例では、話者［Ａ］の音声がテーブルＴを隔てて右側から聴こえ、話者［Ｂ］の音声がテーブルＴを隔てて正面側かつやや左寄りの位置から聴こえ、話者［Ｃ］の音声がテーブルＴを隔てて正面側かつやや右寄りの位置から聴こえ、話者［Ｄ］の音声がテーブルＴを隔てて右側から聴こえるように、話者毎の音声の到来方向が設定されている。

実施形態によるフィルタ係数算出部２０７は、話者毎に異なる到来方向から音声が聴こえるとユーザに感じさせるために、記録音声の記録時に取得された各話者の位置関係に応じた到来方向や、図６の画像ＩＭ２または図７の画像ＩＭ３を介して設定された到来方向などに基づいて、話者毎に異なるフィルタ係数を算出するように構成されている。そして、再生処理部２０４は、再生する音声の話者が切り替わる毎に、フィルタ１１１Ｂおよび１１１Ｃに設定するフィルタ係数を切り替えることにより、２つのスピーカ１０４Ａおよび１０４Ｂから出力される音声が話者毎に異なる到来方向から聴こえてくるとユーザに感じさせるように、２つのスピーカ１０４Ａおよび１０４Ｂから出力される２つの音声間に設ける位相差や音量差などを変化させる。

このように、実施形態による再生処理部２０４は、複数の話者のうち第１話者の発話区間に基づいて２つのスピーカ１０４Ａおよび１０４Ｂから出力される２つの音声が強め合う方向と、第１話者とは異なる第２話者の発話区間に基づいて２つのスピーカ１０４Ａおよび１０４Ｂから出力される２つの音声が強め合う方向とを異ならせるように、出力音声間に少なくとも位相差を設けることが可能なように構成されている。また、実施形態による到来方向設定部２０８は、これらの出力方向を、記録音声の記録時に取得される第１話者と第２話者との位置関係、またはユーザの操作に基づいて設定することが可能なように構成されている。

なお、上記では、ユーザが指定した第１発話区間の第１音声と、第１音声以外の第２音声とをユーザに聴覚的に識別させるために、立体音響技術を用いる例について説明した。しかしながら、実施形態では、第１音声と第２音声とで音量を異ならせることにより、立体音響技術を用いずに、第１音声と第２音声とをユーザに聴覚的に識別させてもよい。もちろん、第１音声と第２音声とで音量を異ならせることと、立体音響技術とを併用することにより、第１音声と第２音声とをユーザに聴覚的に識別させてもよい。

また、上記では、第１音声が後ろ側から聴こえ、第２音声が正面側から聴こえるとユーザに感じさせるように到来方向を設定することにより、第１音声と第２音声とをユーザに聴覚的に識別させる例について説明した。しかしながら、実施形態では、ユーザが第１音声と第２音声とを聴覚的に識別することが可能であれば、つまり第１音声と第２音声とで異なる到来方向から聴こえるとユーザに感じさせることが可能であれば、到来方向をどのように設定してもよい。なお、ユーザと携帯端末１００とが互いに対向している場合、携帯端末１００からの音声が正面側から聴こえるのが通常である。したがって、第１音声が後ろ側から聴こえるとユーザに感じさせるように到来方向を設定すれば、第１音声の再生時にユーザの注意を惹きやすい。

次に、図８を参照して、実施形態による携帯端末１００のＣＰＵ１０５が記録音声を再生する際に実行する処理フローについて説明する。

この処理フローでは、図８に示すように、再生処理部２０４は、まず、ステップＳ１において、次に再生する区間がユーザによりタグ付けされた区間であるか否かを判断する。

ステップＳ１において、次に再生する区間がユーザによりタグ付けされた区間であると判断された場合には、ステップＳ２に処理が進む。そして、ステップＳ２において、フィルタ係数算出部２０７は、後ろ側から音声が聴こえるとユーザに感じさせるためのフィルタ係数を算出する。

一方、ステップＳ１において、次に再生する区間がユーザによりタグ付けされた区間でないと判断された場合には、ステップＳ３に処理が進む。そして、ステップＳ３において、再生処理部２０４は、次に再生する区間の話者を特定する。そして、ステップＳ４に処理が進む。

ステップＳ４において、再生処理部２０４は、ステップＳ３において特定された話者に応じた到来方向を特定する。より具体的には、再生処理部２０４は、記録音声の記録時に取得された各話者の位置関係や、図６の画像ＩＭ２または図７の画像ＩＭ３上でのユーザの操作などに基づいて到来方向設定部２０８により設定された話者毎の音声の到来方向から、ステップＳ３において特定された話者に応じた到来方向を特定する。そして、ステップＳ５に処理が進む。

ステップＳ５において、フィルタ係数算出部２０７は、ステップＳ４において特定された到来方向から音声が聴こえるとユーザに感じさせるためのフィルタ係数を算出する。

ステップＳ２またはＳ５においてフィルタ係数が算出された場合、ステップＳ６に処理が進む。そして、ステップＳ６において、算出されたフィルタ係数をフィルタ１１１Ｂおよび１１１Ｃに設定する。そして、処理が戻る。

次に、図９を参照して、実施形態において話者毎の音声の到来方向が設定される場合に携帯端末１００のＣＰＵ１０５が実行する処理フローについて説明する。

この処理フローでは、図９に示すように、到来方向設定部２０８は、まず、ステップＳ１１において、デフォルトの設定として、記録音声の記録時に録音処理部２０３により取得された各話者間の位置関係に基づく到来方向を設定する。そして、ステップＳ１２に処理が進む。

ステップＳ１２において、到来方向設定部２０８は、図６の画像ＩＭ２または図７の画像ＩＭ３上でのユーザの操作による到来方向の設定の変更が行われたか否かを判断する。このステップＳ１２の処理は、ユーザの操作による設定の変更が行われたと判断されるまで繰り返される。ステップＳ１２において、ユーザの操作による設定の変更が行われたと判断された場合、ステップＳ１３に処理が進む。

ステップＳ１３において、到来方向設定部２０８は、ステップＳ１２のユーザの操作に応じて、到来方向の設定を更新する。そして、ステップＳ１２に処理が戻る。

以上説明したように、実施形態によるＣＰＵ１０５は、録音／再生プログラム２０２を実行することにより、複数の話者の複数の発話区間を含む音声の信号を記録し、複数の話者の複数の発話区間を識別可能に表示し、複数の話者の複数の発話区間のうち第１話者の第１発話区間の第１音声を指定するための操作を受け取り、第１発話区間の第１音声を２つのスピーカ１０４Ａおよび１０４Ｂを用いて第１出力形態により出力し、第１発話区間以外の第２発話区間の第２音声を２つのスピーカ１０４Ａおよび１０４Ｂを用いて第２出力形態により出力する。ここで、第１音声の第１出力形態と、第２音声の第２出力形態とは異なる。これにより、ユーザが指定した区間の音声と他の音声とを聴覚的に識別することができる。

また、実施形態では、上記第１音声の第１出力形態は、第１音声に基づいて２つのスピーカ１０４Ａおよび１０４Ｂからそれぞれ出力される２つの音声が、携帯端末１００に対向する第１方向以外の第２方向で強め合うように出力するものである。これにより、ユーザが指定した区間の音声の再生時にユーザの注意を惹きやすくすることができる。

また、実施形態では、複数の話者のうち第１話者の発話区間に基づいて２つのスピーカ１０４Ａおよび１０４Ｂからそれぞれ出力される２つの音声が強め合う方向と、第１話者とは異なる第２話者の発話区間に基づいて２つのスピーカ１０４Ａおよび１０４Ｂからそれぞれ出力される２つの音声が強め合う方向とが異なる。これにより、現在再生されている音声の話者を聴覚的に識別することができる。

また、実施形態によるＣＰＵ１０５は、録音／再生プログラム２０２を実行することにより、第１話者の発話区間に基づいて２つのスピーカ１０４Ａおよび１０４Ｂからそれぞれ出力される２つの音声が強め合う方向と、第２話者の発話区間に基づいて２つのスピーカ１０４Ａおよび１０４Ｂからそれぞれ出力される２つの音声が強め合う方向とを、音声の信号の記録時における第１話者と第２話者との位置関係、またはユーザの操作に基づいて設定するように構成されている。これにより、話者毎の音声の到来方向を容易に設定・変更することができる。

なお、実施形態による録音／再生プログラム２０２は、インストール可能な形式または実行可能な形式のコンピュータプログラムプロダクトとして提供される。すなわち、録音／再生プログラム２０２は、ＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）などの、非一時的で、コンピュータで読み取り可能な記録媒体を有するコンピュータプログラムプロダクトに含まれた状態で提供される。

録音／再生プログラム２０２は、インターネットなどのネットワークに接続されたコンピュータに格納された状態で、ネットワーク経由で提供または配布されてもよい。また、録音／再生プログラム２０２は、ＲＯＭなどに予め組み込まれた状態で提供されてもよい。

以上、本発明の実施形態を説明したが、上記実施形態はあくまで一例であって、発明の範囲を限定することは意図していない。上記実施形態は、様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００携帯端末（電子機器）
１０４Ａ、１０４Ｂスピーカ
１０５ＣＰＵ（処理手段）
２０２録音／再生プログラム

Claims

複数の話者毎の複数の発話区間を含む音声信号を電子機器の複数のスピーカから再生出力するための方法であって、
前記複数の話者毎の前記複数の発話区間を含む前記音声信号を前記電子機器のメモリに記録し、
前記メモリから前記音声信号を再生する際に、前記複数の話者毎に発話区間を識別可能なように前記電子機器のディスプレイ画面に表示し、
前記ディスプレイ画面に表示された前記複数の話者毎の前記複数の発話区間のうち、第１話者による第１発話区間の第１音声をタグ指定するための画面操作を受け取り、
前記複数のスピーカを用いて、前記タグ指定された前記第１発話区間の前記第１音声を前記電子機器の第１方向から聞こえるように再生し、
前記複数のスピーカを用いて、前記タグ指定がない第２話者による前記第１発話区間以外の第２発話区間の第２音声を前記電子機器の前記第１方向とは異なる第２方向から聞こえるように再生する、方法。
複数の話者毎の複数の発話区間を含む音声信号を再生出力する複数のスピーカと、
前記複数の話者毎の複数の発話区間を含む前記音声信号を記録するメモリと、
前記音声信号を再生操作するための画像が表示されるディスプレイと、
前記音声信号の録音／再生プログラムを実行する処理手段と、
を具備する電子機器であって、
前記処理手段は、
前記メモリから前記音声信号を再生する際に、前記複数の話者毎に複数の発話区間を識別可能なように前記ディスプレイの画面に表示し、
前記ディスプレイの画面に表示された前記複数の話者毎の前記複数の発話区間のうち、第１話者による第１発話区間の第１音声をタグ指定するための画面操作を受け取り、
前記複数のスピーカを用いて、前記タグ指定された前記第１発話区間の前記第１音声を前記電子機器の第１方向から聞こえるように再生し、
前記複数のスピーカを用いて、前記タグ指定がない第２話者による前記第１発話区間以外の第２発話区間の第２音声を前記電子機器の前記第１方向とは異なる第２方向から聞こえるように再生する、
電子機器。
前記処理手段は、
前記第１話者による前記第１発話区間の前記第１音声に基づいて前記複数のスピーカからそれぞれ再生出力される複数の音声が強め合う方向と、前記第２話者による前記第２発話区間の前記第２音声に基づいて前記複数のスピーカからそれぞれ再生出力される複数の音声が強め合う方向とを、前記第１音声および前記第２音声に対応した前記音声信号の記録時における前記第１話者と前記第２話者との位置関係、またはユーザの前記画面操作に基づいて設定し、
前記第１発話区間の前記第１音声に基づいて前記複数のスピーカからそれぞれ再生出力される複数の音声が、前記電子機器に対向する前記第１方向以外の前記第２方向で強め合うように、前記複数の音声間に位相差を設ける、請求項２に記載の電子機器。
前記処理手段は、前記第２話者による前記第２発話区間の前記第２音声に基づいて前記複数のスピーカからそれぞれ再生出力される複数の音声が、前記第１音声と異なる方向に強め合うように、前記複数の音声間に位相差を設ける、請求項３に記載の電子機器。
複数の話者毎の複数の発話区間を含む音声信号を電子機器の複数のスピーカから再生出力することをコンピュータに実行させるためのプログラムであって、
前記複数の話者毎の前記複数の発話区間を含む前記音声信号を前記電子機器のメモリに記録し、
前記メモリから前記音声信号を再生する際に、前記複数の話者毎に発話区間を識別可能なように前記電子機器のディスプレイ画面に表示し、
前記ディスプレイ画面に表示された前記複数の話者毎の前記複数の発話区間のうち、第１話者による第１発話区間の第１音声をタグ指定するための画面操作を受け取り、
前記複数のスピーカを用いて、前記タグ指定された前記第１発話区間の前記第１音声を前記電子機器の第１方向から聞こえるように再生し、
前記複数のスピーカを用いて、前記タグ指定がない第２話者による前記第１発話区間以外の第２発話区間の第２音声を前記電子機器の前記第１方向とは異なる第２方向から聞こえるように再生することを前記コンピュータに実行させる、プログラム。
前記第１話者による前記第１発話区間の前記第１音声に基づいて前記複数のスピーカからそれぞれ再生出力される複数の音声が強め合う方向と、前記第２話者による前記第２発話区間の前記第２音声に基づいて前記複数のスピーカからそれぞれ再生出力される複数の音声が強め合う方向とを、前記第１音声および前記第２音声に対応した前記音声信号の記録時における前記第１話者と前記第２話者との位置関係、またはユーザの前記画面操作に基づいて設定し、
前記第１発話区間の前記第１音声に基づいて前記複数のスピーカからそれぞれ出力される複数の音声が、前記電子機器に対向する前記第１方向以外の前記第２方向で強め合うように、前記複数の音声間に位相差が設けられる、請求項５に記載のプログラム。
前記第２話者による前記第２発話区間の前記第２音声に基づいて前記複数のスピーカからそれぞれ再生出力される複数の音声が、前記第１音声と異なる方向に強め合うように、前記複数の音声間に位相差が設けられる、請求項６に記載のプログラム。