以下、実施の形態について図面を参照して説明する。
本実施形態の電子機器は、例えば、タブレット、スマートフォン、PDA(Personal Digital assistant)等として実現し得る。なお、ここでは、本電子機器が、タブレットとして実現される場合を想定する。また、以下に説明する要素や構成は、ハードウェアを用いて実現できるが、マイクロコンピュータ(処理装置、CPU(Central Processing Unit))を用いるソフトウェアによっても実現できる。
図1は、タブレット1の外観の一例を示す図である。図1に示すように、タブレット1は、本体ユニット(PC本体)10とタッチスクリーンディスプレイ20とを含む。
PC本体10の所定の位置には、タッチスクリーンディスプレイ20に面する撮影の対象、例えばユーザやユーザとその背景またはユーザの周囲に位置に位置する物体等の情報を映像(画像情報)として取り込むカメラユニット11が位置する。PC本体10の所定の位置には、また、ユーザまたはユーザとその周囲に居る任意数の人の音声または周辺の音(音響)を取り込む第1および第2のマイクロフォン12R,12Lが位置する。第1および第2のマイクロフォン12R,12Lは、例えばカメラユニット11を仮想的中心とし、カメラユニット11から実質的に等距離に位置する。なお、本実施形態では、マイクロフォンが2つ設けられた形態を例示するが、設けられるマイクロフォンは1つであってもよい。
また、PC本体10の所定の位置には、PC本体10が保持する音声/音響データ(以下、音声データと称する)を再生するスピーカ13R,13Lが位置する。なお、PC本体10の所定の位置には、詳述しないが、電源オンスイッチ(パワーボタン)、ロック機構および認証ユニット等が位置する。パワーボタンは、タブレット1の利用を可能とする(タブレット1を起動する)ための電源のオン/オフを制御する。ロック機構は、例えば持ち運び時のパワーボタンの動作をロックする。認証ユニットは、例えばユーザを認証するために、ユーザの指や手のひらと関連付けられる(生体)情報を読み取る。
タッチスクリーンディスプレイ20は、液晶表示ユニット(LCD(Liquid Crystal Display)/表示ユニット)21と、タッチパネル(指示入力受けつけユニット)22とを含む。タッチパネル22は、少なくともLCD21の表示面(画面)を覆うように、PC本体10の所定の位置に位置する。
タッチスクリーンディスプレイ20は、外部オブジェクト(タッチペンまたはユーザの手の指等)が接触する表示画面上の指示入力位置(タッチ位置または接触位置)を検知する。タッチスクリーンディスプレイ20は、また、同時に複数の指示入力位置を検知可能なマルチタッチ機能を有する(サポートしている)。なお、外部オブジェクトは、前述の通り、タッチペンやユーザの指等、いずれでもよいが、以降の説明では、ユーザの指を例示して説明を行う。
タッチスクリーンディスプレイ20は、また、タブレット1における各種アプリケーションプログラムの画面や画像(オブジェクト)を表示するメインディスプレイとして使用される。なお、タッチスクリーンディスプレイ20は、PC本体10の起動時に、ユーザが起動しようとする任意のアプリケーションプログラムの実行開始(起動)を外部オブジェクトによる指示入力にて受け付け、任意数の起動されたアプリケーションプログラムについてのアイコンを表示する。また、タッチスクリーンディスプレイ20の表示画面の向きは、横向き(ランドスケープ)と縦向き(ポートレート)との間で切り替えることができ、図1は、ランドスケープ時の起動完了画面の表示の一例を示している。
図2に、タブレット1のシステム構成の一例を示す。
図2に示すように、タブレット1は、CPU101、システムコントローラ102、主メモリ103、グラフィクスコントローラ104、サウンドコントローラ105、BIOS−ROM106、不揮発性メモリ107、EEPROM108、LANコントローラ109、無線LANコントローラ110、バイブレータ111、加速度センサ112、オーディオキャプチャ(ボード)113、エンベデッドコントローラ(EC:Embedded Contoller)114等を備える。
CPU101は、PC本体10とタッチスクリーンディスプレイ20の各部の動作を制御する。すなわち、CPU101は、不揮発性メモリ107から主メモリ103にロードされるオペレーティングシステム(OS)201および各種アプリケーションプログラムを実行する。各種アプリケーションプログラムの1つとして、後述する音声録音再生プログラム202が存在する。音声録音再生プログラム202は、OS201の制御下で実行されるソフトウェアである。音声録音再生プログラム202は、例えば1チップマイコン等により構成する音声録音再生プロセッサ121を用いてハードウェアにより実現することもできる。
CPU101は、また、BIOS−ROM106に格納されたBIOSも実行する。BIOSは、ハードウェア制御のためのプログラムである。
システムコントローラ102は、CPU101のローカルバスと各種コンポーネントとの間を接続するデバイスである。システムコントローラ102は、主メモリ103をアクセス制御するメモリコントローラも内蔵されている。また、システムコントローラ102は、PCI EXPRESS規格のシリアルバスなどを介してグラフィクスコントローラ104との通信を実行する機能も有している。
システムコントローラ102は、また、不揮発性メモリ107を制御するためのATAコントローラを内蔵している。システムコントローラ102は、さらに、各種USBデバイスを制御するためのUSBコントローラを内蔵している。また、システムコントローラ102は、サウンドコントローラ105およびオーディオキャプチャ113との通信を実行する機能も有している。なお、カメラユニット11が取得(撮影)する画像データ(動画/静止画)は、カメラユニット11において所定のフォーマットに変換され、システムコントローラ102を通じて主メモリ103上で動作する画像処理プログラムに供給される。カメラユニット11からの画像データは、ユーザの要求に応じて起動する、カメラユニット11からの画像データに対応するフォーマットの画像を再生可能な画像処理プログラムにおいて再生され、LCD21に表示される。また、カメラユニット11からの画像データは、例えば不揮発性メモリ107が保持できる。
グラフィクスコントローラ104は、PC本体10のタッチスクリーンディスプレイ20のLCD21を制御する表示コントローラである。グラフィクスコントローラ104が生成する表示信号がLCD21に送られ、LCD21は、表示信号に基づいて映像を表示する。LCD21上に位置するタッチパネル22は、LCD21の画面上での表示に対応する入力信号を入力するためのポインティングデバイス(ユーザ操作指示入力機構)である。ユーザは、タッチパネル22により、LCD21の画面に表示されたグラフィカルユーザインタフェース(GUI)等にユーザ操作、即ち指示入力を入力することができ、これによりPC本体10を操作することができる。つまり、ユーザは、タッチパネル22を通じてLCD21が表示する起動アイコンやLCD21が表示するボタンをタッチすることで、起動アイコンやボタンに対応する機能の実行を指示することができる。
サウンドコントローラ105は、音源デバイスであり、再生対象の音声データをアナログ出力に変換した後、スピーカ13R,13Lに出力する。
LANコントローラ109は、例えばIEEE 802.3規格の有線通信を実行する有線通信デバイスである。無線LANコントローラ110は、例えばIEEE 802.11規格の無線通信を実行する無線通信デバイスである。
バイブレータ111は、PC本体10に対し、必要に応じて振動(バイブレーション)を与える。
加速度センサ112は、タッチスクリーンディスプレイ20の表示画面のポートレートとランドスケープとの間の切り換えのためのPC本体10の回転や、ユーザの指の動きのうちの衝撃の強さ等を検出する。
オーディオキャプチャ113は、マイクロフォン12R(例えばカメラユニット11の右側に位置する)および12L(カメラユニット11の左側に位置する)のそれぞれが取得する音声または音響(オーディオ)をアナログ−デジタル変換し、デジタル信号を出力する。オーディオキャプチャ113は、また、どちらのマイクロフォン12R,12Lへの入力信号のレベルが大きいかを示す情報を、主メモリ103上で動作する音声録音再生プログラム202へ、システムコントローラ102を通じて入力する。オーディオキャプチャ113は、音声録音再生プログラム202において利用可能な所定の前処理の一部または全部を担うことも可能である。
EC114は、電力管理のためのエンベデッドコントローラを含む1チップマイクロコンピュータである。EC114は、また、ユーザによるパワーボタンの操作に応じたPC本体10の電源のオン/電源オフを制御する。
図3は、このような構成を持つタブレット1上で動作する音声録音再生プログラム202の機能構成(機能ブロック)の一例を示す図である。
音声録音再生プログラム202は、音声の録音、保存された音声の再生および保存された音声の編集機能を有している。音声録音再生プログラム202は、同プログラムを実行するための機能モジュールとして、タッチ情報受信部310、制御部320、音声再生処理部330および表示処理部340を少なくとも備える。
タッチ情報受信部310は、ユーザの指示(ユーザの指の動作)のある毎に、第1の座標情報、第2の座標情報およびユーザの指の動きの情報を、タッチパネルドライバ201Aを経由してタッチパネル22から受け取り、制御部320に出力する。第1の座標情報は、ユーザの指がタッチパネル22の表示面の任意の位置に触れた位置の座標情報(x,y)である。第2の座標情報は、ユーザの指がタッチパネル22の表示面から離れた位置の座標情報(x´,y´)である。ユーザの指の動き情報は、第1の座標情報(x,y)と第2の座標情報(x´,y´)との間のユーザの指の動き、または、第2の座標情報に付属するユーザの指の動き、例えば指が離れる際の方向の情報等を含む。
なお、本実施形態でのユーザの操作入力(ユーザの指の動作)とその呼称は、以下の通りとする。
[1] タッチ:ユーザの指が一定期間、タッチパネル22の表示面上の所定の位置に位置する(第1の座標情報と第2の座標情報が実質的に同一であって、一定時間経過後、表示面とほぼ直交する方向に離される)。
[2] タップ:ユーザの指がタッチパネル22の表示面上に任意の位置に所定時間触れた後、表示面と直交する方向に離される(タッチと同義に扱われる場合もある)。
[3] スワイプ:ユーザの指がタッチパネル22の表示面の任意の位置に触れた後、任意の方向に移動する(第1の座標情報と第2の座標情報との間に指の動き情報を含む、つまり表示面をなぞるようにユーザの指が表示面を移動する)。
[4] フリック:ユーザの指がタッチパネル22の表示面の任意の位置に触れた後、任意の方向に向けて掃われるように移動し、表示面から離される(タップにおいてユーザの指が表示面から離れる際に、方向の情報を伴う)。
[5] ピンチ:ユーザの2本の指がタッチパネル22の任意の位置に触れた後、表示面で指の間隔を変更する。特に、指の間隔を広げる(指を開く)場合をピンチアウト、指の間隔を狭める(指を閉じる)場合をピンチインと称する場合もある。
制御部320は、タッチ情報受信部310が出力する第1の座標情報、第2の座標情報およびユーザの指の動き情報に基づいて、前述の[1]−[5]のユーザの指の動きの情報により特定されるユーザの動作(ユーザの指示入力)に対応する動作を行う。制御部320は、以下に説明するキーボードモードまたはマウスモードのどちらの動作モードにおいても、タッチ情報受信部310からの第1の座標情報、第2の座標情報およびユーザの指の動き情報に基づいて、ユーザの指示入力に対応する動作を行う。なお、この場合、タッチ[1]は、タップ[2]に準じた動作であってもよいが、本実施形態では、制御部320は、実質的にタッチに引き続きタッチパネル22の表示面上をユーザの指が移動することをスワイプ[3]と判定するものとする。また、制御部320は、ユーザの指がタッチパネル22上の移動から離れる位置の座標情報(x´,y´)を受け取った場合、スワイプ[3]またはフリック[4]と判定するものとする。制御部320は、タッチパネル22からの第1の座標情報、第2の座標情報およびユーザの指の動き情報に基づいて、タッチパネル22の表示面をユーザの指がなぞった(スワイプした)スワイプ長さ(指示区間長)も求めることができる。
キーボードモードは、一般には、LCD21が表示するキーボード配列の画像に対するタッチパネル22からのタップに従い対応する個々のキーに固有の文字コードを出力することで、タッチスクリーンディスプレイ20を仮想キーボードとして利用することを可能とする。マウスモードは、タッチパネル22上の(指の)接触位置の移動に応じて、その接触位置の移動の方向および距離を示す相対座標データを出力する動作モードである。
そして、ユーザがタッチパネル22の表示面に表示される所定のアイコン(またはボタン表示)のうちの音声録音再生アイコン290(図1参照)をタッチすると、ユーザの指の表示面の位置の座標情報に対応する音声録音再生アイコン290と関連付けられたアプリケーション、つまり音声録音再生プログラム202が起動される。
制御部320は、音声録音再生プログラム202を実行するための機能モジュールとして、例えば話者識別部321、話者統合部322、話者分割部323等を含む。
話者識別部321は、音声を解析して話者を識別するモジュールである。話者を識別する手法については、例えば特開2010−055103号公報(特許第5174068号公報)等に具体的な手法が詳細に説明されており、ここでは、その詳細については説明を割愛するが、本タブレット1では、話者識別部321が、例えば音声の入力方向に基づいて話者を識別する簡易的な手法(第1手法)と、音声の特徴に基づいて話者を識別する本格的な手法(第2手法)との2種類の手法を併せ持つ。音声の録音時、話者識別部321は、第1に、オーディオキャプチャ113から出力されるデジタル信号(音声)に対し、発話区間毎に話者を識別する処理を第1手法により即時的に実行する。なお、話者識別部321は、一定時間長未満の無音区間を挟んで同一話者の発話区間が存在する場合、これらを1つの発話区間として処理する。また、話者識別部321は、ある話者の発言中に一定時間長未満の他の話者の発言があった場合も、他の話者の発話区間を介在させず、ある話者の1つの発話区間とすべく処理する。この話者の識別結果に基づいた表示処理が、音声の録音時にリアルタイムに行われる。
オーディオキャプチャ113から出力されるデジタル信号(音声)は、例えば不揮発性メモリ107に音声データ401として保存される。話者識別部321は、第2に、バックグラウンド処理として、この音声データ401に対し、発話区間毎に話者を識別する処理を第2手法により改めて実行する。この話者の識別結果は、例えば不揮発性メモリ107にインデックスデータ402として保存される。音声の再生時には、このインデックスデータ402として保存される話者の識別結果に基づいた表示処理が行われる。
話者統合部322は、同一人物の音声が複数の人物の音声と識別されている場合に、当該複数の人物の音声と識別されている音声を同一人物の音声として統合すべくインデックスデータ402を修正するためのモジュールである。また、話者分割部323は、複数の人物の音声が同一人物の音声と識別されている場合に、当該同一人物の音声と識別されている音声を複数の人物の音声として分割すべくインデックスデータ402を修正するためのモジュールである。本タブレット1は、話者統合部322および話者分割部323を備えて、ユーザが、話者識別部321による話者の識別の結果を簡単な操作で修正することのできるユーザインタフェースを提供する。
音声再生処理部330は、音声録音再生プログラム202において再生する音声出力信号を処理するモジュールである。音声再生処理部330は、サウンドコントローラ105に対して、録音時の話者の位置を擬似的に再現できるように、例えば再生中の音声データに対応する話者の位置を基に、スピーカ13Rおよびスピーカ13Lが出力する再生音声の出力割合を変更する制御を行うことができる。
そして、表示処理部340は、PC本体10のタッチスクリーンディスプレイ20に表示される表示画面210(図1参照)内に様々な情報を表示するための表示信号を処理するモジュールである。
次に、音声録音再生プログラム202の動作原理について、当該音声録音再生プログラム202によるPC本体10のタッチスクリーンディスプレイ20への表示画面210の一表示例を示しながら説明する。
音声録音再生プログラム202は、図4に示すように、大きく分けて、ホーム画面210−1(図4の(a))、録音画面210−2(図4の(b))および再生画面210−3(図4の(c))の3種類の画面を表示する。
ホーム画面210−1は、音声録音再生プログラム202が起動時に表示する基本画面である。図5は、ホーム画面210−1(図4の(a))の拡大図である。
図5に示すように、ホーム画面210−1には、録音を開始するための録音ボタンa1と、録音済みの音声データ401の再生を開始するためのボタンの役割を兼ねる、録音済みの音声データ401を選択肢として提示するリストa2とが表示される。リストa2内における録音済みの音声データ401それぞれの表示領域(a3)には、例えば、録音開始時刻、録音終了時刻、録音時間等、ユーザが目的の音声データ401を選び出すための様々な情報が表示される。なお、ここでは、リストa2内に録音済みの音声データ401が1つのみ表示されているが、録画済みの音声データ401が複数存在する場合、それらすべてがリストa2内に垂直方向に並べられて表示される。リストa2の表示領域内に収まり切らない数の録音済みの音声データ401が存在する場合、その一部のみがリストa2内に表示され、リストa2の表示領域上での例えばスワイプまたはフリックにより、表示される録音済みの音声データ401が切り換わる(スクロール)。また、リストa2内での録画済みの音声データ401の並び順は、録音開始時刻の新しい順と録音開始時刻の古い順との間で切り替えることができる。
このホーム画面210−1の録音ボタンa1にタッチまたはタップすることで、ユーザは、録音を開始することができる。録音画面210−2(図4の(b))は、音声録音再生プログラム202が録音中に表示する画面である。図6は、録音画面210−2(図4の(b))の拡大図である。
図6中、符号b1で示されるラインは、現在時点を示す。このラインを基点に、話者が識別されながら音声が録音される様子が示される。前述したように、音声録音再生プログラム202(話者識別部321)は、音声の録音時、簡易的な手法である第1手法により話者を識別する処理を実行する。話者が識別されるまでの期間(b2)は、音声の入力レベルが示される。話者が識別されると、音声の入力レベルに代わって、各々の発話区間を示す発話区間バーb3が、話者を識別可能に表示される。
また、録音画面210−2には、識別された話者を示す、例えば識別された順にアルファベットが割り振られる話者マークb4が話者毎に表示される。話者マークb4は、最大10人(A〜J)まで表示できる。録音画面210−2には、発話マークb5も表示される。録音画面210−2における発話マークb5は、音声の入力有無を示し、音声が入力されている際に表示される。また、録音画面210−2には、録音を停止するための停止ボタンb6が表示される。この停止ボタンb6にタッチまたはタップすることで、ユーザは、録音を一時停止または停止することができる。録音を停止すると、図5に示したホーム画面210−1に復帰する。
ホーム画面210−1のリストa2内に選択肢として提示される音声データ401をタッチまたはタップによって選択することにより、ユーザは、その音声データ401の再生を開始することができる。再生画面210−3(図4の(c))は、音声録音再生プログラム202が音声の再生中に表示する画面である。図7は、再生画面210−3(図4の(c))の拡大図である。
図7に示すように、再生画面210−3にも、各々の発話区間を示す発話区間バーc1が、話者を識別可能に表示される。符号c2で示されるラインは、再生時点を示す。図7では、このラインが話者Fの発話区間を示す発話区間バーc1上に位置しているので、話者Fの音声が出力されていることになる。また、再生画面210−3にも、話者マークc3と発話マークc4が表示される。再生画面210−1における発話マークc4は、音声が出力されている際、その話者を示す話者マークc3の下に位置することで、発言者を示す(図7では、話者Fを示す話者マークc3の下に位置している)。
また、再生画面210−3には、再生されている音声データ401の総録音区間を示すタイムバーc5と、この音声データ401の総録音区間中の発話区間バーc1の表示範囲を示す表示範囲バーc6とが表示される。
このように、音声録音再生プログラム202は、音声を可視化して、例えば会議の議事録の作成等を支援することができる。
続いて、音声録音再生プログラム202が提供する、話者の識別の結果を簡単な操作で修正することのできるユーザインタフェースについて説明する。
いま、音声データ401が再生されており、図7に示した再生画面210−3がタッチスクリーンディスプレイ20に表示されているものと想定する。また、話者Fと識別されている発話区間の音声は、正しくは話者Dと識別されるべきであるところ、誤って話者Fと識別されているものと想定する。つまり、話者Dの発話区間が、話者Dの発話区間と話者Fの発話区間とに過分割された状態にある場合を想定する。そして、ユーザは、再生中の音声を聞いて、この誤りに気づき、過分割された発話区間を統合しようと考えているものと想定する。
このような場合、ユーザは、まず、図8に示すように、話者Fを示す話者マークc3を長押しする。ここで、長押しとは、タッチの状態を一定時間以上継続させる操作入力である。話者マークc3が長押しされると、音声録音再生プログラム202(制御部320)は、再生モードから編集モードへと移行する。編集モードへの移行は、例えば、再生を一時停止の状態とすることにより、ユーザに通知する。この時、再生画面210−3の更新も停止される。なお、図8中、符号d1で示される発話区間は、音声再生中の発話区間であって、話者Dを話者Fと誤って識別されている発話区間であり、符号d2で示される発話区間は、音声再生中の発話区間ではないが、同じく、話者Dを話者Fと誤って識別されている発話区間である。
編集モードへ移行したら、ユーザは、続いて、図9に示すように、(長押しした)話者Fを示す話者マークc3を移動させて話者Dを示す話者マークc3に重ねるべく、タッチスクリーンディスプレイ20上をなぞるような操作入力を行う。この操作を受けて、音声録音再生プログラム202(話者統合部)322は、話者Fの発話区間と話者Dの発話区間とを話者Dの発話区間に統合する。図10に、話者Fの発話区間と話者Dの発話区間とが話者Dの発話区間に統合された後の再生画面210−3を示す。図10に示すように、図8および図9における話者Fの発話区間d1は、先行かつ隣接する話者Dの発話区間と1つに結合されて、話者Dの発話区間e1として示されている。即ち、音声録音再生プログラム202(話者統合部)322は、発話区間単位で話者を修正するだけでなく、2以上の発話区間を1つの発話区間に統合することが可能である。また、図8および図9における(音声再生中の発話区間ではない)話者Fの発話区間d2も、話者Dの発話区間e2として示されている。つまり、1回の操作で、ユーザは、音声データ401中の話者Fとして識別される発話区間を話者Dの発話区間に一括して修正することができる。なお、図10に示すように、この時、話者マークc3の表示も更新される。
発話区間の統合を完了すると、音声録音再生プログラム202(制御部320)は、編集モードから再生モードへ復帰し、音声の再生を再開する。なお、話者マークの表示領域および発話区間の表示領域以外の領域で、タッチスクリーンディスプレイ20上でのタッチが行われた場合も、音声録音再生プログラム202(制御部320)は、編集モードから再生モードへ復帰する。
次に、複数の人物の音声が同一人物の音声と誤って識別されている場合であって、その一人の発話区間を複数の人物の発話区間に分割する場合について説明する。
このような状況が発生するケースとして、例えば、図11に示すように、音声の特徴が似ている話者Fの音声と話者Gの音声とがほぼ同じ方向から入力されるケースが考えられる。換言すれば、音声の特徴に若干の違いはみられるものの、ほぼ同じ方向から入力されることから、同一の話者として纏められてしまっているようなケースが考えられる。
ここでも、音声データ401が再生されており、図7に示した再生画面210−3がタッチスクリーンディスプレイ20に表示されているものと想定する。また、話者Fと識別されている音声再生中の発話区間の音声は、正しくは別の話者(話者Gとする)と識別されるべきであるところ、誤って話者Fと識別されているものと想定する。つまり、話者Fの発話区間と話者Gの発話区間とが、話者Fの発話区間として纏められた状態にある場合を想定する。そして、ユーザは、再生中の音声を聞いて、この誤りに気づき、誤って纏められた発話区間を分割しようと考えているものと想定する。
このような場合、ユーザは、まず、前述した統合の場合と同様、いずれかの話者マークを長押しして、再生モードから編集モードへの切り換えを実行する。編集モードへ移行したら、ユーザは、続いて、図12に示すように、話者Fから話者Gへ分割したい発話区間を示す発話区間バーf1へのタッチを行う。なお、図12中、符号f2で示される発話区間は、(話者Gではなく)話者Fが発言した発話区間であるものとする。
この操作を受けて、音声録音再生プログラム202(話者分割部)323は、話者Fとして識別されている発話区間のうち、タッチされた発話区間バーf1で示される発話区間の音声と特徴が一致する発話区間を話者Gの発話区間として分割する。図13に、話者Fの発話区間が話者Fの発話区間と話者Gの発話区間とに分割された後の再生画面210−3を示す。図13に示すように、図12における話者Fの発話区間f1は、話者Gの発話区間g1として示され、また、図12における話者Fの発話区間f2は、そのまま、話者Fの発話区間f2として示されている。つまり、1回の操作で、ユーザは、音声データ401中の話者Fとして識別される発話区間のうち、話者Gとして識別されるべき発話区間のみを話者Gの発話区間に一括して修正することができる。また、この時、話者マークc3の表示も更新される。
なお、音声録音再生プログラム202(話者分割部)323は、発話区間単位で話者を修正するだけでなく、発話区間を2以上の発話区間に分割することも可能である。具体的には、例えば、話者Fが発言した直後に話者Gが発言した場合であって、これらの発言が話者Fの発言として1つの発話区間に纏められているような場合、音声録音再生プログラム202(話者分割部)323は、当該1つの発話区間を(話者Fおよび話者Gの)2つの発話区間に分割することができる。
図14は、タブレット1の話者統合または話者分割に関する動作手順を示すフローチャートである。
音声の再生中、話者マークを長押しする操作が行われると(ブロックA1のYES)、タブレット1は、再生モードから編集モードに移行する(ブロックA2)。編集モードへ移行した後、長押しされた話者マークを他の話者マークに被せる操作が行われると(ブロックA3のYES)、タブレット1は、長押しされた話者マークで示される話者の音声データを、被せられた話者マークで示される話者の音声データと統合する統合処理を実行する(ブロックA4)。統合処理の実行後、タブレット1は、編集モードから再生モードに移行する(ブロックA5)。
また、編集モードへ移行した後、発話区間バーに触れる操作が行われると(ブロックA3のNO,A6のYES)、タブレット1は、触れられた発話区間バーと同一話者の音声データのうち、触れられた発話区間バーの音声データと同一の特徴をもつ音声データを別の話者に分割する分割処理を実行する(ブロックA7)。分割処理の実行後、タブレット1は、編集モードから再生モードに移行する(ブロックA5)。
また、編集モードへ移行した後、話者マーク、発話区間バー以外に触れる操作が行われた場合も(ブロックA6のNO,A8のYES)、タブレット1は、編集モードから再生モードに移行する(ブロックA5)。
このように、タブレット1は、同一人物の音声が複数の人物の音声と識別されたり、逆に、複数の人物の音声が同一人物の音声と識別されたり等、話者の識別に誤りが生じている場合に、その話者の識別の結果を簡単な操作で修正することを可能とする。
本実施形態に記載された様々な機能の各々は、処理回路によって実現されてもよい。処理回路の例には、中央処理装置(CPU)のような、プログラムされたプロセッサが含まれる。このプロセッサは、メモリに格納されたプログラムを実行することによって、記載された機能それぞれを実行する。このプロセッサは、電気回路を含むマイクロプロセッサであってもよい。処理回路の例は、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、マイクロコントローラ、コントローラ、他の電気回路部品も含む。
本実施形態の各種処理はコンピュータプログラムによって実現することができるので、このコンピュータプログラムを格納したコンピュータ読み取り可能な記憶媒体を通じてこのコンピュータプログラムを通常のコンピュータにインストールして実行するだけで、本実施形態と同様の効果を容易に実現することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると共に、特許請求の範囲に記載された発明とその均等の範囲に含まれる。