以下、図面を参照して実施形態を説明する。図面において、同一の機能及び構成要素については、同一符号を付して説明を省略するか、または、簡単に説明を行う。
(第1の実施形態)
第1の実施形態では、複数のマイクロフォン接続用のコネクタ(接続端子)を備えるレコーダと、当該レコーダによって生成された音データ(例えば音声データ)を処理する第1のサーバ(情報処理装置)とを説明する。
図1は、第1の実施形態に係るレコーダ1の一例を示すブロック図である。
レコーダ1は、複数の外付けのマイクロフォンM1〜Mn(nは2以上の整数)と接続可能な複数のコネクタC1〜Cnと、内蔵のマイクロフォンMと、操作装置(ユーザインタフェース装置)2と、表示装置3と、アナログ/デジタルコンバータ(以下、ADCという)4と、コントローラ5とを備える。コントローラ5は、例えば、プロセッサ6と、記憶装置7と、通信装置8とを備える。レコーダ1は、例えば、携帯型のICレコーダでもよい。
複数のコネクタC1〜Cnのそれぞれは、複数のマイクロフォンM1〜Mnを着脱可能である。また、複数のコネクタC1〜Cnは、ADC4と接続されている。
マイクロフォンMは、レコーダ1に内蔵されており、音を測定し、アナログ信号をADC4へ送信する。
操作装置2は、ユーザによる操作を受け付ける。操作装置2は、例えば、ユーザからの指示を受け付け、指示を例えばコントローラ5のプロセッサ6へ送信する。操作装置2は、例えば、ボタン、または、タッチパネルなどである。
第1の実施形態において、操作装置2は、例えば、コントローラ5のプロセッサ6から周期的にモードの問合せを受信し、問合せに対してユーザによって指定されているモードをプロセッサ6へ返す。あるいは、操作装置2は、ユーザからモードの指定を受け付けた場合に、このユーザによって指定されたモードをプロセッサ6へ通知する。
第1の実施形態において、モードとは、レコーダ1の動作の種類・態様を示す。レコーダ1は少なくとも2つのモードのいずれかで選択的に動作する。
第1のモードは、非標準モード(例えばワンショットボイスモード)であり、タイトル、見出し、要約、メモ、管理情報、書誌事項の内容、解説、注意事項などの音入力に用いられる。
第2のモードは、標準モードであり、議事録、打合せの内容などの標準の音入力に用いられる。
表示装置3は、例えばコントローラ5のプロセッサ6などによる制御にしたがって、例えば記憶装置7に記憶されている各種のデータを表示する。表示装置3は、例えば、液晶ディスプレイ、または、有機EL(Electro-Luminescence)ディスプレイなどである。
ADC4は、複数のマイクロフォンM1〜Mnから複数のコネクタC1〜Cn経由で複数のアナログ信号を受信可能である。また、ADC4は、マイクロフォンMからアナログ信号を受信可能である。第1の実施形態において、ADC4によって受信されるアナログ信号は、ステレオ信号であるとする。
ADC4は、受信した少なくとも1つのアナログ信号に対してアナログ/デジタル変換を行い、デジタル信号をコントローラ5へ送信する。ADC4は、例えば、複数のマイクロフォンM1〜Mnから複数のコネクタC1〜Cn経由で複数のアナログ信号を受信した場合に、この複数のアナログ信号に基づいて1つのデジタル信号を生成(例えば合成)し、生成したデジタル信号を例えばコントローラ5のプロセッサ6へ送信する。
また、ADC4は、複数のマイクロフォンM1〜Mnから複数のコネクタC1〜Cn経由で複数のアナログ信号を受信した場合に、複数のアナログ信号のレベルの取得、複数のアナログ信号が有効かまたは無効かの判断、複数のアナログ信号のゲイン(ボリューム)値の取得などを含む解析を実行する。そして、ADC4は、解析の結果を示す解析情報9をコントローラ5のプロセッサ6へ送信する。解析情報9は、例えば、複数のアナログ信号のレベル、複数のアナログ信号のゲイン値などを含む。
なお、ADC4は、例えば、コントローラ5のプロセッサ6へ送信するデジタル信号または解析情報9に対してデータ圧縮を実行してもよい。
さらに、ADC4は、例えばコントローラ5のプロセッサ6などから受信した制御コマンド10にしたがって、複数のアナログ信号のレベルの調整、または、ゲイン値の調整などの制御を行う。これにより、デジタル信号の品質が向上する。
記憶装置7は、例えばNAND型フラッシュメモリなどのような不揮発性メモリと、例えばDRAM(Dynamic Random Access Memory)などのような揮発性メモリとを備える。
記憶装置7は、例えば、オペレーティング・システム(以下、OSという)11、ソフトウェア12、メタデータ13、音データ14、解析データ15、音データ14に対応する文字データ16および翻訳データ17、音データ14に対する話者認識データ18などの各種のデータを記憶する。なお、メタデータ13、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18は、基本的には、第1のサーバ19で管理されており、必要に応じて、必要な部分が、第1のサーバ19から記憶装置7に部分的にダウンロードされ、記憶装置7に一時的に記憶され、レコーダ1で使用されるとしてもよい。この場合、レコーダ1の記憶装置7の記憶容量を低減させることができる。また、メタデータ13、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18のうちの一部が記憶装置7に記憶され、他の部分が第1のサーバ19で管理されてもよい。
メタデータ13は、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18に関するメタ情報を含む。メタデータ13は、例えば、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18を適宜関連付けている。メタデータ13は、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18の記憶位置の情報を含む。
音データ14は、ADC4から受信されたデジタル信号に基づいて生成される。
解析データ15は、音データ14に対応しておりADC4から受信された解析情報9を含む。
文字データ16は、音データ14に対応しており音データ14に対する文字起こし処理によって生成される例えばテキストデータを含む。
翻訳データ17は、音データ14に対応しており文字データ16に対する翻訳処理によって生成されるテキストデータを含む。
話者認識データ18は、音データ14に対応しており音データ14および解析データ15に基づいて実行された話者認識処理によって生成され、話者識別情報を含む。
記憶装置7に記憶されるメタデータ13、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18は、図2を用いて後で具体的に説明する。
通信装置8は、例えばプロセッサ6による制御にしたがって、無線または有線により、例えば第1のサーバ19または第2のサーバ20などの他の装置との間で、データ、情報、信号、リクエスト、コマンド、指示、通知、呼び出し、または、応答の送受信を行う。
プロセッサ6は、記憶装置7に記憶されているOS11およびソフトウェア12を実行することにより、例えば、制御部21、データ生成部22、判断部23、送信制御部24、受信制御部25、表示データ生成部26、表示制御部27として機能する。
なお、制御部21、データ生成部22、判断部23、送信制御部24、受信制御部25、表示データ生成部26、表示制御部27は、適宜組み合わせてもよく、または、分割してもよい。例えば、送信制御部24と受信制御部25とは、通信制御部として組み合わせてもよい。例えば、表示データ生成部26と表示制御部27とは組み合わせてもよい。
制御部21は、レコーダ1に備えられている各種の構成要素、例えば、マイクロフォンM、操作装置2、表示装置3、ADC4を制御する。
制御部21は、例えば、ADC4から受信した解析情報9に基づいて、複数のマイクロフォンM1〜Mnから複数のコネクタC1〜Cn経由で受信する複数のアナログ信号の各レベルまたは各ゲイン値を所定範囲に調整するための制御コマンド10を決定し、制御コマンド10をADC4へ送信する。これにより、デジタル信号の品質が向上する。
制御部21は、例えば、複数のコネクタC1〜Cnのうちのどのコネクタがマイクロフォンと接続状態にあるかを検出する。
制御部21は、例えば、ADC4から受信したデジタル信号、または、解析情報9に対するデータ復号を行う。
判断部23は、操作装置2へモードの問合せを例えば周期的に送信し、操作装置2からモードの通知を受信する。そして、判断部23は、ユーザが第1のモードを指定しているか、または、第2のモードを指定しているかを判断する。プロセッサ6は、モードの判断結果にしたがって、例えば、通信方式、制御、処理、機能、利用するサーバを切り替え可能である。第1の実施形態では、プロセッサ6は、モードの判断結果にしたがって、利用するAPI(Application Programming Interface)を切り替える。
データ生成部22は、例えば、ADC4から受信したデジタル信号および解析情報9と、判断部23によるモードの判断結果とに基づいて、メタデータ13と音データ14と解析データ15とを生成する。データ生成部22は、例えば、音データ14を、時間または音のゲイン値の増減などに基づいて分割する。この分割されたデータのそれぞれを、音セグメントという。
そして、データ生成部22は、メタデータ13と音データ14と解析データ15とを記憶装置7へ記憶させる。
送信制御部24は、判断部23によるモードの判断結果にしたがって、第1のサーバ19または第2のサーバ20に備えられているAPI(機能としてもよい)のうちどのAPIを使用するかを決定し、決定されたAPIを利用して、記憶装置7に記憶されているメタデータ13、音データ14、解析データ15、文字起こしリクエスト、翻訳リクエスト、話者認識リクエストを、通信装置8経由で第1のサーバ19または第2のサーバ20へ送信する。
なお、送信制御部24は、文字起こしリクエスト、翻訳リクエスト、話者認識リクエストなどのリクエストの送信を省略してもよい。この場合、例えば、送信制御部24が第1のサーバ19または第2のサーバ20へメタデータ13、音データ14、解析データ15を送信することで、文字起こしリクエスト、翻訳リクエスト、話者認識リクエストが送信されたものとみなす。以下の他の説明でも、リクエストの発行を省略し、データの送信をリクエストの発行とみなしてもよい。
第1の実施形態において、レコーダ1は、API19aを用いることにより、第1のサーバ19によって提供される機能を使用可能であり、API20aを用いることにより、第2のサーバ20によって提供される機能を使用可能である。
第1の実施形態において、送信制御部24は、例えば、通信装置8経由で第1のサーバ19または第2のサーバ20へ、ストリーミングにより、メタデータ13、音データ14、または、解析データ15を送信してもよい。送信制御部24は、例えば、通信装置8経由で第1のサーバ19または第2のサーバ20へ、ストリーミングではなく間隔をあけて(例えば所定のデータ量または所定の時間ごとに)、メタデータ13、音データ14、または、解析データ15をまとめて送信してもよい。送信制御部24は、例えば、データの送信開始から所定の期間、ストリーミングにより第1のサーバ19または第2のサーバ20へ、メタデータ13、音データ14、または、解析データ15を送信し、所定の期間経過後に、ストリーミングではなく間隔をあけて、第1のサーバ19または第2のサーバ20へ、メタデータ13、音データ14、または、解析データ15を送信してもよい。
送信制御部24は、例えば、メタデータ13、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18の評価(特徴検出、属性判断)演算を行い、評価値(特徴量、属性情報)に応じて利用するAPI、サーバ、または、機能を切り替えてもよい。より具体的には、送信制御部24は、例えば、文字データ16が所定の分野の用語を所定の割合以上含む場合に、分野判断結果にしたがって以降の音データを分野に特化した文字起こし処理へ送信してもよい。
受信制御部25は、例えば、第1のサーバ19または第2のサーバ20から通信装置8経由で、ストリーミングにより、文字データ16、翻訳データ17、話者認識データ18を受信してもよい。受信制御部25は、例えば、第1のサーバ19または第2のサーバ20から通信装置8経由で、ストリーミングではなく間隔をあけて、文字データ16、翻訳データ17、話者認識データ18を受信してもよい。受信制御部25は、例えば、データの送信開始から所定の期間、第1のサーバ19または第2のサーバ20から通信装置8経由で、ストリーミングにより文字データ16、翻訳データ17、話者認識データ18を受信し、所定の期間経過後に、第1のサーバ19または第2のサーバ20から通信装置8経由で、ストリーミングではなく間隔をあけて、文字データ16、翻訳データ17、話者認識データ18を受信してもよい。
受信制御部25は、受信した文字データ16、翻訳データ17、話者認識データ18を、記憶装置7に記憶させ、例えば文字データ16、翻訳データ17、話者認識データ18の位置情報を追加するなどのように、記憶装置7に記憶されているメタデータ13を更新する。
表示データ生成部26は、記憶装置7に記憶されている文字データ16、翻訳データ17、話者認識データ18を読み出し、ユーザの指示に対応する表示データを生成する。
表示制御部27は、表示データ生成部26によって生成された表示データを表示装置3に表示させる。
第1の実施形態において、表示制御部27は、文字データ16または翻訳データ17をまとめて表示するのではなく、短い周期で1文字ずつ表示してもよい。これにより、ユーザは、レコーダ1が文字データ16または翻訳データ17を継続的に取得および記憶していることを認識することができる。
図2は、第1の実施形態に係るデータの構成の例を示すブロック図である。
メタデータ13は、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18に関する各種のメタ情報を含む。具体的には、メタデータ13は、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18に対して付される各種の属性情報であり、例えば、レコーダ1を使用するユーザのユーザ識別情報(ユーザID)、レコーダ1のデバイス識別情報(デバイスID)、時間情報(タイムスタンプ)、音データ14の位置情報、解析データ15の位置情報、文字データ16の位置情報、翻訳データ17の位置情報、話者認識データ18の位置情報、音データ14のサイズ、解析データ15のサイズ、文字データ16のサイズ、翻訳データ17のサイズ、話者認識データ18のサイズ、音データ14の種類情報(例えばデータ形式)、解析データ15の種類情報、文字データ16の種類情報、翻訳データ17の種類情報、話者認識データ18の種類情報などを含む。
音データ14は、ADC4から受信されたデジタル信号に基づいて生成されたデータである。音データ14は、複数の音セグメントSS1〜SSm(mは、2以上の整数)を含む。デジタル信号に基づいて生成される音データ14のデータ本体は、時間経過、ゲイン値の増減、データ量などに基づいて複数の音セグメントSS1〜SSmのデータ本体SD1〜SDmに分割される。複数の音セグメントSS1〜SSmのそれぞれは、メタデータSM1〜SMmとデータ本体SD1〜SDmを含む。音セグメントSS1〜SSmに含まれるメタデータSM1〜SMmは、音セグメントSS1〜SSmに含まれるデータ本体SD1〜SDmに関する各種のメタ情報であり、例えば、時間情報、モード種別情報などを含む。なお、音データ14内のメタデータSM1〜SMmは、省略されてもよい。
解析データ15は、ADC4から受信された解析情報9に基づいて生成されたデータである。解析データ15は、複数の解析セグメントAS1〜ASmを含む。複数の解析セグメントAS1〜ASmのそれぞれは、メタデータAM1〜AMmとデータ本体AD1〜ADmを含む。解析セグメントAS1〜ASmに含まれるメタデータAM1〜AMmは、解析セグメントAS1〜ASmに含まれるデータ本体AD1〜ADmに関する各種のメタ情報である。
文字データ16は、音データ14に対する文字起こし処理により生成された例えばテキスト形式のデータである。文字データ16は、複数の文字セグメントCS1〜CSmを含む。複数の文字セグメントCS1〜CSmのそれぞれは、メタデータCM1〜CMmとデータ本体CD1〜CDmを含む。文字セグメントCS1〜CSmに含まれるメタデータCM1〜CMmは、文字セグメントCS1〜CSmに含まれるデータ本体CD1〜CDmに関する各種のメタ情報である。
翻訳データ17は、文字データ16に対する翻訳処理により生成された例えばテキスト形式のデータである。翻訳データ17は、複数の翻訳セグメントTS1〜TSmを含む。複数の翻訳セグメントTS1〜TSmのそれぞれは、メタデータTM1〜TMmとデータ本体TD1〜TDmを含む。翻訳セグメントTS1〜TSmに含まれるメタデータTM1〜TMmは、翻訳セグメントTS1〜TSmに含まれるデータ本体TD1〜TDmに関する各種のメタ情報である。
話者認識データ18は、音データ14および解析データ15に基づいて話者認識処理により生成されたデータである。話者認識データ18は、複数の話者認識セグメントRS1〜RSmを含む。複数の話者認識セグメントRS1〜RSmのそれぞれは、メタデータRM1〜RMmとデータ本体RD1〜RDmを含む。話者認識セグメントRS1〜RSmに含まれるメタデータRM1〜RMmは、話者認識セグメントRS1〜RSmに含まれるデータ本体RD1〜RDmに関する各種のメタ情報である。
メタデータSM1〜SMm,AM1〜AMm,CS1〜CSm,TM1〜TMm,RM1〜RMmは、音セグメントSS1〜SSm、解析セグメントAS1〜ASm、文字セグメントCS1〜CSm、翻訳セグメントTS1〜TSm、話者認識セグメントRS1〜RSmのそれぞれの位置情報を含む。さらに、音セグメントSS1、解析セグメントAS1、文字セグメントCS1、翻訳セグメントTS1、話者認識セグメントRS1は、例えば、それぞれのメタデータSM1,AM1,CM1,TM1,RM1内の時間情報などにより互いに関連付けられている。同様に、他の音セグメントSS2〜SSm、解析セグメントAS2〜ASm、文字セグメントCS2〜CSm、翻訳セグメントTS2〜TSm、話者認識セグメントRS2〜RSmについても、メタデータSM2〜SMm,AM2〜AMm,CS2〜CSm,TM2〜TMm,RM2〜RMmに基づいて、関連付けられている他のセグメントを認識可能である。
図3は、第1の実施形態に係る第1のサーバ19の構成の一例を示すブロック図である。
情報処理システム28は、レコーダ1と第1のサーバ19とを備える。
第1のサーバ19は、レコーダ1、第2のサーバ20、ユーザ端末29と、無線または有線により通信可能である。
第1のサーバ19は、通信装置30と、記憶装置31と、プロセッサ32とを備える。
通信装置30は、レコーダ1、第2のサーバ20、または、ユーザ端末29と、無線または有線により、例えば、データ、情報、信号、リクエスト、コマンド、指示、通知、呼び出し、または、応答などの送受信を行う。
記憶装置31は、OS33と、当該OS33によって制御されるサーバ・ソフトウェア34とを記憶している。サーバ・ソフトウェア34は、文字セグメントなどを含む表示データを、通信装置30経由でユーザ端末29のブラウザ36に提供可能である。なお、サーバ・ソフトウェア34は、例えば、メッセージ交換ソフトウェア、Web会議ソフトウェア、または、SNS(Social Networking Service)を提供するソフトウェアなどでもよい。
さらに、記憶装置31は、例えば、ユーザ情報68、メタデータ13、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18、ユーザに選択(例えばピックアップ)されたピックアップ・セグメント35を組み込んだファイル、ブログデータ50などを記憶する。ここで、ファイルにピックアップ・セグメント35を組み込むとは、例えば、ファイル内に、ピックアップ・セグメント35に含まれるデータ本体のテキストデータを追加することを意味する。
第1の実施形態において、ユーザによって指定されたピックアップ・セグメント35は、ユーザによって指定されたファイルに組み込まれる。
ユーザ情報68は、第1のサーバ19で提供されるWebサイトに登録をしたユーザの各種情報を含む、具体的には、ユーザ情報68は、例えば、ユーザ識別情報、ユーザの使用するデバイス識別情報、ユーザの属性情報などを含む。ユーザ情報68は、例えば、ユーザ識別情報またはデバイス識別情報により、メタデータ13と関連付けられている。したがって、サーバ・ソフトウェア34は、ユーザ情報68に関連するメタデータ13、音データ14、解析データ15、文字データ16、翻訳データ17、話者認識データ18、ピックアップ・セグメント35を検索または読み出すことができる。
プロセッサ32は、レコーダ1から通信装置30経由で受信したリクエストまたはデータにしたがって、API19aに基づく各種の機能を提供する。換言すれば、第1のサーバ19は、API19aを用いて他の装置と連携して動作する。
プロセッサ32は、記憶装置31に記憶されているOS33およびサーバ・ソフトウェア34を実行することにより、例えば、受信部37、文字起こし部38、翻訳部39、話者認識部40、送信部41、表示制御部42、ピックアップ部43、見積生成部44、依頼部45、ブログエディタ46として機能する。
受信部37は、レコーダ1から通信装置30経由で、文字起こしリクエストと、翻訳リクエストと、話者認識リクエストと、メタデータ13と、音データ14と、解析データ15とを受信し、ユーザ情報68と、メタデータ13と、音データ14と、解析データ15とを関連付けた状態で、記憶装置31に記憶させる。
文字起こし部38は、受信部37によって文字起こしリクエストが受信された場合に、音データ14に対する文字起こし処理を実行し、文字データ16を生成し、文字データ16を記憶装置31に記憶させ、メタデータ13を更新する。文字起こし部38は、例えば、メタデータ13に、文字データ16の位置情報などを登録する。
あるいは、文字起こし部38は、受信部37によって文字起こしリクエストが受信された場合に、通信装置30経由で第2のサーバ20に文字起こしリクエストと音データ14とを送信し、API20aを用いて第2のサーバ20に文字起こし処理47を実行させ、第2のサーバ20から通信装置30経由で文字データ16を受信し、文字データ16を記憶装置31に記憶させ、メタデータ13を更新してもよい。
翻訳部39は、受信部37によって翻訳リクエストが受信された場合に、文字データ16に対する翻訳処理を実行し、翻訳データ17を生成し、翻訳データ17を記憶装置31に記憶させ、メタデータ13を更新する。翻訳部39は、例えば、メタデータ13に、翻訳データ17の位置情報などを登録する。
あるいは、翻訳部39は、受信部37によって翻訳リクエストが受信された場合に、通信装置30経由で第2のサーバ20に翻訳リクエストと文字データ16とを送信し、API20aを用いて第2のサーバ20に翻訳処理48を実行させ、第2のサーバ20から通信装置30経由で翻訳データ17を受信し、翻訳データ17を記憶装置31に記憶させ、メタデータ13を更新してもよい。
話者認識部40は、受信部37によって話者認識リクエストが受信された場合に、音データおよび解析データ15に基づいて話者認識処理を実行し、話者認識データ18を生成し、話者認識データ18を記憶装置31に記憶させ、メタデータ13を更新する。話者認識部40は、例えば、メタデータ13に、話者認識データ18の位置情報などを登録する。
あるいは、話者認識部40は、受信部37によって話者認識リクエストが受信された場合に、通信装置30経由で第2のサーバ20に話者認識リクエストと音データ14と解析データ15とを送信し、API20aを用いて第2のサーバ20に話者認識処理49を実行させ、第2のサーバ20から通信装置30経由で話者認識データ18を受信し、話者認識データ18を記憶装置31に記憶させ、メタデータ13を更新してもよい。
第1の実施形態において、解析データ15は、複数のマイクロフォンM1〜Mnのそれぞれによって取得された複数のアナログ信号のレベルまたはゲイン値を含むため、音データ14の信号がどの話者による音声であるかを精度よく認識することができる。
送信部41は、通信装置30経由でレコーダ1へ、文字起こしリクエストの応答である文字データ16を送信し、翻訳リクエストの応答である翻訳データ17を送信し、話者認識リクエストの応答である話者認識データ18を送信する。
表示制御部42は、ユーザ端末29から通信装置30経由で受信した表示リクエストにしたがって、記憶装置31に記憶されているユーザ情報68、メタデータ13、音データ14、文字データ16、翻訳データ17、話者認識データ18、ピックアップ・セグメント35に基づいて、表示データを生成し、表示データを通信装置30経由でユーザ端末29に送信する。ユーザ端末29では、ブラウザ36により受信した表示データをユーザが閲覧可能な状態で表示する。この表示データの画面は、図4を用いて後で説明する。なお、表示制御部42と、ユーザ端末29のブラウザ36などのソフトウェアとの連携により、画面表示が行われてもよい。
ピックアップ部43は、ユーザ端末29のブラウザ36の画面に、メニューを表示させる処理を実行する。メニューは、ユーザ端末29で表示されておりユーザによって指定されたセグメントをコピーする宛先(例えばファイル)を選択するために用いられる。このメニューは、図4を用いて後で説明する。ピックアップ部43は、ユーザによって指定されたセグメントの宛先の指定を促すメニューを生成し、メニューを通信装置30経由でユーザ端末29に表示させる。なお、ピックアップ部43と、ユーザ端末29のブラウザ36などのソフトウェアとの連携により、メニュー表示が行われてもよい。
ユーザは、メニューを使用してこのメニューに対応するセグメントをコピーすることおよび宛先(ファイル、フォルダ、ディレクトリ)を指定することができる。
そして、ピックアップ部43は、ユーザ端末29による指定にしたがって、ユーザ端末29によって指定されたピックアップ・セグメント35を、ユーザ端末29によって指定された記憶装置31の宛先に記憶させる。上述のように、第1の実施形態では、ピックアップ・セグメント35は、ユーザ端末29によって指定されたファイルに組み込まれる。
なお、ピックアップ部43は、ユーザに指定された複数のピックアップ・セグメント35を、同じファイルへまとめて組み込んでもよい。ピックアップ部43は、先に少なくとも1つのピックアップ・セグメント35の指定を受け付け、次に、宛先を受け付けてもよい。あるいは、ピックアップ部43は、先に宛先を受け付け、次に、少なくとも1つのピックアップ・セグメント35の指定を受け付けてもよい。
見積生成部44は、ユーザ端末29から通信装置30経由で、人による文字起こしのリクエストを受信した場合に、記憶装置31に記憶されている音データ14と文字データ16とのうちの少なくとも1つに基づいて、見積生成処理を実行し、見積データを、通信装置30経由でユーザ端末29に送信する。
見積生成処理は、例えば、音データ14の時間長と単位時間あたりの料金との掛け算により、見積額を計算してもよく、文字データ16の文字数と1文字あたりの料金との掛け算により、見積額を計算してもよい。
ユーザ端末29のブラウザ36は、見積データを表示する。ユーザ端末29は、見積データを閲覧したユーザから人による文字起こしの発注指示を受け付けると、人による文字起こしの発注リクエストを第1のサーバ19へ送信する。
依頼部45は、ユーザ端末29から通信装置30経由で、発注リクエストを受信した場合に、例えば、発注書データと音データ14とを、通信装置30経由で所定の文字起こし業者のアドレスへ送信する。
ブログエディタ46は、記憶装置31に記憶されている例えばユーザ情報68、メタデータ13、音データ14、文字データ16、翻訳データ17、話者認識データ18、ヒックアップ・セグメント35を適宜読み出し、読み出したユーザ情報68、メタデータ13、音データ14、文字データ16、翻訳データ17、話者認識データ18、ヒックアップ・セグメント35の少なくとも一部をブログデータ50に組み込み、編集可能とする。ブログエディタ46は、編集中または編集結果であるブログデータ50を記憶装置31へ記憶させる。
第2のサーバ20は、API20aを用いてレコーダ1または第1のサーバ19などの他の装置と連携して動作する。第2のサーバ20は、レコーダ1または第1のサーバ19から受信した文字起こしリクエスト、翻訳リクエスト、話者認識リクエスト、または、データの受信にしたがって、文字起こし処理47、翻訳処理48、または、話者認識処理49を実行し、実行結果をリクエストまたはデータの発信元へ返す。第2のサーバ20は、例えば、ASP(Application Service Provider)のサーバである。
ユーザ端末29は、例えば、第1のサーバ19によって提供されるサイトへアクセス可能であり、ログインし、第1のサーバ19へデータをアップロードすることができ、第1のサーバ19からデータをダウンロードすることができる。ユーザ端末29は、ブラウザ36などを用いて、第1のサーバ19からダウンロードされたデータを表示可能である。ユーザ端末29は、マウス、タッチパネル、キーボードなどのユーザインタフェース装置によりユーザの操作を受け付け、データ、情報、信号、リクエスト、コマンド、指示、呼び出し、または、通知を第1のサーバ19へ送信する。ユーザ端末29は、第1のサーバ19からダウンロードされたデータまたはプログラムを実行することにより第1のサーバ19と連携して動作可能であり、例えばユーザの指定の受け付けまたはデータの表示などを実行する。
ユーザ端末29は、レコーダ1と同様に、このユーザ端末29に取得されている音データ(例えば動画データとともに再生される音データ)を第1のサーバ19へ送信し、音データに対応する文字データ、翻訳データ、話者認識データを受信し、表示してもよい。
図4は、第1のサーバ19からダウンロードされたデータをユーザ端末29のブラウザ36で表示した画面51の例を示す図である。
画面51は、例えば、メタデータ13に含まれている例えば時間情報T、音データ14の時間変化52、文字データ16に含まれる文字セグメントCS1〜CS6のデータ本体CD1〜CD6、文字データ16に含まれる文字セグメントCS1〜CS6のメタデータCM1〜CM6に含まれる時間情報T1〜T6、ユーザ情報68に含まれているユーザ名N、ユーザ名Nのユーザに関連する音データ14のログ情報52L、ユーザ名Nのユーザに関連するピックアップ・セグメント35の宛先(ファイル名)53、人による文字起こしボタン55を含む。
さらに、画面51は、ユーザが指定した(例えばマウスオーバーした)文字セグメントCS2のデータ本体CD2に対して表示されたメニュー54を含む。メニュー54は、ユーザに対して、ピックアップ・セグメント35の宛先53の指定を促す。図面51では、マウスオーバーされたデータ本体CD2の表示表域の右上部分に、メニュー54が表示されている。
第1の実施形態において、ユーザがユーザ端末29を操作し、文字セグメントCS2の宛先を指定すると、ユーザ端末29は、例えば第1のサーバ19のピックアップ部43と連携して、指定された文字セグメントCS2を、ユーザ端末29によって指定された宛先に記憶させる。
画面51では、音データ14の時間変化52が上から下へ時間が経過するように表示されている。文字セグメントCS1〜CS6のデータ本体CD1〜CD6は、音データ14の時間変化52の横に表示されており、時間情報T1〜T6にしたがってデータ本体CD1〜CD6と音データ14の時間変化52とが紐づけられている。
人による文字起こしボタン55は、人による文字起こしを使用するユーザによって押下される。人による文字起こしボタン55が押下されると、ブラウザ36は、見積データを表示する。
以上説明した第1の実施形態において、レコーダ1のコントローラ5は、ADC4から受信した解析情報9に基づいてADC4を制御することができる。このため、コントローラ5は、高品質の音データ14を生成することができ、音データ14に基づいて高品質の文字データ16または翻訳データ17を取得することができる。
第1の実施形態において、レコーダ1は、複数のマイクロフォンM1〜Mnを接続するための複数のコネクタC1〜Cnを備えており、第1のサーバ19または第2のサーバ20は、複数のマイクロフォンM1〜Mnによって取得された複数のアナログ信号の解析情報9などに基づいて話者の認識を行う。このため、話者認識を高精度に行うことができる。
第1の実施形態においては、レコーダ1と、第1のサーバ19と第2のサーバ20とのうちの少なくとも一方との連携により、音データ14に対応する文字データ16または翻訳データ17が生成される。このため、ユーザは、第1のサーバ19によって提供される特殊なまたは専門的な文字起こし処理、翻訳処理、話者認識処理を利用することができる。また、ユーザは、第2のサーバ20によって提供される最新の文字起こし処理47、翻訳処理48、話者認識処理49を利用することができる。これにより、ユーザは、高品質の文字データ16、翻訳データ17、話者認識データ18を取得することができる。
第1の実施形態において、ユーザは、レコーダ1の操作装置2を用いて、第1のモードと第2のモードとの切り替えを容易に行うことができ、モードの切り替えに応じて容易にAPI、機能、処理、サーバを切り替えることができる。このため、ユーザの利便性が向上する。
第1の実施形態において、レコーダ1は、音データ14を記憶するとともに、文字データ16または翻訳データ17を周期的に1文字ずつ表示していく。この場合、レコーダ1の表示内容は、継続的に変化する。このため、ユーザは、レコーダ1が動作していることを容易に理解できる。
第1の実施形態において、ユーザは、第1のサーバ19から受信した表示データをユーザ端末29のブラウザ36により閲覧し、メタデータ13、音データ14、文字データ16、翻訳データ17、話者認識データ18を相互に関連付けて参照することができる。
第1の実施形態において、ユーザは、文字セグメントCS1〜CSm、翻訳セグメントTS1〜TSmの中からピックアップ・セグメント35を指定すること、および、ピックアップ・セグメント35の宛先を指定することにより、ピックアップ・セグメント35を宛先のファイルに組み込んで記憶することができる。これにより、ユーザは、データの整理を効率的に行うことができる。
第1の実施形態において、ユーザは、音セグメントSS1〜SSm、文字セグメントCS1〜CSm、翻訳セグメントTS1〜TSmを組み込んで、ブログデータ50を生成することができる。これにより、ユーザは、ブログ作成・編集を効率的に行うことができる。
(第2の実施形態)
第2の実施形態では、第1の実施形態で説明したレコーダ1の変形例を説明する。
図5は、第2の実施形態に係るレコーダ1Aの一例を示すブロック図である。
レコーダ1Aは、複数のコネクタC1〜Cnと、出力用コネクタCoと、内蔵のマイクロフォンMと、スピーカ56と、ADC4と、デジタル/アナログコンバータ(以下、DACという)57と、電源装置58と、操作装置2と、表示装置3と、時計装置59と、記憶装置7と、通信装置8と、プロセッサ(またはコントローラ)6とを備える。なお、ADC4、DAC57、時計装置59、通信装置8、プロセッサ6は、適宜組み合わせてもよい。レコーダ1Aの各種の構成要素は、例えば、バス60を介して互いにデータ、情報、信号、リクエスト、コマンド、指示、通知、呼び出し、または、応答などを送受信可能である。
出力用コネクタCoは、外付けのスピーカ、ヘッドフォン、または、イヤホンなどの音出力装置と接続可能である。出力用コネクタCoは、例えばDAC57から受信したアナログ信号を、この出力用コネクタCoに接続された音出力装置へ出力する。
また、出力用コネクタCoは、他の情報処理装置などと接続可能である。出力用コネクタCoは、データを、この出力用コネクタCoに接続された情報処理装置へ出力する。
スピーカ56は、レコーダ1に内蔵されており、DAC57から受信したアナログ信号に基づいて音を出力する。
電源装置58は、電池を搭載可能であるか、または、充電式の電池を備えており、レコーダ1Aの各構成要素に対して電力を供給する。
操作装置2は、ユーザによって操作される。操作装置2は、例えば、ユーザからの指示を受け付け、指示をプロセッサ6へ通知する。操作装置2は、第1の操作部2aと第2の操作部2bとを備える。第1の操作部2aと第2の操作部2bとのうちの少なくとも一方は、例えばボタンなどでもよい。
第1の操作部2aは、ユーザからモードの指定を受け付け、ユーザのモードの指定状態をプロセッサ6へ送信する。第2の実施形態において、レコーダ1Aは少なくとも第1および第2のモードで動作可能である。
第2の操作部2bは、音データ生成と文字起こし(テキストデータ生成。書き起こしと表記されてもよい)と翻訳との開始をユーザから1回の指定(クリックまたは押下)で受け付け、ユーザから音データ生成と文字起こしと翻訳とが指示されたことを示す信号をプロセッサ6へ送信する。
なお、第2の操作部2bは、音データ生成と文字起こしとをユーザから1回の指定で受け付け、翻訳を他の指定で受け付けてもよい。
ADC4は、解析情報9をプロセッサ6へ送信する。なお、ADC4は、解析情報9をDAC57経由でプロセッサ6の入力ポート6pへ送信してもよい。
DAC57は、ADC4から受信したデジタル信号に対して、デジタル/アナログ変換を行い、アナログ信号を、プロセッサ6におけるアナログ信号用の入力ポート6pへ送信する。
また、DAC57は、プロセッサ6から受信した音出力用のデジタル信号をアナログ信号へ変換し、アナログ信号をスピーカ56または出力用コネクタCoへ出力する。
時計装置59は、例えばプロセッサ6へ時間情報を送信する。
プロセッサ6は、入力ポート6pから入力したアナログ信号に対するアナログ/デジタル変換機能6aを備える。
アナログ/デジタル変換機能11aは、DAC57からプロセッサ6のアナログ信号用の入力ポート6p経由でアナログ信号を受信すると、アナログ信号をデジタル信号に変換する。
図6は、第2の実施形態に係るレコーダ1Aの外観を示す正面図である。
このレコーダ1Aの正面には、表示装置3と、第1の操作部2aと、第2の操作部2bと、第3の操作部2cと、スピーカ56と、マイクロフォンMとが配置されている。
表示装置3には、メタデータ13の一部と文字データ16の一部とが表示されている。
図6には図示されていないが、例えば、レコーダ1Aの上面または側面には、外付けのマイクロフォンM1〜Mn用の複数のコネクタC1〜Cnが配置されている。
第1の操作部2aは、モードの指定を受け付ける。第2の操作部2bは、文字起こしの開始と終了の指示を受け付ける。第3の操作部2cは、電源のオン/オフを受け付ける。
以上説明した第2の実施形態に係るレコーダ1Aを用いることにより、上記の第1の実施形態で説明したレコーダ1を用いる場合と同様の効果を得ることができる。
第2の実施形態に係るレコーダ1Aを使用するユーザは、レコーダ1Aの第2の操作部2bを用いて、音の録音と文字起こし、あるいは、音の録音と文字起こしと翻訳とを1回の指定により容易に行うことができ、ユーザの利便性を向上させることができる。
(第3の実施形態)
第3の実施形態では、第1の実施形態で説明した第1のサーバ19の変形例を説明する。第3の実施形態では、第1のサーバが、レコーダ1またはユーザ端末29から、メタデータ13と、音データ14と、文字起こしリクエストとを受信した場合を例として説明する。なお、第1のサーバが、レコーダ1またはユーザ端末29から、翻訳リクエストまたは話者認識リクエストを受信した場合も、同様である。また、先で説明したように、リクエストの送受信は省略されてもよい。
図7は、第3の実施形態に係る第1のサーバ19Aの構成の一例を示すブロック図である。
第1のサーバ19Aは、ユーザの所有するレコーダ1またはユーザ端末29とゲートウェイ61を介して通信可能である。ゲートウェイ61は、インタフェースの異なる装置間での通信を可能とする。
第1のサーバ19Aは、API&スタティックウェブページ62、データベース63、音データ14用の記憶装置64、文字起こしタスクキュー65、文字起こし処理66、文字データ16およびピックアップ・セグメント35用の記憶装置67を備える。
データベース63、記憶装置64、記憶装置67は、上記第1の実施形態で説明した第1のサーバの記憶装置31に相当する。
API&スタティックウェブページ62は、まず、スタティックウェブページを、ゲートウェイ61経由で、レコーダ1またはユーザ端末29へ提供する。レコーダ1またはユーザ端末29は、スタティックウェブページに基づいて動作する。これにより、レコーダ1またはユーザ端末29と第1のサーバ19AとがAPIを用いて連携して動作可能となる。
API&スタティックウェブページ62は、例えば、第1の実施形態で説明した通信装置30、受信部37、表示制御部42、送信部41、ピックアップ部43、見積生成部44、依頼部45、ブログエディタ46などに相当する。
API&スタティックウェブページ62は、レコーダ1またはユーザ端末29へ、APIサービスを提供するとともに、ウェブサイトとしての機能を提供する。API&スタティックウェブページ62は、レコーダ1またはユーザ端末29からゲートウェイ61経由でリクエストまたはデータを受信した場合に、リクエストまたはデータに応じた処理を実行し、データベース63、記憶装置64、記憶装置67に記憶されておりリクエストまたはデータに対応するデータを、ゲートウェイ61経由でレコーダ1またはユーザ端末29へ送信する。
具体的には、API&スタティックウェブページ62は、例えば、レコーダ1またはユーザ端末29からゲートウェイ61経由で、メタデータ13、音データ14、文字起こしリクエストを受信する。そして、API&スタティックウェブページ62は、メタデータ13を、ユーザ情報68と関連付けた状態でデータベース63へ記憶させ、音データ14を記憶装置64へ記憶させる。
また、API&スタティックウェブページ62は、文字起こしリクエストまたは音データ14を受信すると、文字起こしタスクキュー65に、文字起こしタスクを記憶させる。
さらに、API&スタティックウェブページ62は、必要に応じて、データベース63に記憶されているメタデータ13、記憶装置64に記憶されている音データ14、または、記憶装置67に記憶されている文字データ16またはピックアップ・セグメント35を読み出し、読み出したメタデータ13、音データ14、文字データ16、ピックアップ・セグメント35を、ゲートウェイ61経由でユーザ端末29へ送信する。
文字起こしタスクキュー65は、先入先出方式で、文字起こしタスクの実行順序を管理し、実行すべき文字起こしタスクを文字起こし処理66へ提供する。
文字起こし処理66は、上記第1の実施形態で説明した文字起こし部38に相当する。文字起こし処理66は、文字起こしタスクキュー65から取得した文字起こしタスクにしたがって、記憶装置64に記憶されている音データ14を読み出し、音データ14に対応する文字データ16を生成し、文字データ16を記憶装置67に記憶させる。さらに、文字起こし処理66は、データベース63で管理されているメタデータ13を更新し、メタデータ13に文字データ16の位置情報を追加する。
文字起こし処理66は、例えばAPI20aを用いて第2のサーバ20の文字起こし処理47により文字データ16を取得してもよい。
以上説明した第3の実施形態に係る第1のサーバ19Aを用いることにより、上記の第1の実施形態で説明した第1のサーバ19を用いる場合と同様の効果を得ることができる。
第3の実施形態においては、メタデータ13を記憶するデータベース63と、音データ14を記憶する記憶装置64と、文字データ16およびピックアップ・セグメント35を記憶する記憶装置67とを区別している。メタデータ13、音データ14、文字データ16およびピックアップ・セグメント35は、データの形式および種類が異なる。このように、形式および種類が異なるデータを異なる記憶装置に記憶することで、データの形式および種類に適した環境で、データを管理することができ、例えば検索のスピードを速くすることができ、記憶容量を抑制することができる。
なお、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具現化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削減してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。