JP2001511991A - Method and apparatus for storing and retrieving label interval data for multimedia records - Google Patents

Method and apparatus for storing and retrieving label interval data for multimedia records

Info

Publication number
JP2001511991A
JP2001511991A JP52049099A JP52049099A JP2001511991A JP 2001511991 A JP2001511991 A JP 2001511991A JP 52049099 A JP52049099 A JP 52049099A JP 52049099 A JP52049099 A JP 52049099A JP 2001511991 A JP2001511991 A JP 2001511991A
Authority
JP
Japan
Prior art keywords
interval
data
interval data
intervals
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP52049099A
Other languages
Japanese (ja)
Inventor
ジェー. マシイ,クリストファー
エム. ウェイマー,ディヴィッド
ディヴィッド ウェルナー,ピエール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AT&T Corp
Original Assignee
AT&T Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AT&T Corp filed Critical AT&T Corp
Publication of JP2001511991A publication Critical patent/JP2001511991A/en
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/567Multimedia conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42221Conversation recording systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres
    • H04M7/12Arrangements for interconnection between switching centres for working between exchanges having different types of switching equipment, e.g. power-driven and step by step or decimal and non-decimal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 複数のインターバルを含む会議電話呼をデジタルに記録および再生する通信会議システムを開示する。この通信会議システムは、会議呼の間に第1組の複数のインターバルを検出するスキム・サーバと2組の複数のインターバルを検出する会議ブリッジとを含む。インターバル・データベース・サーバは、全ての検出されたインターバルのラベル付けインターバル・データを発生し、このラベル付けインターバル・データをデータベースに格納する。ラベル付けインターバル・データは、各インターバルを規定するインターバル・データ・エレメントを含む。会議呼を記録した後に、分類された基準に基づいて、ラベル付けインターバル・データを検索および取得することができる。取得されたラベル付けインターバル・データに関連する記録された会議呼の部分も、取得および再生することができる。これは、記録された会議呼の所望部分の容易な取得および再生に役立つ。更に、会議呼の再生の間、ユーザ・インタフェースを発生する。ユーザ・インタフェースは、格納されたラベル付けインターバル・データを表示する。ユーザは、ユーザ・インタフェースの部分を選択することによって、会議呼の所望部分を容易に選択またはスキップすることができる。 (57) Abstract: A communication conference system for digitally recording and reproducing a conference telephone call including a plurality of intervals is disclosed. The teleconferencing system includes a skim server that detects a first set of intervals during a conference call and a conference bridge that detects two sets of intervals. The interval database server generates labeling interval data for all detected intervals and stores the labeling interval data in a database. The labeling interval data includes an interval data element that defines each interval. After recording the conference call, the labeling interval data can be searched and obtained based on the classified criteria. The portion of the recorded conference call associated with the obtained labeling interval data may also be obtained and played. This helps in easy retrieval and playback of the desired portion of the recorded conference call. In addition, a user interface is generated during the playback of the conference call. The user interface displays the stored labeling interval data. The user can easily select or skip the desired portion of the conference call by selecting portions of the user interface.

Description

【発明の詳細な説明】 マルチメディア・レコードのためのラベル・インターバル・ データの格納および取得の方法及び装置 発明の分野 本発明は、マルチメディア・データの格納および取得を対象とする。更に特定 すれば、本発明は、データベース内のラベル付けされたインターバル・データの 格納および取得を対象とする。 発明の背景 文字による通信の記録とは異なり、音声による通信のレコードは、デジタル音 声の格納が容易に行われ得るにもかかわらず、格納は言うまでもなく、記録され ることはまれである。現在、デジタルに記録された音声または他の種類のマルチ メディア情報(例えば映像)のギガバイトおよびテラバイトさえも、格納するこ とは実行可能である。長期保管の目的以外に、ユーザが関心を持ち得る格納デー タの部分のみを識別および取得することが可能な機構を有せずにかかるデータを 格納することには、実際的な理由はない。 データベースに格納されたデジタル音声レコードの検索および取得に固有の問 題は、特定のレコードの位置を突き止めるためにデータベースに問い合わせる従 来の手法から生じる。ほとんどのデータベース問い合わせは、検索対象のレコー ド内における指定された特徴の有無に基づく論理問い合わせである。データベー ス問い合わせの有用性を増すためにブール論理およびファジイ論理が用いられて いるが、これらの技法は、1つかそれ以上の言葉、指標、または他 の識別特性が、検索対象のレコードに存在するか(または存在しないか)という 、極めて典型的なデータベース問い合わせの基本的な原則を単に拡張したに過ぎ ない。 デジタル音声レコードは、音声−テキスト変換もしくはトランスクリプション によってテキストに変換することなく、またはその他の方法で解析することなく 、従来のデータベース問い合わせ技法を用いて位置決めおよび/または識別する ことはできない。なぜなら、記録した音声の選択部分に、単語(または句)が現 われるか否かを判定することは現実的でないからである。従って、トランスクリ プションを行っていないデジタル音声レコードの調査は、多くの場合、対象の言 葉または複数の言葉が聞こえるまでデジタル記録音声を傾聴することに限られる 。しかしながら、これは、かなりの程度の無関係または重要でない音声の傾聴を 必要とすることが多く、何ら十分な説明を与えずに極めて長時間を要する可能性 がある。更に、デジタル音声レコードが3人以上の話者のものである場合、デジ タル音声レコードはしばしば長い一時的停止を含み、話し手を識別することは不 可能でないにしても難しい場合が多く、記録デジタル音声において特定の部分を 識別する問題を更に悪化させている。 デジタル音声レコードを別個のデジタル・レコーディングに分割した場合にも 、各レコーディングは個別にアクセス可能であると共に識別され、デジタルに記 録されたデータは使用が限られている。例えば、デジタル格納媒体に10個の会 議呼を記録した場合、ユーザは、探している情報がある特定の会議呼内にあるこ とを運良く知っていたならば、特定の日付の当該特定の会議呼を位置決めするこ とができるであろう。そうであったとしても、ユーザはやはり、当 該会議呼のレコーディング全体を聞かなければならない。会議呼の特定の参加者 が行った特定のコメントをユーザが識別したい場合に、当該ユーザが会議呼全体 を聞かなければならないことは、極めて非効率的である。更に、ユーザが、その 人物が発言した会議呼の具体的な日付および時間を知らない場合、ユーザは、所 望の情報を見出す前に、いくつかの会議呼レコーディングを聞かなければならな いこともあり得る。明らかに、レコーディングの格納数が最小数よりも多くなる と直ちに、ユーザが会議呼のレコーディングを聞くことによってのみ所望の情報 を位置決めすることは実用的でなくなる。 前述の説明に基づいて、格納されたデジタル音声および他のデジタル・マルチ メディア・レコードを容易に識別、位置決め、および取得するための方法および 装置に対する要望がある。 発明の概要 発明の一実施形態は、複数のインターバルを含む会議電話呼をデジタルに記録 および再生するための通信会議システムである。この通信会議システムは、会議 呼の間に第1組の複数のインターバルを検出するスキム・サーバと第2組の複数 のインターバルを検出する会議ブリッジとを含む。インターバル・データベース ・サーバは、全ての検出されたインターバルのラベル付けインターバル・データ を発生し、このラベル付けインターバル・データをデータベースに格納する。ラ ベル付けインターバル・データは、各インターバルを規定するインターバル・デ ータ・エレメントを含む。会議呼を記録した後に、分類された基準に基づいて、 ラベル付けインターバル・データを検索および取得することができる。取得され たラベル付けインターバル・データに関連する記録された会議呼の部分も、取得 および再生することができる。これは、記録された会議呼の所望部分の容易な取 得および再生に役立つ。 更に、会議呼の再生の間、ユーザ・インタフェースを発生する。ユーザ・イン タフェースは、格納されたラベル付けインターバル・データを表示する。ユーザ は、ユーザ・インタフェースの部分を選択することによって、会議呼の所望部分 を容易に選択またはスキップすることができる。 図面の簡単な説明 図1は、本発明の一実施形態による通信会議システムを示す。 図2は、記録された会議に関連するラベル付けインターバル・データを形成す るインターバル・データ・エレメントのフォーマットを示す。 図3は、本発明の一実施形態による会議再生文書を示す。 図4は、いかにして重複インターバルを表示するかを詳細に示す。 詳細な説明 本発明の一実施形態では、記録されたデジタル音声または他のマルチメディア ・データ内のインターバルを、明確に識別すると共にラベル付けする。ラベル付 けインターバル・データが提供する機構によって、ユーザは、デジタルに記録さ れたマルチメディア内のインターバルを明確に識別することができ、当該インタ ーバルを識別した後に、これと、所望の特徴を共有する他のインターバルとを取 得することができる。 図1は、本発明の一実施形態による通信会議システムを示す。通信会議システ ム200は、通信会議呼および関連するラベル付けインターバル・データを記録 および格納する。通信会議システム 200は、更に、格納したラベル付けインターバル・データを用いて、記録した 通信会議を再生することができる。 通信会議システム200の主な構成要素は、会議レコーダ110、スキム・サ ーバ55、インターバル・データベース(「IDB」)・サーバ65、およびJ avaユーザ・インタフェース85である。 通信会議システム200において、複数の電話31、32、および33は、公 衆交換電話網(「PSTN」)40を介して相互接続されている。1人以上の個 人が、各電話31ないし33を介して通信会議に参加し得る。参加者は、彼らが 電話をかけている電話機によって、あるいは通信会議の間の音声認識または他の 形態の識別によって、識別され得る。 通信会議は、会議ホストがWebRoomサーバ50上のWebRoomイン タフェースにアクセスすることによって開始することができる。WebRoom インタフェースは、参加者の通信会議への積極的な追加および/または通信会議 からの消去を可能とする機構を提供する。一実施形態では、通信会議の全参加者 のためのWebRoomインタフェースは、Hyper−Text Markup Language(「 HTML」)文書による通信会議の双方向制御を与えるHyper Text Transport P rotocol Web Server(「Httpd」)70上のCommon Gateway Interface(「 CGI」)プログラム60として実施される。HTML文書は、Netscape(登録 商標)NavigatorまたはInternet Explorer(登録商標)等のウエブ・ブラウザ9 0を介して、会議ページ80としてアクセス可能である。 記録時には、会議ホストは、WebRoomサーバ50を用いて、会議の書記 にダイアルする。会議の書記は、通信会議の追加の参加 者として機能する。同時に、会議レコーダ110はIDBサーバ65に命令して 、この特定のレコーディングに関する全データを格納するための「倉庫」と呼ば れる新しい収集点を生成させ、更に、スキム・サーバ55に命令して、例えばDi alogic Corp.のDialogicボード57またはその同等物を用いて、オーデ ィオ・ファイルの記録を開始させる。通信会議システム200内の倉庫は、Open Database Connectivity(「ODBC」)インタフェース36に結合された構造 化問い合わせ言語(「SQL」)データベース35とすることができる。会議が 行われている間、会議ブリッジ100は、呼制御イベント(例えば、どの参加者 が発言中かということ、新しい参加者が加わったこと等)を検出し、これらのイ ベントをウエブルーム・サーバ50および会議レコーダ110を介して新しい倉 庫(すなわちSQLデータベース35)に送出する。その間、スキム・サーバ5 5は、音声における一時的停止を検出し、これらのイベントも倉庫に加える。会 議ブリッジ100およびスキム・サーバ55の双方によって検出されたイベント は、「インターバル」と呼ばれる。 通信会議システム200において記録された会議を再生する場合、ユーザはJ avaユーザ・インタフェース85を稼働して、IDBサーバ65を介してアク セスするレコーディングを選択する。ユーザ・インタフェース85は、当該レコ ーディングのラベル付けインターバル・データを取得し、それらを用いて、視覚 的なイベント・タイム・ラインを表示する。ユーザは電話番号を入力し、これが スキム・サーバ55に受け渡されるので、これがDialogicボード57を 介して会議の再生のためにユーザの電話機に電話をか けることができる。ユーザの電話機でオーディオが再生されると、Javaユー ザ・インタフェース85は、グラフィック表示を連続的に更新し、いかにしてス キム・サーバ55を用いてレコーディングを再生するかを制御する。本発明の一 実施形態では、Javaユーザ・インタフェース85および会議レコーダ110 のような全クライアントは、CORBAアプリケーション・プログラミング・イ ンタフェースによって、スキム・サーバ55およびIDBサーバ65と通信する 。CORBAを選択した理由は、異なるプラットフォームで実行する異なる言語 で書かれたプログラム間の単純なインタフェースを可能とすることである。本発 明の一実施形態では、サーバ50および55ならびに会議レコーダ110の双方 は、C++で書かれ、Sun Solarisプラットフォームで実行する。 スキム・サーバ55は、以下の機能を実行する。 1. 電話回線からファイルにオーディオを記録する。 2. 記録中に音声イベントを検出し、それらをデータベースに記入する。 3. ファイルから電話回線に、 −レコーディング内のいかなる箇所からも、 −様々な速度で、 −一時的停止を除去して、または除去せずに、 再生を行う。 一実施形態では、スキム・サーバ55は、標準的なボイス・メール・サーバと 同じ形式のハードウエアに基づき、多くの同一機能を実行する。スキム・サーバ 55と、より通常のボイス・メール・サーバとの間の1つの相違点は、スキム・ サーバが、音声イベント を処理し、それらをIDBサーバ65に記入することであり、更に、オーディオ ・ファイルのどの部分を再生し、どの部分をスキップするかについて優れた制御 を与えることである。 IDBサーバ65の機能の1つは、記録した会議に関するラベル付けインター バル・データを格納および取得することである。これは、発言者、音声内の一時 的停止、電話呼の制御データ等、音声内の特定のインターバルについての特性を 記述するデータである。これは、映像シーンの変化にマークを付すインターバル を必要とするアプリケーションに、または自動音声認識出力をレコーディングに 関連付けるアプリケーションに、更に拡張することができる。ラベル付けインタ ーバル・データは、多数の異なるアプリケーションによって生成、格納、および 取得することができる。生の音声データから自動的に得られるものもあれば、ユ ーザ・アクティビティの副作用であるものもあり、更に、記録時または再生時に 手動で入力し得るものもある。 図2は、記録した会議に関連するラベル付けインターバル・データを形成する インターバル・データ・エレメント130のフォーマットを示す。記録した会議 の間の全インターバルは、インターバル・データ・エレメント130に関連付け られている。一実施形態では、各インターバル・データ・エレメント130は、 以下を含む。 1. レコーディングIDまたは倉庫122:インターバルに関連するレコーデ ィングおよび、レコーディングを格納する収集点を示す。 2. 開始時間123:アプリケーションは、絶対時間および、レコーディング 開始時間に対して相対的な時間の双方を必要とする。 相対時間の方がコンパクトであり、絶対開始時間がレコーディングと共に格納さ れる限り、絶対時間への変換が容易である。 3. 持続時間または終了時間124。 4. 種類:このインターバルの意味を識別するコード。これが音声内の一時的 停止であるのか、シーンの変化であるのか等。 5. 種類特定データ値126。このデータは、種類に応じて、文字列、数字、 URL等とすることができる。 ラベル付けインターバル・データは、一度に2つ以上を、格納、取得、および 操作することができなければならない。アプリケーションによっては、開始時間 および終了時間を除く全てを共有する大きいインターバル集合を扱うものもある (例えば、特定の人物が発言している全時間)。 アプリケーションは、いかなる時でも、すなわちレコーディングの開始前、レ コーディング中、およびその後も、データベース内にインターバル・データを格 納することができなければならない。例えば、通信会議では、電話の前には発呼 者のidおよび呼び出しイベントを記録し、電話中には発言者を記録し、電話後 にはその電話についての注釈を行うことが必要であり得る。アプリケーションに よっては、レコーディングの進行中に(例えば現在進行中の会議に追いついて) 、不完全なインターバル・データを表示する必要があるので、開始しているがま だ終了していないインターバルを記入し、後に終了時間を記入することが可能で なければならない。また、例えばインターバル・データを他のデータと再編成す るために、当該インターバル・データを調整することが可能でなければならない 。 イベントをIDBサーバ65に記入する全てのアプリケーション は、各インターバルの開始時間および終了時間のために、精密なミリ秒オフセッ トを指定しなければならない。全オフセットは、レコーディングの絶対開始時間 からのものである。リアルタイムで異なる機械からインターバルを記入するには 、イベントを記入している全クライアントがクロックを同期している必要がある ので、これらの機械の全てにおいて、標準的なネットワーク時間プロトコル(「 NTP」)ソフトウエアを実行する。 閲覧アプリケーション、検索アプリケーション、および再生アプリケーション は、インターバル・データのサブセットを問い合わせおよび表示する必要がある 。本発明によって対応可能な問い合わせの例は、以下を含む。 ・ 時間および種類に基づいて格納された、特定のレコーディングの全インター バル・データ。 ・ 特定の値または特定の範囲内の値を有する特定の種類の全インターバル。 ・ ある絶対時間または相対時間範囲内のインターバル。 ・ 特定の持続時間のインターバル。 本発明は、論理/設定オペレーションを提供する。例えば、人物Aまたは人物 Bが発言していた時のレコーディングの部分のみをユーザが見ることおよび/ま たは聞くことを望み、更に、一時的停止を全て除外することを望むと仮定する。 これは、3つの問い合わせを行うことによって表現可能である。すなわち、Aが 発言していた時のインターバル(Aを設定)、Bが発言していた時のインターバ ル(Bを設定)、および一時的停止インターバル(Pを設定)である。所望の設 定は、「A結合B、Pを除く」として表現可能であ り、または、これらの設定が長いビット・マスクと考えられる場合には、これら は論理演算(A B)&(P)として記述することができる。 インターバルの種類によっては、明確な開始時間および終了時間を有しない場 合がある。イベントの正確な時間が明白でないので、各時間増分における2値の オン/オフ状態の代わりに、経時的な関連確率曲線を有するデータもある。自動 音声認識からの出力(例えば音素格子)は、いずれかの所与の時点でどの単語が 発言されているかについてのいくつかの重複する仮説を含む可能性がある。本発 明の一実施形態では、IDBサーバ65は、「ファジイ」インターバルに対応す る。別の実施形態では、IDBサーバ65は、種類特定の数値データ・フィール ドの確率値と共に2値のインターバルを用いて、ファジイ・インターバルと同様 の効果を達成するが、ファジイ論理演算は行わない。 単語と時間との間でいかに精密なマッピングが所望であるかに応じて、おそら くインターバル当たり1文、またはインターバル当たり1語で、トランスクリプ ションを、インターバル・データとして格納可能である。トランスクリプション は、クローズド・キャプションの文字、より高品質のオフ・ライン・トランスク リプション、またはより低品質の自動音声認識システムから生成したものとする ことができる。 通信会議システム200は、会議再生文書を用いて、記録した会議の再生を行 う。このシステムは、会議に関連した格納ラベル付けインターバル・データを利 用する。図3は、本発明の一実施形態による会議再生文書300を示す。会議再 生文書300は、図1の Javaユーザ・インタフェース85によるJavaアプレットとして実施され る。これは、タイム・ライン・ウインドウ315と呼ぶ領域内の水平時間軸にプ ロットした一連のカラー・コード・インターバル(例えばインターバル305お よび310)のような、レコーディングの視覚構造化を用いる。呼の各参加者( 例えば参加者316ないし320)には、別個のタイム・ラインを割り当てて、 当該人物に関連した全てのラベル付けインターバル(例えば、ダイアル中、接続 中、無言、発言中、等)をグラフィック表示する。 図4は、いかにして重複するインターバルを表示するかを詳細に示す。図4に 示すように、1度に1つの各インターバル種類をプロットすることにより、発言 者バーから開始して、文書は、同一ライン上に重複するインターバルを表示する 。 再び図3を参照すると、個人に関連するのではないインターバルは、参加者の 上部に別個にプロットされる(例えばハイパーリング330、音声部分等)。タ イム・ライン・ウインドウ315は、全ての参加者のアクティビティの概観を提 供し、レコーディング内を自由に見て回るために用いることができる。 一実施形態では、ユーザが一旦、記録された会議の再生装置に電話接続を確立 したなら、タイム・ラインの下部のツールバー350を用いて、オーディオの再 生を開始し、スキミング・パラメータを調整することができる。別の実施形態で は、会議再生文書300と共にオーディオ会議レコーディングを「流す」ことが できるので、別個の電話接続は必要ない。 ツールバー350は、再生装置を制御するための5個のボタンを与える。すな わち、「最初に戻る351」、「巻き戻し352」、 「停止353」、「再生354」、および「早送り355」である。また、再生 速度を調整するためのスライダー356(0.7x、1.0x、1.3x、1. 7x、および2.0x)、ズーム倍率を選択するためのズーム・メニュー357 (なし、20min、10min、および5min)、および、一時的停止の除 去のためのオン/オフ・ポーズ・ボタン358も含む。 記録した会議オーディオが再生されると、垂直な赤い針360がタイム・ライ ンを横切って動く。針360が動くと、全ての参加者の名札に色が付き、会議の その時点での当該人物の状態を反映する。図3は、持続時間全体を見ることがで きる1時間の会議を示す(ズーム=なし)。この図では、視覚的な構造が、呼の 詳細の一部を速やかに明らかにすることに役立っている。例えば、明るい色の付 いたバーの番号および範囲は、最も中心的な/最も中心的でない発言者を識別す ることができる。最初の長い連続的な発言帯は、誰が正式な発表を行ったかを示 す。最後に、質問および回答セッションが開始した時点は、多くの参加者の間で 多数の短い発言インターバルが分散している呼のほぼ中間部に見ることができる 。更に詳細な情報を得るには、オーディオを聞くか、またはリンクされた注釈、 画像、および他の文書を検索するかのいずれかを行わなければならない。 ズーム機構によって、ユーザは、タイム・ライン・ウインドウに表示される持 続時間を狭くすることができる。付番されたスクロール・バーによって、ユーザ は、持続時間全体に拡大部分を登録し、マウスのクリックまたはキーボード上の 矢印キーを用いてスクロールすることができる。スクロールは、再生装置の位置 の針360と は独立しているので、ユーザは、リスニングを中断することなく、それとは別に 複数の領域に目を通すことができる。再生装置の針360は、タイム・ライン上 でクリックすることによって、または早回し/巻戻しボタンを押すことによって 、動かすことができる。これが行われると、スキム・サーバは、短い非音声オー ディオ・キューを発生し、新しい位置で再生を開始する。 針を動かさずに、ハイパーリング(例えばリンク330)を選択するために、 最上部付近でのタイム・ラインのクリックを用いる。リンクを選択すると、また は「リンク」ボタン340を押すと、ダイアログが、レコーディングの全リンク を表示する。このダイアログを用いて、リンクを訪問し、リンクを編集し、また はタイム・ライン内へのリンクおよびタイム・ライン外へのリンクの双方を生成 することができる。本発明の一実施形態は、以下の種類のリンクに対応する。す なわち、注釈、オーディオ、文書、画像、および一般のURLである。インター バル・データとしてテキスト内容を格納する注釈を除いた全てのリンクは、UR Lを用いて実施される。リンクの各種類は、それを表すアイコンと共にタイム・ ライン上に表示される。 タイム・ライン内へのハイパーリンクまたはタイム・ライン外へのハイパーリ ンクは、インターバルとして格納され、開始および終了時間オフセットの双方を 含む。このため、あるリンクは、タイム・ラインの特定の時点または領域を示す ことができ、一連の多数のスキミングの代替案を可能にする。例えば、リンクを 追うことによって、ある時点で再生を開始し、ある時点で再生を終了し、または 選択した領域を順に行うことができる。これが意味するのは、リン クを迫うことによって、再生装置の針を動かすことおよび文書ページを変えるこ とを含む多数の効果を有することが可能だということである。 上述したように、本発明の一実施形態は、通信会議レコーダおよび再生装置で ある。会議を記録する場合、インターバル・データベースは、会議に関連したラ ベル付けインターバル・データを格納する。ラベル付けインターバル・データは 、記録した会議の検索および取得を可能とし、記録した会議の再生を容易にする 。 本発明のいくつかの実施形態を、具体的に図示および/または説明した。しか しながら、本発明の変更および変形は、上述の教示によって包含されると共に、 本発明の精神および意図する範囲から逸脱することなく、添付の特許請求の範囲 の範囲内にあることは認められよう。 例えば、開示した実施形態はインターネット上で実施するが、本発明は、私設 ネットワークを用いて、またはいずれかの他の公知または将来のデータ通信方法 を用いて、実施することができる。DETAILED DESCRIPTION OF THE INVENTION Method and apparatus for storing and retrieving label interval data for multimedia records FIELD OF THE INVENTION The present invention is directed to storing and retrieving multimedia data. More specifically, the present invention is directed to the storage and retrieval of labeled interval data in a database. Background of the Invention Unlike the recording of communication by text, the record of communication by voice is rarely recorded, not to mention storage, even though storage of digital voice can be easily performed. Currently, it is feasible to store even gigabytes and even terabytes of digitally recorded audio or other types of multimedia information (eg, video). There is no practical reason to store such data without the purpose of storing and storing only those portions of the stored data that may be of interest to the user, other than for long-term storage purposes. The problems inherent in retrieving and retrieving digital audio records stored in a database arise from conventional approaches that query the database to locate a particular record. Most database queries are logical queries based on the presence or absence of specified features in the record being searched. Boolean and fuzzy logic has been used to increase the usefulness of database queries, but these techniques are used to determine whether one or more words, indicators, or other identifying characteristics are present in the record being searched. It simply extends the basic principle of the very typical database query of (or absent). Digital audio records cannot be located and / or identified using conventional database query techniques without being converted to text by voice-to-text conversion or transcription, or otherwise parsed. This is because it is not practical to determine whether a word (or phrase) appears in a selected portion of recorded speech. Therefore, surveying digital audio records that have not been transcribed is often limited to listening to the digitally recorded audio until the target word or words are heard. However, this often requires listening to a significant degree of irrelevant or insignificant speech, and can take a very long time without any full explanation. Furthermore, if the digital voice record is for more than two speakers, the digital voice record often includes long pauses, and it is often difficult, if not impossible, to identify the speaker, and the recorded digital voice Further exacerbates the problem of identifying particular parts. Even when a digital audio record is divided into separate digital recordings, each recording is individually accessible and identified, and the digitally recorded data is of limited use. For example, if ten conference calls are recorded on a digital storage medium, and the user is lucky to know that the information being sought is within a particular conference call, then the particular conference on a particular date The call could be located. Even so, the user must still listen to the entire recording of the conference call. If a user wants to identify a particular comment made by a particular participant of a conference call, having the user listen to the entire conference call is very inefficient. Further, if the user does not know the specific date and time of the conference call that the person spoke, the user may have to listen to some conference call recordings before finding the desired information. . Obviously, as soon as the number of stored recordings exceeds the minimum number, it becomes impractical for the user to locate the desired information only by listening to the recording of the conference call. Based on the foregoing description, there is a need for a method and apparatus for easily identifying, locating, and retrieving stored digital audio and other digital multimedia records. SUMMARY OF THE INVENTION One embodiment of the invention is a teleconferencing system for digitally recording and playing conference telephone calls that include multiple intervals. The teleconferencing system includes a skim server that detects a first set of intervals during a conference call and a conference bridge that detects a second set of intervals. The interval database server generates labeling interval data for all detected intervals and stores the labeling interval data in a database. The labeling interval data includes an interval data element that defines each interval. After recording the conference call, the labeling interval data can be searched and retrieved based on the classified criteria. The portion of the recorded conference call associated with the obtained labeling interval data may also be obtained and played. This helps in easy retrieval and playback of the desired portion of the recorded conference call. In addition, a user interface is generated during the playback of the conference call. The user interface displays the stored labeling interval data. The user can easily select or skip the desired portion of the conference call by selecting portions of the user interface. BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 shows a communication conference system according to an embodiment of the present invention. FIG. 2 shows the format of the interval data element forming the labeling interval data associated with the recorded conference. FIG. 3 illustrates a conference playback document according to one embodiment of the present invention. FIG. 4 shows in detail how to display overlapping intervals. In one embodiment of the Detailed Description of the Invention, the interval of the recorded digital audio or other multimedia in the data, label with clearly identified. The mechanism provided by the labeling interval data allows the user to unambiguously identify the interval in the digitally recorded multimedia and, after identifying the interval, share the desired features with it. And the interval can be obtained. FIG. 1 shows a communication conference system according to an embodiment of the present invention. The teleconferencing system 200 records and stores teleconferencing calls and associated labeling interval data. The teleconference system 200 can also replay the recorded teleconference using the stored labeling interval data. The main components of the teleconferencing system 200 are a conference recorder 110, a skim server 55, an interval database ("IDB") server 65, and a Java user interface 85. In teleconferencing system 200, a plurality of telephones 31, 32, and 33 are interconnected via a public switched telephone network (“PSTN”) 40. One or more individuals may participate in the teleconference via each telephone 31-33. Participants may be identified by the phone they are calling or by voice recognition or other form of identification during a teleconference. A teleconference can be initiated by a conference host accessing a WebRoom interface on a WebRoom server 50. The WebRoom interface provides a mechanism that allows participants to actively add and / or delete from a teleconference. In one embodiment, the WebRoom interface for all participants in a teleconferencing is a Hyper Text Transport Protocol Web Server ("Httpd") that provides interactive control of the teleconferencing with Hyper-Text Markup Language ("HTML") documents. It is implemented as a Common Gateway Interface (“CGI”) program 60 on 70. The HTML document can be accessed as a conference page 80 via a web browser 90 such as Netscape (registered trademark) Navigator or Internet Explorer (registered trademark). At the time of recording, the conference host uses the WebRoom server 50 to dial the clerk of the conference. The conference clerk serves as an additional participant in the teleconference. At the same time, the conference recorder 110 instructs the IDB server 65 to generate a new collection point called a "warehouse" to store all data for this particular recording, and further instructs the skim server 55 to, for example, Use the Dialogic Board 57 from Dialogic Corp. or equivalent to begin recording the audio file. The warehouse in the teleconferencing system 200 may be a structured query language (“SQL”) database 35 coupled to an Open Database Connectivity (“ODBC”) interface 36. During a conference, the conference bridge 100 detects call control events (e.g., which participant is speaking, that a new participant has joined, etc.) and conveys these events to a webroom server. 50 and via the conference recorder 110 to a new warehouse (ie, SQL database 35). Meanwhile, the skim server 55 detects pauses in the audio and also adds these events to the warehouse. Events detected by both the conference bridge 100 and the skim server 55 are called "intervals". When playing back a conference recorded in the communication conference system 200, the user operates the Java user interface 85 and selects a recording to be accessed via the IDB server 65. User interface 85 obtains the labeling interval data for the recording and uses them to display a visual event timeline. The user enters the telephone number, which is passed to the skim server 55, which can then call the user's telephone for playback of the conference via the Dialogic board 57. As the audio is played on the user's telephone, the Java user interface 85 continuously updates the graphical display and controls how the skim server 55 is used to play the recording. In one embodiment of the present invention, all clients, such as the Java user interface 85 and the conference recorder 110, communicate with the skim server 55 and the IDB server 65 via a CORBA application programming interface. The reason for choosing CORBA is to allow a simple interface between programs written in different languages running on different platforms. In one embodiment of the present invention, both servers 50 and 55 and conference recorder 110 are written in C ++ and run on a Sun Solaris platform. The skim server 55 performs the following functions. 1. Record audio from a telephone line to a file. 2. Detect audio events during recording and enter them into a database. 3. Play from a file to a telephone line, from anywhere in the recording, at different speeds, with or without removing pauses. In one embodiment, skim server 55 is based on the same type of hardware as a standard voice mail server and performs many of the same functions. One difference between the skim server 55 and the more conventional voice mail server is that the skim server processes voice events and posts them to the IDB server 65, and To give better control over which parts of the file are played and which parts are skipped. One of the functions of the IDB server 65 is to store and retrieve labeling interval data for recorded meetings. This is data describing the characteristics for a particular interval in the voice, such as the speaker, the pause in the voice, control data for telephone calls, and the like. This can be further extended to applications that require intervals to mark changes in the video scene, or to associate automatic speech recognition output with recording. Labeling interval data can be generated, stored, and retrieved by a number of different applications. Some are obtained automatically from raw audio data, others are a side effect of user activity, and others can be manually entered during recording or playback. FIG. 2 shows the format of the interval data element 130 that forms the labeling interval data associated with the recorded conference. All intervals between recorded meetings are associated with interval data element 130. In one embodiment, each interval data element 130 includes: 1. Recording ID or Warehouse 122: Indicates the recording associated with the interval and the collection point that stores the recording. 2. Start time 123: The application needs both an absolute time and a time relative to the recording start time. Relative time is more compact and conversion to absolute time is easier as long as the absolute start time is stored with the recording. 3. Duration or end time 124. 4. Type: Code that identifies the meaning of this interval. Whether this is a temporary stop in the audio, a scene change, etc. 5. Type identification data value 126. This data can be a character string, a number, a URL, or the like, depending on the type. Labeling interval data must be able to store, retrieve, and manipulate more than one at a time. Some applications deal with a large set of intervals that share everything except the start and end times (eg, the entire time a particular person is speaking). The application must be able to store the interval data in the database at any time, ie, before the start of the recording, during the recording, and thereafter. For example, in a teleconference, it may be necessary to record the caller's id and ringing event before the call, record the speaker during the call, and make notes about the call after the call. Some applications need to display incomplete interval data while a recording is in progress (for example, catching up with a meeting in progress), so fill in the interval that has started but not finished, It must be possible to enter the end time later. It must also be possible to adjust the interval data, for example, to reorganize the interval data with other data. All applications that post events to the IDB server 65 must specify a precise millisecond offset for the start and end times of each interval. All offsets are from the absolute start time of the recording. Because filling in intervals from different machines in real time requires that all clients writing the event have synchronized clocks, the standard network time protocol ("NTP") is used on all of these machines. Run the software. Browsing, search, and playback applications need to query and display a subset of the interval data. Examples of queries that can be addressed by the present invention include: • All interval data for a particular recording, stored based on time and type. All intervals of a particular type with a particular value or a value within a particular range. • Intervals within a certain absolute or relative time range. A specific duration interval. The present invention provides for logic / setting operations. For example, suppose the user wants to see and / or hear only the portion of the recording when person A or person B was speaking, and also wants to exclude all pauses. This can be expressed by making three queries. That is, an interval when A is speaking (set A), an interval when B is speaking (set B), and a temporary stop interval (set P). The desired settings can be expressed as "excluding A-combination B, P", or if these settings are considered long bit masks, they can be expressed as logical operations (AB) & (P). Can be described. Some types of intervals do not have clear start and end times. Instead of the binary on / off state at each time increment, some data has an associated probability curve over time because the exact time of the event is not obvious. The output from automatic speech recognition (e.g., a phoneme lattice) may include some overlapping hypotheses about which words are being spoken at any given time. In one embodiment of the present invention, IDB server 65 corresponds to a "fuzzy" interval. In another embodiment, IDB server 65 uses binary intervals with probability values in the type-specific numeric data field to achieve the same effect as fuzzy intervals, but does not perform fuzzy logic operations. Depending on how precise mapping between words and time is desired, transcriptions can be stored as interval data, perhaps at one sentence per interval or one word per interval. The transcription may be from closed captioned characters, higher quality off-line transcription, or lower quality automatic speech recognition systems. The communication conference system 200 reproduces the recorded conference using the conference reproduction document. The system utilizes stored labeling interval data associated with the conference. FIG. 3 illustrates a conference playback document 300 according to one embodiment of the present invention. The meeting playback document 300 is implemented as a Java applet by the Java user interface 85 of FIG. This uses a visual structuring of the recording, such as a series of color code intervals (eg, intervals 305 and 310) plotted on a horizontal time axis in an area called a time line window 315. Each participant in the call (e.g., participants 316-320) is assigned a separate timeline, and all labeling intervals associated with that person (e.g., dialing, connected, mute, speaking, etc.). ) Is displayed graphically. FIG. 4 shows in detail how to display overlapping intervals. Starting from the speaker bar by plotting each interval type one at a time, the document displays overlapping intervals on the same line, as shown in FIG. Referring again to FIG. 3, intervals that are not relevant to the individual are plotted separately above the participant (eg, hyper ring 330, audio portion, etc.). The time line window 315 provides an overview of all participant activities and can be used to navigate around in the recording. In one embodiment, once the user has established a telephone connection to the recorded conference playback device, use the toolbar 350 at the bottom of the timeline to start playing audio and adjust skimming parameters. Can be. In another embodiment, the audio conference recording can be "streamed" with the conference playback document 300, so that a separate telephone connection is not required. Toolbar 350 provides five buttons for controlling the playback device. That is, "return to the beginning 351", "rewind 352", "stop 353", "playback 354", and "fast forward 355". A slider 356 (0.7x, 1.0x, 1.3x, 1.7x, and 2.0x) for adjusting the playback speed, and a zoom menu 357 (none, 20 min, 10 min, and 5 min), and also includes an on / off pause button 358 for removal of the pause. As the recorded conference audio is played, the vertical red hand 360 moves across the time line. As the hand 360 moves, all participant's name tags are colored to reflect the person's state at that point in the conference. FIG. 3 shows a one hour meeting with full duration view (zoom = no). In this figure, the visual structure has helped to quickly reveal some of the details of the call. For example, the number and range of the light colored bars can identify the most central / least central speaker. The first long, continuous speech band indicates who made the formal announcement. Finally, the point at which the question and answer session begins can be found in the approximate middle of a call where many short speech intervals are distributed among many participants. For more detailed information, you must either listen to the audio or search for linked annotations, images, and other documents. The zoom mechanism allows the user to reduce the duration displayed in the time line window. The numbered scroll bar allows the user to register an enlargement over the entire duration and scroll using a mouse click or an arrow key on the keyboard. The scrolling is independent of the playback device's position needle 360, so that the user can look through multiple areas separately without interrupting listening. The playback device needle 360 can be moved by clicking on the time line or by pressing the fast forward / rewind button. When this is done, the skim server generates a short non-voice audio cue and starts playing at the new location. Use a click on the time line near the top to select a hyper ring (eg, link 330) without moving the hand. Upon selecting a link or pressing the "Link" button 340, a dialog displays all the links in the recording. This dialog can be used to visit links, edit links, or create both links into and out of the time line. One embodiment of the present invention supports the following types of links: Annotations, audio, documents, images, and general URLs. All links, except annotations that store textual content as interval data, are implemented using URLs. Each type of link is displayed on the time line with an icon representing it. Hyperlinks into or out of the time line are stored as intervals and include both start and end time offsets. Thus, one link may indicate a particular point or region of the time line, allowing a series of multiple skimming alternatives. For example, by following the link, the reproduction can be started at a certain point in time, stopped at a certain point in time, or the selected area can be sequentially performed. This means that by approaching a link, it is possible to have a number of effects, including moving the needle of the playback device and changing document pages. As described above, one embodiment of the present invention is a teleconferencing recorder and playback device. When recording a meeting, the interval database stores labeling interval data associated with the meeting. Labeling interval data allows searching and retrieving recorded meetings and facilitates playback of recorded meetings. Several embodiments of the present invention have been specifically shown and / or described. However, it will be appreciated that modifications and variations of the present invention are encompassed by the above teachings and are within the scope of the appended claims without departing from the spirit and intended scope of the invention. For example, while the disclosed embodiments are implemented over the Internet, the invention can be practiced using a private network or using any other known or future data communication method.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 ウェイマー,ディヴィッド エム. アメリカ合衆国.07747 ニュージャーシ ィ,アバーデーン,イムブルック レーン 16 (72)発明者 ウェルナー,ピエール ディヴィッド アメリカ合衆国.07748 ニュージャーシ ィ,ミドルタウン,キングス ハイウェー 82 【要約の続き】 タフェースの部分を選択することによって、会議呼の所 望部分を容易に選択またはスキップすることができる。────────────────────────────────────────────────── ─── Continuation of front page    (72) Inventors Weimar, David M.             United States of America. 07747 New Jersey             Aberdeen, Imbrook Lane               16 (72) Inventor Werner, Pierre David             United States of America. 07748 New Jersey             , Middletown, Kings Highway               82 [Continuation of summary] Interface part to select the location of the conference call. The desired part can be easily selected or skipped.

Claims (1)

【特許請求の範囲】 1.複数のインターバルを含むマルチメディア・データを記録および再生するた めのシステムであって: 前記複数のインターバルの第1組を検出するスキム・サーバと; 前記スキム・サーバに結合されたインターバル・データベース・サーバであ って、前記スキム・サーバによって検出された前記複数のインターバルの前記第 1組のためのラベル付けされたインターバル・データを発生する前記インターバ ル・データベース・サーバと; 前記インターバル・データベース・サーバに結合されると共に前記ラベル付 けインターバル・データを格納するデータベースと; を備え、前記ラベル付けインターバル・データが、前記検出された複数のイン ターバルの各々のインターバル・データ・エレメントを備えるシステム。 2.前記インターバル・データベース・サーバに結合され、前記複数のインター バルの第2組を検出する会議ブリッジ; を更に備え、前記インターバル・データベース・サーバが、更に、前記スキム ・サーバによって検出された前記複数のインターバルの前記第2組のためのラベ ル付けされたインターバル・データを発生する請求項1のシステム。 3.前記複数のインターバルの前記第1組が音声内の一時的停止を含む請求項2 のシステム。 4.前記複数のインターバルの前記第2組が呼の制御イベントを含む請求項2の システム。 5.前記マルチメディア・データが会議電話呼を含む請求項1のシ ステム。 6.前記インターバル・データ・エレメントが: 前記検出されたインターバルの種類と; 前記検出されたインターバルの開始時間と; 前記検出されたインターバルの持続時間と; を備える請求項1のシステム。 7.前記インターバル・データ・エレメントが、更に: 前記検出されたインターバルのレコーディング識別と; 前記検出されたインターバルの種類特定データ値と; を備える請求項6のシステム。 8.前記インターバル・データベース・サーバが: 前記格納されたラベル付けインターバル・データを検索するための手段を備 える請求項1のシステム。 9.前記インターバル・データベース・サーバが、更に: 前記格納されたラベル付けインターバル・データおよび関連するマルチメデ ィア・データを取得するための手段を備える請求項8のシステム。 10.前記会議呼の再生の間に発生されるユーザ・インタフェースを更に備え、前 記ユーザ・インタフェースが前記格納されたラベル付けインターバル・データを 表示する請求項5のシステム。 11.複数のインターバルを含むマルチメディア・データを記録および再生する方 法であって: 前記複数のインターバルを検出するステップと; 前記複数のインターバルのためのラベル付けインターバル・データを発生す るステップと; 前記ラベル付けインターバル・データをデータベースに格納するステップと ; を備え、前記ラベル付けインターバル・データが、前記複数のインターバルの 各々に関連したインターバル・データ・エレメントを備える方法。 12.前記インターバル・データ・エレメントが: 前記関連するインターバルの種類と; 前記関連するインターバルの開始時間と; 前記関連するインターバルの持続時間と; を備える請求項11の方法。 13.前記インターバル・データ・エレメントが、更に: 前記関連するインターバルのレコーディング識別と; 前記関連するインターバルの種類特定データ値と; を備える請求項12の方法。 14.前記マルチメディア・データをデータベースに格納するステップを更に備え る請求項11の方法。 15.1つまたはそれ以上のラベル付けインターバル・データ・パラメータに基づ いて前記データベースに問い合わせるステップと; 少なくとも1つのインターバル・データ・エレメントおよび関連するマルチ メディア・データを前記データベースから取得するステップと; を更に備える請求項14の方法。 16.前記マルチメディア・データが会議電話呼を備える請求項11の方法。 17.前記ラベル付けインターバル・データを表示するユーザ・イン タフェースを発生するステップと; 前記ユーザ・インタフェースの選択に基づいて前記会議呼を再生するステッ プと; を備える請求項16の方法。 18.通信会議電話呼を記録および再生する方法であって: 前記電話呼の間に複数のインターバルを検出するステップと; 前記複数のインターバルの各々のためのラベル付けされたインターバル・デ ータを発生するステップと; 前記ラベル付けインターバル・データをデータベースに格納するステップと ; を備える方法。 19.前記ラベル付けインターバル・データが複数のインターバル・データ・エレ メントを備え、前記方法が、更に: 前記データベースに問い合わせ、前記格納されたインターバル・データ・エ レメントの1つまたはそれ以上を取得するステップと; 前記取得したインターバル・データ・エレメントの各々に関連した前記通信 会議電話呼の部分を再生するステップと; を備える請求項18の方法。 20.前記検出されたインターバルが: 話者のアイデンティティと; 音声内の一時的停止と; 電話呼の制御と; を備える請求項18の方法。[Claims]  1. For recording and playback of multimedia data including multiple intervals System for:     A skim server for detecting a first set of the plurality of intervals;     An interval database server coupled to the skim server; The second of the plurality of intervals detected by the skim server. Said interval generating labeled interval data for a set A database server;     Coupled to the interval database server and labeled A database for storing the transmission interval data;   Wherein the labeling interval data includes the plurality of detected A system with each interval data element of the Tarval.  2. The plurality of interfaces coupled to the interval database server; A conference bridge for detecting the second set of bars;   Wherein the interval database server further comprises: A label for the second set of the plurality of intervals detected by the server 2. The system of claim 1, wherein the generated interval data is generated.  3. 3. The method of claim 2, wherein the first set of the plurality of intervals includes a pause in audio. System.  Four. 3. The method of claim 2, wherein said second set of said plurality of intervals includes call control events. system.  Five. The system of claim 1, wherein said multimedia data comprises a conference telephone call. Stem.  6. The interval data element is:     The type of the detected interval;     A start time of the detected interval;     The duration of the detected interval;   The system of claim 1 comprising:  7. The interval data element further comprises:     Recording identification of the detected interval;     A type identification data value of the detected interval;   7. The system of claim 6, comprising:  8. The interval database server is:     Means for retrieving said stored labeling interval data. The system of claim 1, wherein  9. The interval database server further comprises:     The stored labeling interval data and associated multimedia data; 9. The system of claim 8, comprising means for obtaining media data. Ten. Further comprising a user interface generated during playback of the conference call; The user interface reads the stored labeling interval data. 6. The system of claim 5 for displaying. 11. How to record and play multimedia data including multiple intervals The law:     Detecting the plurality of intervals;     Generating labeling interval data for the plurality of intervals Steps;     Storing the labeling interval data in a database; ;   Wherein the labeling interval data is A method comprising providing an interval data element associated with each. 12. The interval data element is:     The type of the relevant interval;     The start time of the relevant interval;     The duration of the relevant interval;   The method of claim 11, comprising: 13. The interval data element further comprises:     Recording identification of the relevant interval;     A type-specific data value of the related interval;   13. The method of claim 12, comprising: 14. Storing the multimedia data in a database. The method of claim 11, wherein 15. Based on one or more labeling interval data parameters And querying said database;     At least one interval data element and associated multi Obtaining media data from the database;   15. The method of claim 14, further comprising: 16. The method of claim 11, wherein the multimedia data comprises a conference call. 17. User input for displaying the labeling interval data Generating an interface;     A step of playing the conference call based on the selection of the user interface. And   17. The method of claim 16, comprising: 18. A method for recording and playing back teleconferencing telephone calls, comprising:     Detecting a plurality of intervals during the telephone call;     A labeled interval data for each of the plurality of intervals. Generating data;     Storing the labeling interval data in a database; ;   A method comprising: 19. The labeling interval data may include a plurality of interval data elements. Wherein the method further comprises:     The database is queried and the stored interval data Obtaining one or more of the elements;     The communication associated with each of the acquired interval data elements Playing a portion of the conference telephone call;   19. The method of claim 18, comprising: 20. The detected interval is:     With the identity of the speaker;     A pause in the audio;     Control of telephone calls;   19. The method of claim 18, comprising:
JP52049099A 1997-10-01 1998-09-30 Method and apparatus for storing and retrieving label interval data for multimedia records Pending JP2001511991A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US6061997P 1997-10-01 1997-10-01
US60/060,619 1997-10-01
PCT/US1998/020446 WO1999017235A1 (en) 1997-10-01 1998-09-30 Method and apparatus for storing and retrieving labeled interval data for multimedia recordings

Publications (1)

Publication Number Publication Date
JP2001511991A true JP2001511991A (en) 2001-08-14

Family

ID=22030673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP52049099A Pending JP2001511991A (en) 1997-10-01 1998-09-30 Method and apparatus for storing and retrieving label interval data for multimedia records

Country Status (3)

Country Link
JP (1) JP2001511991A (en)
CA (1) CA2271745A1 (en)
WO (1) WO1999017235A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006507765A (en) * 2002-11-25 2006-03-02 テレセクター リソーシーズ グループ インコーポレイテッド Method and apparatus for buffering conference calls
JP2017102965A (en) * 2011-10-10 2017-06-08 マイクロソフト テクノロジー ライセンシング,エルエルシー Communication system

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2797132B1 (en) * 1999-07-16 2001-10-05 Matra Nortel Communications METHOD AND SYSTEM FOR SOUND RESTITUTION WITH SPATIAL EFFECT, AND TELEPHONE TERMINAL INCORPORATING SUCH A SYSTEM
GB2359155A (en) 2000-02-11 2001-08-15 Nokia Mobile Phones Ltd Memory management of acoustic samples eg voice memos
WO2002065745A1 (en) * 2001-02-15 2002-08-22 Sivashunmugam Columbus Context association for multimedia using mark-up intelligence
GB0108603D0 (en) * 2001-04-05 2001-05-23 Moores Toby Voice recording methods and systems
US20040024598A1 (en) 2002-07-03 2004-02-05 Amit Srivastava Thematic segmentation of speech
US20040021765A1 (en) * 2002-07-03 2004-02-05 Francis Kubala Speech recognition system for managing telemeetings
US20040083104A1 (en) 2002-10-17 2004-04-29 Daben Liu Systems and methods for providing interactive speaker identification training
US7003286B2 (en) 2002-10-23 2006-02-21 International Business Machines Corporation System and method for conference call line drop recovery
US20040207724A1 (en) * 2003-04-17 2004-10-21 Siemens Information And Communication Networks, Inc. System and method for real time playback of conferencing streams
CN1635792A (en) * 2003-12-29 2005-07-06 皇家飞利浦电子股份有限公司 A specific program segment construction method and apparatus
US7308476B2 (en) 2004-05-11 2007-12-11 International Business Machines Corporation Method and system for participant automatic re-invite and updating during conferencing
EP1811759A1 (en) * 2006-01-23 2007-07-25 Hewlett-Packard Development Company, L.P. Conference call recording system with user defined tagging
NO325487B1 (en) * 2006-09-14 2008-05-13 Tandberg Telecom As Method and device for dynamic streaming / archiving configuration
US8838179B2 (en) 2009-09-25 2014-09-16 Blackberry Limited Method and apparatus for managing multimedia communication recordings
EP2302867B1 (en) * 2009-09-25 2019-06-05 BlackBerry Limited Method and apparatus for managing multimedia communication recordings
EP2745509B1 (en) * 2011-08-19 2021-06-30 Telefonaktiebolaget LM Ericsson (publ) Technique for video conferencing
EP3754961A1 (en) 2015-06-16 2020-12-23 Dolby Laboratories Licensing Corp. Post-teleconference playback using non-destructive audio transport
US10471348B2 (en) 2015-07-24 2019-11-12 Activision Publishing, Inc. System and method for creating and sharing customized video game weapon configurations in multiplayer video games via one or more social networks
CN113259740A (en) * 2021-05-19 2021-08-13 北京字跳网络技术有限公司 Multimedia processing method, device, equipment and medium

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02134785A (en) * 1988-11-15 1990-05-23 Sony Corp Voice signal recording device
JPH052540A (en) * 1991-06-24 1993-01-08 Fujitsu Ltd Electronic conference system having minutes forming function
US5550965A (en) * 1993-12-27 1996-08-27 Lucent Technologies Inc. Method and system for operating a data processor to index primary data in real time with iconic table of contents
US5619555A (en) * 1995-07-28 1997-04-08 Latitude Communications Graphical computer interface for an audio conferencing system
US5559875A (en) * 1995-07-31 1996-09-24 Latitude Communications Method and apparatus for recording and retrieval of audio conferences

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006507765A (en) * 2002-11-25 2006-03-02 テレセクター リソーシーズ グループ インコーポレイテッド Method and apparatus for buffering conference calls
JP2017102965A (en) * 2011-10-10 2017-06-08 マイクロソフト テクノロジー ライセンシング,エルエルシー Communication system
US9942293B2 (en) 2011-10-10 2018-04-10 Microsoft Technology Licensing, Llc Communication system

Also Published As

Publication number Publication date
CA2271745A1 (en) 1999-04-08
WO1999017235A1 (en) 1999-04-08

Similar Documents

Publication Publication Date Title
JP2001511991A (en) Method and apparatus for storing and retrieving label interval data for multimedia records
US7092496B1 (en) Method and apparatus for processing information signals based on content
EP1109390A2 (en) System and method for browsing and searching through voicemail using automatic speech recognition
US7848493B2 (en) System and method for capturing media
JP4466564B2 (en) Document creation / viewing device, document creation / viewing robot, and document creation / viewing program
US6298129B1 (en) Teleconference recording and playback system and associated method
US6876729B1 (en) Bookmarking voice messages
CN102483917B (en) For the order of display text
US6282510B1 (en) Audio and video transcription system for manipulating real-time testimony
US20040132432A1 (en) Voice recordal methods and systems
US20030174818A1 (en) Intelligent integrated on-hold messaging system for use with business telephone systems
JPH11313173A (en) Digital sound recording system
US20060271365A1 (en) Methods and apparatus for processing information signals based on content
JP2004523039A (en) Method and system for automatically generating audio XML files
WO1993007562A1 (en) Method and apparatus for managing information
EP0779731A1 (en) Speech system
JP2005341015A (en) Video conference system with minute creation support function
US20040008827A1 (en) Management of a voicemail system
JP2001092838A (en) Multimedia information collecting and managing device and storing medium storing program
JP3437617B2 (en) Time-series data recording / reproducing device
JP2741833B2 (en) System and method for using vocal search patterns in multimedia presentations
US20020044633A1 (en) Method and system for speech-based publishing employing a telecommunications network
KR100806225B1 (en) The Appratus method of automatic generation of the web page for conference record and the method of searching the conference record using the event information
JP2004279897A (en) Method, device, and program for voice communication record generation
MXPA99005025A (en) Method and apparatus for storing and retrieving labeled interval data for multimedia recordings