JP2009267693A - Moving image collaboration system and method, and computer program - Google Patents
Moving image collaboration system and method, and computer program Download PDFInfo
- Publication number
- JP2009267693A JP2009267693A JP2008113870A JP2008113870A JP2009267693A JP 2009267693 A JP2009267693 A JP 2009267693A JP 2008113870 A JP2008113870 A JP 2008113870A JP 2008113870 A JP2008113870 A JP 2008113870A JP 2009267693 A JP2009267693 A JP 2009267693A
- Authority
- JP
- Japan
- Prior art keywords
- moving image
- voice
- data
- video
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
- Information Transfer Between Computers (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本発明は、動画ファイルの再生に合わせてユーザが音声を吹き込み、複数のユーザが吹き込んだ音声を再生して、ネットワークユーザ間でコラボレーションを行う動画コラボレーションシステム及び方法ならびにコンピュータプログラムに関する。 The present invention relates to a moving image collaboration system and method, and a computer program, in which a user blows sounds in accordance with the reproduction of a moving image file, and reproduces the sounds blown by a plurality of users to collaborate between network users.
従来、ネットワーク上で動画ファイルを共有し、動画ファイルを視聴しながら、動画の時間軸に合わせてチヤット等の文字コミュニケーションを行なうサービスがある(例えば、非特許文献1、非特許文献2参照)。
しかし、従来の技術では、動画ファイルを視聴しながら、動画の時間軸に合わせてユーザ自身が発声する音声を共有する音声コミュニケーションを行う事ができず、円滑なコラボレーションをする事が出来なかった。 However, in the conventional technology, it is not possible to perform voice communication for sharing the voice uttered by the user in accordance with the time axis of the video while viewing the video file, and smooth collaboration cannot be performed.
上述の課題を鑑み、本発明は、動画の時間軸に合わせて複数のユーザが発声する音声を共有することができる動画コラボレーションシステム及び方法ならびにコンピュータプログラムを提供することを目的とする。 In view of the above-described problems, an object of the present invention is to provide a moving image collaboration system and method, and a computer program that can share voices uttered by a plurality of users in accordance with a moving image time axis.
本発明は、動画を配信するサーバと、当該動画を再生する端末とをネットワークを介して接続してなる動画コラボレーションシステムであって、前記サーバは、前記端末から受信した、動画の再生時刻に対応付けられた音声のデータである吹込音声データを複数用いて、動画の再生時刻が合致するように複数の音声を合成し、合成音声データを生成する音声合成手段と、前記端末へ動画データを送信する動画送信手段と、前記動画送信手段が送信する動画データに併せて、前記音声合成手段が生成した合成音声データを前記端末へ送信する音声送信手段とを備え、前記端末は、前記サーバから動画データを受信する動画受信手段と、前記動画受信手段が受信した動画データを再生する動画再生手段と、前記動画データに併せて前記サーバから合成音声データを受信する音声受信手段と、前記音声受信手段が受信した合成音声データの音声を再生する音声再生手段と、自端末に吹き込まれ、動画の再生時刻に対応付けられた音声のデータである吹込音声データを、前記サーバへ送信する吹込音声送信手段とを備える、ことを特徴とする動画コラボレーションシステムである。 The present invention is a video collaboration system in which a server that distributes a video and a terminal that plays back the video are connected via a network, the server corresponding to the playback time of the video received from the terminal A plurality of voiced audio data, which are attached audio data, are used to synthesize a plurality of voices so that the playback times of the videos match, and to generate synthesized voice data, and to send the video data to the terminal Video transmission means that transmits the synthesized voice data generated by the voice synthesis means to the terminal in addition to the video data transmitted by the video transmission means. Moving image receiving means for receiving data, moving image reproducing means for reproducing moving image data received by the moving image receiving means, and the server together with the moving image data Voice receiving means for receiving the synthesized voice data, voice playback means for playing back the voice of the synthesized voice data received by the voice receiving means, and voice data that is blown into the terminal and associated with the playback time of the video. A moving picture collaboration system comprising a blowing voice transmitting means for sending certain blowing voice data to the server.
本発明は、上記動画コラボレーションシステムであって、前記端末は、検索文字列を前記サーバへ送信する検索要求手段と、前記検索要求手段によって送信した検索文字列に対応して、前記サーバから動画データの識別子の一覧を受信する一覧受信手段と、前記一覧受信手段が受信した一覧の中から選択した識別子を前記サーバへ送信する識別子送信手段とをさらに備え、前記サーバは、動画データ及び合成音声データを識別子と対応付けて記憶するとともに、動画データのメタデータ及び識別子を対応付けて記憶する記憶手段と、前記端末から受信した検索文字列により前記記憶手段を検索し、検索の結果得られた識別子の一覧を取得し、前記端末へ返送するメタデータ管理手段とをさらに備え、前記動画送信手段は、前記端末から受信した識別子に対応する動画データを前記記憶手段から読み出して返送し、前記音声送信手段は、前記端末から受信した識別子に対応する合成音声データを前記記憶手段から読み出して返送する、ことを特徴とする。 The present invention is the above-described video collaboration system, wherein the terminal corresponds to the search request unit that transmits a search character string to the server, and the video data from the server corresponding to the search character string transmitted by the search request unit. Further comprising: a list receiving means for receiving a list of identifiers; and an identifier transmitting means for transmitting an identifier selected from the list received by the list receiving means to the server, wherein the server includes moving image data and synthesized audio data. Is stored in association with the identifier, the storage means for storing the metadata of the video data and the identifier in association with each other, and the storage means is searched with the search character string received from the terminal, and the identifier obtained as a result of the search A metadata management means for acquiring a list of data and returning it to the terminal, wherein the moving picture transmitting means receives from the terminal The moving image data corresponding to the identifier returned by reading from said memory means, said voice transmitting unit returns the synthesized speech data corresponding to the identifier received from the terminal is read from said storage means, characterized in that.
本発明は、上記動画コラボレーションシステムであって、前記記憶手段は、前記動画データの音声から人の声を消去した音声のデータである消去音声データをさらに前記識別子と対応付けて記憶し、前記音声送信手段は、前記端末から受信した識別子に対応する消去音声データを前記記憶手段から読み出して返送し、前記音声受信手段は、前記動画データに併せて前記サーバから、消去音声データを受信し、前記音声再生手段は、前記動画データの音声を消音して、前記消去音声データを再生する、ことを特徴とする。 The present invention is the above-described video collaboration system, wherein the storage unit further stores erased voice data, which is voice data obtained by erasing a human voice from the voice of the moving picture data, in association with the identifier, and stores the voice The transmission means reads out the erasure audio data corresponding to the identifier received from the terminal and returns it from the storage means, the audio reception means receives the erasure audio data from the server together with the moving image data, and The sound reproduction means is characterized in that the sound of the moving image data is muted and the erased sound data is reproduced.
本発明は、上記動画コラボレーションシステムであって、前記端末は、動画データと、当該動画データのメタデータを前記サーバへ送信する登録動画送信手段をさらに備え、前記サーバは、前記端末から動画データとメタデータを受信する登録動画受信手段と、動画データの識別子と対応づけて、前記登録動画受信手段が受信した動画データ及びメタデータを前記記憶手段に書き込む動画登録手段と、前記登録動画受信手段が受信した動画データから、音声のみを抜き出した分離音声データを生成し、当該分離音声データから人の声を除いて消去音声データを生成し、生成した消去音声データを前記識別子と対応付けて前記記憶手段に保存する音声消去手段とをさらに備える、ことを特徴とする。 The present invention is the above-described video collaboration system, wherein the terminal further includes registered video transmission means for transmitting video data and metadata of the video data to the server, and the server receives video data from the terminal Registered moving image receiving means for receiving metadata, moving image registration means for writing the moving image data and metadata received by the registered moving image receiving means in the storage means in association with the identifier of the moving image data, and the registered moving image receiving means Separated voice data extracted from the received video data is generated, human voice is removed from the separated voice data, erased voice data is generated, and the generated erased voice data is associated with the identifier and stored. Voice erasing means stored in the means.
本発明は、上記動画コラボレーションシステムであって、前記端末は、ユーザの認証情報を前記サーバへ送信する認証要求手段をさらに備え、前記サーバは、前記端末からユーザの認証情報を受信し、当該認証情報によって認証を行うユーザ管理手段と、前記ユーザ管理手段によって認証された場合に、前記ユーザに対応したプラグインソフトウェアを前記端末へ返送するアプリケーション管理手段とをさらに備え、前記端末は、前記認証要求手段により送信した認証情報が認証された場合に返送されるプラグインソフトウェアにより、前記動画受信手段、前記動画再生手段、前記音声受信手段、前記音声再生手段、及び前記吹込音声送信手段を生成する、ことを特徴とする。 The present invention is the above-described video collaboration system, wherein the terminal further includes an authentication request unit that transmits user authentication information to the server, and the server receives the user authentication information from the terminal, and User management means for performing authentication based on information; and application management means for returning plug-in software corresponding to the user to the terminal when authenticated by the user management means, wherein the terminal includes the authentication request Generating the moving picture receiving means, the moving picture playing means, the voice receiving means, the voice playing means, and the blowing voice sending means by plug-in software returned when the authentication information sent by the means is authenticated; It is characterized by that.
本発明は、上記動画コラボレーションシステムであって、前記サーバは、前記動画データを、前記動画再生手段によって再生可能なデータ形式に変換する動画変換手段をさらに備える、ことを特徴とする。 The present invention is the above-described moving image collaboration system, wherein the server further includes moving image conversion means for converting the moving image data into a data format reproducible by the moving image reproduction means.
また、本発明は、動画を配信するサーバと、当該動画を再生する端末とをネットワークを介して接続してなる動画コラボレーションシステムに用いられる動画コラボレーション方法であって、前記サーバにおいて、音声合成手段が、前記端末から受信した、動画の再生時刻に対応付けられた音声のデータである吹込音声データを複数用いて、動画の再生時刻が合致するように複数の音声を合成し、合成音声データを生成する音声合成過程と、動画送信手段が、前記端末へ動画データを送信する動画送信過程と、音声送信手段が、前記動画送信過程において送信する動画データに併せて、前記音声合成過程において生成した合成音声データを前記端末へ送信する音声送信過程とを有し、前記端末において、動画受信手段が、前記サーバから動画データを受信する動画受信過程と、動画再生手段が、前記動画受信手段が受信した動画データを再生する動画再生過程と、音声受信手段が、前記動画データに併せて前記サーバから合成音声データを受信する音声受信過程と、音声再生手段が、前記音声受信過程において受信した合成音声データの音声を再生する音声再生過程と、吹込音声送信手段が、自端末に吹き込まれ、動画の再生時刻に対応付けられた音声のデータである吹込音声データを、前記サーバへ送信する吹込音声送信過程とを有する、ことを特徴とする動画コラボレーション方法である。 The present invention is also a video collaboration method used in a video collaboration system in which a server that distributes a video and a terminal that plays back the video are connected via a network. Using a plurality of blow-in audio data, which is audio data associated with the playback time of the video, received from the terminal, synthesize a plurality of sounds so that the playback time of the video matches, and generate synthesized audio data A voice synthesizing process, a video transmitting process in which the video transmitting means transmits the video data to the terminal, and a voice generated by the voice transmitting means in the voice synthesizing process in addition to the video data transmitted in the video transmitting process. An audio transmission process for transmitting audio data to the terminal, wherein the moving image receiving means transmits the moving image from the server to the moving image. A video receiving process for receiving data, a video playback means for playing back the video data received by the video receiving means, and a voice receiving means for receiving synthesized voice data from the server together with the video data. The audio receiving process for receiving, the audio reproducing means for reproducing the sound of the synthesized voice data received in the audio receiving process, and the blowing audio transmitting means are blown into the terminal and correspond to the reproduction time of the moving image. It is a moving image collaboration method characterized by having the blowing audio | voice transmission process which transmits the blowing audio | voice data which are the data of the attached | subjected audio | voice to the said server.
また、本発明は、動画を配信するサーバと、当該動画を再生する端末とをネットワークを介して接続してなる動画コラボレーションシステムの前記サーバとして用いられるコンピュータを、前記端末から受信した、動画の再生時刻に対応付けられた音声のデータである吹込音声データを複数用いて、動画の再生時刻が合致するように複数の音声を合成し、合成音声データを生成する音声合成手段、前記端末へ動画データを送信する動画送信手段、前記動画送信手段が送信する動画データに併せて、前記音声合成手段が生成した合成音声データを前記端末へ送信する音声送信手段、として動作させることを特徴とするコンピュータプログラムである。 In addition, the present invention provides a reproduction of a moving image received from the terminal as a computer used as the server of a moving image collaboration system in which a server that distributes a moving image and a terminal that reproduces the moving image are connected via a network. A plurality of voiced voice data, which are voice data associated with the time, a plurality of voices are synthesized so that the playback time of the video matches, and voice synthesis means for generating synthesized voice data; video data to the terminal A computer program for operating as a voice transmitting means for transmitting the synthesized voice data generated by the voice synthesizing means to the terminal together with the moving picture data transmitted by the moving picture transmitting means It is.
また、本発明は、動画を配信するサーバと、当該動画を再生する端末とをネットワークを介して接続してなる動画コラボレーションシステムの前記端末として用いられるコンピュータを、前記サーバから動画データを受信する動画受信手段、前記動画受信手段が受信した動画データを再生する動画再生手段、前記動画データに併せて前記サーバから、複数の端末より送信された複数の吹込音声データを用いて、動画の再生時刻が合致するように複数の音声を合成して生成された合成音声データを受信する音声受信手段、前記音声受信手段が受信した合成音声データの音声を再生する音声再生手段、自端末に吹き込まれ、動画の再生時刻に対応付けられた音声のデータである吹込音声データを、前記サーバへ送信する吹込音声送信手段、として動作させることを特徴とするコンピュータプログラムである。 Further, the present invention provides a moving image for receiving moving image data from the server, using a computer used as the terminal of the moving image collaboration system in which a moving image distribution server and a terminal that reproduces the moving image are connected via a network. Receiving means, moving picture reproducing means for reproducing moving picture data received by the moving picture receiving means, and using the plurality of blowing audio data transmitted from a plurality of terminals from the server together with the moving picture data, Audio receiving means for receiving synthesized audio data generated by synthesizing a plurality of sounds so as to match, audio reproducing means for reproducing the audio of the synthesized audio data received by the audio receiving means, Insufflation sound transmission means for transmitting insufflation sound data, which is sound data associated with the reproduction time, to the server A computer program for causing the work.
本発明によれば、サーバから配信する動画の視聴者間で肉声を共有して、動画コラボレーションを実現することができる。これにより、あたかもライブコンサート会場にいるかのような音場の共有が可能となる。 According to the present invention, it is possible to realize a video collaboration by sharing a voice between viewers of a video distributed from a server. This makes it possible to share the sound field as if it were in a live concert venue.
以下、本発明の一実施形態を、図面を参照して説明する。 Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
まず、動画コラボレーションについてTV(テレビジョン)とコンサートの例を引用し説明する。
TVは、TV局より放映内容(以下、コンテンツ)配信し、エンドユーザのTV受信機で配信されたコンテンツを受信して動画や音声を出力することにより、エンドユーザがコンテンツを楽しむものである。このとき、エンドユーザはコンテンツを鑑賞するのみで、自らが発する音声や動作を、同じコンテンツを同時に視聴している他のユーザへ伝える事ができない。このことは、ライブコンサートのように、会場でコンテンツ提供者(演奏者)とコンテンツ視聴者(客)が一体となってコンテンツを楽しむ共有感が提供されていない事を意味する。
本発明では、複数のユーザが発する音声により、上記共有感を生み出す事を可能とする。ここでは、これを、動画コラボレーション、若しくは音声の共有と命名する。
First, video collaboration will be explained with reference to examples of TV (television) and concerts.
The TV distributes broadcast content (hereinafter referred to as content) from a TV station, receives the content distributed by the end user's TV receiver, and outputs video and audio, thereby allowing the end user to enjoy the content. At this time, the end user only appreciates the content, and cannot transmit the voice or action he / she utters to other users who are simultaneously viewing the same content. This means that, as in a live concert, there is no shared feeling that content providers (players) and content viewers (customers) can enjoy together in the venue.
In the present invention, it is possible to generate the above-mentioned feeling of sharing by voices uttered by a plurality of users. Here, this is named video collaboration or audio sharing.
図1は、本発明の一実施形態による動画コラボレーションシステムの概要を示す図である。サーバ200と、ユーザ400が保有するユーザ端末390とは、IP(インターネットプロトコル)等を用いたネットワーク100を通じて通信が可能である。ユーザ端末390は複数存在するが、同図においては、1つのみを記載している。
FIG. 1 is a diagram showing an overview of a video collaboration system according to an embodiment of the present invention. The
サーバ200は、サーバアプリケーション(以下、アプリケーションを「APL」と記載)の実行手段、2次記憶装置およびSQL装置等の記憶手段を有する。ユーザ端末390は、ブラウザ300の実行手段を有し、ブラウザ300上で動作するブラウザAPL(若しくはプラグインソフトウェア)を利用して、動画の保存、視聴、音声の共有が可能である。
The
図2は、本発明の一実施形態による動画コラボレーションシステムが提供するサービスの概念を示す図である。ここでは、ユーザ400として、ユーザ400a、400b、400cがサービスを利用しているものとする。 FIG. 2 is a diagram illustrating a concept of a service provided by the video collaboration system according to an embodiment of the present invention. Here, it is assumed that the user 400a, 400b, 400c is using the service as the user 400.
ユーザ400aは、自身の保持するユーザ端末390で、汎用的に使用されている既存のWeb(ウェブ)ブラウザ(例えば、InternetExplorer、Firefox等)と、汎用的に使用されている既存のプラグインソフトウェア(例えば、AdobeFlash等)をブラウザとして利用し、サーバ200より配信される動画ファイル(FLV形式等)を受信して再生し、視聴を行っている。
一方、ユーザ400bは、動画ファイルを視聴しながら、プラグインソフトウェアの音声入力機能を利用し、ユーザ端末390に自らの音声を吹き込んでいる。吹込んだ音声の音声データ(以下、「音声(吹込)」と記載)は、ユーザ端末390からサーバ200へ送信される。
また、ユーザ400cは、ユーザ400bと同様に、ユーザ端末390に音声を吹き込み、吹き込んだ音声の音声データである音声(吹込)は、ユーザ端末390からサーバ200へ送信される。
The user 400a uses an existing Web browser (for example, Internet Explorer, Firefox, etc.) that is generally used on the
On the other hand, the user 400b uses his / her voice input function of the plug-in software while viewing the moving image file, and blows his / her voice into the
Similarly to the user 400b, the user 400c blows voice into the
サーバ200は、ユーザ400bの音声データとユーザ400cの音声データとを用い、動画の再生時間帯を一致させるように、ユーザ400bの音声とユーザ400cの音声の合成を行なう。
一方、配信される動画ファイルは、サーバ200の2次記憶装置に保存されており、ユーザ400aのユーザ端末390から受信した要求に応じて配信される。また、サーバ200は、あらかじめ動画ファイルの音声から人の声(肉声)の部分の音声を消去した音声消去データ(以下、「音声(消去)」)を作成し、該音声(消去)と音声(吹込)を合成した合成音声の音声データ(以下、「音声(合成)」)を生成して、動画ファイルとともにユーザ端末390へ配信する。
The
On the other hand, the moving image file to be distributed is stored in the secondary storage device of the
以上によって、ユーザ400aは、通常の動画ファイル視聴の他、動画ファイルの音声をミュート(消音)して音声(合成)を再生し、ユーザ400bやユーザ400cの音声を聞いたり、音声(消去)を再生して、音声(吹込)の生成を実施しやすくしたりする事が可能である。 As described above, the user 400a plays the sound (synthesized) by muting the sound of the moving image file, listening to the sound of the user 400b and the user 400c, and listening to the sound (erasing) in addition to the normal viewing of the moving image file. It is possible to reproduce and facilitate the generation of sound (blowing).
図3は、本実施の形態によるサーバ200の機能ブロック図である。
同図に示すように、サーバ200は、プロトコル解析部213と、サーバAPLベース部214と、サーバAPLメイン部215を具備している。
FIG. 3 is a functional block diagram of the
As shown in the figure, the
サーバAPLベース部214は、サーバAPLメイン部215およびプロトコル解析部213を起動し、サーバ200をサービス稼動状態へ遷移させる。また、サーバAPLベース部214は、2次記憶装置216、SQL装置217やサーバ200のハードウェアへのアクセス手順(以下、「API」(Application Program Interface))をサーバAPLメイン部215へ提供する。
The server
プロトコル解析部213は、ユーザ端末390のブラウザAPLから受信した各種信号を1次解析し、サーバAPLメイン部215が提供する必要な機能の呼び出しを実施する。この事により、新規機能を追加する場合、サーバAPLメイン部215に機能追加するとともに、プロトコル解析部213が該新規機能ヘアクセスする必要がある信号を受信したときに、該新規機能ヘアクセスする手段を追加することにより、新規機能の追加が容易となる。
The
サーバAPLメイン部215は、動画送受信機能部201、動画変換機能部202、動画管理機能部203、動画音声分離機能部204、ユーザ管理機能部205、ブラウザAPL管理機能部206、音声送受信機能部207、音声消去機能部208、音声管理機能部209、音声合成機能部210、メタデータ管理機能部211、及び、TimeIndex(タイムインデックス)機能部212を備える。
The server APL
動画送受信機能部201は、動画ファイルの受信や、送信を行う機能を有する。受信可能なファイル形式としては、AVI、MPEG等がある。また、送信可能なファイル形式としては、FLV、H264等がある。
動画変換機能部202は、動画送受信機能部201から転送された動画ファイルを、送信可能なファイル形式、FLV、H264等に変換する機能を有する。
The moving image transmission /
The moving image
動画管理機能部203は、動画ファイルを一意に識別可能な識別子(ID)を動画ファイルへ付与する機能を有する。この識別子により、動画ファイルに関連する音声ファイル、メタデータ等をリンクさせる。また、動画管理機能部203は、音声管理機能部209を起動し、音声関連の機能処理を委譲する。また、プラグインソフトウェアからの動画送信要求に関しては、識別子を元に動画ファイル、各種音声ファイルを特定し、特定した該音声ファイルをユーザ端末390上で動作しているプラグインソフトウェアへ送信する。
The moving image
ユーザ管理機能部205は、ユーザIDの作成、パスワードの管理、その他のユーザ情報を管理する機能を有する。各種データは、SQL装置217に保存され、各種データを引数に関連データを読み出す事が可能である。
ブラウザAPL管理機能部206は、ユーザ端末390のブラウザ300に表示するWebページの管理、プラグインソフトウェアの管理を行なう機能を有する。また、ブラウザAPL管理機能部206は、ユーザIDに応じて、必要なWebページやプラグインソフトウェアを決定する機能を有する。この事により、ユーザ毎に異なったサービスレベルのサービスを提供する事が可能になる。
The user
The browser APL
音声管理機能部209は、動画音声分離機能部204や音声消去機能部208を呼び出し、音声(分離)ファイルや音声(消去)ファイルの作成を指示する機能を有する。作成ファイルは識別子(ID)と対応させて、2次記憶装置216に保存可能である。また、音声管理機能部209は、識別子(ID)を元に、音声(消去)ファイルや音声(合成)ファイルを読出して、ユーザ端末390で動作しているプラグインソフトウェアへ送信する機能を有する。また、音声(吹込)ファイルをユーザ端末390で動作しているプラグインソフトウェアから受信する機能を有する。
The sound
動画音声分離機能部204は、動画ファイル内の音声部分を、音声(分離)ファイルとして別途ファイル化する機能を有する。
音声消去機能部208は、バンドパスフィルタを用い、音声(分離)ファイルから、人間の音声部分を除いた音声(消去)ファイルを作成する機能を有する。
The moving image / sound
The voice
音声合成機能部210は、プラグインソフトウェアから音声(吹込)ファイルを受信し、音声(合成)ファイルを2次記憶装置216から読出して、TimeIndex機能部212を呼び出し、音声(吹込)ファイルと音声(合成)ファイル時間軸が一致するように音声波形を合成し、音声(合成)ファイルを作成する機能を有する。
TimeIndex機能部212は、各種音声ファイルの時間軸(msec単位)をポインタ読出する機能と、該音声ファイルの波形合成時に、ポインタ位置を音声合成機能部210に通知する機能を有する。
The voice
The
音声送受信機能部207は、音声(消去)ファイル、音声(合成)ファイルをユーザ端末390で動作しているプラグインソフトウェアへ送信し、音声(吹込)ファイルをユーザ端末390で動作しているプラグインソフトウェアから受信する機能を有する。
メタデータ管理機能部211は、識別子(ID)とメタデータを受信して、SQL装置217へ保存する機能を有する。また、メタデータ管理機能部211は、識別子(ID)やメタデータを引数としてSQL検索を行なう機能を有する。
The voice transmission /
The metadata
2次記憶装置216は、動画ファイル、各種音声ファイル、その他ファイルを保存可能な記憶装置である。
SQL装置217は、ユーザID、識別子ID、メタデータ、その他データを保存可能で、各データをリレーショナルに管理可能な記憶装置である。
The
The
図4は、ユーザ端末390の詳細な機能ブロック図である。
ユーザ端末390は、例えば、パーソナルコンピュータ、携帯電話等のコンピュータ端末であり、同図に示すように、プロトコル解析部309及びブラウザAPLメイン部310を備えるブラウザ300と、Webブラウザ311とを具備している。ブラウザ300は、ユーザ端末390がサーバ200から受信したプラグインソフトウェアを内部に備える記憶手段に記憶し、当該プラグインソフトウェアが読み出され、実行されることによって実現されるものである。
FIG. 4 is a detailed functional block diagram of the
The
Webブラウザ311は、コンピュータ端末上で動作するアプリケーションであり、汎用的な既存のWebブラウザのアプリケーションが使用可能である。Webブラウザ311は、マルチメディア機能を提供する、汎用的な既存のプラグインソフトウェア(例えば、Adobe flash player等)を起動することが可能である。
The
プロトコル解析部309は、プロトコル解析部213と同等の機能を有し、機能追加が容易である。
ブラウザAPLメイン部310は、動画送受信機能部301、動画再生機能部302、動画取込機能部303、TimeIndex機能部304、メタデータ管理機能部305、音声送受信機能部306、音声再生機能部307、音声取込機能部308を備える。
The
The browser APL
動画送受信機能部301は、動画ファイルの受信や、送信を行う機能を有する。受信可能なファイル形式としては、FLV、H264等がある。送信可能なファイル形式としては、AVI、MPEG等がある。
動画再生機能部302は、動画送受信機能部301が受信した動画ファイルを再生する機能を有する。動画再生機能部302は、再生、一時停止、早送り、巻き戻し、画面最大化、音量調節、等が可能であり、メタデータの入力インタフェースも具備する。
動画取込機能部303は、例えばユーザ端末390のHDD(ハードディスクドライブ)上に記憶されている動画ファイルを読み込み、またメタデータ管理機能部305よりメタデータを読出し、動画送受信機能部301へ転送して、サーバ200へ送信する機能を有する。
メタデータ管理機能部305は、ユーザ400が入力手段により入力した文字列を取込み、動画ファイルの送信と同時に送信する機能を有する。また、ユーザ400が入力した文字列をメタデータと識別子、該メタデータをサーバ200へ送信する機能と、該送信データの応答として、メタデータと一致、関連するデータの一覧を受信する機能を有する。
The moving image transmission /
The moving image
The moving image
The metadata
TimeIndex機能部304は、音声取込機能部308と連携し、音声ファイルの時間軸を一意に識別できるポインタを音声取込機能部308に提供する機能を有する。ポインタはmsec単位で埋め込みが可能である。
音声取込機能部308は、TimeIndex機能部304と連携し、音声ファイルへ時間軸を一意に識別できるポインタを音声ファイルに埋め込む機能を有する。ポインタを埋め込まれた音声ファイルは、サーバ200へ送信される。
The
The voice capturing
音声送受信機能部306は、音声(消去)、音声(合成)ファイルを受信し、音声再生機能部307へこれらの音声ファイルを転送する機能を有する。
音声再生機能部307は、動画音声、音声(消去)、音声(合成)ファイルを選択的に再生する機能を有する。音声再生機能部307は、音声(消去)ファイル、または、音声(合成)ファイルを再生するときは、動画音声をミュートする。
The voice transmission /
The audio
図5は、動画および音声の種別の詳細を示す図である。
動画ファイルは、動画像および音声により構成される既存の一般形式の動画ファイルである。この動画ファイルの音声部分を音声(動画)とする。動画ファイルの音声(動画)を抽出し、単体の音声ファイルとしたものが、音声(分離)ファイル(分離音声データ)である。音声(分離)から、バンドパスフィルタを用いて肉声のみを消去して音声ファイルとしたものが、音声(消去)ファイル(消去音声データ)である。ユーザ400がユーザ端末390上から吹き込んだ肉声のファイルは、音声(吹込)ファイル(吹込音声データ)である。そして、複数の音声(吹込)ファイルの音声波形を合成したものが、音声(合成)ファイル(合成音声データ)である。つまり音声(合成)ファイルを再生すると、複数のユーザの肉声が再生される。
FIG. 5 is a diagram showing details of the types of moving images and audio.
The moving image file is an existing general format moving image file composed of moving images and sound. Let the audio part of this moving image file be audio (moving image). An audio (separated) file (separated audio data) is obtained by extracting the audio (moving image) of the video file and converting it into a single audio file. An audio (erased) file (erased audio data) is obtained by deleting only the real voice from the audio (separated) using a band-pass filter to form an audio file. The real voice file that the user 400 blows in from the
図6は、音声合成の詳細を示す図である。
ユーザの音声の合成は、実時間とは非同期で実施される。つまり、音声(合成)が吹き込まれると同時に、本システムを経由し、Webブラウザ311で再生される訳ではない。例えば、動画ファイルが10分で構成されているものを取り上げる。ユーザ400aは該動画ファイルをPM12:00に見始めたと仮定する。視聴はPM12:10に終了する。一方、ユーザ400bは該ファイルをPM13:00に見始めるかも知れない。この場合、視聴はPM13:10に終了する。このユーザ400aとユーザ400bは、動画視聴に合わせて音声(吹込)ファイルを作成したとする。ユーザ400aの吹き込んだ音声(吹込)のファイルを音声(吹込)ファイル500a、ユーザ400bの吹き込んだ音声(吹込)のファイルを音声(吹込)ファイル500bとする。これらの音声(吹込)ファイルにはそれぞれ、TimeIndex機能部304により、時間軸のポインタがmsec単位で埋め込まれる。
つまり、音声(吹込)ファイル500aには、動画の時間軸に対応した00:00から10:00の間のポインタが埋め込まれている。同様に音声(吹込)ファイル500bにも00:00から10:00の間のポインタが埋め込まれている。
FIG. 6 is a diagram showing details of speech synthesis.
The user's speech synthesis is performed asynchronously with real time. That is, at the same time as the voice (synthesis) is blown, it is not reproduced by the
That is, a pointer between 0:00 and 10:00 corresponding to the time axis of the moving image is embedded in the audio (blowing)
サーバ200は、音声(吹込)ファイル500aと音声(吹込)ファイル500bを受信する。受信した音声(吹込)ファイル500aと音声(吹込)ファイル500bは、時間軸が一致するように音声波形の合成が行なわれ、音声(合成)ファイルが出力される。該音声(合成)ファイルは、動画ファイルがサーバ200からユーザ端末390へ送信されるときに、同時に送信される。また、ユーザ端末390における動画ファイル再生時に、動画ファイルと音声(合成)ファイルの時間軸が一致するように音声(合成)ファイルを再生する。この事により、動画ファイル視聴時に、あたかも他のユーザ400a、ユーザ400bの肉声が同時に聞こえているかのようなサービスを提供可能である。本サービスの名称を、動画コラボレーション、または、非同期音声再生と呼ぶ。
The
図7は、ログインにおける動画コラボレーションシステムの詳細な処理手順を示す図である。
ログインは、ユーザ端末390のWebブラウザ311に入力されたユーザID、パスワードで実施される。Webブラウザ311は、ユーザ端末390の備えるキーボードやボタンなどの入力手段によってユーザ400が入力したユーザID、パスワードの入力を受けると(ステップS1001)、サーバ200のサーバAPLベース部214へ該ユーザID、パスワードを転送する(ステップS1002)。APLベース部214は、プロトコル解析部213を起動し(ステップS1003)、プロトコル解析部213は、ユーザ端末390から受信した情報からどの機能を起動するかを選択し、選択したユーザ管理機能部205を起動する(ステップS1004)。ユーザ管理機能部205は、受信したユーザID、パスワードチェックを行う(ステップS1005)。ユーザ管理機能部205は、ユーザIDとパスワードの対応をSQL装置217から読出し(ステップS1006、S1007)、受信したユーザID及びパラメータの組みと一致するものがある場合は正当であると判断して、APLの送信指示をブラウザAPL管理機能部206へ転送する(ステップS1008、S1009)。
FIG. 7 is a diagram showing a detailed processing procedure of the video collaboration system in login.
The login is performed with the user ID and password input to the
ブラウザAPL管理機能部206は、ユーザ管理機能部205からの指示を受信し、APL送信を行う(ステップS1010)。ブラウザAPL管理機能部206は、ユーザIDからどの版のプラグインソフトウェアを必要としているかをSQL装置217から読出すと(ステップS1011、S1012)、対応するプラグインソフトウェアをサーバAPLベース部214へ転送する(ステップS1013)。サーバAPLベース部214は、プラグインソフトウェアをユーザ端末390のWebブラウザ311へ転送する(ステップS1014)。Webブラウザ311は、受信した該プラグインソフトウェアを起動する(ステップS1015)。これにより、ユーザ端末390では、ブラウザ300が動作することになる。
The browser APL
図8及び図9は、動画取込における動画コラボレーションシステムの詳細な処理手順を示す図である。
図8において、ユーザ400による指示等を契機に、動画取込がユーザ端末390の動画取込機能部303で実施される。つまり、動画取込機能部303は、ユーザが指示した動画ファイルをユーザ端末390のHDDから読出し(ステップS1101)、動画送受信機能部301へ転送する(ステップS1102)。また、メタデータ管理機能部305は、ユーザ400がユーザ端末390の入力手段により入力した文字列を受信し(ステップS1103、S1104)、この文字列をメタデータとして取込み、動画送受信機能部301へ転送する(ステップS1105)。動画ファイルとメタデータは、動画送受信機能部301からWebブラウザ311を経由し、サーバ200のサーバAPLベース部214へ転送される(ステップS1106、S1107、S1108)。
8 and 9 are diagrams illustrating a detailed processing procedure of the video collaboration system in video capture.
In FIG. 8, the moving image capturing is performed by the moving image capturing
続いて、図9において、サーバAPLベース部214は、プロトコル解析部213を起動し(ステップS1201)、プロトコル解析部213は、ユーザ端末390より受信した情報からどの機能を起動するかを選択し、選択した動画送受信機能部201を起動する(ステップS1202)。動画送受信機能部201は、動画管理機能部203を起動し(ステップS1203)、動画管理機能部203は、動画ファイルを一意に識別可能な識別子(ID)を付与する(ステップS1204)。
Subsequently, in FIG. 9, the server
動画管理機能部203は、メタデータ管理機能部211にID、メタデータを通知し(ステップS1205)、メタデータ管理機能部211は、IDをキーに検索できるように、メタデータをIDと対応づけてSQL装置217へ保存する(ステップS1206)。また、動画管理機能部203は、動画変換機能部202へIDを通知して応答を受信する(ステップS1207、S1208)。動画変換機能部202は、動画ファイルをユーザ端末390において再生可能なFLVやH264等の形式へ変換し(ステップS1209)、IDで検索できるように、変換された動画ファイルをIDと対応づけて2次記憶装置216へ保存する(ステップS1210、S1211)。
The video
ステップS1208において動画変換機能部202から応答を受信した動画管理機能部203は、音声管理機能部209を起動する(ステップS1212、S1213)。音声管理機能部209は、動画音声分離機能部204を呼び出し(ステップS1214)、動画音声分離機能部204は、音声分離を起動する(ステップS1215)。これにより、動画音声分離機能部204は、ユーザ端末390から受信した動画ファイルを読込み、読込んだ動画ファイルから音声(動画)を抜き出して、音声(分離)ファイルを作成する(ステップS1216)。動画音声分離機能部204は、IDで検索できるように、音声(分離)ファイルをIDと対応づけて2次記憶装置216へ保存する(ステップS1217)。
The video
続いて、動画音声分離機能部204は、音声管理機能部209を起動し(ステップS1218)、音声管理機能部209は、音声消去機能部208を呼び出す(ステップS1219)。これにより、音声消去機能部208は、音声消去を起動する(ステップS1220)。すなわち、音声消去機能部208は、2次記憶装置216からIDに対応した音声(分離)ファイルを読込み(ステップS1221、S1222、S1223)、人の声の周波数帯を除去するバンドパスフィルタを用いて、読込んだ音声(分離)ファイルから肉声部分を削除し、音声(消去)ファイルを作成する(ステップS1224)。音声消去機能部208は、IDで検索できるように、音声(消去)ファイルをIDと対応づけて2次記憶装置216へ保存する(ステップS1225)。
Subsequently, the moving image / voice
図10及び図11は、動画再生における動画コラボレーションシステムの詳細な処理手順を示す図である。
図10において、ユーザ400による指示等を契機に、動画再生がユーザ端末390の動画再生機能部302で実施される(ステップS1301)。動画再生機能部302は、ユーザ400がユーザ端末390の入力手段により入力した動画検索のキーとなる文字列を取込むと、動画検索を開始し(ステップS1302)、取込んだ文字列をメタデータ管理機能部305へ転送する(ステップS1303)。文字列は、メタデータ管理機能部305からWebブラウザ311を経由し、サーバ200のサーバAPLベース部214へ転送される(ステップS1304、S1305)。
10 and 11 are diagrams illustrating a detailed processing procedure of the video collaboration system in video playback.
In FIG. 10, the video playback is performed by the video
APLベース部214は、プロトコル解析部213を起動し(ステップS1306)、プロトコル解析部213は、ユーザ端末390より受信した情報からどの機能を起動するかを選択し、選択したメタデータ管理機能部211を起動する(ステップS1307)。メタデータ管理機能部211は、ユーザ端末390から受信した該文字列を用いてSQL装置217を検索すると(ステップS1308、S1309)、SQL装置217から該文字列と合致するか該文字列を含む、あるいは、該文字列と関連するメタデータに対応付けられている動画ファイルのIDの一覧が出力される(ステップS1310、S1311)。メタデータ管理機能部211は、出力されたID一覧を、サーバAPLベース部214を経由して、ユーザ端末390へ通知する(ステップS1312、S1313)。
The
ユーザ端末390のプロトコル解析部309は、Webブラウザ311を経由してサーバ200より受信した情報からどの機能を起動するかを選択し、選択したメタデータ管理機能部305を起動する(ステップS1314、S1315)。メタデータ管理機能部305は、動画再生機能部302へID一覧を転送する(ステップSS1316)。動画再生機能部302は、ID一覧をユーザ端末390のディスプレイに表示するなどして出力し、動画検索を終了する(ステップS1317)。
The
続いて、図11において、ユーザ400は、ユーザ端末390の入力手段により、出力されたID一覧から所望の動画のIDを指定する(ステップS1401)。動画再生機能部302は、指定されたIDを動画送受信機能部301へ通知し(ステップS1402)、動画送受信機能部301は、通知されたIDを、Webブラウザ311を経由して、サーバ200のサーバAPLベース部214へ転送する(ステップS1403、S1404)。
Subsequently, in FIG. 11, the user 400 designates an ID of a desired moving image from the output ID list using the input unit of the user terminal 390 (step S1401). The moving image
サーバAPLベース部214は、プロトコル解析部213を起動し(ステップS1405)、プロトコル解析部213は、受信した情報からどの機能を起動するかを選択し、選択した動画管理機能部203を起動する(ステップS1406)。動画管理機能部203は、ユーザ端末390から受信したIDと一致する動画ファイルを2次記憶装置216から読出す(ステップS1407、S1408)。読出された動画ファイルは、動画送受信機能部201へ転送され(ステップS1409)、動画送受信機能部201は、この動画ファイルを、サーバAPLベース部214を経由し、ユーザ端末390のWebブラウザ311へ転送する(ステップS1410、S1411)。
The server
ユーザ端末390のプロトコル解析部309は、Webブラウザ311を経由してサーバ200より受信した情報からどの機能を起動するかを選択する(ステップS1412)。プロトコル解析部309は、選択した動画送受信機能部301へ動画ファイルを転送し、さらに、動画送受信機能部301は、動画再生機能部302へ動画ファイルを転送する(ステップS1413、S1414)。
The
また、サーバ200において動画管理機能部203は、音声管理機能部209を起動してIDを通知する(ステップS1415)。音声管理機能部209は、IDと一致する音声(消去)ファイル、音声(合成)ファイルを2次記憶装置216から読出し(ステップS1416、S1417、S1418)、音声送受信機能部207へ転送する(ステップS1419)。音声送受信機能部207は、音声(消去)ファイル、音声(合成)ファイルを、サーバAPLベース部214を経由し、ユーザ端末390のWebブラウザ311へ転送する(ステップS1420、S1421)。
Also, in the
ユーザ端末390のプロトコル解析部309は、Webブラウザ311を経由してサーバ200より受信した情報から、どの機能を起動するかを選択する(ステップS1422)。プロトコル解析部309は、選択した音声送受信機能部306を起動し、音声送受信機能部306は、音声(消去)ファイル、音声(合成)ファイルを受信する(ステップS1423)。音声送受信機能部306は、音声(消去)ファイルと音声(合成)ファイルを、音声再生機能部307へ転送する(ステップS1424)。動画再生機能部302は、IDの送信後または動画フィアルの受信後に待ちタイマーを起動しており(ステップS1425)、この待ちタイマー満了前に、動画再生機能部302が動画ファイルを受信完了し、かつ、音声再生機能部307が音声(消去)ファイルと音声(合成)ファイルを受信完了しているかをチェックする(ステップS1426)。
The
音声再生機能部307は、もし受信完了していない場合は(ステップS1426:NO)、待ちタイマーを再び起動して一定時間後に再度チェックし(ステップS1425、S1426)、受信完了している場合は(ステップS1426:YES)、動画ファイルを再生する(ステップS1427)。音声再生機能部307は、動画ファイル再生時に音声(合成)を再生したい場合は、その旨を音声再生機能部307に指示し、音声再生機能部307は、音声(動画)をミュートして、音声(合成)ファイルを再生する(ステップS1428、S1429)。一方、音声再生機能部307は、音声(消去)を再生したい場合は、その旨を音声再生機能部307に指示し、音声再生機能部307は、音声(動画)をミュートして、音声(消去)ファイルを再生する(ステップS1430、S1431)。なお、動画ファイル再生時に音声(合成)を再生するか、音声(消去)を再生するかは、予めユーザ端末390に設定されるか、ユーザ400により指示が入力される。
If the reception is not completed (step S1426: NO), the audio
図12は、音声吹込における動画コラボレーションシステムの詳細な処理手順を示す図であり、図11に示す手順によってユーザ端末390において動画が再生されている間に実行される。
FIG. 12 is a diagram illustrating a detailed processing procedure of the moving image collaboration system in the sound blowing, and is executed while a moving image is being reproduced on the
ユーザ400による指示等を契機として、音声吹込みがユーザ端末390の音声取込機能部308で実施される(ステップS1501)。音声取込機能部308は、取込開始時に、TimeIndex機能部304を呼び出す(ステップS1502、S1503)。TimeIndex機能部304は、たとえば、動画の開始を00:00:00:00(時間:分:秒:ミリ秒)として、動画再生時間をmsec(ミリ秒)単位でカウントしており、音声取込機能部308から呼び出されたときのタイマカウンタ、すなわち、音声吹込み開始時の時刻のカウンタを通知する(ステップS1504、S1505)。音声取込機能部308は、ユーザ端末390の備えるマイク等の集音装置を用いた音声の取込みを行い、ユーザ400が音声吹込み終了指示を入力するまで、取込んだ音声のデータをメモリ等の記憶手段に保持しておく。音声取込機能部308は、音声吹込み終了指示が入力されると、TimeIndex機能部304を呼び出して音声吹込み終了時の時刻カウンタを取得し、記憶手段に保持していた音声のデータに、TimeIndex機能部304から通知された音声吹込み開始時及び終了時のタイマカウンタ(TimeIndexポインタ)を埋め込んだ音声(吹込)ファイルを生成する(ステップS1506)。音声取込機能部308は、生成した音声(吹込)ファイルを、Webブラウザ311を経由して、サーバ200のサーバAPLベース部214へ転送する(ステップS1507、S1508、S1509)。
In response to an instruction from the user 400, voice blowing is performed by the voice capturing
サーバAPLベース部214は、プロトコル解析部213を起動し(ステップS1510)、プロトコル解析部213は、ユーザ端末390より受信した情報からどの機能を起動するかを選択し、選択した音声送受信機能部207を起動する(ステップS1511)。音声送受信機能部207は、音声(吹込)を受信すると、音声管理機能部209を起動する(ステップS1512)。さらに、音声管理機能部209は、音声合成機能部210へ音声(吹込)ファイルを転送し(ステップS1513)、音声合成機能部210は、音声(吹込)ファイルをIDと対応付けて2次記憶装置216へ保存する(ステップS1514、S1513)。なお、IDは、ユーザ端末390において音声(吹込)ファイルに付加することでもよく、動画選択時にユーザ端末390から受信し、サーバ200において保持していたものでもよい。
The server
音声合成機能部210は、IDに対応した音声(合成)ファイルを2次記憶装置216から読出し(ステップS1516、S1517、S1518)、音声(吹込)ファイルと音声(合成)ファイルをメモリ上へ展開する。このとき、音声合成機能部210は、音声(吹込)ファイルを異なるユーザ端末390から複数受信し、2次記憶装置216へ保存しているものとする。
TimeIndex機能部212は、展開された各音声(吹込)ファイルと、音声(合成)ファイルのTimeIndexを読み出し(ステップS1519、S1520、S1521)、音声合成機能部210は、各音声(吹込)ファイルと音声(合成)のTimelndexポインタが一致するように音声波形を合成して、新規の音声(合成)ファイルを作成し、2次記憶装置216へこの新規の音声(合成)をIDと対応付けて保存する(ステップS1522、S1523)。これにより、新規の音声(合成)ファイルは、2次記憶装置216への登録後に、当該IDの動画を要求してきたユーザ端末390に送信されることになる。
The voice
The
以上説明したように、この発明によれば、以下の効果を得る事ができる。
すなわち、サーバから配信する動画の視聴者間で肉声が共有して、動画コラボレーションが実現され、あたかもLiveコンサート会場にいるかのような音場の共有が可能になる。
As described above, according to the present invention, the following effects can be obtained.
That is, the real voice is shared between the viewers of the video distributed from the server, and the video collaboration is realized, and the sound field can be shared as if it is in a live concert venue.
なお、上述のユーザ端末390、及び、サーバ200は、内部にコンピュータシステムを有している。そして、上述したユーザ端末390のブラウザ300及びWebブラウザ311、ならびに、サーバ200のプロトコル解析部213、サーバAPLベース部214、及び、サーバAPLメイン部215の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、CPUや各種メモリ、OSや周辺機器等のハードウェアを含むものである。また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
The
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。 The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
100…ネットワーク
200…サーバ
201…動画送受信機能部(動画送信手段、登録動画受信手段)
202…動画変換機能部(動画登録手段、動画変換手段)
203…動画管理機能部
204…動画音声分離機能部
205…ユーザ管理機能部(ユーザ管理手段)
206…ブラウザAPL管理機能部(アプリケーション管理手段)
207…音声送受信機能部(音声送信手段)
208…音声消去機能部(音声消去手段)
209…音声管理機能部
210…音声合成機能部(音声合成手段)
211…メタデータ管理機能部(メタデータ管理手段)
212…TimeIndex機能部
213…プロトコル解析部
214…サーバAPLベース部
215…サーバAPLメイン部
216…2次記憶装置(記憶手段)
217…SQL装置(記憶手段)
300…ブラウザ
301…動画送受信機能部(動画受信手段)
302…動画再生機能部(動画再生手段、検索要求手段、一覧受信手段、識別子送信手段、登録動画送信手段)
303…動画取込機能部
304…TimeIndex機能部
305…メタデータ管理機能部
306…音声送受信機能部(音声受信手段、吹込音声送信手段)
307…音声再生機能部
308…音声取込機能部
309…プロトコル解析部
310…ブラウザAPLメイン部
311…Webブラウザ(認証要求手段)
390…ユーザ端末
400、400a、400b、400c…ユーザ
DESCRIPTION OF SYMBOLS 100 ...
202 ... moving image conversion function unit (moving image registration means, moving image conversion means)
203 ... Movie
206: Browser APL management function unit (application management means)
207 ... Audio transmission / reception function unit (audio transmission means)
208 ... Voice erasure function section (voice erasure means)
209 ... voice
211 ... Metadata management function unit (metadata management means)
212 ...
217 ... SQL device (storage means)
300 ...
302 ... Movie playback function unit (video playback unit, search request unit, list reception unit, identifier transmission unit, registered video transmission unit)
303 ... Movie
307 ... Audio
390: User terminal 400, 400a, 400b, 400c ... User
Claims (9)
前記サーバは、
前記端末から受信した、動画の再生時刻に対応付けられた音声のデータである吹込音声データを複数用いて、動画の再生時刻が合致するように複数の音声を合成し、合成音声データを生成する音声合成手段と、
前記端末へ動画データを送信する動画送信手段と、
前記動画送信手段が送信する動画データに併せて、前記音声合成手段が生成した合成音声データを前記端末へ送信する音声送信手段と
を備え、
前記端末は、
前記サーバから動画データを受信する動画受信手段と、
前記動画受信手段が受信した動画データを再生する動画再生手段と、
前記動画データに併せて前記サーバから合成音声データを受信する音声受信手段と、
前記音声受信手段が受信した合成音声データの音声を再生する音声再生手段と、
自端末に吹き込まれ、動画の再生時刻に対応付けられた音声のデータである吹込音声データを、前記サーバへ送信する吹込音声送信手段と
を備える、
ことを特徴とする動画コラボレーションシステム。 A video collaboration system in which a server that distributes a video and a terminal that plays back the video are connected via a network,
The server
Using a plurality of blowing audio data received from the terminal, which is audio data associated with the reproduction time of the moving image, a plurality of sounds are synthesized so that the reproduction time of the moving image matches, and synthesized audio data is generated. Speech synthesis means;
Video transmission means for transmitting video data to the terminal;
In addition to the moving image data transmitted by the moving image transmitting means, voice transmitting means for transmitting the synthesized voice data generated by the voice synthesizing means to the terminal,
The terminal
Moving image receiving means for receiving moving image data from the server;
Video playback means for playing back the video data received by the video reception means;
Voice receiving means for receiving synthesized voice data from the server together with the video data;
Voice reproducing means for reproducing the voice of the synthesized voice data received by the voice receiving means;
Injecting sound transmitting means for transmitting to the server injecting sound data, which is sound data that is injected into the terminal and is associated with the playback time of the video,
A video collaboration system characterized by this.
検索文字列を前記サーバへ送信する検索要求手段と、
前記検索要求手段によって送信した検索文字列に対応して、前記サーバから動画データの識別子の一覧を受信する一覧受信手段と、
前記一覧受信手段が受信した一覧の中から選択した識別子を前記サーバへ送信する識別子送信手段とをさらに備え、
前記サーバは、
動画データ及び合成音声データを識別子と対応付けて記憶するとともに、動画データのメタデータ及び識別子を対応付けて記憶する記憶手段と、
前記端末から受信した検索文字列により前記記憶手段を検索し、検索の結果得られた識別子の一覧を取得し、前記端末へ返送するメタデータ管理手段とをさらに備え、
前記動画送信手段は、前記端末から受信した識別子に対応する動画データを前記記憶手段から読み出して返送し、
前記音声送信手段は、前記端末から受信した識別子に対応する合成音声データを前記記憶手段から読み出して返送する、
ことを特徴とする請求項1に記載の動画コラボレーションシステム。 The terminal
Search request means for transmitting a search string to the server;
In response to the search character string transmitted by the search request means, a list receiving means for receiving a list of video data identifiers from the server;
An identifier sending means for sending an identifier selected from the list received by the list receiving means to the server;
The server
Storage means for storing the moving image data and the synthesized audio data in association with the identifier, and storing the metadata of the moving image data and the identifier in association with each other;
Metadata search means for searching the storage means by a search character string received from the terminal, obtaining a list of identifiers obtained as a result of the search, and returning the list to the terminal;
The moving picture transmission means reads out the moving picture data corresponding to the identifier received from the terminal from the storage means and returns it,
The voice transmission means reads out the synthesized voice data corresponding to the identifier received from the terminal from the storage means and returns it;
The moving image collaboration system according to claim 1.
前記音声送信手段は、前記端末から受信した識別子に対応する消去音声データを前記記憶手段から読み出して返送し、
前記音声受信手段は、前記動画データに併せて前記サーバから、消去音声データを受信し、
前記音声再生手段は、前記動画データの音声を消音して、前記消去音声データを再生する、
ことを特徴とする請求項2に記載の動画コラボレーションシステム。 The storage means further stores erased voice data, which is voice data obtained by erasing a human voice from the voice of the moving image data, in association with the identifier,
The voice transmission means reads out erase voice data corresponding to the identifier received from the terminal from the storage means and returns it,
The audio receiving means receives erased audio data from the server together with the moving image data,
The sound reproduction means mutes the sound of the moving image data and reproduces the erased sound data.
The moving picture collaboration system according to claim 2.
動画データと、当該動画データのメタデータを前記サーバへ送信する登録動画送信手段をさらに備え、
前記サーバは、
前記端末から動画データとメタデータを受信する登録動画受信手段と、
動画データの識別子と対応づけて、前記登録動画受信手段が受信した動画データ及びメタデータを前記記憶手段に書き込む動画登録手段と、
前記登録動画受信手段が受信した動画データから、音声のみを抜き出した分離音声データを生成し、当該分離音声データから人の声を除いて消去音声データを生成し、生成した消去音声データを前記識別子と対応付けて前記記憶手段に保存する音声消去手段とをさらに備える、
ことを特徴とする請求項3に記載の動画コラボレーションシステム。 The terminal
It further comprises registered video transmission means for transmitting video data and metadata of the video data to the server,
The server
Registered moving image receiving means for receiving moving image data and metadata from the terminal;
A moving picture registration means for writing the moving picture data and metadata received by the registered moving picture receiving means in the storage means in association with the identifier of the moving picture data;
From the moving image data received by the registered moving image receiving means, separated audio data is generated by extracting only audio, erasure audio data is generated by removing human voice from the separated audio data, and the generated erasure audio data is assigned to the identifier Voice erasure means for storing in the storage means in association with
The moving picture collaboration system according to claim 3.
ユーザの認証情報を前記サーバへ送信する認証要求手段をさらに備え、
前記サーバは、
前記端末からユーザの認証情報を受信し、当該認証情報によって認証を行うユーザ管理手段と、
前記ユーザ管理手段によって認証された場合に、前記ユーザに対応したプラグインソフトウェアを前記端末へ返送するアプリケーション管理手段とをさらに備え、
前記端末は、前記認証要求手段により送信した認証情報が認証された場合に返送されるプラグインソフトウェアにより、前記動画受信手段、前記動画再生手段、前記音声受信手段、前記音声再生手段、及び、前記吹込音声送信手段を生成する、
ことを特徴とする請求項1に記載の動画コラボレーションシステム。 The terminal
Further comprising authentication request means for transmitting user authentication information to the server;
The server
User management means for receiving user authentication information from the terminal and authenticating with the authentication information;
Application management means for returning plug-in software corresponding to the user to the terminal when authenticated by the user management means;
The terminal uses plug-in software that is returned when the authentication information transmitted by the authentication requesting unit is authenticated, the moving image receiving unit, the moving image reproducing unit, the audio receiving unit, the audio reproducing unit, and the Generating a blowing voice transmission means;
The moving image collaboration system according to claim 1.
前記動画データを、前記動画再生手段によって再生可能なデータ形式に変換する動画変換手段をさらに備える、
ことを特徴とする請求項1から請求項5のいずれかの項に記載の動画コラボレーションシステム。 The server
A moving image conversion means for converting the moving image data into a data format reproducible by the moving image reproduction means;
The moving image collaboration system according to any one of claims 1 to 5, wherein
前記サーバにおいて、
音声合成手段が、前記端末から受信した、動画の再生時刻に対応付けられた音声のデータである吹込音声データを複数用いて、動画の再生時刻が合致するように複数の音声を合成し、合成音声データを生成する音声合成過程と、
動画送信手段が、前記端末へ動画データを送信する動画送信過程と、
音声送信手段が、前記動画送信過程において送信する動画データに併せて、前記音声合成過程において生成した合成音声データを前記端末へ送信する音声送信過程と
を有し、
前記端末において、
動画受信手段が、前記サーバから動画データを受信する動画受信過程と、
動画再生手段が、前記動画受信手段が受信した動画データを再生する動画再生過程と、
音声受信手段が、前記動画データに併せて前記サーバから合成音声データを受信する音声受信過程と、
音声再生手段が、前記音声受信過程において受信した合成音声データの音声を再生する音声再生過程と、
吹込音声送信手段が、自端末に吹き込まれ、動画の再生時刻に対応付けられた音声のデータである吹込音声データを、前記サーバへ送信する吹込音声送信過程と
を有する、
ことを特徴とする動画コラボレーション方法。 A video collaboration method used in a video collaboration system in which a server that distributes a video and a terminal that plays back the video are connected via a network,
In the server,
The voice synthesizing unit synthesizes and synthesizes a plurality of sounds so that the reproduction times of the moving images match using a plurality of blown-in audio data received from the terminal and corresponding to the reproduction times of the moving images. A speech synthesis process for generating speech data;
A moving image transmitting means for transmitting moving image data to the terminal;
A voice transmission step in which voice transmission means transmits the synthesized voice data generated in the voice synthesis process to the terminal together with the video data to be transmitted in the video transmission process;
In the terminal,
A moving picture receiving means for receiving moving picture data from the server;
A moving image reproducing means for reproducing the moving image data received by the moving image receiving means;
An audio receiving means for receiving synthesized audio data from the server together with the moving image data; and
An audio reproduction means for reproducing audio of the synthesized audio data received in the audio reception process;
Insufflation sound transmitting means includes insufflation sound transmission process for transmitting insufflation sound data, which is sound data associated with the playback time of the moving image, to the server.
A video collaboration method characterized by this.
前記端末から受信した、動画の再生時刻に対応付けられた音声のデータである吹込音声データを複数用いて、動画の再生時刻が合致するように複数の音声を合成し、合成音声データを生成する音声合成手段、
前記端末へ動画データを送信する動画送信手段、
前記動画送信手段が送信する動画データに併せて、前記音声合成手段が生成した合成音声データを前記端末へ送信する音声送信手段、
として動作させることを特徴とするコンピュータプログラム。 A computer used as the server of a video collaboration system in which a server that distributes a video and a terminal that plays back the video are connected via a network.
Using a plurality of blowing audio data received from the terminal, which is audio data associated with the reproduction time of the moving image, a plurality of sounds are synthesized so that the reproduction time of the moving image matches, and synthesized audio data is generated. Speech synthesis means,
Video transmission means for transmitting video data to the terminal;
Voice transmitting means for transmitting the synthesized voice data generated by the voice synthesizing means to the terminal together with the moving picture data transmitted by the moving picture transmitting means;
A computer program that operates as a computer program.
前記サーバから動画データを受信する動画受信手段、
前記動画受信手段が受信した動画データを再生する動画再生手段、
前記動画データに併せて前記サーバから、複数の端末より送信された複数の吹込音声データを用いて、動画の再生時刻が合致するように複数の音声を合成して生成された合成音声データを受信する音声受信手段、
前記音声受信手段が受信した合成音声データの音声を再生する音声再生手段、
自端末に吹き込まれ、動画の再生時刻に対応付けられた音声のデータである吹込音声データを、前記サーバへ送信する吹込音声送信手段、
として動作させることを特徴とするコンピュータプログラム。 A computer used as the terminal of a video collaboration system in which a server that distributes a video and a terminal that plays back the video are connected via a network.
Moving image receiving means for receiving moving image data from the server;
Moving image reproducing means for reproducing moving image data received by the moving image receiving means;
Combined with the moving image data, the synthesized audio data generated by synthesizing a plurality of sounds so that the reproduction times of the moving images match using a plurality of blown sound data transmitted from a plurality of terminals. Voice receiving means,
Voice reproduction means for reproducing the voice of the synthesized voice data received by the voice reception means;
Insufflation sound transmitting means for transmitting insufflation sound data, which is sound data associated with the playback time of the moving image, to the server,
A computer program that operates as a computer program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008113870A JP2009267693A (en) | 2008-04-24 | 2008-04-24 | Moving image collaboration system and method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008113870A JP2009267693A (en) | 2008-04-24 | 2008-04-24 | Moving image collaboration system and method, and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009267693A true JP2009267693A (en) | 2009-11-12 |
Family
ID=41392997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008113870A Pending JP2009267693A (en) | 2008-04-24 | 2008-04-24 | Moving image collaboration system and method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009267693A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011160151A (en) * | 2010-01-29 | 2011-08-18 | Toshiba Corp | Electronic equipment, video reproducing system, and video reproducing method |
JP2012073379A (en) * | 2010-09-28 | 2012-04-12 | Xing Inc | Video information distribution system |
JP2012182724A (en) * | 2011-03-02 | 2012-09-20 | Kddi Corp | Moving image combining system, moving image combining method, moving image combining program and storage medium of the same |
JP2013156543A (en) * | 2012-01-31 | 2013-08-15 | Brother Ind Ltd | Posting reproducer and program |
-
2008
- 2008-04-24 JP JP2008113870A patent/JP2009267693A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011160151A (en) * | 2010-01-29 | 2011-08-18 | Toshiba Corp | Electronic equipment, video reproducing system, and video reproducing method |
JP2012073379A (en) * | 2010-09-28 | 2012-04-12 | Xing Inc | Video information distribution system |
JP2012182724A (en) * | 2011-03-02 | 2012-09-20 | Kddi Corp | Moving image combining system, moving image combining method, moving image combining program and storage medium of the same |
JP2013156543A (en) * | 2012-01-31 | 2013-08-15 | Brother Ind Ltd | Posting reproducer and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100425072C (en) | Information-processing apparatus, information-processing methods, recording mediums, and programs | |
JP4664207B2 (en) | Reproducing apparatus, server apparatus, reproducing method, electronic bulletin board information providing method, and computer program | |
US7848493B2 (en) | System and method for capturing media | |
JP5145937B2 (en) | Content playback method and apparatus with playback start position control | |
CN104869467A (en) | Information output method and system for media playing, and apparatuses | |
JP2022000955A (en) | Scene sharing system | |
JP2009267693A (en) | Moving image collaboration system and method, and computer program | |
JP2007329833A (en) | Information processing system, recording and reproducing device, reproducing terminal, information processing method and program | |
JP2014011682A (en) | Video processor, and control method thereof | |
JP4030440B2 (en) | Message reproducing apparatus, message recording and reproducing method, and program | |
JP5306550B2 (en) | Video analysis information transmitting apparatus, video analysis information distribution system and distribution method, video viewing system and video viewing method | |
JPWO2007043427A1 (en) | Viewing device | |
CA2985731C (en) | Voice/manual activated and integrated audio/video multi-media, multi-in terface system | |
JP2007156893A (en) | Information processing device, meta data management server, information processing system, and meta data management method | |
KR102523813B1 (en) | Video streaming service server that enables keyword-based search for video and operating method thereof | |
JP2002335478A (en) | Video recording reproducing system | |
JP2002051320A (en) | Data recorder, performance recording system comprising it, performance admission ticket, data recording program and computer readable recording medium recording that program | |
Suzuki et al. | AnnoTone: Record-time audio watermarking for context-aware video editing | |
JP7479995B2 (en) | Karaoke equipment | |
JP5073535B2 (en) | CONTENT REPRODUCTION DEVICE, CONTENT REPRODUCTION METHOD, CONTENT REPRODUCTION SYSTEM, CONTENT REPRODUCTION PROGRAM, AND RECORDING MEDIUM CONTAINING THE PROGRAM | |
JP2009130644A (en) | Communication equipment, communication method, program, and storage medium | |
JP5452400B2 (en) | Content reproducing apparatus and combination method description data providing apparatus | |
JP7118379B1 (en) | VIDEO EDITING DEVICE, VIDEO EDITING METHOD, AND COMPUTER PROGRAM | |
KR100671147B1 (en) | Apparatus for experiencing famous scene and Method thereof | |
JP2006067255A (en) | System, server and program for automatic video recording of television broadcast program |