JP2010230948A

JP2010230948A - コンテンツ配信システムおよびテキスト表示方法

Info

Publication number: JP2010230948A
Application number: JP2009077999A
Authority: JP
Inventors: Aki Komatsu; 亜紀小松; Koichiro Fukushi; 幸一郎福士
Original assignee: Hitachi East Japan Solutions Ltd
Current assignee: Hitachi Solutions East Japan Ltd
Priority date: 2009-03-27
Filing date: 2009-03-27
Publication date: 2010-10-14

Abstract

【課題】字幕付きコンテンツの配信サービスの普及を促進させる。
【解決手段】端末１はオンデマンドでコンテンツの配信を配信サーバ２に要求したとき、端末１は配信サーバ２からコンテンツを取得するとともに音声のテキスト化に必要なプラグインの所在を取得して、インターネット４上でそのプラグインを取得し、端末１にインストールされているコンテンツ閲覧用のブラウザの機能を拡張させる。そして、端末１はそのプラグインの機能により音声解析サーバ３に音声のテキスト化を要求すると、音声解析サーバ３から音声のテキストを取得し、取得したコンテンツとともに、そのテキストが字幕として表示される。端末１はブラウザを拡張させるだけで済み、配信サーバ２には音声解析用の設備を導入する必要が無く、音声解析サーバ３はコンテンツを有していなくともコンテンツ配信事業に参入できるので、字幕付きコンテンツの配信サービスはよりいっそう普及する。
【選択図】図１

Description

本発明は、音声を含むコンテンツを配信する技術に関する。

ネットワーク上の視聴者の端末（例：ＰＣ（Personal Computer））に、ストリーミング等で音声を含むコンテンツを配信するときに、その音声をテキスト化して字幕のようにして配信する技術が知られている。

例えば、特許文献１には、元々音声はあるが、字幕は無いビデオ映像ファイルに対し、その音声の字幕テキストファイルを生成し、その字幕テキストファイルを含むビデオ映像ファイルに作り変える旨の技術が開示されている。

また、特許文献２には、インターネット上で、基地局装置、翻訳サーバ、モニタ装置が通信可能に接続されたシステムにおいて、翻訳を含むストリーミングデータがモニタ装置に送信される旨の技術が開示されている。具体的には、基地局装置からストリーミング送信された映像／音声データに対し、翻訳サーバが音声認識に基づく翻訳メタデータを付加し、その付加された映像／音声データがストリーミングデータとしてモニタ装置に送信される。

特開２００２−３７４４９４号公報（要約等）特開２００５−２１０１９６号公報（要約、図２等）

一般的に、コンテンツを配信する企業が視聴者にコンテンツを配信する場合、その配信を実現するための専用の設備（ソフトウェア的なものもあるし、ハードウェア的なものもある）を企業側、場合によっては視聴者側に搭載し、企業が有するサーバ、視聴者が有する端末を高性能化する必要がある。

例えば、音声を含むコンテンツに字幕を付ける場合、企業側はその音声の抽出や解析をする設備をサーバに搭載するだけでなく、字幕の言語を決め、その言語に応じた翻訳実行用の設備もサーバに搭載する必要がある。視聴者側は、場合によっては前記サーバから配信される字幕付きのコンテンツを再生するための設備を端末に搭載する必要がある。しかし、サーバや端末を高性能化すれば、企業側であれ、視聴者側であれ、その導入費用、維持費用等のコストがかさみ、そのコンテンツを利用する者が限られ、結果的には、字幕付きコンテンツの配信サービスの普及が停滞してしまう。このような傾向は、配信するコンテンツの品質を向上させようとすれば尚更である。

特許文献１の技術では、企業側のサーバに、字幕テキストファイルを含むビデオ映像ファイルに作り変えるための専用のソフトウェア等を備える必要が生じてしまう。しかし、そのようなソフトウェア等を導入する余裕が無い企業にとっては無用の長物である。

また、特許文献２の技術では、翻訳サーバが映像／音声データを解析または翻訳をするため、解析や翻訳に必要な設備を基地局装置が備える必要が無いという点で、部分的には、コストの削減に繋がる。しかし、翻訳メタデータを付けるために、基地局装置が翻訳サーバに映像／音声データを送信しているため、モニタ装置が翻訳サーバからストリーミングデータを受信するという形態をとっている。このように、コンテンツ（ストリーミングデータ）を入手する経路が変更してしまうため、その変更に応じた設備を、企業側、場合によっては視聴者側に搭載する必要がある。結果的には、コストの削減が不十分であり、字幕付きコンテンツの配信サービスの普及が停滞してしまう。

そこで、本発明では、字幕付きコンテンツの配信サービスの普及を促進させることを目的とする。

前記課題を解決するため、本発明では、音声を含むコンテンツを配信する配信サーバと、音声をテキスト化する音声解析サーバと、音声を含むコンテンツを字幕付きで視聴できる端末がネットワーク上で通信可能に接続されたシステムを構成する。このシステムにおいて、端末側はオンデマンドでコンテンツの配信を配信サーバに要求したとき、端末は配信サーバからコンテンツを取得するとともに音声のテキスト化に必要なプラグインの所在を取得して、ネットワーク上でそのプラグインを取得し、端末にインストールされているコンテンツ閲覧用のブラウザの機能を拡張させる。そして、端末はそのプラグインの機能により音声解析サーバに音声のテキスト化を要求すると、音声解析サーバから音声のテキストを取得し、取得したコンテンツとともに、そのテキストが字幕として表示される。テキストの表示態様は様々であるが、コンテンツのデータとテキストのデータは別々であり、特許文献１のように、配信されたコンテンツを字幕付きのコンテンツに作り変えるような処理は基本的には行われない。また、端末はコンテンツを配信サーバから取得する経路をとっており、特許文献２のように、音声解析サーバから取得する経路をとらない。

配信サーバは、配信するコンテンツに含まれる音声を解析または翻訳をする専用の設備を搭載する必要が無い（既存設備で良い）という点で、コストを削減することができる。また、視聴者は、ネットワーク上で表示されているプラグインを端末にインストールし、端末に元々搭載されているブラウザを拡張するだけで済むので、視聴者側に専用の設備を搭載する必要が無いという点で、コストを削減することができる。また、音声解析サーバを備えた業者は、コンテンツを有することがないので、音声解析技術を適用できる事業範囲を拡大することが可能である。よって、字幕付きコンテンツの配信サービスを利用する者が増え、そのサービスの普及は従来よりも促進される。
詳細は、後記する。

本発明によれば、字幕付きコンテンツの配信サービスの普及を促進させることができる。

本実施形態のコンテンツ配信システムの全体構成図である。端末のソフトウェア構成図である。配信サーバのソフトウェア構成図である。音声解析サーバのソフトウェア構成図である。コンテンツ配信システムにおいて実行される処理の一例を示すシーケンスチャートである。コンテンツ配信システムにおいて実行される処理の一例を示すシーケンスチャートである。コンテンツ配信用のＨＴＭＬ文書の一例である。

次に、本発明を実施するための形態（以下、「実施形態」という。）について、適宜図面を参照しながら説明する。なお、本実施形態では、特に説明しない限り、単に「コンテンツ」と称するときは、音声を含むコンテンツを指すものとする。

≪第１の実施形態≫
≪構成≫
まず、本実施形態のコンテンツ配信システムのハードウェア構成について説明する。
図１は、本実施形態のコンテンツ配信システムの全体構成図である。このコンテンツ配信システムは、端末１と、配信サーバ２と、音声解析サーバ３とが、通信網としてのインターネット４上で通信可能に接続して構成されている。

端末１は、コンテンツを視聴する視聴者が有し、例えばＰＣまたは携帯端末である。
配信サーバ２は、コンテンツを配信し、かつ配信されるコンテンツを紹介するウェブサイトを公開する企業が有する。
音声解析サーバ３は、コンテンツに含まれる音声を解析し、その音声をテキスト化する事業を行う業者が有する。

端末１は、入力部１１、記憶部１２、制御部１３および出力部（表示部）１４といったハードウェア資源を備えたコンピュータである。
入力部１１は、外部から入力されるデータを受け付ける機能を有する。この入力部１１は、例えばユーザ（この場合は視聴者）の操作を受け付けるキーボード、ポインティングデバイス等や、インターネット４上から受信するデータの入力を受け付ける入力ポート、入力コントローラ等により実現される。

記憶部１２は、端末１が外部から受信した、または内部の演算処理による演算結果を、一時的、または半永久的に記憶する機能を有する。この記憶部１２は、例えば読み書きされる情報を展開するための記憶領域として機能するＲＡＭ（Random Access Memory）や、演算処理が実行されるために読み取り対象となるプログラムや前記演算処理が実行されるときに使用されるデータベース等を記憶する外部記憶装置として機能するＨＤＤ（Hard Disk Drive）等で実現される。

制御部１３は、外部から取得した、または記憶部１２から読み出したデータに対し、所定の演算処理を実行し演算結果を出力する機能を有する。この制御部１３は、例えばＣＰＵ（Central Processing Unit：中央処理装置）等で実現される。

出力部１４は、制御部１３による演算結果を、所定の表示態様やファイル形式で、ユーザや外部へ出力する機能を有する。この出力部１４は、例えばインターネット４上に送信または公開するデータの出力を受け付ける出力ポート、出力コントローラ等や、制御部１３による演算結果（動画、音声、テキスト等）を表示するディスプレイ、スピーカ等により実現される。

制御部１３は、前記プログラムを記憶したＲＯＭ（Read Only Memory：記録媒体）からそのプログラムを読み出して、所定の演算処理を実行しても良い。記録媒体に記憶されたプログラムは、記憶部１２にインストールされ、制御部１３はインストールされたプログラムにより命令される処理を実行し、当該プログラムに係る機能を実現することができる。また、プログラムにより実現される機能は、そのままソフトウェアとして論理的に実現しても良いし、専用ＬＳＩ（Large Scale Integration）等によりハードウェアとして実現しても良いし、ソフトウェアとハードウェアの組み合わせにより実現しても良い。

配信サーバ２は、入力部２１、記憶部２２、制御部２３および出力部２４といったハードウェア資源を備えたコンピュータである。入力部２１、記憶部２２、制御部２３および出力部２４はそれぞれ、入力部１１、記憶部１２、制御部１３および出力部１４と比べると、その品質、性能、製品において異なるものの、機能は（本実施形態の技術上で関係のある範囲内ではほぼ）同じである。よって、これらの説明は省略する。

音声解析サーバ３は、入力部３１、記憶部３２、制御部３３および出力部３４といったハードウェア資源を備えたコンピュータである。入力部３１、記憶部３２、制御部３３および出力部３４はそれぞれ、入力部１１、記憶部１２、制御部１３および出力部１４と比べると、その品質、性能、製品等において異なるものの、機能は（本実施形態の技術上で関係のある範囲内ではほぼ）同じである。よって、これらの説明は省略する。
なお、音声解析サーバ３は、１台のコンピュータで構成しても良いが、クラウドやグリッド等のようにして複数のコンピュータで構成しても良い。

次に、本実施形態のコンテンツ配信システムのソフトウェア構成について説明する。
図２は、端末のソフトウェア構成図である。端末１の記憶部１２には、ウェブページ閲覧部（閲覧部）１２１、コンテンツ再生部（再生部）１２２、音声テキスト化要求部１２３およびテキスト表示制御部１２４と称する各機能部がプログラムとして記憶されている。制御部１３がこれらのプログラムを読み出し、そのプログラムに記述されたコードに従って処理を実行すると、各機能部による機能が実現される。

ウェブページ閲覧部１２１は、いわゆるブラウザであり、インターネット４上で公開されているウェブサイト（配信サーバ２により提供されるウェブサイトを含む。）を閲覧する機能を有する。
コンテンツ再生部１２２は、配信サーバ２から配信されるコンテンツを再生する機能を有する。コンテンツ再生部１２２は、例えばブラウザの機能を拡張させるプラグイン（コンテンツ再生用プラグイン）であっても良いし、ブラウザとは独立に動作するプログラム（アプリケーション）であっても良い。
音声テキスト化要求部１２３は、音声解析サーバ３に対し、コンテンツの音声をテキスト化するように要求する機能を有する。

テキスト表示制御部１２４は、音声解析サーバ３から受信したテキスト（コンテンツの音声をテキスト化したテキスト）を所定の表示態様で表示するように制御する。このテキスト表示制御部１２４は、ブラウザの機能を拡張させるプラグイン（テキスト表示用プラグイン）であり、端末１が元から備えていたわけではないが、配信サーバ２からの情報開示に従い、インターネット４に公開済みのプログラム（例：フリーウェア、シェアウェア）を取得したものである。

図３は、配信サーバのソフトウェア構成図である。配信サーバ２の記憶部２２には、ウェブページ提供部２２１および音声テキスト化奨励部２２２と称する各機能部がプログラムとして記憶されている。制御部２３がこれらのプログラムを読み出し、そのプログラムに記述されたコードに従って処理を実行すると、各機能部による機能が実現される。また、記憶部２２には、コンテンツデータベース２２３が記憶されている。

ウェブページ提供部２２１は、インターネット４上に公開するウェブサイトを、例えばＨＴＭＬ（HyperText Markup Language）形式で提供する機能を有する。

音声テキスト化奨励部２２２は、端末１の視聴者に対し、コンテンツの音声をテキスト表示するための情報開示を行う機能を有する。前記情報開示は、テキスト表示用プラグインの所在（例：ＵＲＬ（Uniform Resource Locator））の送信を、例えば配信サーバ２からのコンテンツの配信に併せて行われる。

コンテンツデータベース２２３は、配信サーバ２を有する企業が取り扱うコンテンツを記憶して管理するデータベースである。例えば、コンテンツごとに、コンテンツの所有者、利用権限、音声の使用言語、ファイル形式等が対応付けられて管理されている。

図４は、音声解析サーバのソフトウェア構成図である。音声解析サーバ３の記憶部３２には、音声取得部３２１、音声解析部３２２、音声テキスト化実行部３２３およびテキスト翻訳部３２４と称する各機能部がプログラムとして記憶されている。制御部３３がこれらのプログラムを読み出し、そのプログラムに記述されたコードに従って処理を実行すると、各機能部による機能が実現される。また、記憶部３２には、音響データベース３２５、辞書データベース３２６および言語モデルデータベース３２７が、言語（言語Ａ、言語Ｂ、言語Ｃ、・・・）ごとに記憶されている。

音声取得部３２１は、端末１からのテキスト化の要求に対し、配信サーバ２から、端末１に配信したコンテンツを取得し、コンテンツから音声を抽出する機能を有する。
音声解析部３２２は、コンテンツから抽出した音声を解析して、音声をデコード化した後、音声認識用の特徴量に変換する機能を有する。ノイズ等のような音声認識に無用の部分は除去される。

音声テキスト化実行部３２３は、音声認識用の特徴量、音響データベース３２５、辞書データベース３２６および言語モデルデータベース３２７に基づいて、演算結果として音声部分のテキストを出力する機能を有する。
音響データベース３２５は、少なくとも音声認識用の音素を、言語ごとに記憶して管理するデータベースである。
辞書データベース３２６は、少なくとも音声認識の対象となる単語を、言語ごとに記憶して管理するデータベースである。
言語モデルデータベース３２７は、少なくとも単語の並びを特定するのに必要なパラメータ（例：確率）を、言語ごとに記憶して管理するデータベースである。

音声解析サーバ３が行う音声認識は、例えば音響の情報と言語の情報とを統合的に判断して行うものであり、この判断には確率統計的な手法を用いる。
まず、音声認識用の特徴量を、音響データベース３２５の音素（例：「イ」「シ」等の発音記号）と照合し、取得した音声がどのような音素の並びを有するかを計算する。この計算により、音素列を、確率付きで求める。例えば、「医師」という音声に対して、「イ／シ」という音素列だけでなく、「キ／シ」「イ／チ」「イ／ニ」・・・といった類似した発音記号の並びが、それぞれ特徴量と一致する度合いを示す確率付きで求められる。

次に、この音素列を辞書データベース３２６の単語と照合し、音素列と単語とを対応付ける。例えば、「イ／シ」「キ／シ」「イ／チ」は辞書に登録されているから認識結果となるが、「イ／ニ」は登録されていないから認識結果にならないとして、単語の候補を特定していく。なお、単語の候補の特定は、同音異義語についても行われる（例：医師、意思、石、・・・）。

次に、候補となった単語を言語モデルデータベース３２７のパラメータ（確率）と照合し、確率が最も高くなる単語を決定する。音声認識しようとするフレーズを決定するために、言語モデルデータベース３２７には、フレーズを構成する単語の出現確率や前後の単語との接続確率が記憶されており、単語を決定するときには、前後の単語との関係性を参照する。例えば、元々の音声が「私は医師です」というフレーズであれば、「医師」の前後に「私」「は」「です」とあるので、「意思」や「石」ではなく、「医師」とすべきであると判断できる。このとき、「私」「は」「です」という単語に対する「医師」の出現確率、接続確率は相対的に高い値が、「意思」や「石」の出現確率、接続確率は相対的に低い値が、言語の情報として言語モデルデータベース３２７に登録されている。

このような処理を経て、音声認識の認識結果を出力し、その認識結果をテキスト化する。テキスト化したときのテキストは端末１に送信される。

なお、音響の情報を言語モデルデータベース３２７に含ませることで、発話者の言い間違いを修正したうえでテキストを出力することができる。例えば、発話者が間違って、「私は医師です」というところを「私は『位置』です」と言ってしまった場合、「私」「は」「です」という単語に対する「位置」の出現確率、接続確率は相対的に非常に低い値を言語モデルデータベース３２７に登録するように設定する。すると、「医師」の出現確率、接続確率と比較すれば、「医師」の出現確率、接続確率のほうが高い値を示すので、「位置」を「医師」に書き換えて「私は医師です」というテキストを出力するといった処理を行うことができる。このように言語の情報だけでなく音響の情報も考慮して総合的に音声認識を行う。なお、音響の情報の用途は、このような言い間違えの場合に限定されない。

テキスト翻訳部３２４は、ある言語で特定したテキストを別の言語に翻訳する機能を有する。翻訳するときには、例えば翻訳元の、つまりコンテンツに含まれる音声の言語（例：言語Ａ）に関する辞書データベース３２６および言語モデルデータベース３２７と、翻訳したい言語（例：言語Ｂ）に関する辞書データベース３２６および言語モデルデータベース３２７に基づいて、周知の翻訳の情報処理技術（詳細な説明は省略）を活用して実行する。これらのデータベースを用いない翻訳の情報処理であっても良い。

≪処理≫
次に、本実施形態のコンテンツ配信システムにおいて実行される処理について説明する。
図５（図５Ａおよび図５Ｂの総称）は、本実施形態のコンテンツ配信システムにおいて実行される処理の一例を示すシーケンスチャートである。この処理の主体は、端末１の制御部１３、配信サーバ２の制御部２３および音声解析サーバ３の制御部３３である。

まず、ステップＳ５０１（図５Ａ参照）において、端末１の制御部１３は、ウェブページ閲覧部１２１により、配信サーバ２のウェブサイトのＵＲＬを入力部１１から指定（入力）し、配信サーバ２に対して情報を取得要求する。指定した後、ステップＳ５０２に進む。

次に、ステップＳ５０２において、配信サーバ２の制御部２３は、ウェブページ提供部２２１により、当該ＵＲＬを指定した端末１に対し、ウェブページ閲覧用のＨＴＭＬ文書を返信する（ＨＴＭＬ返答）。端末１のウェブページ閲覧部１２１により、前記ＨＴＭＬ文書が構文解析され、その結果、出力部１４としてのディスプレイにはそのウェブサイトのページが表示される。表示されるウェブサイトには、配信可能なコンテンツが、例えばサムネイル形式で表示されている。返信した後、ステップＳ５０３に進む。

次に、ステップＳ５０３において、端末１の制御部１３は、ウェブページ閲覧部１２１により、視聴者が入力部１１から指定して選んだあるコンテンツを配信するように配信サーバ２に要求する（コンテンツ取得要求）。要求した後、ステップＳ５０４に進む。

次に、ステップＳ５０４において、配信サーバ２の制御部２３は、要求のあったコンテンツを端末１に配信する。コンテンツを配信するときには、例えば、コンテンツを再生するコンテンツ再生用プラグインを指定するコード（当該ＵＲＬ含む）を記述したオブジェクトタグを含むＨＴＭＬ文書を端末１に送信する。これにより、端末１ではコンテンツ再生用プラグインが特別な操作なく自動的に起動する。配信した後、ステップＳ５０５に進む。

次に、ステップＳ５０５において、配信サーバ２の制御部２３は、音声テキスト化奨励部２２２により、配信したコンテンツの音声をテキスト化することを勧めるための情報開示を端末１に対して行う。具体的には、コンテンツを配信するときに送信したＨＴＭＬ文書に、テキストを端末１のディスプレイに表示させるテキスト表示用プラグインを指定するコード（当該ＵＲＬ含む）を記述したオブジェクトタグを含ませる。情報開示をした後、ステップＳ５０６に進む。

ここで、ステップＳ５０４およびステップＳ５０５にて採り上げられたＨＴＭＬ文書の詳細について説明する。
図６は、前記ＨＴＭＬ文書である、コンテンツ配信用のＨＴＭＬ文書の一例である。符号６０１で示した箇所が、ステップＳ５０４にてコンテンツ再生用プラグインを指定するコードを記述したオブジェクトタグである。また、符号６０２で示した箇所が、ステップＳ５０５にてテキスト表示用プラグインを指定するコードを記述したオブジェクトタグである。配信サーバ２側が、コンテンツ（ストリーミングデータ）の再生、および音声からテキスト化したテキストの表示を実行するために、これらのプラグインをオブジェクト（ＯＢＪＥＣＴ）として予めＨＴＭＬ宣言することで、ＨＴＭＬ文書を受信した端末１のブラウザが対応するプラグインを簡易に起動することができる。

次に、ステップＳ５０６において、端末１の制御部１３は、コンテンツ再生部１２２により、配信されたコンテンツを再生する。再生した後、ステップＳ５０７に進む。

次に、ステップＳ５０７において、端末１の制御部１３は、視聴者からコンテンツの音声をテキスト化する指示（例：入力部１１からの操作による指示）があるが、ブラウザがテキスト表示用プラグインを備えていないとき、インターネット４上に公開されているテキスト表示用プラグインを取得する。例えば、端末１のディスプレイにテキスト表示用プラグインを取得するまでの手順を案内するダイアログを表示し、図６の符号６０２で示したテキスト表示用プラグインを指定するコードに記述されたＵＲＬを入力部１１から指定することでそのプラグインを取得することができる。取得した後、ステップＳ５０８に進む。

次に、ステップＳ５０８において、端末１の制御部１３は、音声テキスト化要求部１２３により、コンテンツに含まれる音声をテキスト化するように音声解析サーバ３に要求する（音声テキスト化要求）。この要求を音声解析サーバ３にするために、例えばステップＳ５０７にて取得したテキスト表示用プラグインには、音声解析サーバ３の業者がインターネット４上に公開するウェブサイトのＵＲＬを指定するコードが記述されているようにすると良い。また、前記要求には、少なくとも配信サーバ２が提供するウェブサイト内の当該コンテンツのＵＲＬおよびテキストにしたい言語が含まれている。要求した後、ステップＳ５０９に進む（図５Ｂ参照）。

次に、ステップＳ５０９において、音声解析サーバ３の制御部３３は、音声取得部３２１により、端末１から音声のテキスト化を要求されたコンテンツを配信するように配信サーバ２に要求する（コンテンツ取得要求）。要求した後、ステップＳ５１０に進む。

次に、ステップＳ５１０において、配信サーバ２の制御部２３は、要求のあったコンテンツを音声解析サーバ３に配信する。配信した後、ステップＳ５１１に進む。

次に、ステップＳ５１１において、音声解析サーバ３の制御部３３は、音声取得部３２１により、配信されたコンテンツから音声を抽出して取得する。取得した後、ステップＳ５１２に進む。

次に、ステップＳ５１２において、音声解析サーバ３の制御部３３は、音声解析部３２２により、抽出した音声について、既に説明した音声認識を行い、認識結果を出力する。出力した後、ステップＳ５１３に進む。

次に、ステップＳ５１３において、音声解析サーバ３の制御部３３は、音声テキスト化実行部３２３により、前記認識結果に対し、音声部分のテキストを出力する。コンテンツの音声の言語と視聴者が希望した言語とが異なる場合には、テキスト翻訳部３２４により、音声部分のテキストを翻訳したテキストを出力する。前記２つの出力のいずれかをした後、ステップＳ５１４に進む。

次に、ステップＳ５１４において、音声解析サーバ３の制御部３３は、音声テキスト化実行部３２３またはテキスト翻訳部３２４により出力されたテキストを端末１に配信する。配信した後、ステップＳ５１５に進む。

最後に、ステップＳ５１５において、端末１の制御部１３は、テキスト表示制御部１２４により、基本的には再生しているコンテンツの再生状況に合わせて配信されたテキストを出力部１４としてのディスプレイに表示する。テキストを表示するときの表示態様は、例えば図６のＨＴＭＬ文書に含まれたオブジェクトで宣言された領域に当該テキストを表示するようにすると良い。
このように、コンテンツ再生用プラグインとテキスト表示用プラグインとは、これらによる処理が非同期になるように起動する個別のプログラムとして読み出され、テキスト付きのコンテンツが再生表示される。
以上で、コンテンツ配信システムにおいて実行される処理について説明を終了する。

≪第２の実施形態≫
第１の実施形態は、コンテンツ再生用プラグインとテキスト表示用プラグインとが、非同期に起動するものであったが、本実施形態は、テキスト表示用プラグインがコンテンツ再生用プラグインのプラグインとして起動するものである。この場合、テキスト表示用プラグインが、コンテンツ再生用プラグインによるコンテンツの再生に割り込むようにして音声をテキスト化したときのテキストの表示を制御することができる。つまり、テキスト表示用プラグインの処理と、コンテンツ再生用プラグインの処理とは同期する。

このようにプラグインを構成すると、テキスト表示の有無をコンテンツ再生用プラグインによって制御することが可能であり、インターネット４上で公開されているコンテンツだけでなく、端末１の記憶部１２に記憶されているコンテンツに対してもテキスト表示を行うことができる。つまり、端末１はインターネット４上に通信可能に接続していなくても、事前に音声解析サーバ３からテキストを取得していれば、コンテンツのテキスト表示を行うことができる。

≪第３の実施形態≫
第１の実施形態は、テキストの表示態様について特に言及しなかったが、本実施形態は、ブラウザのツールバー等のように常駐して表示することができる領域でテキスト表示を行うものである。この場合、コンテンツ再生用プラグインが、テキスト表示用プラグインによるテキスト表示に割り込むようにしてコンテンツの再生を制御することができる。つまり、コンテンツ再生用プラグインの処理と、テキスト表示用プラグインの処理とは同期する。テキスト表示用プラグインには、ブラウザの例えばツールバーを構成するコードが記述されている。

このようにプラグインを構成すると、テキスト表示がブラウザと密接に連携するようにして行うことが可能であるため、コンテンツ再生の有無をテキスト表示用プラグインによって制御することが可能である。よって、事前に音声解析サーバ３からテキストを取得していれば、コンテンツを再生せずともテキストを表示することができる。

≪第４の実施形態≫
第１の実施形態は、音声解析サーバ３はコンテンツ自体には変更を加えず、コンテンツに付加されるテキストを端末１に配信するものであったが、本実施形態では、音声解析サーバ３が端末１からの音声のテキスト化の要求に対し、テキストを含ませたコンテンツを作成し、その作成したコンテンツを端末１に配信するものである。つまり、音声解析サーバ３は、例えばインターネット４上にコンテンツ変換を行うウェブサイトを公開してテキストを含ませたコンテンツを提供している。視聴者はテキスト付きのコンテンツを視聴したいときは、端末１から、配信サーバ２ではなく、音声解析サーバ３に対しコンテンツ取得要求を行う。

このように、コンテンツのテキスト表示を希望する場合には、配信サーバ２から音声解析サーバ３へルーティングを変更し、音声解析サーバ３からテキスト付きのコンテンツを取得することで、テキスト付きのコンテンツを視聴するだけで済む。端末１がテキスト表示用プラグインを備えていない場合は、音声解析サーバ３から音声テキスト化の情報開示がなされる。よって、音声解析サーバ３を有する業者が提供するコンテンツ変換を行うウェブサイトを用いた新たなサービスを実現することが可能となる。

≪具体例≫
次に、本実施形態のコンテンツ配信システムを利用したことによるコンテンツ配信サービスの具体例を説明する。

〔ストリーミング配信サイトによる音声字幕提供サービス〕
配信サーバ２が配信するコンテンツ（ストリーミングデータ）を視聴者が要求し、テキスト表示用プラグインが端末１にインストールされ、有効になっている場合は、ディスプレイ上にテキスト表示用の領域を確保し、音声解析サーバ３から音声部分のテキストを受信する。そして、コンテンツの再生に合わせて、同期または非同期のタイミングで音声部分のテキストを前記領域に表示する。

配信サーバ２により、ストリーミング配信サイトを提供する企業は、視聴者にテキスト表示用プラグイン（アドオンバナー）を提供するだけで済み、音声解析に必要な設備の導入が不要となる。また、音声解析サーバ３により音声解析サービスを提供する業者は、コンテンツ配信に必要な設備の導入が不要となる。よって、ＳａａＳ（Software as a Service）による字幕つきコンテンツ配信サービスを実現することが容易になる。

〔ストリーミング投稿サイトでの音声字幕提供サービス〕
配信サーバ２が配信し、不特定多数から投稿されたコンテンツ（ストリーミングデータ）を視聴者が要求し、テキスト表示用プラグインが端末１にインストールされ、有効になっている場合は、ディスプレイ上にテキスト表示用の領域を確保し、音声解析サーバ３から音声部分のテキストを受信する。そして、コンテンツの再生に合わせて、同期または非同期のタイミングで音声部分のテキストを前記領域に表示する。

配信サーバ２により、ストリーミング投稿サイトを提供する企業は、視聴者にテキスト表示用プラグイン（アドオンバナー）を提供するだけで済み、音声解析に必要な設備の導入が不要となる。また、音声解析サーバ３により音声解析サービスを提供する業者は、コンテンツ配信に必要な設備の導入が不要となる。よって、ＳａａＳによる字幕つきコンテンツ配信サービスを実現するのが容易になる。

〔ニュース配信サイトでの音声可視化提供サービス〕
配信サーバ２が配信し、自然災害、テロ等の緊急事態のニュースのコンテンツを視聴者、特に、聴覚障害者が要求し、テキスト表示用プラグインが端末１にインストールされ、有効になっている場合でも、ニュースのコンテンツの音声部分を可視化した状態で配信することができる。

〔コンテンツ配信企業によるマーケット分析および広告表示〕
配信サーバ２を有するコンテンツ配信企業は、視聴者に配信したコンテンツの音声部分のテキストを、例えば端末１または音声解析サーバ３から取得することにより、そのテキストを用いて、視聴者の言語地域分析、コンテンツ自体の分類（テキストに対してｔｆ−ｉｄｆ法等を適用し、コンテンツを所定のカテゴリに分ける）、視聴者の視聴傾向（ある視聴者がどのカテゴリのコンテンツをどの程度視聴するか等）の分析を行うことができる。
また、ある音声部分のテキストがディスプレイに表示されたとき、またはそのテキストに対応するコンテンツの部分が再生されたとき、そのテキストをキーにして、配信サーバ２において関連付けられた映像、画像、音声、テキスト等が広告媒体となる広告コンテンツを端末１に配信する（または配信しない）こともできる。

≪まとめ≫
本実施形態によれば、端末１、配信サーバ２、音声解析サーバ３に専用の設備を導入する必要が無いので、コンテンツの配信および利用が容易になり、字幕付きコンテンツの配信サービスの普及を促進させることができる。視聴者は、テキスト表示を希望するのであれば、配信サーバ２から勧められた、公開中のテキスト表示用プラグインを取得するだけで済み、専用の設備の導入は不要である。コンテンツ配信企業は、音声解析用の設備を導入する必要が無い。また、コンテンツを配信するときの言語を設定する手間も省かれる。音声解析技術を有する業者は、コンテンツを所有しなくても、コンテンツ配信事業に参入することができる。
また、コンテンツの音声が元々どのような言語であれ、視聴者は好きな言語でコンテンツをオンデマンドに視聴することができる。
また、従来はコンテンツを分類するときは、分類する者がコンテンツを閲覧して行う必要があったが、本実施形態によれば、音声のテキストを用いた所定の分類方法により分類することができる。

≪その他≫
なお、前記した実施形態は、本発明を実施するために好適のものであるが、その実施形式はこれらに限定されるものでなく、本発明の要旨を変更しない範囲内において種々変形することが可能である。

例えば、本実施形態では、音声解析サーバ３が端末１からの音声のテキスト化の要求（ステップＳ５０８参照）に対し、配信サーバ２からコンテンツを取得し、音声を抽出して取得するようにした。しかし、音声の取得は、端末１から行うようにしても良い。つまり、端末１は、配信されたコンテンツから音声を抽出する機能を有しており、端末１が音声解析サーバ３に音声のテキスト化を要求するときに、その要求に、抽出した音声を含ませるようにする。これにより、音声解析サーバ３は、端末１から取得した音声をテキスト化し、当該テキストを端末１に配信すれば良い。

また、本実施形態では、視聴者の希望する言語でテキストを表示できるようにした。このとき、希望する言語は２以上であっても良い。端末１は、音声解析サーバ３に音声のテキスト化を要求するとき、テキスト化を希望する言語を２以上指定する。すると、音声解析サーバ３から２以上の言語のテキストを取得し、コンテンツの再生とともに、ディスプレイ上の所定のエリアに２以上の言語のテキストを同時に表示することができる。

また、本実施形態では、視聴者の希望する言語でテキストを表示できるようにした。このとき、その希望する言語の音声でコンテンツを再生することもできる。つまり、元々配信されたコンテンツの音声の言語とは異なる言語で音声を再生するようにすることもできる。端末１は、音声解析サーバ３に対し、希望する言語のテキストだけでなく、そのテキストの音声化も併せて要求する。音声解析サーバ３は、言語ごとに、音声をテキスト化するだけでなく、テキストを音声化する機能も有している。よって、端末１は、希望する言語のテキストおよび音声でコンテンツを再生することができる。コンテンツを視聴するときの便宜上、コンテンツの元々の音声を再生する処理は抑えておくことが好ましい。

また、本実施形態において、配信サーバ２が提供するコンテンツ配信サービスは、コンテンツ配信用のウェブサイトを公開するときのウェブサービスと、ある視聴者にコンテンツを配信するときのウェブサービスをあたかも１つのウェブサービスのように見せるように行われても良い（マッシュアップ）。このコンテンツ配信サービスに、音声のテキスト化、当該テキストの翻訳またはその両方のウェブサービスを含ませた１つのウェブサービスを実現しても良い。

また、本実施形態の音声のテキストをブラウザで表示するときの表示態様は、メニューバー、ツールバーで表示しても良いし、コンテンツを再生する領域にレイヤー等を重ねてそのレイヤー等にテキストを表示するようにしても良い。テキストを表示する領域、形式、書体、文字の大きさ、色、装飾等はコンテンツの視聴を妨げない範囲内で適宜変形することが好ましい。

また、本実施形態のテキスト表示用プラグインに、端末１によるコンテンツ再生の再生時間や、再生されたときに表示したテキストを配信サーバ２に提供する機能を持たせても良い。音声テキスト化の情報開示のときに（ステップＳ５０５参照）、この機能に相当するコードを例えばオブジェクトタグとして含ませておけば良い。この機能により、例えばコンテンツ配信企業が、視聴者の視聴状況をテキストとして収集することが可能となる。

また、本実施形態において、音声解析サーバ３から取得したテキストを用いて、そのテキストのある箇所を指定することで、指定した箇所に対応するコンテンツの該当箇所から再生を行うことができる機能を、例えばコンテンツ再生用プラグインに持たせるようにしても良い。テキスト表示用プラグインにより、再生するコンテンツの全音声に対応する全テキストを所定のテキストファイルとして画面表示し、希望するテキストを入力部１１から指定すると、コンテンツ再生用プラグインが起動し、当該箇所から頭出し再生するように処理する。また、コンテンツが再生されているときに、テキストファイルにおいて、再生箇所に対応するテキストを目立つ色に変えたり、反転表示したりして強調表示しても良い。

また、本実施形態で行う音声のテキスト化は、生放送のストリーミングのコンテンツにも適用することができる。視聴者が端末１にて、配信サーバ２から配信されている生放送のコンテンツを視聴しているとき、コンテンツの再生中に出力された音声を音声解析サーバ３に継続的に送信し、音声解析サーバ３から継続的に当該音声のテキストを取得して、所定の表示領域に表示する。そのテキストの翻訳についても同様である。これにより、生放送であるがゆえに確認できなかった、聞き取りづらかった音声を確認することができ、視聴者は生放送で配信されるコンテンツをよりいっそう楽しむことができる。

なお、音声のテキストは、コンテンツの全音声を一度に（例えば、コンテンツ再生時に）すべてテキスト化したものでも良いし、コンテンツの再生に合わせて再生部分のみをテキスト化したものであっても良い。また、コンテンツ再生後には、テキストの一部または全部を削除しても良いし、記憶部１２に長期間記憶できるような処理を行っても良い。

また、配信サーバ２がコンテンツを配信するにあたり、非公開の会員制のウェブサイトをインターネット４上に表示し、特定の視聴者にコンテンツを配信する形態をとっても良い。また、通信網は、インターネット４ではなく、例えばイントラネットであっても良く、配信サーバ２はイントラネット上のサイトからコンテンツの配信を行うようにしても良い。

また、本実施形態では、配信サーバ２がコンテンツの配信をしたときに、配信したコンテンツの音声をテキスト化することを勧めるための情報開示を端末１に対して行うようにした（ステップＳ５０５参照）。しかし、この情報開示はコンテンツの配信を行う前に行っても良い。例えば、端末１が配信サーバ２のウェブサイトのＵＲＬを指定し、配信サーバ２がウェブページ閲覧用のＨＴＭＬ文書を返信した（ＨＴＭＬ返答）とき（ステップＳ５０１、５０２）に、この情報開示を行うようにしても良い。前記ＨＴＭＬ文書に、テキストを端末１のディスプレイに表示させるテキスト表示用プラグインを指定するコード（当該ＵＲＬ含む）を記述したオブジェクトタグを含ませ、端末１にてテキスト表示用プラグインのバナー表示を行うようにすることができる。

また、本実施形態では、端末１にテキスト表示用プラグインが既にインストールされており、利用可能（有効）であれば、端末１で行うコンテンツの取得から再生までの処理（ステップＳ５０３〜ステップＳ５０６参照）と、音声のテキスト化に必要な処理（ステップＳ５０８〜ステップＳ５１５）とは並行して行うことができる。コンテンツ取得要求（ステップＳ５０３）と音声テキスト化要求（ステップＳ５０８）とは同時に行うことができる。そして、各種プラグイン（テキスト表示用プラグイン含む）が有効であれば、端末１のブラウザはＨＴＭＬ文書に記述されているコードのとおりに処理し、プラグインを起動する。このとき、プラグイン自体はブラウザの起動の有無にかかわらず非同期に並行して動作する。

また、本実施形態では、コンテンツが再生されるときに音声のテキスト表示を行うようにしたが、このことはコンテンツの再生が無ければ音声のテキスト表示を行うことができない、という意味ではない。基本的にコンテンツの再生の処理と、音声のテキスト表示の処理とは独立している。ただ、コンテンツ視聴の便宜上、前記２つの処理を同時に行うように制御することもできる。具体的には、ブラウザによる音声出力および音声のテキスト表示を実行する音声デコーダ（例：ＣＯＤＥＣ（COder-DECoder））を監視するプラグインをブラウザに備え、動画の再生、音声の再生、音声のテキスト表示等の処理を同期させることで実現される。
ただし、逆に、コンテンツは再生せずに音声のテキスト表示を行うように処理しても良い。つまり、視聴者は、コンテンツ取得要求（ステップＳ５０３）はせずに、音声テキスト化要求（ステップＳ５０８）だけをし、音声のテキスト表示のみ行うこともできる。

その他、ハードウェア、ソフトウェア、各フローチャート等の具体的な構成について、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。

１端末
２配信サーバ
３音声解析サーバ
４インターネット
１１入力部
１２記憶部
１３制御部
１４出力部（表示部）
１２１ウェブページ閲覧部（ブラウザ；閲覧部）
１２２コンテンツ再生部（コンテンツ再生用プラグイン；再生部）
１２４テキスト表示制御部（テキスト表示用プラグイン）

Claims

音声を含むコンテンツを紹介するサイトをネットワーク上に表示して前記コンテンツを配信する配信サーバと、前記コンテンツを再生する端末と、前記コンテンツに含まれる音声の音声解析を行う音声解析サーバと、が通信可能に接続されるコンテンツ配信システムにおいて、
前記端末の記憶部は、
前記配信サーバによるネットワーク上に表示されているサイトを前記端末の表示部で閲覧する閲覧部、および前記配信サーバが配信するコンテンツを前記表示部で再生する再生部を記憶しており、
前記端末の制御部は、
前記閲覧部により前記配信サーバが表示するサイトの閲覧を開始すると、前記サイトで紹介されるコンテンツに含まれる音声を、前記表示部でテキストとして表示するように前記閲覧部の機能を拡張するテキスト表示制御部のネットワーク上の所在を取得する制御と、
前記記憶部に前記テキスト表示制御部が記憶されていなければ、前記端末の入力部からの操作に応じて前記所在を指定して、前記テキスト表示制御部を取得し、前記取得したテキスト表示制御部を前記記憶部に記憶する制御と、
前記入力部からの操作に応じて前記配信サーバに対し、前記配信サーバのサイトで紹介されているコンテンツの取得要求をし、前記配信サーバから、当該コンテンツを取得する制御と、
前記入力部からの操作に応じて前記音声解析サーバに対し、前記取得したコンテンツに含まれる音声に対して音声のテキスト化要求をし、前記音声解析サーバから前記テキスト化要求の応答結果である音声のテキストを取得する制御と、
前記再生部により前記取得したコンテンツを前記表示部で再生するとともに、前記テキスト表示制御部により前記取得した音声のテキストを前記表示部で表示する制御と、を実行する
ことを特徴とするコンテンツ配信システム。
前記端末の制御部は、
前記入力部からの操作に応じて、前記取得したコンテンツに含まれる音声の言語とは別の言語で音声のテキストを取得するように前記テキスト化要求をしたとき、前記音声解析サーバから、前記コンテンツに含まれる音声の言語を前記別の言語に翻訳した音声のテキストを取得する制御と、
前記再生部により前記取得したコンテンツを前記表示部で再生するとともに、前記テキスト表示制御部により、前記別の言語に翻訳した音声のテキストを前記表示部で表示する制御と、を実行する
ことを特徴とする請求項１に記載のコンテンツ配信システム。
音声を含むコンテンツを紹介するサイトをネットワーク上に表示して前記コンテンツを配信する配信サーバと、前記コンテンツを再生する端末と、前記コンテンツに含まれる音声の音声解析を行う音声解析サーバと、が通信可能に接続されるコンテンツ配信システムにおけるテキスト表示方法において、
前記端末の記憶部は、
前記配信サーバによるネットワーク上に表示されているサイトを前記端末の表示部で閲覧する閲覧部、および前記配信サーバが配信するコンテンツを前記表示部で再生する再生部を記憶しており、
前記端末の制御部は、
前記閲覧部により前記配信サーバが表示するサイトの閲覧を開始すると、前記サイトで紹介されるコンテンツに含まれる音声を、前記表示部でテキストとして表示するように前記閲覧部の機能を拡張するテキスト表示制御部のネットワーク上の所在を取得するステップと、
前記記憶部に前記テキスト表示制御部が記憶されていなければ、前記端末の入力部からの操作に応じて前記所在を指定して、前記テキスト表示制御部を取得し、前記取得したテキスト表示制御部を前記記憶部に記憶するステップと、
前記入力部からの操作に応じて前記配信サーバに対し、前記配信サーバのサイトで紹介されているコンテンツの取得要求をし、前記配信サーバから、当該コンテンツを取得する制御と、
前記入力部からの操作に応じて前記音声解析サーバに対し、前記取得したコンテンツに含まれる音声に対して音声のテキスト化要求をし、前記音声解析サーバから前記テキスト化要求の応答結果である音声のテキストを取得するステップと、
前記再生部により前記取得したコンテンツを前記表示部で再生するとともに、前記テキスト表示制御部により前記取得した音声のテキストを前記表示部で表示するステップと、を実行する
ことを特徴とするテキスト表示方法。
前記端末の制御部は、
前記入力部からの操作に応じて、前記取得したコンテンツに含まれる音声の言語とは別の言語で音声のテキストを取得するように前記テキスト化要求をしたとき、前記音声解析サーバから、前記コンテンツに含まれる音声の言語を前記別の言語に翻訳した音声のテキストを取得するステップと、
前記再生部により前記取得したコンテンツを前記表示部で再生するとともに、前記テキスト表示制御部により、前記別の言語に翻訳した音声のテキストを前記表示部で表示するステップと、を実行する
ことを特徴とする請求項３に記載のテキスト表示方法。