JP5982791B2

JP5982791B2 - 情報処理装置及び情報処理方法、情報提供装置、並びに、情報提供システム

Info

Publication number: JP5982791B2
Application number: JP2011250718A
Authority: JP
Inventors: 中村　仁; 仁中村
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-11-16
Filing date: 2011-11-16
Publication date: 2016-08-31
Anticipated expiration: 2031-11-16
Also published as: EP2782336B1; CN103931202B; IN2014MN00882A; JP2013105146A; CA2849062C; US20140245338A1; US10477267B2; EP2782336A4; EP2782336A1; CN103931202A; MX2014005650A; WO2013073250A1; MX350619B; CA2849062A1

Description

本明細書で開示する技術は、自動コンテンツ認識のためにコンテンツから特徴点情報を抽出する情報処理装置及び情報処理方法、コンテンツから抽出した特徴点情報に基づいてコンテンツの情報を提供する情報提供装置、並びに、コンテンツから抽出した特徴点情報に基づいてコンテンツの情報を提供する情報提供システムに関する。

近年、画像や音声を認識並びに理解する技術が発展し、民生機器のさまざまなアプリケーションに画像や音声など各種の認識・理解技術が利用されることが多くなってきている。一例として、インターネットを利用したクライアント・サーバー・システムで構築された、ＡＣＲ（ＡｕｔｏｍａｔｉｃＣｏｎｔｅｎｔＲｅｃｏｇｎｉｔｉｏｎ：自動コンテンツ認識）が挙げられ、ＡＣＲサービスと呼ばれて、さまざまなアプリケーションが提案されている。

ＡＣＲサービスの用途の１つとして、違法コピー検出などコンテンツの権利統制を挙げることができる。例えば、インターネット経由でコンテンツを配信する際に、認識・理解技術を利用してコンテンツを識別し、そのコンテンツが合法なものか否かを照会する。最近では、ファイル共有サービスの普及とも相まって、画像や音声からコンテンツをより正確に識別するニーズが高まってきている。

また、ＡＣＲサービスの他の用途として、コンテンツを視聴するユーザーに付加価値を提供するサービスを挙げることができる。例えば、放送又は配信されたコンテンツを同定して、コンテンツの視聴と同期するように、コンテンツに関連する情報をインターネット経由で提供する。米グレースノート社（Ｇｒａｃｅｎｏｔｅ，Ｉｎｃ．Ｂｅｒｋｅｌｅｙ，Ｃａｌｉｆｏｒｎｉａ）から提供されているＣＤＤＢ楽曲識別サービスは、コンパクト・ディスク（ＣＤ）を識別して、識別されたＣＤに関する情報（アルバム名やアーティスト名、トラック名、インターネット上の関連コンテンツ（アルバム・カバーやアーティスト、ファンのウェブサイト）など）へのアクセスを提供する。

ＡＣＲサービスでは、例えば、コンテンツをデコードして表示する最終段において、コンテンツ内からＷａｔｅｒｍａｒｋ（電子透かし）やｆｉｎｇｅｒｐｒｉｎｔ（特徴点情報）を抽出して、そのコンテンツを同定するものであり、コンテンツのデリバリー・チェーンには依存しない。

放送番組などのビデオ情報とオーディオ情報を含むコンテンツを同定する場合、ビデオ情報とオーディオ情報のうち片方のみを利用してコンテンツを同定する方法や、両方を利用してコンテンツを同定する方法が考えられる。

例えば、オーディオ情報のみを利用してコンテンツを同定する方法として、ディジタル的にサンプリングされた波形の１つ以上のセグメントを使用して、複数の振幅バンド又はスロットの各々において、波形のセグメント内の発生回数をカウントすることによって波形の振幅シグネチャを形成し、データベース内の振幅シグネチャとのファジー比較を実行し、１つ以上の潜在的な整合が発見された場合にはより正確な比較を実行することによって、波形を示すレコードのデータベースに波形の整合を発見する方法について提案がなされている（例えば特許文献１を参照のこと）。

コンテンツを同定する際に、ビデオ情報とオーディオ情報のうち片方のみを利用するか、両方を利用するかは、ＡＣＲサービスの目的用途、コンテンツ認識率の目標、システム設計及び運用コストの制約などに応じて、システム設計時にサービス仕様又はアプリケーション仕様の一環で定義される。

現状では、システム設計及び運用コストの面で、オーディオ情報だけを利用してＡＣＲサービスを実現することが、扱う情報量と処理量の観点から、最も負荷を軽くするには有利であると考えられている。何故ならば、オーディオ情報は、ビデオ情報よりも、コンテンツを同定するための特徴点情報のデータ量が少なくて済む場合が多いからである。

しかしながら、たとえコンテンツ毎の特徴点情報のデータ量が少なくても、扱うコンテンツの数が多くなればなるほど、ＡＣＲサービスのサーバー側に用意すべき特徴点情報のデータ量は増大する。オーディオ情報を扱うＡＣＲサービスのデータベースの物理的な容量の肥大化は、システム設計及び運用上、大きな課題となる。

システム設計上の課題として、扱うコンテンツの数が増えれば、各コンテンツを同定するための特徴点情報を蓄えておくデータベースの容量が大きくなり、同定するための処理と、同定できるまでの時間が増大する。また、システム運用上の課題として、扱うコンテンツの数が増えれば、各コンテンツを同定するための特徴点情報を蓄えておくデータベースの容量が大きくなり、物理的なデータベースを用意する設備投資、維持する経費などが増える。オーディオ情報だけを利用する場合であっても、これらの課題に対策を講じる必要がある、と本発明者らは思料する。

特表２００４−５１１８３８号公報

本明細書で開示する技術の目的は、ＡＣＲサービスのサーバー側のシステム設計及び運用上の負担を軽減するよう、オーディオ情報を含んだコンテンツから特徴点情報を好適に抽出することができる、優れた情報処理装置及び情報処理方法を提供することにある。

本明細書で開示する技術のさらなる目的は、システム設計及び運用上の負担が軽くなるよう、コンテンツのオーディオ情報から抽出された特徴点情報に基づいてコンテンツの情報を好適に提供することができる、優れた情報提供装置を提供することにある。

また、本明細書で開示する技術のさらなる目的は、ＡＣＲサービスのサーバー側のシステム設計及び運用上の負担を軽減するよう、コンテンツのオーディオ情報から抽出された特徴点情報に基づいてコンテンツの情報を好適に提供することができる、優れた情報提供システムを提供することにある。

本願は、上記課題を参酌してなされたものであり、請求項１に記載の技術は、
主音声と１以上の副音声を含むコンテンツを入力する入力部と、
入力されたコンテンツに含まれる主音声と１以上の副音声のうちいずれかをデコード再生して音声出力する音声出力部と、
入力されたコンテンツに含まれる主音声から特徴点情報を生成する特徴点情報生成部と、
を具備し、音声ＡＣＲ機能を主音声データだけで実現する情報処理装置である。

本願の請求項２に記載の技術によれば、請求項１に記載の情報処理装置の特徴点情報生成部は、自動コンテンツ認識動作を行なうときに、特徴点情報の生成処理を実行するように構成されており、音声の主副を認識して、副音声視聴時でも、常に主音声の特徴点情報を生成することができる。

本願の請求項３に記載の技術によれば、請求項１に記載の情報処理装置の視聴用音声出力部で副音声をデコード再生して音声出力しているときには、前記特徴点情報生成部は、自動コンテンツ認識動作を行なうときに、主音声をデコード再生し、その主音声デコード結果に対して特徴点情報を生成するように構成されている。すなわち、情報処理装置は、自動コンテンツ認識動作をきっかけにして主音声のデコード再生を開始するようにして、常に主副同時再生をする必要がないことを特徴とするものである。

本願の請求項４に記載の技術によれば、請求項３に記載の情報処理装置は、副音声視聴時には、デコード再生した主音声から特徴点情報を生成するが、主音声を音声出力しないように構成されている。

本願の請求項５に記載の技術によれば、入力部に入力されるコンテンツは、画像とともにマルチプレクスされている。そして、請求項１に記載の情報処理装置は、入力されたコンテンツをデマルチプレクスするデマルチプレクサー部をさらに備え、前記デマルチプレクサー部は、コンテンツに含まれるすべての音声を対象として処理し、前記音声出力部は、デマルチプレクスされた主音声と１以上の副音声のうち視聴対象の音声信号のみデコード再生して音声出力し、副音声視聴時において自動コンテンツ認識動作を行なうときに、前記特徴点情報生成部は、デマルチプレクスされた主音声をデコード再生し、その主音声デコード結果に対して特徴点情報を生成するように構成されている。すなわち、情報処理装置は、主副信号のうち視聴対象となるどちらか一方のみをデコードしておき、副音声視聴時には、自動コンテンツ認識動作をきっかけにして主音声のデコード再生を開始するようになっており、常に主副同時再生する必要がないことを特徴とするものである。

本願の請求項６に記載の技術によれば、請求項１に記載の情報処理装置は、特徴点情報生成部が主音声から生成した特徴点情報を基に、入力されたコンテンツを同定するコンテンツ同定部をさらに備えている。

本願の請求項７に記載の技術によれば、請求項６に記載の情報処理装置は、ネットワークに接続する通信インターフェース部をさらに備えており、コンテンツ同定部は、コンテンツ識別情報とコンテンツに含まれる主音声の特徴点情報を対応付けた参照特徴点情報データベースに、前記通信インターフェース部を介して照会して、コンテンツ識別情報を取得するように構成されている。

本願の請求項８に記載の技術によれば、請求項７に記載の情報処理装置は、各コンテンツの関連情報を蓄積する関連情報データベースに、前記通信インターフェース部を介して照会して、前記コンテンツ同定部が同定したコンテンツの関連情報を取得する関連情報取得部をさらに備えている。

また、本願の請求項９に記載の技術は、
主音声と１以上の副音声を含むコンテンツを入力する入力ステップと、
入力されたコンテンツに含まれる主音声と１以上の副音声のうちいずれかをデコード再生して音声出力する音声出力ステップと、
入力されたコンテンツに含まれる主音声から特徴点情報を生成する特徴点情報生成ステップと、
を有する情報処理方法である。

また、本願の請求項１０に記載の技術は、
主音声と１以上の副音声を含むコンテンツの主音声から生成された特徴点情報とコンテンツ識別情報を対応付けた参照特徴点情報データベースを備え、
特徴点情報を含んだ問い合わせに対して、コンテンツ識別情報を返す、
情報提供装置であり、主音声のみの特徴点情報をデータベース化し、コンテンツの特徴点情報の照会時には主音声のみを使用することで、データベースの容量を最小限にしている。

また、本願の請求項１１に記載の技術は、
主音声と１以上の副音声を含むコンテンツを配信するコンテンツ配信装置と、
前記コンテンツ配信装置から配信されたコンテンツをいずれかの音声チャネルで視聴するとともに、主音声から特徴点情報を生成するクライアント装置と、
コンテンツの主音声から生成された特徴点情報とコンテンツ識別情報を対応付けた参照特徴点情報データベースを備え、前記クライアント装置からの特徴点情報に問合せに対して該当するコンテンツ識別情報を提供する情報提供サーバーと、
を具備する情報提供システムである。

但し、ここで言う「システム」とは、複数の装置（又は特定の機能を実現する機能モジュール）が論理的に集合した物のことを言い、各装置や機能モジュールが単一の筐体内にあるか否かは特に問わない。

本明細書で開示する技術によれば、コンテンツのオーディオ情報のうち必ず主音声から特徴点情報を抽出することにより、ＡＣＲサービスのサーバー側のシステム設計及び運用上の負担を軽減することができる、優れた情報処理装置及び情報処理方法を提供することができる。

また、本明細書で開示する技術によれば、コンテンツのオーディオ情報のうち主音声から抽出された特徴点情報のみに基づいてコンテンツの情報を提供することにより、システム設計及び運用上の負担が軽くすることができる、優れた情報提供装置を提供することができる。

また、本明細書で開示する技術によれば、コンテンツのオーディオ情報の主音声から抽出された特徴点情報のみに基づいてコンテンツの情報を提供することにより、ＡＣＲサービスのサーバー側のシステム設計及び運用上の負担を軽減することができる、優れた情報提供システムを提供することができる。

本明細書で開示する技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

図１は、視聴と同期してコンテンツに関連する付加価値情報を提供する情報提供システム１００の構成を示した図である。図２は、クライアント装置１４０の構成例を示した図である。図３は、複数の音声チャネルを含むコンテンツに対応したデマルチプレクサー部２１７及び音声復号部２１９の内部構成を模式的に示した図である。図４は、制御マイコン部２１４の制御下で、ＡＣＲ機能動作を実行する処理手順を示したフローチャートである。

以下、図面を参照しながら本明細書で開示する技術の実施形態について詳細に説明する。

図１には、ＡＣＲサービスの一例として、コンテンツを視聴するユーザーに、視聴と同期してコンテンツに関連する付加価値情報を提供する情報提供システム１００の構成を示している。図示の情報提供システム１００は、放送コンテンツを配信するコンテンツ配信装置１１０と、ユーザーが配信コンテンツを視聴するＴＶ受像機などのクライアント装置１４０と、コンテンツに関連する付加情報を提供する情報提供サーバー１５０で構成される。

コンテンツ配信装置１１０は、放送局やコンテンツ・プロバイダーなどで運用され、ケーブル、衛星、ＩＰＴＶなどの形態でコンテンツを配信する。コンテンツは、ビデオ情報とオーディオ情報を含むが、オーディオ情報として主音声のほかに１以上の副音声を有する場合もある。また、昨今の放送のディジタル化などに相俟って、コンテンツと同時に、関連アプリケーション配信制御情報などを含むメタデータが配信される。メタデータにはコンテンツの識別子などが含まれている。クライアント装置１４０に本来のメタデータが届く場合には、メタデータからコンテンツの識別子を抽出してＡＣＲサービスを実現することができる。

放送局やコンテンツ・プロバイダーなどで運用されるコンテンツ配信装置１１０から配信（若しくは放送される）コンテンツがＴＶ受像機などのクライアント装置１４０で直接受信されるとは限らず、図示のように、地域毎のケーブル会社などの放送中継局１２０で一旦受信された後に再配信される場合もある。複数の放送中継局が介在することも想定される。放送中継局１２０では、元の放送時間帯からは時間を空けて配信したり、番組の編成を変更したりすることもある。このため、放送中継局１２０で放送コンテンツを再配信する際に、コンテンツ配信装置１１０から配信された本来のメタデータに変更を加えたり、あるいは、放送中継局１２０独自のメタデータに置き換えたりすることもある。このようなメタデータの変更や置き換えに伴い、コンテンツの識別子など本来のメタデータに含まれている一部又は全部の情報が失われることもある。メタデータが失われた以降、コンテンツの素性は不明となる。

このようにして、各家庭には、コンテンツ配信装置１１０や放送中継局１２０から配信される放送コンテンツがメタデータとともに届く。但し、ＴＶ受像機などのクライアント装置１４０で直接受信されるとは限らず、図示のように、ケーブル、衛星放送、ＩＰＴＶ用の専用セットボックス（ＳＴＢ）１３０で一旦受信される場合もある。セットトップボックス１３０は、一般に、受信した放送コンテンツを、ビデオ情報及びオーディオ情報からなるコンテンツ本体と、メタデータとに分離し、コンテンツ本体のみをＲＦ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙ）ケーブルなどを介して、ＴＶ受像機などのクライアント装置１４０に伝送する。

要するに、図１に示した情報提供システム１００は、放送局からのメタデータが、ケーブル会社などの放送中継局１２０や、セットトップボックス１３０で遮断されるというユース・ケースである。このような場合、クライアント装置１４０側では、視聴しているコンテンツを、メタデータに含まれるコンテンツの識別子から同定できなくなる。したがって、本実施形態に係る情報提供システム１００では、ＡＣＲサービスを実現するために、コンテンツの識別子の代わりに、コンテンツを構成するビデオ情報やオーディオ情報から抽出される特徴点情報を用いてコンテンツの同定を行なうようにする。

放送局やコンテンツ・プロバイダーなどが運営するコンテンツ配信装置１１０は、配信コンテンツに付随するメタデータを、例えばインターネットを経由して情報提供サーバー１５０に送信する。また、コンテンツ配信装置１１０は、配信コンテンツ毎に特徴点情報を抽出して、インターネットなどを経由して情報提供サーバー１５０に送信する。

情報提供サーバー１５０は、メタデータを蓄積するメタデータ・データベース１５１と、各コンテンツの特徴点情報を蓄積する参照特徴点情報データベース１５２を備えている。メタデータ・データベース１５１では、各コンテンツのメタデータや、コンテンツに関連する広告、番組連動のアプリケーションなどを、コンテンツの識別子と対応付けて管理している。また、参照特徴点情報データベース１５２では、各コンテンツの特徴点情報をコンテンツの識別子と対応付けて管理している。

一方、ＴＶ受像機などのクライアント装置１４０側では、ユーザーが視聴しているコンテンツから特徴点情報を抽出すると、インターネットなどを経由して、情報提供サーバー１５０に問い合わせる。

情報提供サーバー１５０は、クライアント装置１４０からの特徴点情報の問合せに応答して、参照特徴点情報データベース１５２に照会して、照会結果として該当するコンテンツの識別子をクライアント装置１４０に返す。このようにして、クライアント装置１４０は、メタデータを失ったコンテンツの素性を知ることができる。

クライアント装置１４０は、照会結果としてコンテンツの識別子を得ると、さらにコンテンツの識別子を基に情報提供サーバー１５０に問い合わせる。そして、情報提供サーバー１５０は、コンテンツの識別子の問合せに応答して、メタデータ・データベース１５１に照会して、コンテンツのメタデータや、コンテンツに関連する広告、番組連動のアプリケーションなどをユーザーに提供する。提供する方法として、クライアント装置１４０に直接送信する他、スマートフォンなどのクライアント装置１４０に関連付けられたモバイル機器に対して配信するようにしてもよい。

上記のように、コンテンツの識別子の代わりに、コンテンツから抽出される特徴点情報に基づいてコンテンツを同定して、ＡＣＲサービスを実現させる場合、ビデオ情報とオーディオ情報のうち片方のみを利用してコンテンツを同定する方法や、両方を利用してコンテンツを同定する方法が考えられる。本実施形態では、システム設計及び運用コストの面で、オーディオ情報だけを利用してＡＣＲサービスを実現することにしている。何故ならば、オーディオ情報は、ビデオ情報よりも、コンテンツを同定するための特徴点情報のデータ量が少なくて済むため、扱う情報量と処理量の観点から、最も負荷を軽くするには有利であると考えられるからである。

しかしながら、扱うコンテンツの数が多くなればなるほど、ＡＣＲサービスのサーバー側に用意すべき特徴点情報のデータ量は増大する。オーディオ情報を扱うＡＣＲサービスのデータベースの物理的な容量の肥大化は、システム設計及び運用上、大きな課題となる。

システム設計上の課題として、扱うコンテンツの数が増えれば、各コンテンツを同定するための特徴点情報を蓄えておく参照特徴点情報データベース１５２の容量が大きくなり、同定するための処理と、同定できるまでの時間が増大する。また、システム運用上の課題として、扱うコンテンツの数が増えれば、参照特徴点情報データベース１５２の容量が大きくなり、物理的なデータベースを用意する設備投資、維持する経費などが増える。

ここで、主音声に加えて副音声など複数のオーディオ情報を持っているコンテンツについて、特徴点情報を抽出する場合について考察してみる。クライアント装置１４０で、主音声ではなく副音声を視聴中に、ＡＣＲサービスを動作させると、副音声から特徴点情報を抽出し、情報提供サーバー１５０に問い合わせることになる。この場合、コンテンツを同定するためには、情報提供サーバー１５０側では、主音声だけでなく副音声の特徴点情報も参照特徴点情報データベース１５２に用意しておく必要があり、データベースの容量を削減するという上記の課題を解決できない。また、参照特徴点情報データベース１５２に主音声の特徴点情報しか用意していないと、クライアント装置１４０側で副音声を視聴しているときにＡＣＲサービスが機能しないことがある。

そこで、本実施形態では、クライアント装置１４０が、副音声を視聴中であっても、主音声からのみ特徴点情報を抽出して、情報提供サーバー１５０に問い合わせるようにすることで、情報提供サーバー１５０が副音声の特徴点情報を用意していない場合であっても、副音声の視聴中にＡＣＲサービスが正しく機能するようにしている。また、コンテンツ配信装置１１０から主音声と複数のオーディオ情報を持っているコンテンツを配信している場合であっても、クライアント装置１４０からは主音声から抽出した特徴点情報で問い合わせを行なうので、情報提供サーバー１５０側では副音声の特徴点情報を用意する必要がなく、データベースの容量を増やさずに済む。

図２には、クライアント装置１４０の構成例を示している。

パラボラ・アンテナやケーブル線、ＳＴＢなど（いずれも図示しない）から出力された入力変調（ＲＦ）信号は、入力端子２０１から、フロントエンド部２１０内のチューナー部２１１に入力供給され、選局される。復調部２１２では例えばＱＰＳＫ（ＱｕａｄｒａｔｕｒｅＰｈａｓｅＳｈｉｆｔＫｅｙｉｎｇ）復調される。復調部２１２からの出力は、エラー検出・訂正部２１３に供給される。エラー検出・訂正部２１３は、エラーを検出すると同時に、可能な限り訂正処理を行なう。

制御マイコン部２１４、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）部２１５及びＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）部２１６などには、暗号を解読するのに必要なキーが解読プログラムとともに格納してある。送信されてきたディジタル信号が暗号化されている場合は、この暗号を解読するキーと解読処理が必要となる。そこで、制御マイコン部２１４、ＲＯＭ部２１５、ＲＡＭ部２１６などから解読するキーを読み出し、このキーをデマルチプレクサー部（ＤＥＭＵＸ）２１７に供給する。

デマルチプレクサー部２１７では、このキーを利用して、暗号化されたディジタル信号を解読する。なお、この解読のために必要なキーとともに、解読プログラム及び課金情報等もメモリー内に一緒に格納する。

デマルチプレクサー部２１７は、エラー検出・訂正部２１３からの出力信号を受け、これをデータ・バッファー・メモリ用のＲＡＭ部２１６の適切なメモリー領域（あるいはデマルチプレクサー部２１７内部のメモリー領域）に一旦格納する。そして、適宜ＲＡＭ部２１６からデータを読み出して解読してビデオ・エレメンタリー・ストリームとオーディオ・エレメンタリー・ストリームに分離し、ビデオ・エレメンタリー・ストリームを画像復号部２１８に供給するとともに、オーディオ・エレメンタリー・ストリームを音声復号部２１９に供給する。このとき、多重化されている符号化データ・ストリームから、システム・クロックを再形成するのに必要な情報をクロック発生部２２０で抽出し、画像復号部２１８及び音声復号部２１９の処理に用いる。

デマルチプレクサー部２１７で抽出されるオーディオ・エレメンタリー・ストリームは、コンテンツが複数の音声チャネルを持つ場合、その分だけ抽出される。例えば、主副の音声チャネルがある場合は、デマルチプレクサー部２１７で２本のエレメンタリー・ストリームが抽出される。

なお、デマルチプレクサー部２１７の処理は、例えばＩＳＯ (ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ)／ＩＥＣ（ＩｎｔｅｒｎａｔｉｏｎａｌＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＣｏｍｍｉｓｓｉｏｎ）１３８１８−１（Ｇｅｎｅｖａ１９９５）の規格書に詳細にわたって規定されている。

画像復号部２１８は、入力された符号化データを、ＲＡＭ部２１６に適宜格納し、ＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＣｏｄｉｎｇＥｘｐｅｒｔｓＧｒｏｕｐ）方式により圧縮符号化されている画像信号の復号処理を実行する。復号化された画像信号は、表示画像構成部２２１に供給される。表示画像構成部２２１では、例えば、ＮＴＳＣ（ＮａｔｉｏｎａｌＴｅｌｅｖｉｓｉｏｎＳｙｓｔｅｍＣｏｍｍｉｔｔｅｅ）方式の輝度信号（Ｙ）、クロマ信号（Ｃ）及びコンポジット信号（ＣＶ）に変換される。そして、この信号は、Ｄ／Ａコンバーター部２２２でアナログ変換され、出力される。出力端子２２３からは、例えばＳビデオ信号形式でビデオ信号が出力される。画像復号部２１８の処理は、例えばＩＳＯ／ＩＥＣ１３８１８−２（Ｇｅｎｅｖａ１９９５）の規格書に詳細にわたって規定されている。

音声復号部２１９は、デマルチプレクサー部２１７より供給された符号化音声信号をＲＡＭ部２１６に適宜格納し、ＭＰＥＧ方式により圧縮符号化されている音声信号の復号処理を実行する。復号化されたディジタル音声信号は、Ｄ／Ａコンバーター部２２４に供給され、アナログ変換される。このとき、左右のチャンネルの音声信号が適切に処理され、左右チャンネルの音声出力として、出力端子２５から出力される。音声復号部２１９の処理は、例えばＩＳＯ／ＩＥＣ１３８１８−３（Ｇｅｎｅｖａ１９９５）の規格書に詳細にわたって規定されている。

コンテンツが複数の音声チャネルを持つ場合、デマルチプレクサー部２１７で複数のオーディオ・エレメンタリー・ストリームが抽出されるが（前述）、音声復号部２１９は、音声チャネル毎の復号部を備えている。

制御マイコン部２１４は、ＲＯＭ部２１５に格納されているプログラムに従い、各種の処理を実行する。例えば、システム・バス２０３を介してチューナー部２１１、復調部２１２、エラー検出・訂正部２１３などでの処理を制御する。また、システム・バス２０３を介してデマルチプレクサー部２１７、画像復号部２１８、音声復号部２１９、表示画像構成部２２１の処理ブロックを制御し、ＲＯＭ部２１５、ＲＡＭ部２１６に対する各メモリー・アドレスの読み出し・書込み処理などを制御する。一方、制御マイコン部２１４には、リモート・コマンダー（図示しない）などからの入力情報を受けたユーザー・インターフェース部２２７からの所定の命令を直接入力することができる。ユーザー・インターフェース部２２７からは、選局や音量調整、音声チャネルの選択、ＡＣＲ機能動作の指示などが入力される。

ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）インターフェース部（ＩＰＩ／Ｆ）部２３０は、イーサネット（登録商標）やＷｉ−Ｆｉなどの局所ネットワークを通じて、クライアント装置１４０をインターネットのような広域ネットワークに接続する。ＩＰインターフェース部２３０は、例えばＡＣＲサービスの起動時において、情報提供サーバー１５０に接続し、コンテンツから抽出した特徴点情報の送信や、コンテンツに関連するメタデータの取得に利用される。

図３には、複数の音声チャネルを含むコンテンツに対応したデマルチプレクサー部２１７及び音声復号部２１９の内部構成を模式的に示している。上述したように、クライアント装置１４０に入力されるコンテンツが複数の音声チャネルを持つ場合、デマルチプレクサー部２１７では、その分だけオーディオ・エレメンタリー・ストリームが抽出される。また、音声復号部２１９は、音声チャネル毎の復号部を備えている。また、複数の音声チャネルを持つコンテンツを視聴しているときに、ユーザー・インターフェース部２２７から制御マイコン部２１４に、視聴対象となる音声チャネルの切り換えが入力される。

本実施形態では、クライアント装置１４０の低消費電力化とＡＣＲ動作の高速化のために、デマルチプレクサー部２１７までは主副すべての音声チャネルを対象に処理しておくが、音声復号部２１９では、内部のスイッチ（ＳＷ）機能を使用して、視聴対象となるいずれか１つの音声チャネルについてのみ復号処理を行なう。例えば各音声チャネルのデータには主副を識別する識別情報が付されており、デコード時に主音声又は副音声のいずれであるかを判別できるものとする。

この状態で、ユーザー・インターフェース部２２７からＡＣＲ機能動作の指示が入力されると、音声復号部２１９は、デマルチプレクサー部２１７がＲＡＭ部２１６に一旦格納した所望の音声チャネルのデコード結果データに対して、制御マイコン部２１４の制御下で、主音声の特徴点情報を取得する処理を実行する。

そして、クライアント装置１４０は、取得した主音声の特徴点情報を、ＩＰインターフェース部２３０からインターネットなどを経由して、情報提供サーバー１５０に問い合わせる。

情報提供サーバー１５０側では、コンテンツ配信装置１１０から配信されるすべてのコンテンツの少なくとも主音声についての特徴点情報を、コンテンツの識別子と対応付けて参照特徴点情報データベース１５２で管理している。情報提供サーバー１５０は、クライアント装置１４０からの主音声の特徴点情報の問合せに応答して、参照特徴点情報データベース１５２に照会してコンテンツを同定すると、照会結果として該当するコンテンツの識別子をクライアント装置１４０に返す。

クライアント装置１４０は、照会結果としてコンテンツの識別子を得ると、さらにコンテンツの識別子を基に情報提供サーバー１５０に問い合わせる。そして、情報提供サーバー１５０は、コンテンツの識別子の問合せに応答して、メタデータ・データベース１５１に照会して、コンテンツのメタデータや、コンテンツに関連する広告、番組連動のアプリケーションなどをユーザーに提供する。

なお、情報提供サーバー１５０がクライアント装置１４０にコンテンツの識別子を返すのではなく、参照特徴点情報データベース１５２に照会して得たコンテンツの識別子でさらにメタデータ・データベース１５１に照会してメタデータを取得し、クライアント装置１４０に照会結果として返すようにしてもよい。

クライアント装置１４０は、ＩＰインターフェース部２３０を介して情報提供サーバー１５０から受け取ったメタデータや、コンテンツに関連する広告、番組連動のアプリケーションなどを、ＲＡＭ部２１６に一旦格納する。

制御マイコン部２１４は、ＲＡＭ部２１６に一旦格納されたメタデータや、コンテンツに関連する広告、番組連動のアプリケーションなどを、アプリケーション仕様に従って処理する。

情報提供サーバー１５０からメタデータなどを提供する方法として、クライアント装置１４０に直接送信する他、スマートフォンなどのクライアント装置１４０に関連付けられたモバイル機器に対して配信するようにしてもよい。

図４には、制御マイコン部２１４の制御下で、ＡＣＲ機能動作を実行する処理手順をフローチャートの形式で示している。

クライアント装置１４０上でコンテンツを視聴中に、ユーザー・インターフェース部２２７などからＡＣＲ動作の開始が指示されると（ステップＳ４０１のＹｅｓ）、制御マイコン部２１４は、主音声を視聴中かどうかチェックする（ステップＳ４０２）。

ここで、主音声を視聴中でない、すなわち副音声を視聴しているときには（ステップＳ４０２のＮｏ）、音声復号部２１９は、デマルチプレクサー部２１７がＲＡＭ部２１６に一旦格納した主音声チャネルのデコードを開始する（ステップＳ４０７）。また、主音声を視聴しているときには（ステップＳ４０２のＹｅｓ）、音声復号部２１９は、視聴対象である主音声チャネルのデコードを行なっている。

そして、制御マイコン部２１４は、主音声チャネルのデコード結果データに対して、その特徴点情報を取得する処理を開始する（ステップＳ４０３）。

主音声の特徴点情報の作成を終了すると（ステップＳ４０４のＹｅｓ）、制御マイコン部２１４の制御下で、特徴点情報を基に視聴中のコンテンツの同定を行なう（ステップＳ４０５）。具体的には、取得した主音声の特徴点情報を、ＩＰインターフェース部２３０からインターネットなどを経由して、情報提供サーバー１５０に問い合わせる。

情報提供サーバー１５０側では、コンテンツ配信装置１１０から配信されるすべてのコンテンツの少なくとも主音声についての特徴点情報を、コンテンツの識別子と対応付けて参照特徴点情報データベース１５２で管理している。情報提供サーバー１５０は、クライアント装置１４０からの主音声の特徴点情報の問合せに応答して、参照特徴点情報データベース１５２に照会する。クライアント装置が、情報提供サーバー１５０から照会結果を受け取り、コンテンツを同定することができると（ステップＳ４０６のＹｅｓ）、本処理ルーチンを終了する。

クライアント装置が視聴中の音声チャネルからしか特徴点情報を抽出できないと、複数の音声チャネルを含むコンテンツに対して、クライアント装置側で副音声を視聴中は、データベースに主音声の特徴点情報しか用意していない情報提供サーバーと連携しても音声ＡＣＲ機能が働かないことがある。これに対し、本実施形態では、クライアント装置１４０はいずれの音声チャネルを視聴中であっても主音声の特徴点情報を確実に生成することができるので、データベースに主音声の特徴点情報しか用意していない情報提供サーバーと連携して、音声ＡＣＲ機能を実現することができる。

また、情報提供サーバー１５０側では、複数の音声チャネルを含むコンテンツに対しても、主音声の特徴点情報のみのデータベースを運用すればよいので、データベースの容量を最小限に抑えることができ、動作効率、運用コスト、メンテナンス・コストなどの観点で最適な情報提供システム１００を実現することができる。

なお、本明細書の開示の技術は、以下のような構成をとることも可能である。
（１）主音声と１以上の副音声を含むコンテンツを入力する入力部と、入力されたコンテンツに含まれる主音声と１以上の副音声のうちいずれかをデコード再生して音声出力する音声出力部と、入力されたコンテンツに含まれる主音声から特徴点情報を生成する特徴点情報生成部と、を具備する情報処理装置。
（２）前記特徴点情報生成部は、自動コンテンツ認識動作を行なうときに、特徴点情報の生成処理を実行する、上記（１）に記載の情報処理装置。
（３）前記視聴用音声出力部で副音声をデコード再生して音声出力しているときには、前記特徴点情報生成部は、自動コンテンツ認識動作を行なうときに、主音声をデコード再生し、その主音声デコード結果に対して特徴点情報を生成する、上記（１）に記載の情報処理装置。
（４）デコード再生した主音声を音声出力しない、上記（３）に記載の情報処理装置。
（５）前記入力部に入力されるコンテンツは、画像とともにマルチプレクスされており、入力されたコンテンツをデマルチプレクスするデマルチプレクサー部をさらに備え、前記デマルチプレクサー部は、コンテンツに含まれるすべての音声を対象として処理し、前記音声出力部は、デマルチプレクスされた主音声と１以上の副音声のうち視聴対象の音声信号のみデコード再生して音声出力し、副音声視聴時において自動コンテンツ認識動作を行なうときに、前記特徴点情報生成部は、デマルチプレクスされた主音声をデコード再生し、その主音声デコード結果に対して特徴点情報を生成する、上記（１）に記載の情報処理装置。
（６）前記特徴点情報生成部が主音声から生成した特徴点情報を基に、入力されたコンテンツを同定するコンテンツ同定部をさらに備える、上記（１）に記載の情報処理装置。
（７）ネットワークに接続する通信インターフェース部をさらに備え、前記コンテンツ同定部は、コンテンツ識別情報とコンテンツに含まれる主音声の特徴点情報を対応付けた参照特徴点情報データベースに、前記通信インターフェース部を介して照会して、コンテンツ識別情報を取得する、上記（６）に記載の情報処理装置。
（８）各コンテンツの関連情報を蓄積する関連情報データベースに、前記通信インターフェース部を介して照会して、前記コンテンツ同定部が同定したコンテンツの関連情報を取得する関連情報取得部をさらに備える、上記（７）に記載の情報処理装置。
（９）主音声と１以上の副音声を含むコンテンツを入力する入力ステップと、入力されたコンテンツに含まれる主音声と１以上の副音声のうちいずれかをデコード再生して音声出力する音声出力ステップと、入力されたコンテンツに含まれる主音声から特徴点情報を生成する特徴点情報生成ステップと、を有する情報処理方法。
（１０）主音声と１以上の副音声を含むコンテンツの主音声から生成された特徴点情報とコンテンツ識別情報を対応付けた参照特徴点情報データベースを備え、特徴点情報を含んだ問い合わせに対して、コンテンツ識別情報を返す、情報提供装置。
（１１）主音声と１以上の副音声を含むコンテンツを配信するコンテンツ配信装置と、前記コンテンツ配信装置から配信されたコンテンツをいずれかの音声チャネルで視聴するとともに、主音声から特徴点情報を生成するクライアント装置と、コンテンツの主音声から生成された特徴点情報とコンテンツ識別情報を対応付けた参照特徴点情報データベースを備え、前記クライアント装置からの特徴点情報に問合せに対して該当するコンテンツ識別情報を提供する情報提供サーバーと、を具備する情報提供システム。

以上、特定の実施形態を参照しながら、本明細書で開示する技術について詳細に説明してきた。しかしながら、本明細書で開示する技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

本明細書で開示する技術は、複数の音声チャネルを含むコンテンツから特徴点情報を生成し、特徴点情報を基にコンテンツを同定する処理に主な特徴があり、コンテンツを同定した以降の処理は特に限定されない。本明細書では、コンテンツのメタデータや、コンテンツに関連する広告、番組連動のアプリケーションなどを、ＴＶ受像機などのクライアントや、スマートフォンなどのモバイル機器に配信する情報提供システムに関する実施形態を中心に説明してきたが、本明細書で開示する技術は、コンテンツの権利統制など、ＡＣＲ機能を利用したさまざまなサービスに利用することができる。

要するに、例示という形態で本発明を開示してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本明細書で開示する技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。

１００…情報提供システム
１１０…コンテンツ配信装置
１２０…中継局
１３０…セットトップボックス
１４０…クライアント装置
１５０…情報提供サーバー
１５１…メタデータ・データベース
１５２…参照特徴点情報データベース
２０１…入力端子
２０３…システム・バス
２１０…フロントエンド部
２１１…チューナー部、２１２…復調部、２１３…エラー検出・訂正部
２１４…制御マイコン部、２１５…ＲＯＭ部、２１６…ＲＡＭ部
２１７…デマルチプレクサー部
２１８…画像復号部、２１９…音声復号部、２２０…クロック発生部
２２１…表示画像構成部
２２２…Ｄ／Ａコンバーター部、２２３…出力端子
２２４…Ｄ／Ａコンバーター部、２２５…出力端子
２２７…ユーザー・インターフェース部、２３０…ＩＰインターフェース部

Claims

主音声と１以上の副音声を含むコンテンツを入力する入力部と、
入力されたコンテンツに含まれる主音声と１以上の副音声のうちいずれかをデコード再生して音声出力する音声出力部と、
入力されたコンテンツに含まれる主音声から特徴点情報を生成する特徴点情報生成部と、
を具備し、
前記音声出力部で副音声をデコード再生して視聴用の音声出力しているときには、前記特徴点情報生成部は、自動コンテンツ認識動作を行なうときに、主音声をデコード再生し、その主音声デコード結果に対して特徴点情報を生成する、
情報処理装置。
デコード再生した主音声を音声出力しない、
請求項１に記載の情報処理装置。
主音声と１以上の副音声を含むコンテンツを入力する入力部と、
入力されたコンテンツに含まれる主音声と１以上の副音声のうちいずれかをデコード再生して音声出力する音声出力部と、
入力されたコンテンツに含まれる主音声から特徴点情報を生成する特徴点情報生成部と、
入力されたコンテンツをデマルチプレクスするデマルチプレクサー部と、
を具備し、
前記入力部に入力されるコンテンツは、画像とともにマルチプレクスされており、
前記デマルチプレクサー部は、コンテンツに含まれるすべての音声を対象として処理し、
前記音声出力部は、デマルチプレクスされた主音声と１以上の副音声のうち視聴対象の音声信号のみデコード再生して音声出力し、
副音声視聴時において自動コンテンツ認識動作を行なうときに、前記特徴点情報生成部は、デマルチプレクスされた主音声をデコード再生し、その主音声デコード結果に対して特徴点情報を生成する、
情報処理装置。
前記特徴点情報生成部が主音声から生成した特徴点情報を基に、入力されたコンテンツを同定するコンテンツ同定部をさらに備える、
請求項１乃至３のいずれかに記載の情報処理装置。
ネットワークに接続する通信インターフェース部をさらに備え、
前記コンテンツ同定部は、コンテンツ識別情報とコンテンツに含まれる主音声の特徴点情報を対応付けた参照特徴点情報データベースに、前記通信インターフェース部を介して照会して、コンテンツ識別情報を取得する、
請求項４に記載の情報処理装置。
各コンテンツの関連情報を蓄積する関連情報データベースに、前記通信インターフェース部を介して照会して、前記コンテンツ同定部が同定したコンテンツの関連情報を取得する関連情報取得部をさらに備える、
請求項５に記載の情報処理装置。
主音声と１以上の副音声を含むコンテンツを入力する入力ステップと、
入力されたコンテンツに含まれる主音声と１以上の副音声のうちいずれかをデコード再生して音声出力する音声出力ステップと、
入力されたコンテンツに含まれる主音声から特徴点情報を生成する特徴点情報生成ステップと、
を有し、
前記音声出力ステップにおいて副音声をデコード再生して視聴用の音声出力しているときには、前記特徴点情報生成ステップでは、自動コンテンツ認識動作を行なうときに、主音声をデコード再生し、その主音声デコード結果に対して特徴点情報を生成する、
情報処理方法。
主音声と１以上の副音声を含むコンテンツの主音声から生成された特徴点情報とコンテンツ識別情報を対応付けた参照特徴点情報データベースを備え、
請求項５に記載の情報処理装置からの特徴点情報を含んだ問い合わせに対して、コンテンツ識別情報を返す、
情報提供装置。
主音声と１以上の副音声を含むコンテンツを配信するコンテンツ配信装置と、
前記コンテンツ配信装置から配信されたコンテンツをいずれかの音声チャネルで視聴するとともに、主音声から特徴点情報を生成するクライアント装置と、
コンテンツの主音声から生成された特徴点情報とコンテンツ識別情報を対応付けた参照特徴点情報データベースを備え、前記クライアント装置からの特徴点情報に問合せに対して該当するコンテンツ識別情報を提供する情報提供サーバーと、
を具備し、
前記クライアント装置は、副音声をデコード再生して視聴用の音声出力中に、自動コンテンツ認識動作を行なうときに、主音声をデコード再生し、その主音声デコード結果に対して特徴点情報を生成する、
情報提供システム。