JP5953151B2

JP5953151B2 - 学習装置、及びプログラム

Info

Publication number: JP5953151B2
Application number: JP2012157813A
Authority: JP
Inventors: 吉彦河合; 藤井　真人; 真人藤井
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2012-07-13
Filing date: 2012-07-13
Publication date: 2016-07-20
Anticipated expiration: 2032-07-13
Also published as: JP2014022837A

Description

本発明は、映像に検出対象が含まれているかを検出する識別器を学習する学習装置、及びプログラムに関する。

映像を検索する技術として、色ヒストグラムを索引として利用する手法がある。具体的には、与えられたクエリ映像に対して色ヒストグラムを算出し、予め用意されている映像の中から同様の色ヒストグラムを持つ映像区間を検索する。この手法では、検索対象の映像における時間窓の位置をずらしながら、色ヒストグラムが類似する区間を検索していくことによって類似映像区間を特定する。しかし、映像の色を利用した検索手法の場合、映像の内容を全く考慮していないため、意味的には同一なオブジェクトの映像であっても色が異なる場合は検出できなかったり、全く異なるオブジェクトやイベントであっても色が似ている場合は、同一とみなされたりしてしまう。

そこで、映像についての高度な検索や要約のためには、色やテクスチャなどの表層的な特徴ではなく、意味内容を考慮した索引が必要である。そこで、対象物がある分類に属するかを判断する識別器を検索に利用することが考えられる。このような識別器を構築するためには、正例、及び負例の学習データを用いて学習を行う。正例とは、検出対象の物体や事象が出現しているデータを表し、負例とは、検出対象の物体や事象が出現していないデータを表す。

図７は、学習データを用いた識別器の構築を説明するための図である。同図は、学習データから得られる特徴量を各要素としたベクトルが配置されるベクトル空間を示しており、実際は多次元である。各点は、学習データの特徴ベクトルの位置を示し、黒い点は正例を、白抜きの点は負例を示す。識別器の構築とは、点線で示すように、この空間における正例と負例の境界を定めることに相当する。よって、境界付近の学習データを多く集めるほど、精度の高い識別器を構築することができる。

学習データに対して、正例であるか負例であるかのラベルを正確に付与するためには、すべての学習データの内容を人間が確認してラベルを付与するという手法がもっとも確実である。しかし、十分に汎用的な識別器を構築するためには、大量のデータが必要となることから、様々な種類の物体や事象に対する学習データをこのような方法で作成することは非常に難しい。

この問題を解決するための方法として、正例か負例かのラベルがすでに付与されている一部の学習データを用いて識別器を学習し、その検出結果に基づいてラベルを修正するという手続きを繰り返すことによって、識別器を構築するアプローチがある。この方法においては、最初のラベルをどのように与えるかが重要となる。これは、ラベルを基に識別器の学習と、学習データの修正とを反復することから、最初の学習データが偏っていると、一部のデータに特化した識別器が構築されてしまうためである。例えば、時計全般を検出する識別器を構築する際、初期の学習データに腕時計しか含まれていないと、掛け時計や置き時計などは精度よく検出できない識別器が構築されてしまう。あるいは、初期の学習データが特定のアングルで撮影されたものしか含まれていない場合、そのアングルでしか精度よく検出できないといったことも考えられる。

初期の学習データの作成方法としては、別々に開発された複数の識別手法により検出された結果を用いて識別器を学習し、最初の学習データを生成するというものがある（例えば、非特許文献１参照）。

Stephane Ayache and Georges Quenot, "Evaluation of Active Learning Strategies for Video Indexing", Signal Processing: Image Communication, Vol 22/7-8, pp 692-704, 2007.

非特許文献１のような初期の学習データの作成方法では、最初の学習データの生成に用いる識別手法において、十分な精度と多様性が確保されているかが問題となる。また、識別器自体をどのように学習するかという問題もある。

本発明は、このような事情を考慮してなされたもので、多様性のある学習データを用いた学習により映像から特定の物体や事象などの検出対象を高い精度で検出する識別器を構築する学習装置、及びプログラムを提供する。

［１］本発明の一態様は、映像データを記憶する映像データ記憶部と、映像データの特徴量と当該映像データに検出対象が出現している正例であるか出現していない負例であるかを示すラベルとを含む学習データを記憶する学習データ記憶部と、前記学習データ記憶部に初期の学習データが登録されたとき、及び前記学習データ記憶部に学習データが追加されたときに、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する識別器構築部と、前記識別器構築部が構築した前記識別器により、前記学習データ記憶部に記憶されている前記学習データに対して、入力映像データの映像区間の中から、現在の正例の学習データと見た目が類似している映像区間、音声特徴が類似している映像区間の映像データを、前記識別器を用いて検出する検出処理を行う識別器検出部と、前記識別器検出部による検出結果に基づいて前記識別器の精度を判定する判定部と、前記判定部において識別器の精度が所定の精度に達していないと判断された場合、前記映像データ記憶部に記憶されている前記映像データのうち一部を選択し、選択した前記映像データの特徴量に正例のラベルを付与して生成した学習データを前記学習データ記憶部に追加する学習データ追加部と、を備え、前記学習データ追加部は、前記映像データ記憶部に記憶されている前記映像データのうち、ランダムに選択した前記映像データ、前記学習データ記憶部に記憶されている正例の前記学習データが得られた映像データに類似する映像データ、あるいは、構築対象の前記識別器と類似の検出対象に対応した他の識別器によって検出された前記映像データの中から一部を選択する、ことを特徴とする学習装置である。
この態様によれば、学習装置は、正例及び負例の初期の学習データから、映像が検出対象に関連するかを検出する識別器を構築し、構築した識別器により学習データを対象に検出処理を行って精度を確認する。精度が低い場合、学習装置は、映像データ記憶部に記憶されている映像データの中の一部から学習データを生成し、現在の学習データに正例として追加する。学習装置は、精度が高くなるまで、学習データを用いた識別器の構築と、学習データの追加を繰り返す。
これにより、学習装置は、偏りのない学習データを生成することができるため、映像から特定の物体や事象などの検出対象を高い精度で検出する識別器を構築することが可能となる。

また、この態様によれば、学習装置は、登録されている映像データの中から、無作為に選択した映像データ、正例の映像データに視覚的あるいは聴覚的に類似性の高い映像データ、あるいは、構築対象の識別器が検出対象としている物体や事象と意味的に類似した検出対象を検出する学習済みの識別器を使用して検出された映像データの一部を選択し、選択した映像データから学習データを生成して現在の学習データに追加する。
これにより、学習装置は、多様性が向上するように学習データを追加することができるため、より精度の高い識別器の構築が可能となる。

［２］本発明の一態様は、上述した学習装置であって、前記識別器検出部は、前記学習データ記憶部に学習データが追加されたときに、前記学習データ記憶部に記憶されている前記学習データに対して前記識別器により検出を行い、検出結果に基づいて前記学習データのラベルに正例または負例を設定し、前記識別器構築部は、前記学習データ記憶部に学習データが追加されたときには、前記識別器検出部によるラベルの設定後に、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する、ことを特徴とする。
この態様によれば、学習装置は、繰り返し処理における識別器の構築前に、追加後の学習データを含む全ての学習データに対して現在の識別器により検出を行い、検出結果に基づいて学習データのラベルを書き換える。
これにより、学習データのラベルの誤りが修正されるため、構築される識別器の性能を向上させることができる。

［３］本発明の一態様は、上述した学習装置であって、前記学習データ記憶部に登録された前記初期の学習データ、あるいは、前記識別器検出部によりラベルが設定された前記学習データに対して、ユーザ入力または他の識別器による前記学習データの検出結果に基づいて前記学習データのラベルを修正する学習データ修正部をさらに備え、前記識別器構築部は、前記学習データ記憶部に初期の学習データが登録されたとき、及び前記学習データ記憶部に学習データが追加されたときに、前記学習データ修正部によるラベルの修正後に、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する、ことを特徴とする。
この態様によれば、学習装置は、識別器の構築前に、学習データの正例、負例のラベルを、ユーザの入力、あるいは、他の識別器による検出結果に基づいて修正する。
これにより、学習データのラベルの誤りが精度よく修正されるため、構築される識別器の性能を向上させることができる。

［４］本発明の一態様は、上述した学習装置であって、前記映像データの音声を表すテキストデータに、構築する前記識別器による検出対象を表すキーワード及び当該キーワードに関連する他のキーワードが含まれるかを検出し、検出されたテキストデータに対応した映像データの特徴量に正例のラベルを付与して初期の学習データを生成し、前記学習データ記憶部に登録する初期学習データ生成部をさらに備える、ことを特徴とする。
この態様によれば、映像の色やテクスチャなどの表層的な特徴ではなく、映像データの内容に基づいて初期の学習データを生成することができる。
これにより、学習装置は、映像データの内容に基づいて多様性のある初期の学習データを生成し、意味内容に基づく映像を精度よく検索可能とする識別器を構築することができる。

［５］本発明の一態様は、映像データの特徴量と当該映像データに検出対象が出現している正例であるか出現していない負例であるかを示すラベルとを含む学習データを記憶する学習データ記憶部、映像の特徴量と検出対象に対して正例であるか負例であるかを示すラベルとを含む学習データを記憶する学習データ記憶部、前記学習データ記憶部に初期の学習データが登録されたとき、及び前記学習データ記憶部に学習データが追加されたときに、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する識別器構築部、前記識別器構築部が構築した前記識別器により、前記学習データ記憶部に記憶されている前記学習データに対して、入力映像データの映像区間の中から、現在の正例の学習データと見た目が類似している映像区間、音声特徴が類似している映像区間の映像データを、前記識別器を用いて検出する検出処理を行う識別器検出部、前記識別器検出部による検出結果に基づいて前記識別器の精度を判定する判定部、前記判定部において識別器の精度が所定の精度に達していないと判断された場合、前記映像データ記憶部に記憶されている前記映像データのうち一部を選択し、選択した前記映像データの特徴量に正例のラベルを付与して生成した学習データを前記学習データ記憶部に追加する学習データ追加部、として機能させ、前記学習データ追加部が、前記映像データ記憶部に記憶されている前記映像データのうち、ランダムに選択した前記映像データ、前記学習データ記憶部に記憶されている正例の前記学習データが得られた映像データに類似する映像データ、あるいは、構築対象の前記識別器と類似の検出対象に対応した他の識別器によって検出された前記映像データの中から一部を選択するよう機能させるプログラムである。

本発明によれば、多様性のある学習データを生成し、生成された学習データを用いた学習により映像から特定の物体や事象などの検出対象を高い精度で検出する識別器を構築することができる。

本発明の一実施形態による学習装置の構成を示すブロック図である。同実施形態による音声テキストデータの例を示す図である。同実施形態による学習データの例を示す図である。同実施形態による学習装置の処理フローを示す図である。同実施形態による学習装置を用いた実験結果を示す図である。同実施形態による学習装置を用いた実験結果を示す図である。学習データを用いた識別器の構築を説明するための図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。

図１は、本発明の一実施形態による学習装置１の構成を示すブロック図であり、本実施形態に関係する機能ブロックのみを抽出して示してある。学習装置１は、例えば、１台または複数台のサーバコンピュータ等のコンピュータ装置により実現することができる。

学習装置１は、入力された映像データ（以下、「入力映像データ」と記載する。）から生成された正例及び負例の学習データを用いて学習を行い、識別器を構築する。ここで、正例とは、検出対象の物体（オブジェクト）や事象（イベント）が映像に出現していることを表し、負例とは、出現していないことを表す。また、識別器は、映像の特徴を入力とし、その映像が検出対象の物体や事象と関連するかを検出するアルゴリズムである。

そこでまず学習装置１は、入力映像データの音声を表すテキストを利用し、構築する識別器の検出対象を表すキーワードや、そのキーワードの同義語や類語、あるいは、キーワードと意味的な包含関係がある他のキーワードに対応する映像区間を抽出する。学習装置１は、抽出した映像区間を正例の初期の学習データとして識別器を構築し、構築した識別器の精度が十分でなければ、できるだけ多様性のある学習データを生成するために学習データを追加、修正し、再び識別器を構築する処理を繰り返す。

学習装置１は、学習データを追加する際、入力映像データをある単位で分割した映像区間の中から、無作為に選択した映像区間、正例と視聴覚的に類似性の高い映像区間、意味的に類似したキーワードに対応する学習済みの識別器を使用して検出された映像区間の映像データを一定割合だけ正例として既に生成されている学習データに混合する。これにより、学習データが一部に偏ったものにならないようにし、精度の高い識別器の構築を可能とする。

同図に示すように、学習装置１は、記憶部１０、入力部１１、映像区間分割部１２、初期学習データ生成部１３、学習データ修正部１４、識別器構築部１５、識別器検出部１６、識別器判定部１７、及び学習データ追加部１８を備えて構成される。

記憶部１０は、ハードディスク装置や半導体メモリなどで実現され、映像データ記憶部１０１、学習データ記憶部１０２、及び識別器記憶部１０３を備えて構成される。
映像データ記憶部１０１は、入力映像データ、及び音声テキストデータを記憶する。入力映像データは、動画のコンテンツデータであり、本実施形態では、動画として放送番組を用いる場合について説明する。
音声テキストデータは、入力映像データの音声を示すテキストデータと、そのテキストデータが対応する入力映像データの映像部分を特定する同期データとを含む。本実施形態では、音声テキストデータとして、番組音声の書き起こしを示すクローズドキャプションデータや、入力映像データに含まれる音声を音声認識した結果を示す音声認識データを用いる。

学習データ記憶部１０２は、識別器を構築するための学習データを記憶する。学習データは、入力映像データにおける映像区間と、特徴データと、正例であるか負例であるかのラベルとの対応付けを示す。特徴データは、映像区間における画像特徴量を示す。

識別器記憶部１０３は、既存の識別器と、学習データから構築した新たな識別器とを記憶する。識別器は、それぞれ検出対象を表すキーワードと対応付けられ、映像データの画像特徴を表す特徴データを入力とし、その映像データが検出対象に関連するかを検出するアルゴリズムである。識別器は、例えば、サポートベクターマシンや決定木などの分類アルゴリズムを利用しており、入力された特徴データから映像が検出対象に関連する度合いを定量的に表す値を算出する。

入力部１１は、入力映像データ、新たに構築する識別器が検出対象とする物体や事象を表すキーワード、ユーザが選択したラベル書き換え対象の学習データを特定する情報などの各種データの入力を受ける。
映像区間分割部１２は、各入力映像データを映像区間毎に分割する。本実施形態では、映像区間分割部１２は、入力映像データを１ショット毎に分割する。１ショットとは、一台のカメラで連続的に撮影された区間であり、カメラの切り替え点によって挟まれた区間を表す。

初期学習データ生成部１３は、入力映像データから初期の学習データを生成する。初期学習データ生成部１３は、クローズドキャプション抽出部１３１、番組音声認識部１３２、キーワード拡張部１３３、映像区間抽出部１３４、及び特徴データ抽出部１３５を備えて構成される。
クローズドキャプション抽出部１３１は、入力映像データからクローズドキャプションデータを抽出し、音声テキストデータとする。番組音声認識部１３２は、入力映像データの番組音声に対して音声認識処理を行い、音声テキストデータを生成する。キーワード拡張部１３３は、学習装置１と接続されるシソーラス記憶装置５が記憶するシソーラスや辞書を利用して、入力されたキーワードに類似するキーワードや、同義のキーワード、意味的に含有関係にあるキーワードなどを抽出する。映像区間抽出部１３４は、音声テキストデータを利用して、入力されたキーワード、あるいはキーワード拡張部１３３が抽出したキーワードに対応する映像区間を入力映像データから抽出する。特徴データ抽出部１３５は、映像区間抽出部１３４が抽出した映像区間の映像データから特徴データを取得し、最初の学習データを生成する。

学習データ修正部１４は、入力部１１により入力された情報に基づいて、あるいは、学習を行う際の反復処理の過程において構築される識別器の検出結果に基づいて、学習データに付与された正例あるいは負例を表すラベルを修正する。初期学習データ生成部１３は、キーワードに対応する映像区間をそのまま正例として最初の学習データを生成している。しかし、番組音声やクローズドキャプションにキーワードが含まれていても、映像に目的とする物体や事象が出現しているとは限らないため、最初の学習データが正例か負例かのラベルの修正が必要である。同様に、学習を行う際の反復処理の過程において構築される識別器の検出結果に基づいてラベルが付与された学習データについても、誤りや漏れが含まれている可能性がある。そのため、反復処理の過程においても学習データのラベルの修正が必要である。

識別器構築部１５は、学習データから識別器を構築する。
識別器検出部１６は、識別器構築部１５で構築された識別器を学習データに適用し、検出結果を得る。識別器検出部１６は、検出結果により検出対象に関連すると判断された学習データを、次の正例の学習データとする。
識別器判定部１７は、識別器構築部１５により構築された識別器の精度が十分か否かを判定する。

学習データ追加部１８は、識別器判定部１７により識別器の精度が十分ではないと判断された場合、学習データを追加する。単純に、識別器の検出結果により検出対象に関連すると判定された学習データを正例として再び識別子を構築すると、この識別器を学習した際の学習データに類似したものしか精度よく検出できなくなってしまう。また、最初のデータに、多様性が不十分といったような問題があると、特定のデータしか精度よく検出できない識別器が学習されてしまう恐れがある。そこで、学習データ追加部１８は、現在学習させている識別器と全く依存関係がない方式の識別器によって入力映像データの映像区間から選択した映像データを正例の学習データとして加える。これによって、特定のデータに偏った識別器が学習されてしまうことを避ける。

学習データ追加部１８は、ランダムデータ選択部１８１、類似映像選択部１８２、類似識別器検出部１８３、及びデータ混合部１８４を備えて構成される。
ランダムデータ選択部１８１は、入力映像データの映像区間の中から無作為に抽出した映像区間の映像データを学習データへの追加候補とする。
類似映像選択部１８２は、入力映像データの映像区間の中から、現在の正例の学習データと見た目が類似している映像区間、音声特徴が類似している映像区間の映像データを選択し、学習データへの追加候補とする。
類似識別器検出部１８３は、識別器記憶部１０３内に記憶されているすでに学習済みの識別器の中から、入力されたキーワードと意味的に類似しているキーワード、関連のあるキーワード、意味的に含有関係にあるキーワードに対応した学習済みの識別器を選択する。類似識別器検出部１８３は、選択した学習済みの識別器を用いて入力映像データの映像区間を対象として検出処理を行い、検出された映像区間の映像データを学習データへの追加候補とする。
データ混合部１８４は、ランダムデータ選択部１８１、類似映像選択部１８２、類似識別器検出部１８３において追加候補とされた映像データを正例として、学習データに一定の割合だけ追加する。追加を複数回行う場合、データ混合部１８４は、学習データ修正部１４において一度でも負例と判定されたデータについては、正例として学習データに追加しないようにする。

図２は、音声テキストデータのデータ例を示す図である。同図に示す音声テキストデータは、クローズドキャプションデータであり、番組音声を示すテキストデータと、そのテキストデータに対応するタイムコード情報により示される同期データとを含む。

図３は、学習データのデータ例を示す図である。同図に示すように、学習データは、映像区間を特定する映像区間特定データと、映像区間における画像特徴量を示す特徴データと、正例であるか負例であるかのラベルとを対応付けたデータである。映像区間特定データは、入力映像データの識別情報と、入力映像データにおける映像区間の開始位置及び終了位置とにより示され、開始位置及び終了位置は、例えば、タイムコード情報など入力映像データの先頭からの再生時間により示される。

図４は、学習装置の処理手順のフローチャートを示す。
まず、学習装置１の入力部１１は、入力映像データと、新たに構築する識別器の検出対象となる物体や事象を表すキーワードとの入力を受ける。入力部１１は、入力映像データを映像データ記憶部１０１に書き込み、キーワードを初期学習データ生成部１３に出力する。

映像区間分割部１２は、映像データ記憶部１０１に記憶されている入力映像データを読み出し、各入力映像データを１ショット単位で分割する。例えば、映像区間分割部１２は、入力映像データが示す隣接フレーム間の映像の差分を計算し、計算した差分を指標としてカット点を検出すると、その検出したカット点で入力映像データを映像区間ごとに区切る。映像区間分割部１２は、入力映像データに、各映像区間の開始位置及び終了位置を示す分割データを対応づけて映像データ記憶部１０１に書き込む（ステップＳ１０５）。以降、学習装置１は、この分割データに基づいて映像データにおける映像区間を特定する。

続いて初期学習データ生成部１３は、入力映像データから初期の学習データを生成する（ステップＳ１１０）。
まず、クローズドキャプション抽出部１３１は、入力映像データにクローズドキャプションが重畳されている場合、入力映像データからクローズドキャプションを抽出し、映像データ記憶部１０１に音声テキストデータとして書き込む。

続いて番組音声認識部１３２は、クローズドキャプションが重畳されていない入力映像データから音声データを取得し、その取得した音声データが示す番組音声に対して音声認識を行う。番組音声認識部１３２は、番組音声を音声認識した結果を示すテキストデータと、その音声認識した音声が得られた入力映像データの映像部分を表す同期データとを対応づけた音声認識データを生成し、映像データ記憶部１０１に音声テキストデータとして書き込む。

キーワード拡張部１３３は、学習装置１の外部または内部に備えられたシソーラス記憶装置５に記憶されているシソーラスや辞書を検索し、入力されたキーワードに類似のキーワードや、同義のキーワード、意味的に含有関係にあるキーワードなどを読み出す。例えば、キーワード拡張部１３３は、入力キーワードが「車」である場合、類似したキーワードや同義のキーワードとして「自動車」、「カー」、「タクシー」、「乗用車」…などを取得し、意味的に含有関係にあるキーワードとして「陸上交通」、「ワンボックスカー」、「軽自動車」…などを取得する。以下、入力されたキーワードに基づいて取得された類似のキーワード、同義のキーワード、意味的に含有関係にあるキーワードを「関連キーワード」と記載する。

映像区間抽出部１３４は、映像データ記憶部１０１に記憶されている音声テキストデータを検索して入力キーワードや関連キーワードを検出し、検出した入力キーワードや関連キーワードに対応した同期データを取得する。この同期データは、キーワードが出現した番組内での時刻を表しており、その時刻をtとおくと、ｔはクローズドキャプションに記載されるタイムコード情報、あるいは音声認識された時間などに基づいて与えられたものである。映像区間抽出部１３４は、特定した同期データに対応した映像区間を入力映像データから抽出する。

例えば、映像区間抽出部１３４は、キーワードの出現時刻tに対して、時刻ｔ−δから時刻ｔ＋δまでの映像区間を選択する。なお、δは、予め決められた時間である。映像区間抽出部１３４は、時刻ｔ−δを開始位置、時刻ｔ＋δを終了位置とする。
あるいは、映像区間抽出部１３４は、時刻ｔにおけるショットを選択する。この場合、映像区間抽出部１３４は、入力映像データに付加されている分割データで示される映像区間の中から、特定した同期データが示す時刻ｔが含まれる映像区間を選択する。
特徴データ抽出部１３５は、映像区間抽出部１３４が選択した映像区間の映像データから、映像の特徴量を表す特徴データを生成する。

特徴データとして用いる特徴量は、様々なオブジェクトやイベントに対応する必要があるため、特定のオブジェクトやイベントに特化した特徴量でなく、より汎用的な特徴量を利用する。具体的には、グリッド領域における色モーメント、エッジ方向ヒストグラム、ガボールウェーブレット、ハールウェーブレット、ローカルバイナリパターンなどを組み合わせて特徴データを生成する。これは、例えば、「T. Ojala, M. Pietikaninen and T. Maenpaa, “Multiresolution gray-scale and rotation invariant texture classification with local binary patterns,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 24, no. 7, pp. 971-987, 2002.」（参考文献１）に記載されている。

あるいは、コーナーなどの特徴点近辺の局所領域における輝度勾配ヒストグラムに基づいて、それらの頻度ヒストグラムを作成するといった、一般物体認識におけるアプローチを利用する方法を組み合わせた特徴量を用いることも考えられる。これは、例えば、「G. Csurka, C. Bray, C. Dance and L. Fan, “Visual categorization with bags of keypoints,” in Proc. ECCV Workshop on Statistical Learning in Computer Vision, pp. 59-74, 2004.」（参考文献２）に記載されている。
その他には、時間方向を考慮した特徴量として、フレーム間の動きベクトル列や、フレーム間における特徴量の相関を考慮したり、音声の特徴を利用したりすることが考えられる。

特徴データ抽出部１３５は、抽出した映像区間を示す映像区間特定データと、その映像区間の特徴データと、正例を示すラベルとを設定した学習データを生成して学習データ記憶部１０２に書き込み、最初の学習データとして登録する。

続いて、学習データ修正部１４は、現在すべて正例が設定されている最初の学習データのラベルを修正する（ステップＳ１１５）。修正は、人手で実施するのがもっとも正確である。そこで、最初の学習データに対する修正は、正例のラベルが付与された学習データに対して人（ユーザ）が正否を判定し、その判定結果に基づいて負例であると判定した学習データについては、ラベルを負例に修正する。

具体的には、入力部１１は、学習データ記憶部１０２に現在記憶されている正例の学習データのうち、負例とする学習データを特定する情報の入力を受ける。学習データ修正部１４は、入力部１１により入力された情報により特定される学習データのラベルを、正例から負例に書き換える。

識別器構築部１５は、学習データ記憶部１０２に現在記憶されている学習データを用いて識別器を構築し、識別器記憶部１０３に書き込む（ステップＳ１２０）。なお、識別器構築部１５は、識別器の構築には、サポートベクターマシンやランダムフォレストなどの機械学習を利用する。

識別器検出部１６は、ステップＳ１２０において構築された識別器を学習データ記憶部１０２に現在記憶されている学習データに適用し、各学習データに設定されている特徴データを入力として検出結果を得る。この検出結果は、各学習データが検出対象に関連する度合いを定量的に表す値と、その値に基づいて得られる関連の度合いの順位を示す。識別器検出部１６は、検出結果から検出対象に関連すると判断された学習データのラベルに負例が設定されている場合は正例に書き換え、関連しないと判断された学習データのラベルに正例が設定されている場合は負例に書き換える。識別器判定部１７は、ステップＳ１２５において構築された識別器による検出結果から、構築された識別器の精度が閾値以上かどうか否かを判定する（ステップＳ１２５）。

識別器の精度を評価するための指標としては、順位付き検索結果に対する評価指標である平均適合率が利用できる。以下の式（１）は、検出結果の上位Ｎ件に対する平均適合率の算出式を示す。

ここで、ｒ_ｋは、順位がｋ番目の検出結果が正解なら１、不正解なら０を表す。なお、正解か不正解かの情報は、人により入力部１１に入力される。
また、式（１）におけるｐ（ｋ）は、上位Ｎ件それぞれの適合率を表し、次式（２）で算出される。

識別器判定部１７が、式（１）により算出した精度（平均適合率）は閾値に満たないと判定した場合（ステップＳ１２５：ＮＯ）、学習データ追加部１８は、学習データ記憶部１０２に記憶されている学習データに対して、追加の学習データを混合する（ステップＳ１３０）。

まず、ランダムデータ選択部１８１は、映像データ記憶部１０１に記憶されている入力映像データの映像区間の中から無作為に抽出し、抽出した各映像区間を学習データ生成候補とする。

また、類似映像選択部１８２は、学習データ記憶部１０２からラベルに正例が設定されている学習データを特定し、特定した学習データに含まれる映像区間特定データにより示される入力映像データの映像区間から類似検出用特徴データを取得する。さらに、類似映像選択部１８２は、映像データ記憶部１０１に記憶されている各入力映像データの映像区間それぞれについて類似検出用特徴データを取得する。

類似検出用特徴データには、映像特徴や音声特徴を用いることができる。例えば、映像特徴には、映像の色ヒストグラム、テクスチャなどを、音声特徴には音声の周波数分布、音声のパワーの分布などを用いることができる。
また、類似検出用特徴データが示す映像区間の画像特徴量としては、色やテクスチャなどが利用できる。また、画像特徴量として、上記の参考文献２に記載のように、コーナーなどの特徴点近辺の局所領域における輝度勾配ヒストグラムに基づいて、それらの頻度ヒストグラムを作成するというアプローチを利用することも考えられる。

類似映像選択部１８２は、各入力映像データの映像区間それぞれの類似検出用特徴データについて、正例の学習データに対応した映像区間の類似検出用特徴データとどの程度類似しているかを定量的に表す値を算出する。類似映像選択部１８２は、この算出した値に基づいて、現在の正例の学習データと見た目が類似している映像、あるいは音声特徴が類似している映像区間を特定する。

例えば、類似映像選択部１８２は、入力映像データの映像区間から得た特徴データと、正例の学習データに対応する映像区間から得た特徴データそれぞれとについて算出した類似度を合計する。類似映像選択部１８２は、各入力映像データの映像区間それぞれについて算出した合計の類似度が所定の閾値以上、あるいは、合計の類似度に基づく順位が高いものから所定数の映像区間データを、学習データ生成候補として特定する。

また、類似識別器検出部１８３は、シソーラス記憶装置５に記憶されているシソーラスや辞書を検索し、入力されたキーワードに対する関連キーワードを読み出す。類似識別器検出部１８３は、識別器記憶部１０３内に記憶されているすでに学習済みの識別器の中から、関連キーワードを検出対象とする学習済みの識別器を選択する。類似識別器検出部１８３は、映像データ記憶部１０１に記憶されている各入力映像データの映像区間それぞれについて特徴データを取得し、取得した特徴データを入力として、選択した学習済みの識別器により検出処理を実行する。類似識別器検出部１８３は、学習済みの識別器により関連すると検出された映像区間を、学習データ生成候補として特定する。

データ混合部１８４は、ランダムデータ選択部１８１、類似映像選択部１８２、類似識別器検出部１８３により特定された学習データ生成候補の映像区間の中から一定割合を選択する。なお、ランダムデータ選択部１８１、類似映像選択部１８２、類似識別器検出部１８３により特定された学習データ生成候補の映像区間の混合割合は、検出対象によって可変とすることができる。

データ混合部１８４は、選択した映像区間のうち、まだ特徴データが生成されていないものについては、その映像区間の映像データから特徴データを生成する。データ混合部１８４は、選択された映像区間の映像区間特定データ及び特徴データと、正例を設定したラベルとを対応づけて学習データを生成し、学習データ記憶部１０２に追加して書き込む。

なお、反復処理により複数回学習データを追加する場合でも、類似映像選択部１８２、類似識別器検出部１８３は、学習データ生成候補の映像区間を最初に一度特定すればよい。２回目以降の学習データの追加処理の際には、データ混合部１８４は、これら特定済みの学習データ生成候補の映像区間の中から学習データの生成対象を選択する。
また、データ混合部１８４は、混合を複数回行う場合、学習データ修正部１４において一度でも負例と判定されたデータについては、正例として学習データに追加しないようにする。

識別器検出部１６は、現在構築されている識別器を用い、学習データ記憶部１０２から全ての学習データを読み出し、読み出した学習データに対して検出処理を実行する。識別器検出部１６は、検出結果により関連すると判断された学習データのラベルに負例が設定されている場合は正例に書き換え、関連しないと判断された学習データのラベルに正例が設定されている場合は負例に書き換える。そして、検出の結果得られた上位Ｎ件の学習データに対して人が正否を判定し、間違った判定の対象となっている学習データを特定する情報を入力する。入力部１１は、ラベル修正対象の学習データを特定する情報の入力を受け、学習データ修正部１４は、入力された情報により特定されている学習データに正例が設定されてれいば負例に書き換え、負例が設定されていれば正例に書き換える（ステップＳ１３５）。

なお、Ｎは大きいほど正確性が増すが、通常は、学習データの総数に対する割合で決定したり、修正作業にかけられる時間や人数に応じて決定したりする。なお、完全に自動化する必要がある場合には、アプローチが全く異なるアルゴリズムの識別器を複数用意し、それらの識別器の多数決によって正否を判定する方法がある。

識別器構築部１５は、学習データ記憶部１０２から全ての学習データを読み出し、読み出した学習データを用いて識別器を構築する（ステップＳ１４０）。
識別器検出部１６は、ステップＳ１４０において構築された識別器を、学習データ記憶部１０２に記憶されている学習データに適用し、検出処理を実行する。識別器検出部１６は、検出結果から検出対象に関連すると判断された学習データのラベルに負例が設定されている場合は正例に書き換え、関連しないと判断された学習データのラベルに正例が設定されている場合は負例に書き換える（ステップＳ１４５）。

ステップＳ１４５の処理の後、学習装置１は、ステップＳ１４０において構築された識別器による検出結果から、構築された識別器の精度が閾値以上かどうか否かを判定するステップＳ１２５からの処理を繰り返す。そして、ステップＳ１２５において、識別器判定部１７が、精度は閾値以上であると判定した場合（ステップＳ１２５：ＹＥＳ）、学習装置１は処理を終了する。

図５及び図６は、本実施形態による学習装置１を用いた実験結果を示す図である。
図５は、識別器構築の繰り返し回数と、キーワード（物体名）毎の平均適合率の値及び正例の学習データの数（＃ｏｆＰｏｓ）の変化との関係を示している。なお、平均適合率は、上位１００件で算出している。同図に示すように、各キーワードとも、繰り返し回数が増えるたびに平均適合率の値は向上し、３回から６回の繰り返しで精度が閾値以上となっている。

図６は、図５に示す識別器構築の繰り返し回数とキーワード別の平均適合率の平均の変化との関係を示す図である。同図に示すように、繰り返し回数が３回程度から平均適合率の上昇が飽和し始め、５回目あたりで０．９５を超える。
このように、学習装置１は、学習データを追加しながら識別器を学習させることにより、識別器の検出精度を向上させることができる。

以上説明した本実施形態によれば、学習装置１は、テレビ番組などの映像データから、正例および負例のラベルが付与された学習データを生成し、特定の物体や事象を検出するための識別器を、生成された学習データに基づいて構築する。
学習装置１は、新たに構築する識別器の検出対象を表すキーワードと、シソーラスなどの辞書を用いて選択した追加のキーワードを、番組音声の認識結果やクローズドキャプションから検索し、対応する映像区間を正例の映像データとして抽出する。これによって、色やテクスチャなどの表層的な特徴ではなく、映像の内容に基づいた検索を可能とする識別器を構築するための学習データを効率的に生成することができる。また、特定のオブジェクトやイベントに特化したり、番組のジャンルや放送局などに関わらず、様々な番組から様々な検出対象の識別器を構築することができる。

学習装置１は、学習データが正例であるか負例であるかのラベルを修正した後、そのデータに基づいて識別器を構築し、構築した識別器で検出した学習データを次の学習データにおける正例にする、といった処理を反復する。これによって、識別器の精度を向上させることができる。

また、学習装置１は、入力された映像データの中から無作為に選択した映像区間、あるいは、正例の映像データに視覚あるいは聴覚的に類似性の高い映像区間、構築対象の識別器が検出対象としている物体や事象と意味的に類似した検出対象に対応した学習済みの識別器を使用して検出した映像区間の映像データを、反復処理の過程で学習データにおける正例として一定割合だけ混合する。これによって、多様性が向上するように学習データを追加し、反復処理によって特定のデータに偏った識別器が構築されることを避けることが可能となる。

なお、映像データに代えて、属性データ付きの静止画データを用いることにより、静止画データが検出対象と関連するかを検出する識別器を構築することもできる。この場合、学習装置１は、音声テキストデータに代えて属性データに記述されている静止画に関するテキストの情報を用い、１つの静止画データが１つの映像区間に対応するものとして同様の処理を行う。この場合、特徴データは、静止画の特徴量を表すものとする。

上述した学習装置１は、内部にコンピュータシステムを有している。そして、学習装置１の入力部１１、映像区間分割部１２、初期学習データ生成部１３、学習データ修正部１４、識別器構築部１５、識別器検出部１６、識別器判定部１７、及び学習データ追加部１８の動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

１学習装置
５シソーラス記憶装置
１０記憶部
１１入力部
１２映像区間分割部
１３初期学習データ生成部
１４学習データ修正部
１５識別器構築部
１６識別器検出部
１７識別器判定部
１８学習データ追加部
１０１映像データ記憶部
１０２学習データ記憶部
１０３識別器記憶部
１３１クローズドキャプション抽出部
１３２番組音声認識部
１３３キーワード拡張部
１３４映像区間抽出部
１３５特徴データ抽出部
１８１ランダムデータ選択部
１８２類似映像選択部
１８３類似識別器検出部
１８４データ混合部

Claims

映像データを記憶する映像データ記憶部と、
映像データの特徴量と当該映像データに検出対象が出現している正例であるか出現していない負例であるかを示すラベルとを含む学習データを記憶する学習データ記憶部と、
前記学習データ記憶部に初期の学習データが登録されたとき、及び前記学習データ記憶部に学習データが追加されたときに、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する識別器構築部と、
前記識別器構築部が構築した前記識別器により、前記学習データ記憶部に記憶されている前記学習データに対して、入力映像データの映像区間の中から、現在の正例の学習データと見た目が類似している映像区間、音声特徴が類似している映像区間の映像データを、前記識別器を用いて検出する検出処理を行う識別器検出部と、
前記識別器検出部による検出結果に基づいて前記識別器の精度を判定する判定部と、
前記判定部において識別器の精度が所定の精度に達していないと判断された場合、前記映像データ記憶部に記憶されている前記映像データのうち一部を選択し、選択した前記映像データの特徴量に正例のラベルを付与して生成した学習データを前記学習データ記憶部に追加する学習データ追加部と、
を備え、
前記学習データ追加部は、前記映像データ記憶部に記憶されている前記映像データのうち、ランダムに選択した前記映像データ、前記学習データ記憶部に記憶されている正例の前記学習データが得られた映像データに類似する映像データ、あるいは、構築対象の前記識別器と類似の検出対象に対応した他の識別器によって検出された前記映像データの中から一部を選択する、
ことを特徴とする学習装置。
前記識別器検出部は、前記学習データ記憶部に学習データが追加されたときに、前記学習データ記憶部に記憶されている前記学習データに対して前記識別器により検出を行い、
検出結果に基づいて前記学習データのラベルに正例または負例を設定し、
前記識別器構築部は、前記学習データ記憶部に学習データが追加されたときには、前記識別器検出部によるラベルの設定後に、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する、
ことを特徴とする請求項１に記載の学習装置。
前記学習データ記憶部に登録された前記初期の学習データ、あるいは、前記識別器検出部によりラベルが設定された前記学習データに対して、ユーザ入力または他の識別器による前記学習データの検出結果に基づいて前記学習データのラベルを修正する学習データ修正部をさらに備え、
前記識別器構築部は、前記学習データ記憶部に初期の学習データが登録されたとき、及び前記学習データ記憶部に学習データが追加されたときに、前記学習データ修正部によるラベルの修正後に、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する、
ことを特徴とする請求項２に記載の学習装置。
前記映像データの音声を表すテキストデータに、構築する前記識別器による検出対象を表すキーワード及び当該キーワードに関連する他のキーワードが含まれるかを検出し、検出されたテキストデータに対応した映像データの特徴量に正例のラベルを付与して初期の学習データを生成し、前記学習データ記憶部に登録する初期学習データ生成部をさらに備える、
ことを特徴とする請求項１から請求項３のいずれか１項に記載の学習装置。
学習装置に用いられるコンピュータを、
映像データを記憶する映像データ記憶部、
映像データの特徴量と当該映像データに検出対象が出現している正例であるか出現していない負例であるかを示すラベルとを含む学習データを記憶する学習データ記憶部、
前記学習データ記憶部に初期の学習データが登録されたとき、及び前記学習データ記憶部に学習データが追加されたときに、前記学習データ記憶部に記憶されている前記学習データを用いて識別器を構築する識別器構築部、
前記識別器構築部が構築した前記識別器により、前記学習データ記憶部に記憶されている前記学習データに対して、入力映像データの映像区間の中から、現在の正例の学習データと見た目が類似している映像区間、音声特徴が類似している映像区間の映像データを、前記識別器を用いて検出する検出処理を行う識別器検出部、
前記識別器検出部による検出結果に基づいて前記識別器の精度を判定する判定部、
前記判定部において識別器の精度が所定の精度に達していないと判断された場合、前記映像データ記憶部に記憶されている前記映像データのうち一部を選択し、選択した前記映像データの特徴量に正例のラベルを付与して生成した学習データを前記学習データ記憶部に追加する学習データ追加部、
として機能させ、
前記学習データ追加部が、前記映像データ記憶部に記憶されている前記映像データのうち、ランダムに選択した前記映像データ、前記学習データ記憶部に記憶されている正例の前記学習データが得られた映像データに類似する映像データ、あるいは、構築対象の前記識別器と類似の検出対象に対応した他の識別器によって検出された前記映像データの中から一部を選択するよう機能させるプログラム。