JP2019193023A

JP2019193023A - 希望映像情報報知システム

Info

Publication number: JP2019193023A
Application number: JP2018081824A
Authority: JP
Inventors: 孝利石井; Takatoshi Ishii
Original assignee: JCC KK
Current assignee: JCC KK
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2019-10-31

Abstract

【課題】一つのコンテンツに含まれる所望の条件に適合した内容が出力される際に、その旨を利用者に報知することにより、利用者に有用な映像部分のみを視聴するよう喚起することができる望映像情報報知システムを提供する。【解決手段】先のコンテンツに基づいて予め蓄積された要約の蓄積結果に基づいて最適な条件を学習しつつ、出力中のコンテンツを構成するデータに所望の条件に適合した内容が含まれているか否かを判定する判定手段と、前記判定手段で含まれていると判定した場合に出力中のコンテンツの利用者に対してその旨を報知する報知手段と、を備える。【選択図】図９

Description

本発明は、希望映像情報報知システムに関し、特に、コンテンツにおける希望映像情報を利用者に報知するための希望映像情報報知システムに関する。

従来、例えば、コンテンツとしてのテレビ放映等で出力している映像の中から、予め登録した映像のある区間と類似する映像の箇所を探索する技術が知られている。

このような探索技術は、例えば、テレビ放映信号の中から特定のタイトルロールを検出してリアルタイム録画の開始・停止や、異なる時間・放送局で放送された同一ニュース素材を検出して映像の構造解析を行う、等の技術に用いられている（例えば、特許文献１参照）。

また、このような探索技術は、テレビ放映に限定されず、例えば、インターネット回線を通じて受信した映像コンテンツ等の配信データを対象とすることも可能である（例えば、特許文献２参照）。

さらに、このような探索技術は、映像（動画・静止画）に限定されず、例えば、テキストへの対応も可能である。具体的には、コンテンツに含まれる字幕テキストの他、放送番組のコーナーごとの放送開始時刻、放送終了時刻、出演者、及び、コーナーの内容の要約等のメタデータを、放送番組の終了後に配信する有料サービス（番組メタデータサービスとも称される）のサービス提供者が提供するメタデータや、ユーザがキーボード等を操作することによって入力する、コンテンツを説明するテキスト等を採用することができる（例えば、特許文献２参照）。

特開２０１０−２６２４１３号公報特開２０１２−０３８２３９号公報

しかしながら、これらの技術は、例えば、一つの番組やコンテンツを対象としており、ユーザの嗜好に十分に対応しきれていないという問題が生じていた。

例えば、テレビ放映において、特定のニュース番組を嗜好の一つとすることはできるものの、そのニュース番組中の特定のコーナーや特定のニュース情報までも対象とすることはできなかった。

本発明は、上述のような課題を解決するために、利用者に有用な映像部分のみを視聴するよう喚起することができる希望映像情報報知システムを提供することを目的とする。

本発明に係る希望映像情報報知システムは、上記目的を達成のため、先のコンテンツに基づいて予め蓄積された要約の蓄積結果に基づいて最適な条件を学習しつつ、出力中のコンテンツを構成するデータに所望の条件に適合した内容が含まれているか否かを判定する判定手段と、前記判定手段で含まれていると判定した場合に出力中のコンテンツの利用者に対してその旨を報知する報知手段と、を備える。

本発明によれば、コンテンツを出力している際に、コンテンツ全体を視聴するのではなく、所望の条件に適合した内容が出力される場合にのみ視聴を行うことができるように、判定手段が出力中のコンテンツを監視することができる。

したがって、出力中のコンテンツに所望の条件に適合した内容が出力される場合にのみ視聴を行えばよいため、それ以外の出力中は他の作業を行うなどの、「ながら視聴」を行うことができる。

同じく請求項２に記載の発明は、請求項１に記載の希望映像情報報知システムにおいて、前記出力中のコンテンツを前記表示手段に表示させるための起動手段を備え、前記報知手段は、前記判定手段で含まれていると判定した場合に前記起動手段に報知信号を出力して前記出力中のコンテンツを表示させる、ことを特徴とする。

すなわち、コンテンツは、最初からモニタ等の表示手段（表示画面）に出力している必要はなく、例えば、出力として録画のみを行ってもよい。

判定手段は、そのコンテンツ録画中に映像データ解析や音声データ解析を行って所望の条件に適合した内容が含まれているか否かを判定する。

そして、その判定手段による判定結果において、所望の条件に適合した内容が含まれているかと判定した場合に、報知として起動手段によって表示手段をＯＮして実際の表示を開始してもよい。

また、例えば、一つの表示画面中にメイン画面とワイプ画面とが表示されている場合において、ワイプ画面に所望の条件に対応する人物等が表示されていると判定したときに、メイン画面とワイプ画面との表示状態を切り替えるように起動制御してもよい。

同じく請求項３に記載の発明は、請求項１に記載の希望映像情報報知システムにおいて、前記判定手段は、前記コンテンツがテレビ放映である場合に、リアルタイムで視聴している放映データに含まれる音声データ又は映像データの少なくとも一方に所望の条件に適合した内容が含まれているか否かをリアルタイムで判定し、所望の条件に適合した内容が含まれていると判定したときに前記報知手段に報知信号を出力する、ことを特徴とする。

コンテンツがテレビ放映である場合、例えば、一つの番組であっても利用者によって視聴したいのは番組全体とは限らず、特定のコーナーや出演者のみである場合がある。

そこで、本発明によれば、リアルタイムで視聴している放映データに含まれる音声データ又は映像データの少なくとも一方に所望の条件に適合した内容が含まれているか否かをリアルタイムで判定手段が判定することにより、利用者が視聴したいとする所望の条件に適合した内容が含まれている部分に差し掛かったときに、報知手段が報知信号を出力することにより、所望の出力を視聴することが可能となる。

同じく請求項４に記載の発明は、請求項１に記載の希望映像情報報知システムにおいて、前記判定手段は、前記コンテンツが電気通信回線を通じて受信した配信データである場合に、リアルタイムで視聴している配信データに含まれる音声データ又は映像データの少なくとも一方に所望の条件に適合した内容が含まれているか否かをリアルタイムで判定し、所望の条件に適合した内容が含まれていると判定したときに前記報知手段に報知信号を出力する、ことを特徴とする。

コンテンツがインターネット回線等の電気通信回線を利用して受信した映像コンテンツ等の配信データである場合、その映像コンテンツが編集されたものであっても利用者によって視聴したいのはコンテンツ全体とは限らず、その一部のみである場合がある。

そこで、本発明によれば、リアルタイムで視聴している配信データに含まれる音声データ又は映像データの少なくとも一方に所望の条件に適合した内容が含まれているか否かをリアルタイムで判定手段が判定することにより、利用者が視聴したいとする所望の条件に適合した内容が含まれている部分に差し掛かったときに、報知手段が報知信号を出力することにより、所望の出力を視聴することが可能となる。

同じく請求項５に記載の発明は、請求項１に記載の希望映像情報報知システムにおいて、前記判定手段は、前記コンテンツが電気通信回線を通じて受信した配信データである場合に、リアルタイムで視聴している配信データに先行して受信した配信データに含まれる音声データ又は映像データの少なくとも一方に所望の条件に適合した内容が含まれているか否かを予め判定し、所望の条件に適合した内容が含まれていると判定した部分を出力するときに前記報知手段に報知信号を出力する、ことを特徴とする。

コンテンツがインターネット回線等の電気通信回線を利用して受信した映像コンテンツ等の配信データである場合、例えば、インターネットサーバへのアクセス数、電気通信回線の受信速度、パーソナルコンピュータやスマートフォン等の受信・再生端末の機能、等によっては、出力部分よりも先の部分の配信データを予め受信している場合がある。

そこで、本発明によれば、コンテンツが電気通信回線を通じて受信した配信データである場合には、リアルタイムで視聴している配信データに先行して受信した配信データに含まれる音声データ又は映像データの少なくとも一方に所望の条件に適合した内容が含まれているか否かを予め判定手段で判定しておけば、その部分の出力に差し掛かったときに報知手段で報知することができる。

同じく請求項６に記載の発明は、請求項１に記載の希望映像情報報知システムにおいて、前記判定手段は、前記コンテンツが記憶手段に予め記憶した放映データ又は配信データである場合に、リアルタイムで視聴している配信データに先行して受信した配信データに含まれる音声データ又は映像データの少なくとも一方に所望の条件に適合した内容が含まれているか否かを予め判定し、所望の条件に適合した内容が含まれていると判定した部分を出力するときに報知手段に報知信号を出力する、ことを特徴とする。

利用者によっては、他の都合によってリアルタイムでコンテンツを視聴することができず、記憶手段に記憶（いわゆる、録画）している場合がある。

そこで、本発明によれば、予め記憶手段に記憶した放映データ又は配信データを出力（再生）している場合には、リアルタイムで視聴（再生）している配信データに先行して記憶した配信データに含まれる音声データ又は映像データの少なくとも一方に所望の条件に適合した内容が含まれているか否かを予め判定手段で判定しておけば、その部分の出力に差し掛かったときに報知手段で報知することができる。

同じく請求項７に記載の発明は、請求項６に記載の希望映像情報報知システムにおいて、前記報知手段は、前記記憶手段に予め記憶した放映データ又は配信データを出力している際に、時間と出力速度とが同じ標準速度よりも早い高速出力若しくは前記標準速度よりも遅い低速出力である場合には、前記判定手段により所望の条件に適合した内容が含まれていると判定した場合に出力中のコンテンツの出力速度を前記標準速度に切り替える、ことを特徴とする。

予め記憶手段に記憶した放映データ又は配信データを出力（再生）する場合には、本来の出力速度、すなわち、時間と出力速度とが一致している標準速度よりも早い高速出力（若しくは前記標準速度よりも遅い低速出力）で出力（再生）している場合がある。

そこで、本発明によれば、出力速度が標準速度でない場合には、報知手段による報知として、判定手段により所望の条件に適合した内容が含まれていると判定した場合に出力中のコンテンツの出力速度を標準速度に切り替えることにより、所望のタイミングから視聴をすることが可能となる。

同じく請求項８に記載の発明は、請求項１から請求項７のいずれか１の請求項に記載の希望映像情報報知システムにおいて、前記報知手段は、前記判定手段により所望の条件に適合した内容が含まれていると判定した場合に、前記音声データに基づいて音声出力部から出力している音声の音量を増加させる、ことを特徴とする。

視聴者は、音量が増加したことにより、所望の条件に適合した部分の放映（再生）に差し掛かったことを容易に認識することができる。

同じく請求項９に記載の発明は、請求項１から請求項７のいずれか１の請求項に記載の希望映像情報報知システムにおいて、前記報知手段は、前記判定手段により所望の条件に適合した内容が含まれていると判定した場合に、前記音声データに基づいて音声出力部から出力している音声とは異なる報知音声を出力する、ことを特徴とする。

視聴者は、コンテンツに含まれる音声とは異なる音声を出力することにより、所望の条件に適合した部分の放映（再生）に差し掛かったことを容易に認識することができる。

その結果、視聴者は、放映時間に拘束されることなく、自分が希望、或いは、必要とする映像部分にのみを視聴することができ、特に多忙な際には時間効率化に貢献し得る報知後の映像を視聴することができる。

また、クラウド上の映像配信サービスにおいても、番組の全ての映像を視聴することなく、自分が希望、或いは、必要とする映像部分にのみを視聴することができる。

本発明によれば、一つのコンテンツに含まれる所望の条件に適合した内容が出力される際に、その旨を利用者に報知することにより、利用者に有用な映像部分のみを視聴するよう喚起することができる。

本発明に係る要約作成システムの一実施の形態における全体構成を示すブロック図である。本発明に係る要約作成システムの一実施の形態における発話テキスト化部を示すものであり、（ａ）はブロック図、（ｂ）は処理の流れを示す図である。本発明に係る要約作成システムの一実施の形態におけるテロップテキスト化部を示すものであり、（ａ）はブロック図、（ｂ）は処理の流れを示す図である。本発明に係る要約作成システムの一実施の形態における背景画像テキスト化部を示すものであり、（ａ）はブロック図、（ｂ）は処理の流れを示す図である。本発明に係る要約作成システムの一実施の形態におけるロゴマークテキスト化部を示すものであり、（ａ）はブロック図、（ｂ）は処理の流れを示す図である。本発明に係る要約作成システムの一実施の形態におけるテキスト統合部を示すブロック図である。本発明に係る要約作成システムの一実施の形態における要約作成部を示すブロック図である。本発明に係る要約作成システムの一実施の形態における動作を示すフローチャートである。本発明に係る要約作成システムの一実施の形態における希望映像情報報知システムの全体構成を示すブロック図である。本発明に係る要約作成システムの一実施の形態における希望映像情報報知システムの適用例を示し、（Ａ）は文字認識により所望の条件に適合していると判定した場合の説明図、（Ｂ）は音声認識によりにより所望の条件に適合していると判定した場合の説明図、である。

図１は本発明の実施形態に係る希望映像情報報知システムを実現するための要約作成システムの全体構成を示すブロック図である。

＜要約作製システム１０の全体構成＞
図１に示すように、要約作製システム１０は、ビデオ信号分離部２０、発話テキスト化部１００、テロップテキスト化部２００、背景画像テキスト化部３００、ロゴマークテキスト化部４００、テキスト統合部５００、及び要約作成部６００を備える。本実施形態では要約作製システム１０はビデオ信号をテレビ放送局３０からの放送番組やインターネット４０で配信される動画映像から取得する。なお、ビデオ信号は、インターネットにおける映像から取得することができる。なお、テロップテキスト化部２００、背景画像テキスト化部３００、ロゴマークテキスト化部４００、及びテキスト統合部５００から選択した少なくとも２つの部分を備えるものとすることができる。

音声信号と映像信号を含むビデオ信号Ｖは、ビデオ信号分離部２０で音声信号Ａと映像信号Ｂとに分離される。音声信号Ａは発話テキスト化部１００に入力され、映像信号Ｂはテロップテキスト化部２００、背景画像テキスト化部３００、及びロゴマークテキスト化部４００に入力される。

＜発話テキスト化部１００＞
発話テキスト化部１００は音声信号Ａを受けてコンテンツ中における人の発話内容を記述したテキストである発話テキストを出力する。発話テキスト化部１００は、発話情報抽出部１１０、発話内容認識部１２０、発話内容テキスト化部１３０を備える。

発話情報抽出部１１０は、ビデオ信号Ｖの音声信号Ａから発話情報を抽出する。即ち、音声信号Ａ中の雑音を取り除き、人の発話音声の情報を抽出する。この発話情報として効果音や特徴的な音楽を含むことができる。

発話内容認識部１２０は、発話情報から発話内容を認識する。即ち、発話情報を音響的、文法的に解析して発話内容を言語として認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の音声テキストの生成データから機械学習により生成できる。

発話内容テキスト化部１３０は発話内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の音声テキストの入力データ及び生成データから機械学習により生成できる。

＜テロップテキスト化部２００＞
テロップテキスト化部２００は映像信号Ｂを受けてコンテンツ中におけるテロップ内容を記述したテキストであるテロップテキストを出力する。テロップテキスト化部２００は、テロップ情報抽出部２１０、テロップ内容認識部２２０、テロップ内容テキスト化部２３０を備える。

テロップ情報抽出部２１０は、ビデオ信号Ｖの映像信号Ｂからテロップ情報を抽出する。即ち、映像信号Ｂ中の背景を取り除き、テロップ画像だけの情報を抽出する。

発話内容認識部１２０は、テロップ画像情報からテロップ内容を認識する。即ち、テロップ情報を言語的、文法的に解析してテロップ表示内容を言語として認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のテロップテキストの入力データ及び生成データから機械学習により生成できる。

テロップ内容テキスト化部２３０はテロップ内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のテロップテキストの入力データ及び生成データから機械学習により生成できる。

＜背景画像テキスト化部３００＞
背景画像テキスト化部３００は映像信号Ｂを受けてコンテンツ中における背景画像内容を記述したテキストである背景画像テキストを出力する。背景画像としては、場面、状況、物品、及び事象のうち少なくとも一つ、例えば、人物、人物の持ち物、人物の表情、風景、建築物の状況、室内の状況、動物、乗物、その他の物品を挙げることができる。背景画像テキスト化部３００は、背景画像情報抽出部３１０、背景画像内容認識部３２０、背景画像内容テキスト化部３３０を備える。

背景画像情報抽出部３１０は、ビデオ信号Ｖの映像信号Ｂから背景画像情報を抽出する。即ち、映像信号Ｂ中のテロップや不鮮明な画像を取り除き、認識可能な背景画像だけの情報を抽出する。

背景画像内容認識部３２０は、背景画像情報から背景画像の内容を認識する。即ち、背景画像情報を解析して表されている人物、人物の持ち物、人物の表情、風景、建築物の状況、室内の状況、動物、乗物、その他の物品を認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の背景画像テキストの入力データ及び生成データから機械学習により生成できる。

背景画像内容テキスト化部３３０は背景画像内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去の背景画像テキストの入力データ及び生成データから機械学習により生成できる。

＜ロゴマークテキスト化部４００＞
ロゴマークテキスト化部４００は映像信号Ｂを受けてコンテンツ中におけるロゴマーク内容を記述したテキストであるロゴマークテキストを出力する。ロゴマークとしては、商品の出所を表示する商標、記号、符号を含むマーク、その他の標章を挙げることができる。ロゴマークテキスト化部４００は、ロゴマーク画像情報抽出部４１０、ロゴマーク内容認識部４２０、ロゴマーク内容テキスト化部４３０を備える。

ロゴマーク画像情報抽出部４１０は、ビデオ信号Ｖの映像信号Ｂからロゴマーク画像情報を抽出する。即ち、映像信号Ｂ中のテロップや背景画像を取り除き、認識可能なロゴマーク画像だけの情報を抽出する。

ロゴマーク内容認識部４２０は、ロゴマーク画像情報からロゴマークの内容を認識する。即ち、ロゴマーク画像情報を解析して表されている商品、サービス、店舗、施設等を認識する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のロゴマークテキストの入力データ及び生成データから機械学習により生成できる。

ロゴマーク内容テキスト化部４３０はロゴマーク画像内容をテキスト化して出力する。この認識に使用するパラメータ、条件等は後述するように蓄積された過去のロゴマークテキストの入力データ及び生成データから機械学習により生成できる。

＜テキスト統合部５００＞
テキスト統合部５００は、発話テキスト化部１００からの発話テキスト、テロップテキスト化部２００からのテロップテキスト、背景画像テキスト化部３００からの背景テキスト、ロゴマークテキスト化部４００からの背景テキストを統合する。即ち、各テキストにおける矛盾や誤りを訂正して、統合テキストを生成する。このテキストの統合に使用するパラメータ、条件等は後述するように蓄積された過去のテキスト統合の入力、出力データから機械学習により生成できる。

＜要約作成部６００＞
要約作成部６００は、テキスト統合部５００からの統合テキストを要約する。即ち、要約テキストの内容を要約して指定された文字数とする。この要約に使用するパラメータ、条件等は後述するように蓄積された過去のようよう役処理の入力データ、出力データから機械学習により生成できる。

次に、各部の機械学習処理について説明する。
＜発話テキスト化部１００の機械学習処理＞
図２は同要約作成システムの発話テキスト化部を示すものであり、（ａ）はブロック図、（ｂ）は処理の流れを示す図である。同図（ａ）に示すように、発話テキスト化部１００は、発話情報抽出部１１０、発話内容認識部１２０、発話内容テキスト化部１３０の他、機械学習部１４０、内容認識テキスト作成設定部１５０、比較評価部１６０を備える。また発話テキスト化部１００には、既存データ格納部７００が接続されている。

発話テキスト化部１００は既存データ格納部７００が格納する既存のビデオデータと既存の発話テキストに基づいて機械学習を行い、発話内容認識部１２０及び発話内容テキスト化部１３０を最適化する。既存データ格納部７００には、過去に人が発話テキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部７１０と、このビデオデータの発話内容から作成した発話テキストを格納した既存発話テキスト格納部７２０を備える。これらのビデオデータ及び発話テキストは機械学習の教材となる。

また、発話テキスト化部１００には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部１７０、１８０を備える。

内容認識テキスト作成設定部１５０は、発話情報抽出部１１０の発話情報の抽出処理の設定と、発話内容認識部１２０の発話内容認識処理の設定と、発話内容テキスト化部１３０のテキスト化処理の設定とが格納されている。発話情報抽出部１１０、発話内容認識部１２０及び発話内容テキスト化部１３０は内容認識テキスト作成設定部１５０の設定した条件、パラメータに従って発話情報抽出と、発話内容の認識、テキスト化とを行う。

比較評価部１６０は、比較部１６１と評価部１６２とを備える。比較部１６１は、既存ビデオデータ格納部７１０からの既存ビデオデータを受けて発話内容テキスト化部１３０が作成した発話テキストと、既存発話テキスト格納部７２０からの既存発話テキストとを比較する。評価部１６２は比較部１６１の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。

機械学習部１４０は、評価部１６２からの評価を受け、内容認識テキスト作成設定部１５０の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部１６２の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。

このような機械学習を行うことにより、発話内容認識部１２０及び発話内容テキスト化部１３０の能力が向上する。所定の機械学習を終了した後、発話テキスト化部１００は新規ビデオデータを処理して、最適な発話テキストを出力できる状態となる。

発話テキスト化部１００の処理について説明する。図２（ｂ）に示すように、まず内容認識テキスト作成設定部１５０に音声認識及びテキスト化の特徴量を設定する（ステップＳＡ１）。この設定は機械学習部１４０の学習結果により行う。

次いで、発話情報抽出部１１０が、設定された特徴に基づいて音声を大量の音声信号の中から抽出する（ステップＳＡ２）。

更に、発話内容認識部１２０が、設定された特徴に基づいて抽出した音声を解析する（ステップＳＡ３）。

そして、発話内容テキスト化部１３０が、設定された特徴に基づいて音声をテキスト化して発話テキストを出力する（ステップＳＡ４）。

＜テロップテキスト化部２００の機械学習＞
図３は同要約作成システムのテロップテキスト化部を示すものであり、（ａ）はブロック図、（ｂ）は処理の流れを示す図である。同図（ａ）に示すように、テロップテキスト化部２００は、テロップ情報抽出部２１０、テロップ内容認識部２２０、テロップ内容テキスト化部２３０の他、機械学習部２４０、内容認識テキスト作成設定部２５０、比較評価部２６０を備える。またテロップテキスト化部２００には、既存データ格納部７００が接続されている。

テロップテキスト化部２００は既存データ格納部７００が格納する既存のビデオデータと既存のテロップテキストに基づいて機械学習を行い、テロップ内容認識部２２０及びテロップ内容テキスト化部２３０を最適化する。既存データ格納部７００には、過去に人がテロップテキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部７１０と、このビデオデータの発話内容から作成したテロップテキストを格納した既存テロップテキスト格納部７３０を備える。これらのビデオデータ及び発話テキストは機械学習の教材となる。

また、テロップテキスト化部２００には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部２７０、２８０を備える。

内容認識テキスト作成設定部２５０は、テロップ情報抽出部２１０のテロップ情報抽出の設定と、テロップ内容認識部２２０のテキスト内容認識処理の設定と、テロップ内容テキスト化部２３０のテキスト化処理の設定とが格納されている。テロップ情報抽出部２１０、テロップ内容認識部２２０及びテロップ内容テキスト化部２３０は内容認識テキスト作成設定部２５０の設定した条件、パラメータに従ってテロップの抽出、内容認識、及びテキスト化を行う。

比較評価部２６０は、比較部２６１と評価部２６２とを備える。比較部２６１は、既存ビデオデータ格納部７１０からの既存ビデオデータを受けてテロップ内容テキスト化部２３０が作成したテロップテキストと、既存テロップテキスト格納部７３０からの既存テロップテキストとを比較する。評価部２６２は比較部２６１の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。

機械学習部２４０は、評価部２６２からの評価を受け、内容認識テキスト作成設定部２５０の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部２６２の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。

このような機械学習を行うことにより、テロップ内容認識部２２０及びテロップ内容テキスト化部２３０の能力が向上する。所定の機械学習を終了した後、テロップテキスト化部２００は新規ビデオデータを処理して、最適なテロップテキストを出力できる状態となる。

テロップテキスト化部２００の処理について説明する。図３（ｂ）に示すように、まず内容認識テキスト作成設定部２５０にテロップ情報抽出、内容抽出、及びテキスト化の特徴量を設定する（ステップＳＢ１）。この設定は機械学習部２４０の学習結果により行う（ステップＳＢ２）。

次いで、テロップ情報抽出部２１０が、設定された特徴に基づいてテロップを大量の映像信号の中から抽出する（ステップＳＢ２）。

更に、テロップ内容認識部２２０が、設定された特徴に基づいて抽出したテロップを解析する（ステップＳＢ３）。

そして、テロップ内容テキスト化部２３０が、設定された特徴に基づいてテロップの内容をテキスト化してテロップテキストとして出力する（ステップＳＢ４）。

＜背景画像テキスト化部３００の機械学習＞
図４は同要約作成システムの背景画像テキスト化部を示すものであり、（ａ）はブロック図、（ｂ）は処理の流れを示す図である。同図（ａ）に示すように、背景画像テキスト化部３００は、背景画像情報抽出部３１０、背景画像内容認識部３２０、背景画像内容テキスト化部３３０の他、機械学習部３４０、内容認識テキスト作成設定部３５０、比較評価部３６０を備える。また背景画像テキスト化部３００には、既存データ格納部７００が接続されている。

背景画像テキスト化部３００は既存データ格納部７００が格納する既存のビデオデータと既存の背景画像テキストに基づいて機械学習を行い、背景画像内容認識部３２０及び背景画像内容テキスト化部３３０を最適化する。既存データ格納部７００には、過去に人がテロップテキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部７１０と、このビデオデータの発話内容から作成した背景画像テキストを格納した既存背景画像テキスト格納部７４０を備える。これらのビデオデータ及び背景画像テキストは機械学習の教材となる。

また、背景画像テキスト化部３００には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部３７０、３８０を備える。

内容認識テキスト作成設定部３５０は、背景画像情報抽出部３１０の背景画像抽出処理の設定と、背景画像内容認識部３２０の背景画像内容認識処理の設定と、背景画像内容テキスト化部３３０のテキスト化処理の設定とが格納されている。背景画像情報抽出部３１０、背景画像内容認識部３２０及び背景画像内容テキスト化部３３０は内容認識テキスト作成設定部３５０の設定した条件、パラメータに従って背景画像の抽出、背景画像の内容認識及びテキスト化を行う。

比較評価部３６０は、比較部３６１と評価部３６２とを備える。比較部３６１は、既存ビデオデータ格納部７１０からの既存ビデオデータを受けて背景画像内容テキスト化部３３０が作成した背景画像テキストと、既存背景画像テキスト格納部７４０からの既存背景画像テキストとを比較する。評価部３６２は比較部３６１の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。

機械学習部３４０は、評価部３６２からの評価を受け、内容認識テキスト作成設定部３５０の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部３６２の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。

このような機械学習を行うことにより、背景画像内容認識部３２０及び背景画像内容テキスト化部３３０の能力が向上する。所定の機械学習を終了した後、背景画像テキスト化部３００は新規ビデオデータを処理して、最適な背景画像テキストを出力できる状態となる。

背景画像テキスト化部３００の処理について説明する。図４（ｂ）に示すように、まず内容認識テキスト作成設定部３５０に背景画像情報抽出、背景画像認識、及びテキスト化の特徴量を設定する（ステップＳＣ１）。この設定は機械学習部３４０の学習結果により行う。

次いで、背景画像情報抽出部３１０が、設定された特徴に基づいて背景画像を大量の映像信号の中から抽出する（ステップＳＣ２）。

更に、背景画像内容認識部３２０が、設定された特徴に基づいて抽出した背景画像を解析する（ステップＳＣ３）。

そして、背景画像内容テキスト化部３３０が、設定された特徴に基づいて背景画像の内容をテキスト化して背景画像テキストとして出力する（ステップＳＣ４）。

＜ロゴマークテキスト化部４００の機械学習＞
図５は同要約作成システムのロゴマークテキスト化部を示すものであり、（ａ）はブロック図、（ｂ）は処理の流れを示す図である。ロゴマークテキスト化部４００は、ロゴマーク画像情報抽出部４１０、ロゴマーク内容認識部４２０、ロゴマーク内容テキスト化部４３０の他、機械学習部４４０、内容認識テキスト作成設定部４５０、比較評価部４６０を備える。またロゴマークテキスト化部４００には、既存データ格納部７００が接続されている。

ロゴマークテキスト化部４００は既存データ格納部７００が格納する既存のビデオデータと既存のロゴマークテキストに基づいて機械学習を行い、ロゴマーク画像情報抽出部４１０、ロゴマーク内容認識部４２０及びロゴマーク内容テキスト化部４３０を最適化する。既存データ格納部７００には、過去に人がロゴマークテキストを作成したときに使用した多数のビデオデータを格納した既存ビデオデータ格納部７１０と、このビデオデータの発話内容から作成したロゴマークテキストを格納した既存ロゴマークテキスト格納部７５０を備える。これらのビデオデータ及びロゴマークテキストは機械学習の教材となる。

また、ロゴマークテキスト化部４００には、機械学習を行うときと、新規のビデオデータから発話内容テキストを作成するときにデータ出力の切り換えを行う切換部４７０、４８０を備える。

内容認識テキスト作成設定部４５０は、ロゴマーク内容認識部４２０のロゴマーク画像内容認識処理の設定と、ロゴマーク内容テキスト化部４３０のテキスト化処理の設定が格納されている。ロゴマーク画像情報抽出部４１０、ロゴマーク内容認識部４２０及びロゴマーク内容テキスト化部４３０は内容認識テキスト作成設定部４５０の設定した条件、パラメータに従ってロゴマークの抽出、内容認識及びテキスト化を行う。

比較評価部４６０は、比較部４６１と評価部４６２とを備える。比較部４６１は、既存ビデオデータ格納部７１０からの既存ビデオデータを受けてロゴマーク内容テキスト化部４３０が作成したテキストと、既存ロゴマークテキスト格納部７５０からの既存背景画像テキストとを比較する。評価部４６２は比較部４６１の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。

機械学習部４４０は、評価部４６２からの評価を受け、内容認識テキスト作成設定部４５０の設定状態を変更する。この処理を同一のビデオデータについて繰り返し行い、評価部４６２の評価値をできるだけ高いものとする。この処理は複数のビデオデータについて繰り返し行うことができる。

このような機械学習を行うことにより、ロゴマーク内容認識部４２０及びロゴマーク内容テキスト化部４３０の能力が向上する。所定の機械学習を終了した後、ロゴマークテキスト化部４００は新規ビデオデータを処理して、最適な背景画像テキストを出力できる状態となる。

ロゴマークテキスト化部４００の処理について説明する。図５（ｂ）に示すように、まず内容認識テキスト作成設定部４５０にロゴマークの特徴量を設定する（ステップＳＣ１）。この設定は機械学習部３４０の学習結果により行う。

次いで、ロゴマーク画像情報抽出部４１０が、設定された特徴に基づいてロゴマークを大量の映像信号の中から抽出する（ステップＳＤ２）。

更に、ロゴマーク内容認識部４２０が、設定された特徴に基づいて抽出した背景画像を解析し、自動的に確認して登録する（ステップＳＤ３）。

更に、ロゴマーク内容認識部４２０が、登録されたロゴマークや特定のロゴマークに合致したものをロゴマークとして認識する（ステップＳＤ４）。

そして、ロゴマーク内容テキスト化部４３０が設定された特徴に基づいてロゴマークの内容をテキスト化してロゴマークテキストとして出力する（ステップＳＤ５）。

＜テキスト統合部５００の機械学習＞
図６は同要約作成システムのテキスト統合部を示すブロック図である。テキスト統合部５００は、統合テキスト作成部５１０、統合テキスト作成設定部５２０、機械学習部５３０、比較評価部５４０を備える。テキスト統合部５００には、既存データ格納部７００が接続されている。

テキスト統合部５００は、既存データ格納部７００が格納する既存の各種、すなわち、発話テキスト、テロップテキスト、背景テキスト及びロゴマークテキストと既存の統合テキストに基づいて機械学習を行い、統合テキスト作成部５１０の動作を最適化する。既存データ格納部７００には、過去に統合テキストを作成したときに使用した各種テキストデータを格納した既存各種テキスト格納部７６０と、この各種テキストから作成した統合テキストを格納した既存統合テキスト格納部７７０とを備える。これらの各種テキスト及び統合テキストは機械学習の教材となる。

また、テキスト統合部５００には、機械学習を行うときと、新規の各種テキストから新たな統合テキストを作成するときにデータ出力の切り換えを行う切換部５７０、５８０を備える。

統合テキスト作成設定部５２０は、統合テキスト作成部５１０のテキスト統合処理の設定が格納されている。統合テキスト作成部５１０は統合テキスト作成設定部５２０の設定した条件、パラメータに従ってテキスト統合処理を行う。

比較評価部５４０は、比較部５４１と評価部５４２とを備える。比較部５４１は、既存各種テキスト格納部７６０からの既存各種テキストを受けて統合テキスト作成部５１０が作成した統合テキストと、既存統合テキスト格納部７７０からの既存統合テキストとを比較する。評価部５４２は比較部５４１の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。

機械学習部５３０は、評価部５４２からの評価を受け、統合テキスト作成設定部５２０の設定状態を変更する。この処理を同一の各種テキストデータについて繰り返し行い、評価部５４２の評価値をできるだけ高いものとする。この処理は複数の各種テキストデータについて繰り返し行うことができる。

このような機械学習を行うことにより、統合テキスト作成部５１０の能力が向上する。所定の機械学習を終了した後、テキスト統合部５００は新規ビデオデータを処理して、最適な統合テキストを出力できる状態となる。

＜要約作成部６００の機械学習＞
図７は同要約作成システムの要約作成部を示すブロック図である。要約作成部６００は、要約テキスト作成部６１０、要約作成設定部６２０、機械学習部６３０、比較評価部６４０を備える。要約作成部６００には、既存データ格納部７００が接続されている。

要約作成部６００は既存データ格納部７００が格納する統合テキストと要約テキストに基づいて機械学習を行い、要約テキスト作成部６１０の動作を最適化する。既存データ格納部７００には、過去に要約テキストを作成したときに使用した統合テキストデータを格納した既存統合テキスト格納部７７０と、この統合テキストから作成した要約テキストを格納した既存要約テキスト格納部７８０とを備える。これらの統合テキスト及び要約テキストは機械学習の教材となる。

また、要約作成部６００には、機械学習を行うときと、新規の統合テキストから新たな要約テキストを作成するときにデータ出力の切り換えを行う切換部６７０、６８０を備える。

要約作成設定部６２０には、要約テキスト作成部６１０の要約処理の設定が格納されている。要約テキスト作成部６１０は要約作成設定部６２０の設定した条件、パラメータに従ってテキスト要約処理を行う。

比較評価部６４０は、比較部６４１と評価部６４２とを備える。比較部６４１は、既存統合テキスト格納部７７０からの既存統合テキストを受けて要約テキスト作成部６１０が作成した要約テキストと、既存要約テキスト格納部７８０からの要約テキストとを比較する。評価部６４２は比較部６４１の比較結果に基づいて評価を行い、よく一致した場合は高い点数を与える。

機械学習部６３０は、評価部６４２からの評価を受け、要約作成設定部６２０の設定状態を変更する。この処理を同一の各種テキストデータについて繰り返し行い、評価部６４２の評価値をできるだけ高いものとする。この処理は複数の統合テキストデータについて繰り返し行うことができる。

このような機械学習を行うことにより、要約テキスト作成部６１０の能力が向上する。所定の機械学習を終了した後、要約作成部６００は新規ビデオデータを処理して、最適な要約テキストを出力できる状態となる。

次に、要約作成システム１０の処理について説明する。図８は同要約作成システムの動作を示すフローチャートである。
まず、既存データ格納部７００の既存ビデオデータ格納部７１０、既存発話テキスト格納部７２０、既存テロップテキスト格納部７３０、既存背景画像テキスト格納部７４０、既存ロゴマークテキスト格納部７５０、既存各種テキスト格納部７６０、既存統合テキスト格納部７７０、既存要約テキスト格納部７８０に既存のビデオ信号、各種テキストデータを読み込む（ステップＳＴ１）。

次いで発話テキスト化部１００、テロップテキスト化部２００、背景画像テキスト化部３００、ロゴマークテキスト化部４００において、機械学習処理を行う（ステップＳＴ２ａ、ＳＴ２ｂ、ＳＴ２ｃ、ＳＴ２ｄ）。この学習処理は逐次的に行うこともできる。

次に、テキスト統合部５００の既存データ格納部５５０、要約作成部６００の既存データ格納部６５０に既存の入力データ、出力データを読み込む（ステップＳＴ３）。次いで、テキスト統合部５００、要約作成部６００において機械学習処理を行う（ステップＳＴ３ａ、３ｂ）。この学習処理は逐次的に行うこともできる。なお、発話テキスト化部１００、テロップテキスト化部２００、背景画像テキスト化部３００、及びロゴマークテキスト化部４００の機械学習処理と、及びテキスト統合部５００及び要約作成部６００の機械学習処理とは処理の順序を問わず、逆の順序で行うことができる。

学習処理が終了すると（ステップＳＴ４のyes）、処理対象となるビデオ信号をビデオ信号分離部２０に入力する（ステップＳＴ５）。これにより、発話テキスト化部１００、テロップテキスト化部２００、背景画像テキスト化部３００、ロゴマークテキスト化部４００は、テキスト化処理を実行する（ステップＳＴ６ａ、ＳＴ６ｂ、ＳＴ６ｃ、ＳＴ６ｄ）。

そして、各テキストをテキスト統合部５００で統合処理し（ステップＳＴ７）、更に統合されたテキストを要約作成部６００で要約処理し（ステップＳＴ８）、要約テキストを出力し、要約作成システム１０の処理は終了する。

次の要約作成処理からは、機械学習処理（ステップＳＴ１〜ＳＴ４）は行わなくて直ちに要約作成の対象ビデオ信号の入力（ステップＳＴ５）をするだけで、最適な要約作成を行うことができる。また、機械学習処理は必要に応じて行うことができる。

以上のシステムは、処理装置としてのＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、記憶装置としてＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等を備えたコンピュータシステムでアプリケーションションソフトウエアを実行して実現できる。また、各部は同一ヶ所に配置される必要はなく、一部をクラウド上に配置してネットワークで接続して実現することができる。また、これらの処理は、大量のデータを対象とするためＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を使用して処理することが好ましい。

すなわち、統合テキストは、単に、音声、文字,背景映像等の文字化してものであり、膨大な文章についてのデータである。コのため、ＧＰＵをテキスト処理に特化することにより高速に処理できる。

また、テキスト統合部５００によるテキスト入力は、発話テキスト、テロップテキスト、背景画像テキスト及びロゴマークテキストに限定されない。

例えば、テレビ番組（地上デジタルテレビ放送番組）を対象とする場合、電子番組表（ＥＰＧ）、字幕放送、解説放送（二か国語放送等を含む）から取得した文字や音声をテキストとして取得して入力することができる。これにより、統合テキストの質と量とを向上させるとともに、テキストの汎用性や嗜好性を向上させることができる。

同様に、インターネット映像配信を対象とする場合、第三者の評価（コメントを含む）や評判をテキストとして取得して入力できる。これにより、統合テキストの質と量とを向上させるとともに、テキストの汎用性や嗜好性を向上させることができる。

なお、後述する「報知」のためのトリガーとして、これらの字幕放送や解説放送、あるいは、第三者の評価・評判等も対象とすることができる。

［他の実施形態］
本発明にあってはデータ処理をＡＩ（人工知能：ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）処理により高速且つ適切に処理して要約化する。ＡＩ処理は、上述した機械学習（ＭＬ：ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）により実現できる。更に、機械学習として、既存データを正解とする教師有り学習が採用できる。また、機械学習としてディープラーニング（深層学習：ＤＬ：ＤｅｅｐＬｅａｒｎｉｎｇ）により行うと効果的である。

ディープラーニングでは、既存の多数のビデオデータ、各ビデオデータに対応する各種テキストデータ、統合テキスト、要約テキストをビッグデータとして学習を行う。この、各機械学習部は、入力層、複数の中間層、出力層を備え、多数のニューロンを備えたニューラルネットワークにより処理を行い。すなわち、本発明に係る要約作成システムに入力された新規ビデオデータ、このビデオデータによる各種テキスト、統合テキスト、要約を入力とした出力が、既存の各種テキスト、統合テキスト、要約に近づくように中間層のニューロンにおける重み、パラメータを最小二乗法等の手法で適正化する。

上記の基本構成を一例として、本願発明は、例えば、一つの番組（コンテンツ）に含まれる所望の条件に適合した内容が出力される際に、その旨を利用者（視聴者・オペレータ等）に報知することにより、利用者に有用な映像部分のみを視聴するよう喚起することを目的として、先のコンテンツに基づいて予め蓄積された要約を参照して出力中のコンテンツを構成するデータに所望の条件に適合した内容が含まれているか否かを判定する判定手段と、前記判定手段で含まれていると判定した場合に出力中のコンテンツの利用者に対してその旨を報知する報知手段と、を備えるものである。

図９は、本発明の実施形態に係る映像情報提供システムの全体構成を示すブロック図である。

なお、図９において、映像情報提供システム１は、上述した要約作成システム１０を専用の管理サーバ等によって構成し、その管理サーバによって作成された要約に基づいて稼働する映像出力システム部分を、例えば、コンピュータ機能を備えるテレビ、パーソナルコンピュータ、スマートフォン、タブレット端末等（以下、「再生装置９」と総称する。）で実現してもよい。なお、再生装置９は、１台での利用のほか、複数台での利用も可能である。この場合、各台で所望の条件を変更することも可能である。

また、以下の説明においては、テレビ放映の場合を主として説明するとともに、クラウド上の映像配信の固有の場合は適宜説明し、テレビ放映の利用形態と同一若しくは実質的に同一のクラウド上の映像配信の利用形態に関しては、その説明を省略する。

テレビ放映には、地上波デジタル放送、衛星放送、ワンセグ放送、インターネット放送等、特に放送形態や受信形態は問わない。

図９において、映像情報提供システム１は、上述したテレビ局３０（若しくはクラウド上の映像配信サーバ）からコンテンツに関するビデオ信号を受信するチューナ等を備える受信部２と、再生装置９に装備の操作部（リモコン等を含む）３と、再生装置９としての各種機能を実現するためのアプリケーションを格納した記憶部４と、記憶部４に記憶したアプリケーションに基づいて各種機能を処理する制御回路部５と、上述した要約作成システム（ビデオ信号分離部２０、発話テキスト化部１００、テロップテキスト化部２００、背景画像テキスト化部３００、ロゴマークテキスト化部４００、テキスト統合部５００、及び要約作成部６００）によって作成した要約並びにコンテンツの録画用の各種データを記憶する大容量記憶部６と、音声出力用のスピーカや映像出力用のモニタを含む出力部７と、を備える。

なお、図９において、発話テキスト化部１００、テロップテキスト化部２００、背景画像テキスト化部３００、ロゴマークテキスト化部４００は、その全体をビデオ信号処理部８として説明する。したがって、再生装置９は、図９に示した構成要件のうち、ビデオ信号処理部８を除く、受信部２、操作部３、記憶部４、制御回路部５、大容量記憶部６、出力部７を有している。また、制御回路部５は判定手段としての機能を具備し、出力部７は、例えば、重み付け付与手段としての制御回路部５で算出した重み付け付与に基づく、付与結果をモニタ出力或いはプリンタ出力する機能を具備している。

＜映像メタデータの制作・配信＞
ここでは、映像メタデータを制作して配信若しくは配信可能とする場合の一例として、テレビ放送内容を日本語処理してデータベース化する場合を説明する。また、この場合にコンテンツとは、一つの番組（又はコーナー）を対象として例示する。

テレビ番組において、特に、刻々と放送されるニュース・放送番組にあっては、「即時性」や「正確性」が重要となっている。

その一方で、テレビ放送におけるこのようなニュース・放送番組にあっては、一部のニュース内容が時間帯の異なる他のニュース番組等（放送局の相違は問わない）で放送されることはあるものの、同一番組が異なる曜日に再放送されることはなく、消えゆく情報ともいえる。

このような「即時性」や「正確性」を有する情報にあっては、ニュース内容によって、社会的な重要性やニーズ、或は、新情報が明らかになる、などの条件によって継続性を有する場合があるため、例えば、出現回数等が所定値に達するなどの重要度・ニーズ度等に応じてニュースが重み付けされるのが望ましい。

ここで、重要度・ニーズ度には、短期的、長期的、時期的な要素を有していることから、例えば、週間、月間、季間（旬間）、年間、別の統計によって重み付けしたグラフを作成することも可能である。この際、作成されたグラフは、出力部７からモニタ出力又はプリンタ出力が可能である。

これにより、短期間での重要度・ニーズ度は高いものの。年間を通じた場合に重要度・ニーズ度が低くなってしまうことを抑制することができるうえ、対応する時期における重要度・ニーズ度が高いという重み付けを付与することができる。

具体的には、「桜の開花予想」「桜の名所」「オリンピック」などの特定の周期で重要度・ニーズ度が高くなる場合等に有効な重み付けを付与することができる。

また、新たに放送されるビデオ情報に対するメタデータは、１０分程度のタイムラグで逐次更新することができ、最新の情報に基づいた重要度等に更新することができる。この際、複数の放送局の番組を同時に受信して最新の情報に更新することも可能である。

メタデータには、放送局や放送時間等の基本情報に加え、ニュースのタイトル、内容の抄録、コメンテータの氏名や目立つロゴ、といったテキスト情報に加え、背景画像等の画像認証、キャスターの顔認証、声紋分析、等によってより細かい映像メタデータを制作・配信することができる。

さらに、その結果は、Ｗｅｂやメールにより、ユーザ側で確認することも可能となっている。したがって、ユーザ側において、これらの映像メタデータをハードディスク等の大容量記憶媒体に保存・蓄積していけば、さまざまな活用場面に利用することができる。

具体的には、日々のニュース放送から、特定のコメンテータの言動をクローズアップして詳細を「完全収録」し、追って、その内容を検証することも可能となる。また、その特定のコメンテータを報知条件（トリガー）としておけば、現在放送中のニュース番組、或は、録画したニュース番組において、そのコメンテータがコメントしている際に、スポット的にボリュームを上げる等の報知も可能となる。

なお、このような報知条件に適合した内容が含まれている場合に、出力中のコンテンツの利用者（視聴者）に対する報知には、上述したボリュームを上げる場合のほか、メッセージ等を発音するなどの利用者の聴覚に対して行うことができる。また、利用者の聴覚に対する報知のほか、例えば、表示画面７ａ（図１０参照）の明暗反転の繰り返しや専用ランプの点灯・点滅など、利用者の視覚に対する報知でもよい。また、これら聴覚と視覚との併用でもよい。さらに、単なる報知にとどまらず、他の動作（例えば、録画）を開始するためのトリガー信号として利用することも可能である。

さらに、番組中に流れる映像中の登場人物、例えば、上述した特定コメンテータのコメント時間や論調分析、放送された内容中（番組中）に紹介された政治家（政党）やスポーツ選手の映像等を含む放送時間といった、映像メタデータのデータベース化を行うとともに、クラスタリング（データを外的基準なしに自動的に分類する機能等）を行うことにより、人・物のＣＭ換算値を算出するといった重み付けの付与も可能である。

なお、蓄積された過去の要約作成結果の入力データと出力データとを教材として最適な要約作成設定を学習する要約作成システム１０の機能である要約作成処理（ＡＩ処理）を利用して上述したような重み付けを付与する場合、ＡＩ処理とは別に、視聴率、或は、新聞や雑誌等の映像メタデータに含まれていない情報に基づいたオペレータの手動入力により、ＣＭ換算値を人物毎に評価価格（単位時間当たりの単価）に変換してもよい。

さらに、重み付けされたＣＭ換算値は、例えば、単一放送局、単一番組、複数放送局（例えば、関東エリアのキー局）等を対象として映像メタデータを制作し、週報／月報／旬報（四半期）／半期／通期／単位でまとめることができる。なお、まとめたデータはグラフや一覧表（例えば、上位１００人を対象として）等によって出力部７からモニタ出力又はプリンタ出力が可能である。

さらに、テキスト化した映像メタデータは、同時放送中の文字放送として利用することができるうえ、例えば、テレビのニュース・放送番組、ワイドショー、討論番組、政治・経済番組、政治・経済バラエティなど、１日単位で延べ１００時間以上にもおよぶ国営放送局及び民放キー局の情報番組について、その内容や記事単位の詳細情報をオペレータによって作成するためのテキスト情報として利用することも可能である。

＜再生装置９＞
再生装置９には、受信部２として、テレビ放送（地デジ・衛星放送・ワンセグ）用のチューナ機能、或は、インターネット配信映像を受信する受信機能、を有し、図１０に示すように、その映像を出力部７の表示画面７ａに出力することが可能であれば、テレビ、パーソナルコンピュータ、スマートフォン、タブレット端末、等を利用することができる。

受信部２は、要約作成システム１０によって作成した要約を適宜（又は逐次）受信する機能を有する。なお、受信部２で受信した要約は、大容量記憶部６に記憶（又は更新）される。

操作部３は、テレビに付帯の各種スイッチ等、テレビに付属のリモートコントロール装置、コンピュータ用のマウスやキーボード、スマートフォンやタブレット端末に付帯の各種スイッチやタッチパネル、等を利用することができる。

これにより、ニュース番組において、利用者がスポーツニュースの結果のみを知りたい場合、ニュース番組全体を視聴するのではなく、制御回路部（判定手段）５の監視により、例えば、図１０（Ａ）に示すように、表示画面７ａに「スポーツ」の文字がテロップ表示された場合や、図１０（Ｂ）に示すように、キャスターが「スポーツ」を含むアナウンス原稿を読み上げたときに、利用者に報知することができる。

ところで、上述したテレビ放送において、ニュースでは、ある事件が起きると、複数局あるテレビ放送局が繰り返し同じシーンを放送する。このような場合、各テレビメディアが何をいつどう放送したか、一つ一つ把握しても全体像を容易に認識することはできない場合が多い。

そこで、このような事件を所望の条件として設定すれば、指定した全てのニュース放送番組の内容を秒単位でテキストデータ化したうえでデータベース化し、要約を作成することができる。

そして、その要約の内容を同一テーマ毎に分類（クラスター化）した結果分析（例えば、利用者や契約した専用会社のオペレータの処理）すれば、なにが、いつ、どの局で、どのくらい放送されたか、定量化された情報を得ることも可能となる。

そして、このような定量化された情報を、所望の条件として設定することにより、以降のニュース放送では、より最新の正確な条件を設定することも可能となり、上述した事件に関する放送の場合には報知視聴、他のニュース放送に関しては通常視聴、といったように切り替えることができる。

この定量化に際し、例えば、事件の映像部分（例えば、原子力発電所の事故処理の経過に関する映像部分）を大容量記憶部６に自動録画するなどの出力機能を重み付けとして付与することも可能である。

また、上述したように、このような事件・事故に関する放送がテレビメディアでどのくらい扱われたか、どの局がどのテーマを時間・回数的にどう扱ってきたかをグラフ化するといった利用形態への重み付けも可能である。

さらに、このような要約には、ニュース放送に限らず、各種エンターテイメント番組の内容を多角的に分析することも可能である。

これにより、例えば、網羅的に構築されたエンタメ・データベースをもとに、ドラマ、映画、バラエティなどのエンターテイメント番組の内容やジャンル比較、時間帯把握など、多角的な観点で分析することができる。

したがって、例えば、バラエティ番組の出演者のうち、顔認証による特定の出演者の映像が出力された際の時間、音声認証（声紋）による特定の出演者の音声が出力された際の時間や内容、等を学習し、以降の放送での当該特定の出演者が出演している番組中の当該特定の出演者が画面上で放送されている場合や発言している場合を利用者に報知することができ、視聴者の汎用性を向上することができる。

さらに、当該特定の出演者の出演時間を換算し、例えば、日・週・月単位での出演割合等からその演者価値を容易に算出することができる。

また、上述した出演者の音声は、音声認識後のテキスト化のための形態素解析の際に、方言を標準語へと変換する重み付けを付与することも可能である。

したがって、制御回路部５は、要約作成システム１０によって作成した要約を適宜（又は逐次）受信して大容量記憶部６に蓄積するとともに、その要約の蓄積結果に基づいて（重み付け付与のための）最適な条件を学習しつつ、複数のコンテンツに対して要約に含まれる一つ以上の所定の条件に特化した重み付けを付与することができる。

同様に、制御回路部５は、要約作成システム１０によって作成した要約を適宜（又は逐次）受信して大容量記憶部６に蓄積するとともに、その要約の蓄積結果に基づいて（報知ための）最適な条件（例えば、顔認証や声紋認証による人物の特定）を学習して所望の条件に適合した内容が含まれているか否かの判定精度を向上させつつ、出力中のコンテンツの利用者に対して所望の条件に適合した旨を出力部７で報知させることができる。

このように、希望映像情報報知システム１は、先のコンテンツに基づいて予め蓄積された要約を参照して出力中のコンテンツを構成するデータに所望の条件に適合した内容が含まれているか否かを制御回路部５で判定（監視）し、その判定結果が含まれているとした場合には、出力中のコンテンツの利用者に対してその旨を出力部７から報知することによって、コンテンツを出力している際に、コンテンツ全体を視聴するのではなく、所望の条件に適合した内容が出力される場合にのみ視聴を行うことができる。

したがって、出力中のコンテンツに所望の条件に適合した内容が出力される場合にのみ視聴を行えばよいため、それ以外の出力中は他の作業を行うなどの、「ながら視聴」を行うことができ、汎用性を向上することができる。

また、コンテンツがテレビ放映である場合、例えば、一つの番組であっても利用者によって視聴したいのは番組全体とは限らず、特定のコーナーや出演者のみである場合がある。

そこで、リアルタイムで視聴している放映データに含まれる音声データ又は映像データの少なくとも一方に所望の条件に適合した内容が含まれているか否かをリアルタイムで判定手段が判定することにより、利用者が視聴したいとする所望の条件に適合した内容が含まれている部分に差し掛かったときに、報知信号を出力すれば、所望の出力を容易に視聴することが可能となる。

また、コンテンツがインターネット回線等の電気通信回線を利用して受信した映像コンテンツ等の配信データである場合、その映像コンテンツが編集されたものであっても利用者によって視聴したいのはコンテンツ全体とは限らず、その一部のみである場合がある。

そこで、リアルタイムで視聴している配信データに含まれる音声データ又は映像データの少なくとも一方に所望の条件に適合した内容が含まれているか否かをリアルタイムで判定手段が判定することにより、利用者が視聴したいとする所望の条件に適合した内容が含まれている部分に差し掛かったときに、報知信号を出力することにより、所望の出力を視聴することが可能となる。

また、コンテンツがインターネット回線等の電気通信回線を利用して受信した映像コンテンツ等の配信データである場合、例えば、インターネットサーバへのアクセス数、電気通信回線の受信速度、パーソナルコンピュータやスマートフォン等の受信・再生端末の機能、とうによっては、出力部分よりも先の部分の配信データを予め受信している場合がある。

そこで、コンテンツが電気通信回線を通じて受信した配信データである場合には、リアルタイムで視聴している配信データに先行して受信した配信データに含まれる音声データ又は映像データの少なくとも一方に所望の条件に適合した内容が含まれているか否かを予め判定手段で判定しておけば、その部分の出力に差し掛かったときに報知することができる。

また、利用者によっては、他の都合によってリアルタイムでコンテンツを視聴することができず、記憶手段に記憶（いわゆる、録画）している場合がある。

そこで、予め記憶手段に記憶した放映データ又は配信データを出力（再生）している場合には、リアルタイムで視聴（再生）している配信データに先行して記憶した配信データに含まれる音声データ又は映像データの少なくとも一方に所望の条件に適合した内容が含まれているか否かを予め判定手段で判定しておけば、その部分の出力に差し掛かったときに報知手段で報知することができる。

また、予め記憶手段に記憶した放映データ又は配信データを出力（再生）する場合には、本来の出力速度、すなわち、時間と出力速度とが一致している標準速度よりも早い高速出力（若しくは前記標準速度よりも遅い低速出力）で出力（再生）している場合がある。

そこで、出力速度が標準速度でない場合には、報知の例として、所望の条件に適合した内容が含まれていると判定した場合に出力中のコンテンツの出力速度を標準速度に切り替えることにより、所望のタイミングから視聴をすることが可能となる。

このような報知により、視聴者は、音量が増加したことにより、所望の条件に適合した部分の放映（再生）に差し掛かったことを容易に認識することができる。

また、視聴者は、コンテンツに含まれる音声とは異なる音声を出力することにより、所望の条件に適合した部分の放映（再生）に差し掛かったことを容易に認識することができる。

さらに、例えば、表示画面７ａにコンテンツを表示せず、大容量記憶装置６に映像を録画しているような出力形態の場合も想定される。

このような場合、制御回路部５は、その出力中（録画中）のコンテンツに含まれる映像データや音声データリアルタイムで解析するとともに、そのデータ解析中に所望の条件に適合した内容が含まれていると判定したときに表示画面７ａにコンテンツを実際に表示する、ように起動制御してもよい。

また、例えば、図１０に示すように、一つの表示画面７ａにメイン画面（キャスター画面）とワイプ画面（スポーツ画面）とが表示されている場合には、スポーツコーナーが開始されたと判定した時点でメイン画面とワイプ画面とで表示状態を切り替える、或いは、ワイプ画面を全画面表示に切り替える、ように起動制御してもよい。

１：希望映像情報報知システム
２：受信部
３：操作部
４：記憶部
５：制御回路部（判定手段）
６：大容量記憶部
７：出力部（出力手段）
７ａ：表示画面
８：ビデオ信号処理部
９：再生装置
１０：要約作成システム
２０：ビデオ信号分離部
３０：テレビ局
１００：発話テキスト化部
１１０：発話情報抽出部
１２０：発話内容認識部
１３０：発話内容テキスト化部
１４０：機械学習部
１５０：内容認識テキスト作成設定部
１６０：比較評価部
１６１：比較部
１６２：評価部
１７０：切換部
１８０：切換部
２００：テロップテキスト化部
２１０：テロップ情報抽出部
２２０：テロップ内容認識部
２３０：テロップ内容テキスト化部
２４０：機械学習部
２５０：内容認識テキスト作成設定部
２６０：比較評価部
２６１：比較部
２６２：評価部
２７０：切換部
２８０：切換部
３００：背景画像テキスト化部
３１０：背景画像情報抽出部
３２０：背景画像内容認識部
３３０：背景画像内容テキスト化部
３４０：機械学習部
３５０：内容認識テキスト作成設定部
３６０：比較評価部
３６１：比較部
３６２：評価部
３７０：切換部
３８０：切換部
４００：ロゴマークテキスト化部
４１０：ロゴマーク画像情報抽出部
４２０：ロゴマーク内容認識部
４３０：ロゴマーク内容テキスト化部
４４０：機械学習部
４５０：内容認識テキスト作成設定部
４６０：比較評価部
４６１：比較部
４６２：評価部
４７０：切換部
４８０：切換部
５００：テキスト統合部
５１０：統合テキスト作成部
５２０：統合テキスト作成設定部
５３０：機械学習部
５４０：比較評価部
５４１：比較部
５４２：評価部
５５０：既存データ格納部
５７０：切換部
５８０：切換部
６００：要約作成部
６１０：要約テキスト作成部
６２０：要約作成設定部
６３０：機械学習部
６４０：比較評価部
６４１：比較部
６４２：評価部
６５０：既存データ格納部
６７０：切換部
６８０：切換部
７００：既存データ格納部
７１０：既存ビデオデータ格納部
７２０：既存発話テキスト格納部
７３０：既存テロップテキスト格納部
７４０：既存背景画像テキスト格納部
７５０：既存ロゴマークテキスト格納部
７６０：既存各種テキスト格納部
７７０：既存統合テキスト格納部
７８０：既存要約テキスト格納部

Claims

表示手段に表示可能な先のコンテンツに基づいて予め蓄積された要約の蓄積結果に基づいて最適な条件を学習しつつ、出力中のコンテンツを構成するデータに所望の条件に適合した内容が含まれているか否かを判定する判定手段と、前記判定手段で含まれていると判定した場合に出力中のコンテンツの利用者に対してその旨を報知する報知手段とを備えることを特徴とする希望映像情報報知システム。
前記出力中のコンテンツを前記表示手段に表示させるための起動手段を備え、前記報知手段は、前記判定手段で含まれていると判定した場合に前記起動手段に報知信号を出力して前記出力中のコンテンツを表示させることを特徴とする請求項１に記載の希望映像情報報知システム。
前記判定手段は、前記コンテンツがテレビ放映である場合に、リアルタイムで視聴している放映データに含まれる音声データ又は映像データの少なくとも一方に所望の条件に適合した内容が含まれているか否かをリアルタイムで判定し、所望の条件に適合した内容が含まれていると判定したときに前記報知手段に報知信号を出力することを特徴とする請求項１に記載の希望映像情報報知システム。
前記判定手段は、前記コンテンツが電気通信回線を通じて受信した配信データである場合に、リアルタイムで視聴している配信データに含まれる音声データ又は映像データの少なくとも一方に所望の条件に適合した内容が含まれているか否かをリアルタイムで判定し、所望の条件に適合した内容が含まれていると判定したときに前記報知手段に報知信号を出力することを特徴とする請求項１に記載の希望映像情報報知システム。
前記判定手段は、前記コンテンツが電気通信回線を通じて受信した配信データである場合に、リアルタイムで視聴している配信データに先行して受信した配信データに含まれる音声データ又は映像データの少なくとも一方に所望の条件に適合した内容が含まれているか否かを予め判定し、所望の条件に適合した内容が含まれていると判定した部分を出力するときに前記報知手段に報知信号を出力することを特徴とする請求項１に記載の希望映像情報報知システム。
前記判定手段は、前記コンテンツが記憶手段に予め記憶した放映データ又は配信データである場合に、リアルタイムで視聴している配信データに先行して受信した配信データに含まれる音声データ又は映像データの少なくとも一方に所望の条件に適合した内容が含まれているか否かを予め判定し、所望の条件に適合した内容が含まれていると判定した部分を出力するときに前記報知手段に報知信号を出力することを特徴とする請求項１に記載の希望映像情報報知システム。
前記報知手段は、前記記憶手段に予め記憶した放映データ又は配信データを出力している際に、時間と出力速度とが同じ標準速度よりも早い高速出力若しくは前記標準速度よりも遅い低速出力である場合には、前記判定手段により所望の条件に適合した内容が含まれていると判定した場合に出力中のコンテンツの出力速度を前記標準速度に切り替えることを特徴とする請求項６に記載の希望映像情報報知システム。
前記報知手段は、前記判定手段により所望の条件に適合した内容が含まれていると判定した場合に、前記音声データに基づいて音声出力部から出力している音声の音量を増加させることを特徴とする請求項１から請求項７のいずれか１の請求項に記載の希望映像情報報知システム。
前記報知手段は、前記判定手段により所望の条件に適合した内容が含まれていると判定した場合に、前記音声データに基づいて音声出力部から出力している音声とは異なる報知音声を出力することを特徴とする請求項１から請求項７のいずれか１の請求項に記載の希望映像情報報知システム。