JP2019213064A

JP2019213064A - Ｃｍ区間検出装置、ｃｍ区間検出方法、及びプログラム

Info

Publication number: JP2019213064A
Application number: JP2018108004A
Authority: JP
Inventors: 康智大石; Yasutomo Oishi; 川西　隆仁; Takahito Kawanishi; 隆仁川西; 薫平松; Kaoru Hiramatsu; 柏野邦夫; Kunio Kashino; 邦夫柏野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-06-05
Filing date: 2018-06-05
Publication date: 2019-12-12
Anticipated expiration: 2038-06-05
Also published as: WO2019235405A1; JP6966705B2; US11368762B2; US20210235166A1

Abstract

【課題】番組中のＣＭ区間を高精度に検出する。【解決手段】ＣＭ区間検出装置１００は、番組の音量と音量閾値とを比較することにより、１以上のＣＭ区間を検出し、検出したＣＭ区間を示す検出ＣＭ区間を生成するＣＭ区間検出部１２０と、検出ＣＭ区間を、番組における、該番組のスポンサーを示す提供クレジットが表示された区間である提供クレジット表示区間に基づいて修正するＣＭ区間修正部１４０と、を備える。【選択図】図１

Description

本発明は、番組に含まれるコマーシャル（以下、「ＣＭ」（Commercial Message）と称する）の区間を検出するＣＭ区間検出装置、ＣＭ区間検出方法、及びプログラムに関する。

従来、テレビ放送などにより放送される放送番組に含まれるＣＭの部分を判定する方法が知られている。例えば、特許文献１には、番組本編とＣＭとの間に再生される音の音量が所定値よりも低くなることを利用してＣＭ部分を判定するＣＭ部分認識装置が記載されている。具体的には、特許文献１に記載のＣＭ部分認識装置は、音量が所定時間（例えば、０．１秒）以上、所定値を下回る時間帯をブランクとし、互いに隣接する２つのブランクの間をＣＭ部分と判定している。

特開２０００−３２２０７６号公報

近年、ＣＭが放送された実績、あるいはＣＭの視聴傾向などを分析するために、番組中のＣＭ区間を自動判定することが求められている。しかしながら、特許文献１に記載のＣＭ部分認識装置は、ブランクに幅があるため、該幅のいずれの時点がＣＭ境界であるかを正確に判定することが困難であった。また、番組本編の直前又は直後のＣＭ境界を検出することが困難であった。

上記のような問題点に鑑みてなされた本発明の目的は、番組中のＣＭ区間を高精度に検出することが可能なＣＭ区間検出装置、ＣＭ区間検出方法、及びプログラムを提供することにある。

上記課題を解決するため、本発明に係るＣＭ区間検出装置は、番組に含まれるＣＭの区間を検出するＣＭ区間検出装置であって、番組の音量と音量閾値とを比較することにより、１以上のＣＭ区間を検出し、検出したＣＭ区間を示す検出ＣＭ区間を生成するＣＭ区間検出部と、前記検出ＣＭ区間を、前記番組における、該番組のスポンサーを示す提供クレジットが表示された区間である提供クレジット表示区間に基づいて修正するＣＭ区間修正部と、を備えることを特徴とする。

また、上記課題を解決するため、本発明に係るＣＭ区間検出方法は、番組に含まれるＣＭの区間を検出するＣＭ区間検出装置におけるＣＭ区間検出方法であって、番組の音量と音量閾値とを比較することにより、１以上のＣＭ区間を検出し、検出したＣＭ区間を示す検出ＣＭ区間を生成するステップと、前記検出ＣＭ区間を、前記番組における、該番組のスポンサーを示す提供クレジットが表示された区間である提供クレジット表示区間に基づいて修正するステップと、を含むことを特徴とする。

また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記のＣＭ区間検出装置として機能させることを特徴とする。

本発明によれば、番組中のＣＭ区間を高精度に検出することが可能となる。

本発明の一実施形態に係るＣＭ区間検出装置の構成例を示す図である。本発明の一実施形態に係るＣＭ区間検出装置におけるＣＭ区間修正部による処理を説明する図である本発明の一実施形態に係るＣＭ区間検出装置におけるＣＭ区間検出部の構成例を示す図である。本発明の一実施形態に係るＣＭ区間検出装置におけるＣＭ境界候補区間の一例を示す模式図である。本発明の一実施形態に係るＣＭ区間検出装置におけるカット点の一例を示す図である。本発明の一実施形態に係るＣＭ区間検出装置におけるＣＭ区間決定部の処理を説明するための図である。本発明の一実施形態に係るＣＭ区間検出装置におけるＣＭ境界の第１の決定例を示す図である。本発明の一実施形態に係るＣＭ区間検出装置におけるＣＭ境界の第２の決定例を示す図である。本発明の一実施形態に係るＣＭ区間検出装置における画像認識部の構成例を示す図である。本発明の一実施形態に係るＣＭ区間検出装置における画像認識部の他の構成例を示す図である。本発明の一実施形態に係るＣＭ区間検出装置における音声認識部の構成例を示す図である。本発明の一実施形態に係るＣＭ区間検出装置における音声認識部による音声認識の結果の一例を示す図である。本発明の一実施形態に係るＣＭ区間検出方法の一例を示すフローチャートである。

以下、本発明を実施するための形態について、図面を参照しながら詳細に説明する。

図１は、本発明の一実施形態に係るＣＭ区間検出装置の構成例を示す図である。図１に示すＣＭ区間検出装置１００は、放送映像／音声信号蓄積部１１０と、ＣＭ区間検出部１２０と、提供クレジット表示区間推定部１３０と、ＣＭ区間修正部１４０とを備える。ＣＭ区間検出装置１００は、番組における、該番組のスポンサーを示す提供クレジットが表示された区間（以下、「提供クレジット表示区間」という）を用いて、番組に含まれるＣＭの区間を検出するものである。

放送映像／音声信号蓄積部１１０は、番組を固定時間長（例えば、６５分）でエンコードした放送映像／音声信号を蓄積する。放送映像／音声信号蓄積部１１０は、例えば、番組の映像信号をＨ．２６４方式でエンコードした信号と、番組の音声信号をＡＡＣ（Advanced Audio Coding）方式でエンコードした信号とをＭＰ４ファイル形式で格納する。なお、放送映像／音声信号蓄積部１１０は、放送用の番組の映像／音声信号に限られず、インターネット配信用の番組の映像／音声信号を蓄積してもよい。

ＣＭ区間検出部１２０は、放送映像／音声信号蓄積部１１０から、提供クレジット表示の検出対象となる番組の音声信号を取得し、番組の音声信号の大きさ（音量）と音量閾値とを比較することにより、番組内の１以上のＣＭ区間を検出し、検出したＣＭ区間を示す検出ＣＭ区間を生成してＣＭ区間修正部１４０に出力する。

ＣＭ区間検出部１２０は、より正確にＣＭ区間を検出する場合には、放送映像／音声信号蓄積部１１０から、提供クレジット表示の検出対象の番組の音声信号を取得し、番組の音量が音量閾値未満であり、かつ前フレームからの変化量が画素変化閾値以上であるフレームが再生される時点であるカット点を検出し、該カット点の間隔とＣＭ規定長とを比較することにより１以上のＣＭ区間を検出する。ＣＭ規定長は、１つのＣＭの長さであり、１５秒、３０秒、６０秒などと規定されている。そして、ＣＭ区間の検出結果をＣＭ区間修正部１４０に出力する。ＣＭ区間検出部１２０の詳細については後述する。

提供クレジット表示区間推定部１３０は、提供クレジット表示区間を推定し、推定結果を示す信号（本実施形態では、バイナリ時系列信号）をＣＭ区間修正部１４０に出力する。提供クレジット表示区間推定部１３０は、画像認識部２００と、音声認識部３００と、提供クレジット表示区間出力部４００とを備える。提供クレジット表示区間推定部１３０は、画像認識部２００及び音声認識部３００の一方のみを備える構成としてもよく、その場合には、提供クレジット表示区間出力部４００は不要となる。

画像認識部２００は、放送映像／音声信号蓄積部１１０から取得した番組の映像信号に基づき、検出モデルを用いて提供クレジット表示区間を推定し、推定結果を示す信号（本実施形態では、バイナリ時系列信号）を提供クレジット表示区間出力部４００に出力する。検出モデルに適用されるパラメータは、提供クレジット表示が検出済みの学習用番組における、提供クレジット表示が表示された静止画及び提供クレジット表示が表示されていない静止画を含む学習データを用いてあらかじめ学習されているものとする。画像認識部２００の詳細については後述する。

音声認識部３００は、放送映像／音声信号蓄積部１１０から取得した番組の音声信号に基づき、提供クレジット表示区間を推定し、推定結果を示す信号（本実施形態では、バイナリ時系列信号）を提供クレジット表示区間出力部４００に出力する。音声認識部３００は、番組の音声信号の音声認識の結果から、提供クレジット表示のアナウンスに含まれ、提供クレジット表示に関連する関連語句を検出し、該関連語句の出現時刻を起点として、所定の期間を提供クレジット表示区間と推定する。音声認識部３００の詳細については後述する。

提供クレジット表示区間出力部４００は、画像認識部２００により推定された提供クレジット表示区間と、音声認識部３００により推定された提供クレジット表示区間の共通部分又は和集合を最終的な提供クレジット表示区間としてＣＭ区間修正部１４０に出力する。本実施形態では、提供クレジット表示区間がバイナリ時系列信号であるため、和集合は論理和演算により求まり、共通部分は論理積演算により求まる。

ＣＭ区間修正部１４０は、ＣＭ区間検出部１２０により生成された検出ＣＭ区間を、提供クレジット表示区間推定部１３０により推定された提供クレジット表示区間に基づいて修正し、修正したＣＭ区間を示す情報（本実施形態では、時刻情報）を出力する。例えば、バイナリ時系列信号のサンプリング間隔が１秒であり、ＣＭ区間を修正した結果、３００番目から３１０番目に信号「１」が連続して並んでいる場合、５分００秒から５分１０秒をＣＭ区間の時刻情報とする。

図２は、ＣＭ区間修正部１４０による処理を説明する図である。図２（ａ）はＣＭ区間検出部１２０により生成された検出ＣＭ区間（ＣＭ区間Ａ〜Ｇ）と、提供クレジット表示区間推定部１３０により推定された提供クレジット表示区間を表示しており、図２（ｂ）はＣＭ区間修正部１４０による修正処理後の検出ＣＭ区間を表示している。

提供クレジット表示区間はＣＭ区間には含まれない。そこで、ＣＭ区間修正部１４０は、ＣＭ区間検出部１２０により検出されたＣＭ区間内に提供クレジット表示区間推定部１３０により検出された提供クレジット表示区間が含まれる場合には、該ＣＭ区間は誤検出とみなして検出ＣＭ区間から除外する。図２（ａ）に示す例では、ＣＭ区間Ａ内に提供クレジット表示区間が含まれているため、ＣＭ区間修正部１４０はＣＭ区間Ａを誤検出とみなし、図２（ｂ）に示すように検出ＣＭ区間からＣＭ区間Ａが除外される。

また、提供クレジット表示区間の直前又は直後にＣＭが放送されることが多い。そこで、ＣＭ区間修正部１４０は、ＣＭ区間検出部１２０により検出された検出ＣＭ区間外に提供クレジット表示区間推定部１３０により検出された提供クレジット表示区間が存在する場合には、該ＣＭ区間及び該提供クレジット表示区間の間隔と、所定時間とを比較することにより、該間隔を検出ＣＭ区間に追加するか否かを決定する。具体的には、ＣＭ区間修正部１４０は、ＣＭ区間及び提供クレジット表示区間の間隔と所定時間との差が時間閾値未満である場合にのみ、該間隔をＣＭ区間とみなして検出ＣＭ区間に追加する。例えば、ＣＭ区間及び提供クレジット表示区間の間隔が略ＣＭ規定長（例えば、１５秒）である場合に、該間隔をＣＭ区間とみなして検出ＣＭ区間に追加する。図２（ａ）に示す例では、ＣＭ区間Ｅの前、及びＣＭ区間Ｇの後に提供クレジット表示区間が存在する。ＣＭ区間Ｅ及び提供クレジット表示区間の間隔Ｘと所定時間との差分時間が時間閾値未満である場合には、ＣＭ区間修正部１４０は間隔ＸをＣＭ区間とみなし、図２（ｂ）に示すように間隔ＸをＣＭ区間Ｈとして検出ＣＭ区間に追加する。ＣＭ区間Ｇ及び提供クレジット表示区間の間隔Ｙと所定時間との差分時間が時間閾値以上である場合には、ＣＭ区間修正部１４０は間隔ＹをＣＭ区間とはみなさず、図２（ｂ）に示すように間隔Ｙを検出ＣＭ区間に追加しない。

検出ＣＭ区間の修正前では、提供クレジット表示区間をＣＭ区間として誤検出すること、及び番組本編の直前又は直後のＣＭ区間を検出できないことがあったが、ＣＭ区間修正部１４０によってＣＭ区間の誤検出及び未検出を修正することができる。

＜ＣＭ区間検出部＞
次に、ＣＭ区間検出部１２０の詳細について説明する。図３は、ＣＭ区間検出部１２０の構成例を示す図である。ＣＭ区間検出部１２０は、検出用データ作成部１２１と、音量算出部１２２と、ＣＭ境界候補区間決定部１２３と、カット点抽出部１２４と、ＣＭ区間決定部１２５とを備える。

検出用データ作成部１２１は、放送映像／音声信号蓄積部１１０から取得した音声信号をデコードして、所定の形式のＣＭ区間検出用の音声信号（例えば、ＷＡＶ形式、１６ｋＨｚ、１６ビット、モノラル音声信号）を作成し、音量算出部１２２に出力する。また、検出用データ作成部１２１は、放送映像／音声信号蓄積部１１０から取得した映像信号をデコードして、所定の時間間隔で、時系列的に連続する静止画を作成し、カット点抽出部１２４に出力する。

音量算出部１２２は、音声データの時系列での音量を算出し、算出結果をＣＭ境界候補区間決定部１２３に出力する。

ＣＭ境界候補区間決定部１２３は、音量算出部１２２によって算出された音量の時系列データから所定時間（例えば０．１秒）以上、音量が音量閾値未満となる低音量区間を複数検出し、低音量区間同士の間隔が略ＣＭ規定長（ＣＭ規定長との差が誤差閾値未満）となる部分をＣＭとして検出する。そして、ＣＭ境界候補区間決定部１２３は、検出したＣＭの端部の低音量区間を含む時間帯をＣＭ境界候補区間として決定する。すなわち、低音量区間同士の間隔とＣＭ規定長との差が誤差閾値未満である場合に、該低音量区間の前後に所定時間を付した区間をＣＭ境界候補区間と決定する。なお、ＣＭ境界とは、２つの連続したＣＭの区切りとなる時点、及び番組とＣＭとの区切りとなる時点である。

図４は、ＣＭ境界候補区間の一例を示す模式図である。ＣＭ境界候補区間決定部１２３は、低音量区間Ａと低音量区間Ｃとの間が略ＣＭ規定長である場合に、低音量区間Ａと低音量区間Ｃとの間をＣＭとして検出する。そして、ＣＭ境界候補区間決定部１２３は、低音量区間Ａの前後に所定時間（図４の例では、０．５秒）を付した区間、及び低音量区間Ｃの前後に所定時間（図４の例では、０．５秒）を付した区間を、それぞれＣＭ境界候補区間Ｔと決定する。

カット点抽出部１２４は、放送映像／音声信号蓄積部１１０から取得した映像信号をデコードして、時系列的に連続するフレームを作成する。そして、ＣＭ境界候補区間決定部１２３によって決定されたＣＭ境界候補区間Ｔ_ｋ（ｋ＝１〜ｎ（ｎは２以上の整数））それぞれから、ＣＭ境界候補区間内で前フレームからの変化量が画素変化閾値以上であるフレームが再生される時点（以下、「カット点」という）をＣ_ｋ（０以上の整数）個抽出する。変化量は、各フレームの画素値と、該各フレームの前フレームの画素値との差分又は比に基づく値である。例えば、変化量は、各フレームを構成する各画素の画素値と、各フレームの各画素にそれぞれ対応する、前フレームの画素の画素値との差分に基づく値であってもよい。差分に基づく値とは、例えば、各画素についての差分の絶対値の和、平均値、若しくは中央値、又は差分の二乗平均値である。また、変化量は、隣接するフレーム間の画素の平均値の比であってもよい。再生時点は、番組が始めから再生される場合の開始を基準時点としたときの、該基準時点からの経過時間である。カット点抽出部１２４は、変化量が画素変化閾値以上であるフレームの再生時点をカット点として抽出する。例えば、カット点抽出部１２４は、変化量の比及び差それぞれが画素変化閾値以上であるフレームの再生時点をカット点としてもよい。なお、実験においては、各ＣＭ境界候補区間Ｔから６〜８個程度のカット点が抽出されることが多い。

図５は、カット点の一例を示す図である。この例では、カット点抽出部１２４は、ＣＭ境界候補区間Ｔ_１から２個のカット点Ｐ_１１，Ｐ_１２を抽出し、ＣＭ境界候補区間Ｔ_２から３個のカット点Ｐ_２１，Ｐ_２２，Ｐ_１２を抽出し、ＣＭ境界候補区間Ｔ_３から１個のカット点Ｐ_３１を抽出し、ＣＭ境界候補区間Ｔ_ｋから２個のカット点Ｐ_ｋ１，Ｐ_ｋ２を抽出する。

ＣＭ区間決定部１２５は、ＣＭ規定長との差が少なくなるように、ＣＭ境界候補区間Ｔごとにカット点を選択し、選択したカット点の間の区間をＣＭ区間と決定し、決定したＣＭ区間を示す情報をＣＭ区間修正部１４０に出力する。

具体的には、ＣＭ区間決定部１２５は、ＣＭ境界候補区間それぞれから１個ずつ選択されたカット点の組み合わせで構成される複数のカット点系列Ｓ_ｊを生成する。カット点系列Ｓ_ｊは、複数のＣＭ境界候補区間それぞれから選択されたカット点の組み合わせであり、カット点系列Ｓ_ｊの全数Ｃ_ａｌｌは式（１）に示すとおりである。なお、ＣＭ境界候補区間Ｔ_ｋにおいてカット点が検出されなかった場合、Ｃ_ｋ＝１とする。
Ｃ_ａｌｌ＝Ｃ_１×Ｃ_２×・・・×Ｃ_ｋ×・・・×Ｃ_ｎ（１）
そして、ＣＭ区間決定部１２５は、隣接するＣＭ境界候補区間において、１個ずつ選択されたカット点の間の時間である隣接カット点時間の差の合計が最小となるカット点系列を決定し、該カット点系列のカット点の間の区間をＣＭ区間と決定する。隣接カット点時間とは、ＣＭ境界候補区間Ｔ_ｋ内の１つのカット点とＣＭ境界候補区間Ｔ_ｋ-1内の１つのカット点との間の時間である。

例えば、ＣＭ区間決定部１２５は、各隣接カット点時間とＣＭ規定長との差を算出する。ＣＭ区間決定部１２５は、ノイズの影響を加味して、該差が時間差閾値未満である数（以下、「一致数」という）をカット点系列Ｓ_ｊごとに算出する。時間差閾値は、例えば、放送映像の所定フレーム数が再生される時間であり、所定フレーム数が２フレームで、放送映像のフレームレートが３０ｆｐｓである場合には、時間差閾値は（２／３０）秒である。

図６を参照して、ＣＭ区間決定部１２５の処理について説明する。ここでは、ＣＭ境界候補区間決定部１２３が、３つのＣＭ境界候補区間Ｔ_１〜Ｔ_３を決定し、カット点抽出部１２４が、ＣＭ境界候補区間Ｔ_１から２個のカット点Ｐ_１１，Ｐ_１２を抽出し、ＣＭ境界候補区間Ｔ_２から３個のカット点Ｐ_２１，Ｐ_２２，Ｐ_２３を抽出し、ＣＭ境界候補区間Ｔ_３から１個のカット点Ｐ_３１を抽出したものとする。

図６に示す例では、カット点系列Ｓ_ｊの全数Ｃ_ａｌｌはＣ_１×Ｃ_２×Ｃ_３＝２×３×１＝６個である。カット点系列Ｓ_１は、カット点Ｐ_１１，Ｐ_２１，Ｐ_３１の組合せで構成される系列であり、カット点系列Ｓ_２は、カット点Ｐ_１１，Ｐ_２２，Ｐ_３１の組合せで構成される系列であり、カット点系列Ｓ_３は、カット点Ｐ_１１，Ｐ_２３，Ｐ_３１の組合せで構成される系列であり、カット点系列Ｓ_４は、カット点Ｐ_１２，Ｐ_２１，Ｐ_３１の組合せで構成される系列であり、カット点系列Ｓ_５は、カット点Ｐ_１２，Ｐ_２２，Ｐ_３１の組合せで構成される系列であり、カット点系列Ｓ_６は、カット点Ｐ_１２，Ｐ_２３，Ｐ_３１の組合せで構成される系列である。

ＣＭ区間決定部１２５は、カット点系列Ｓ_ｊ（ｊ＝１〜６）それぞれにおける各隣接カット点時間とＣＭ規定長との差を算出する。ＣＭ規定長を１５秒、所定範囲が（２／３０）秒であるとすると、ＣＭ区間決定部１２５は、カット点系列Ｓ_１〜Ｓ_６の一致数をそれぞれ０，２，０，０，１，０と算出する。

ＣＭ区間決定部１２５は、一致数が最大となるカット点系列Ｓ_ｊが１つである場合には、該カット点系列Ｓ_ｊを境界系列と判定し、一致数が最大となるカット点系列Ｓ_ｊが複数存在する場合には、一致数が最大の複数のカット点系列Ｓ_ｊのうち、各隣接カット点時間とＣＭ規定長との差の合計が最小であるカット点系列Ｓ_ｊを境界系列と判定する。図６に示す例では、ＣＭ区間決定部１２５は、カット点系列Ｓ_１〜Ｓ_６のうち、一致数が最大のカット点系列はカット点系列Ｓ_２の１つであるため、カット点系列Ｓ_２を境界系列と判定する。そして、ＣＭ区間決定部１２５は、境界系列において、隣接カット点時間が略ＣＭ規定長に一致するカット点が含まれる場合には、該カット点をＣＭ境界とみなすことができる。そのため、ＣＭ区間決定部１２５は、隣接カット点時間が略ＣＭ規定長に一致するカット点の間の区間をＣＭ区間と決定する。

また、ＣＭ区間決定部１２５は、境界系列において、隣接カット点時間が略ＣＭ規定長に一致するカット点（以下、「有効なカット点」という）が含まれないＣＭ境界候補区間のＣＭ境界を、隣接するＣＭ境界候補区間において決定されたＣＭ境界とＣＭ規定長とに基づいて決定する。この場合の具体例を、図７及び図８を参照して説明する。

図７は、有効なカット点が含まれないＣＭ境界候補区間のＣＭ境界の第１の決定例を示す図である。第１の決定例では、ＣＭ区間決定部１２５は、隣接するＣＭ境界候補区間におけるＣＭ境界からの時間が略ＣＭ規定長となる時点をＣＭ境界と決定する。図７に示す例では、境界系列はカット点Ｐ_１１，Ｐ_２２，Ｐ_３２，Ｐ_４１，Ｐ_５３で構成されるカット点系列である。この境界系列において、ＣＭ区間決定部１２５により、カット点Ｐ_２２について、隣接カット点時間がＣＭ規定長である１５秒に一致していると判定され、カット点Ｐ_３２について、隣接カット点時間が１６．５秒であるため、隣接カット点時間とＣＭ規定長との差が時間差閾値以上であり、ＣＭ境界候補区間Ｔ_３は有効なカット点が含まれないＣＭ境界候補区間であると判定されているものとする。

この場合、ＣＭ区間決定部１２５は、カット点Ｐ_２２をＣＭ境界候補区間Ｔ_２におけるＣＭ境界と決定する。また、ＣＭ区間決定部１２５は、カット点Ｐ_２２に、ＣＭ規定長に許容時間を加算又は減算した時間を加算した時点を、有効なカット点が含まれないＣＭ境界候補区間Ｔ_３におけるＣＭ境界と決定する。許容時間は、ＣＭ境界候補区間ごとに異なる時間である。各ＣＭ境界候補区間の許容時間は、ＣＭ規定長に許容時間を加算又は減算した時間の合計がＣＭ全体の再生時間となるように調整される。

図８は、有効なカット点が含まれないＣＭ境界候補区間のＣＭ境界の第２の決定例を示す図である。第２の決定例では、カット点抽出部１２４によってＣＭ境界候補区間Ｔ_ｋにおいてカット点が抽出されなかった場合、ＣＭ区間決定部１２５は、隣接するＣＭ境界候補区間におけるＣＭ境界からの時間が略ＣＭ規定長となる時点をＣＭ境界と決定する。例えば、ＣＭ境界近傍の映像がブラックアウトしている場合、ＣＭ境界候補区間においてカット点が抽出されないことがある。

図８（ａ）に示す例では、境界系列はカット点Ｐ_１１，Ｐ_２２，Ｐ_４１，Ｐ_５３で構成されるカット点系列であり、ＣＭ境界候補区間Ｔ_３はカット点を有していない。この場合、ＣＭ区間決定部１２５は、図８（ｂ）に示すように、ＣＭ境界候補区間Ｔ_３の前のＣＭ境界候補区間Ｔ_２において抽出されたＣＭ境界（カット点Ｐ_２２）に、ＣＭ規定長に許容時間を加算又は減算した時間を加算した時点をＣＭ境界候補区間Ｔ_３におけるＣＭ境界と決定する。これにより、ＣＭ境界候補区間において映像の変更量が少なく、カット点が抽出されなかった場合においても、ＣＭ境界を正確に検出することができる。

なお、ＣＭ区間決定部１２５は、ＣＭ区間の決定に要する時間が許容時間以下となるように、番組を分割してから上述の処理を行うようにしてもよい。例えば、ＣＭ区間決定部１２５は、分割された各番組に含まれるカット点系列Ｓ_ｊの全数Ｃ_ａｌｌを算出し、全数Ｃ_ａｌｌが閾値以下である場合には、番組を分割せず、全数Ｃ_ａｌｌが閾値を超えた場合には、分割された番組のカット点系列Ｓ_ｎの全数Ｃ_ａｌｌが閾値以下となるように番組を分割する。このとき、ＣＭ区間決定部１２５は、カット点の位置で番組を分割する。これにより、カット点とカット点との間のＣＭの途中と推定される時点で番組が分割されることを防止できる。また、ＣＭ区間決定部１２５は、分割された番組の長さの差が所定範囲内となるように番組を等分割してもよいし、分割された番組におけるカット点系列Ｓ_ｊの全数Ｃ_ａｌｌが規定値となるように、番組を分割してもよい。

＜画像認識部＞
次に、画像認識部２００の詳細について説明する。図９は、画像認識部２００の構成例を示す図である。図９に示す画像認識部２００は、正解メタデータ蓄積部２１０と、パラメータ蓄積部２２０と、学習データ作成部２３０と、学習部２４０と、検出用画像データ作成部２５０と、提供クレジット表示区間推定部２６０とを備える。

正解メタデータ蓄積部２１０は、番組における、提供クレジット表示が表示された時刻を示す時刻情報を蓄積する。提供クレジット表示が表示された時刻は、例えば、あらかじめ作業者により目視により確認され、正解メタデータ蓄積部２１０に蓄積される。

パラメータ蓄積部２２０は、後述する、番組における提供クレジット表示を検出する検出モデルに適用するパラメータを蓄積する。

検出モデルは、例えば、畳み込みニューラルネットワークを用いたモデルである。詳細な説明は省略するが、畳み込みニューラルネットワークは、一般に、入力側から、畳み込み層とプーリング層とがこの順に、複数回繰り返して配置され、その後、全結合層が配置された構成を有する。畳み込み層では、入力画像に対して畳み込みフィルタを適用する処理が行われる。プーリング層では、畳み込み層の出力に対して、矩形フィルタを順次ずらしていきながら適用し、矩形フィルタ内の最大の値を取り出して新しい画像を生成する処理が行われる。全結合層では、畳み込み層及びプーリング層により特徴部分が取り出された画像データを１つのノードに結合し、活性化関数によって変換された値を出力する処理が行われる。パラメータ蓄積部２２０は、例えば、検出モデルが畳み込みニューラルネットワークを用いたモデルである場合には、各層で適用するフィルタのフィルタ重み、及び、畳み込み層の出力に加算するバイアスパラメータなどを蓄積する。なお、検出モデルは、畳み込みニューラルネットワークを用いて構築されるものに限定されるものではなく、例えば、ＳＶＭ（Support Vector Machine）などを用いて構築してもよい。

学習データ作成部２３０は、放送映像／音声信号蓄積部１１０から、提供クレジット表示が検出済みの学習用番組の映像信号を取得する。また、学習データ作成部２３０は、その番組における提供クレジット表示の時刻情報を正解メタデータ蓄積部２１０から取得する。学習データ作成部２３０は、提供クレジット表示が検出済みの学習用番組から、提供クレジット表示が表示された静止画（以下、「提供クレジット表示ありの静止画」と称する）と、提供クレジットが表示されていない静止画（以下、「提供クレジット表示なしの静止画」と称する）とを学習データとして作成する。

具体的には、学習データ作成部２３０は、取得した映像信号をデコードして、所定の時間間隔で、時系列的に連続する静止画を作成する。なお、静止画は、画面内符号化が行われたＩフレームのみを用いて作成してもよい。例えば、学習データ作成部２３０は、１秒ごとに静止画を作成する。この場合、学習データ作成部２３０は、例えば、６５分の番組に対して、１秒間隔で時系列的に連続する３９００枚の静止画を作成する。

次に、学習データ作成部２３０は、取得した時刻情報に基づき、生成した静止画から、提供クレジット表示ありの静止画を抽出する。また、学習データ作成部２３０は、生成した静止画から、提供クレジット表示なしの静止画を抽出する。提供クレジット表示なしの静止画は、取得した時刻情報に示される時刻以外の時刻の静止画からランダムに抽出される。学習データ作成部２３０は、提供クレジット表示ありの静止画及び提供クレジット表示なしの静止画をそれぞれ、例えば、８０００枚程度、抽出する。学習データ作成部２３０は、抽出した提供クレジット表示ありの静止画及び提供クレジット表示なしの静止画を学習データとして学習部２４０に出力する。

学習部２４０は、学習データ作成部２３０により作成された学習データ（提供クレジット表示ありの静止画及び提供クレジット表示なしの静止画）を用いて、番組における提供クレジット表示を検出する検出モデルに適用するパラメータを学習する。例えば、検出モデルが上述した畳み込みニューラルネットワークを用いたモデルである場合、学習部２４０は、確率的勾配法を利用して、フィルタ重み及びバイアスパラメータを学習する。学習部２４０は、学習したパラメータをパラメータ蓄積部２２０に蓄積する。

検出用画像データ作成部２５０は、放送映像／音声信号蓄積部１１０から、提供クレジット表示の検出対象の番組の映像信号を取得する。検出用画像データ作成部２５０は、取得した映像信号をデコードして、所定の時間間隔で、時系列的に連続する静止画を作成する。例えば、検出用画像データ作成部２５０は、１秒ごとに静止画を作成する。この場合、検出用画像データ作成部２５０は、例えば、６５分の番組に対して、１秒間隔で時系列的に連続する３９００枚の静止画を作成する。検出用画像データ作成部２５０は、作成した時系列的に連続する静止画を提供クレジット表示区間推定部２６０に出力する。

提供クレジット表示区間推定部２６０は、学習部２４０によりあらかじめ学習されたパラメータを適用した検出モデルを用いて、提供クレジット表示の検出対象の番組における提供クレジット表示区間を推定する。

具体的には、提供クレジット表示区間推定部２６０は、検出用画像データ作成部２５０から出力された、検出用画像データ（提供クレジット表示の検出対象の番組の静止画）を順次、番組における提供クレジット表示を検出する検出モデルに入力する。そして、提供クレジット表示区間推定部２６０は、各静止画に対する検出モデルの出力値に基づき、各静止画における提供クレジット表示の有無を時系列的に示す時系列信号を生成する。ここで、提供クレジット表示区間推定部２６０は、パラメータ蓄積部２２０に蓄積されたパラメータを検出モデルに適用する。例えば、検出モデルが畳み込みニューラルネットワークを用いたモデルである場合には、提供クレジット表示区間推定部２６０は、パラメータ蓄積部２２０に蓄積されたパラメータを固定値としたネットワーク（検出モデル）を構築する。

提供クレジット表示区間推定部２６０は、検出モデルの出力値が所定の閾値以上である場合、入力した静止画は、提供クレジット表示ありの静止画であると判定する。また、提供クレジット表示区間推定部２６０は、検出モデルの出力値が所定の閾値より小さい場合、入力した静止画は、提供クレジット表示なしの静止画であると判定する。提供クレジット表示区間推定部２６０は、提供クレジット表示の検出対象の番組の時系列的に連続する静止画それぞれに対して、上述した判定を行い、判定結果を示す信号（本実施形態では、バイナリ時系列信号）を生成し、提供クレジット表示区間と推定される区間については信号「１」、それ以外の区間については信号「０」である信号を提供クレジット表示区間出力部４００に出力する。

一般に、提供クレジット表示では、スポンサー名を示す文字として、黒枠で縁取られた白文字、カラー文字などが用いられる。また、提供クレジット表示では、スポンサー名を示す文字として、種々のフォントの文字が用いられる。また、提供クレジット表示であっても、「提供」という文字が含まれる場合と、「提供」という文字が含まれない場合とがある。また、提供クレジット表示が、スポンサーロゴのみを含む場合もある。さらに、提供クレジット表示の位置が、画面全体、右下、左下、右上、左上あるいは中央下である場合もある。このように、提供クレジット表示には、様々なバリエーションが存在する。このような様々なバリエーションの提供クレジット表示を、例えば、画像に登場する物体の特徴ベクトルなどを用いて検出することは困難である。

この点、画像認識部２００においては、提供クレジット表示が検出済みの番組から学習データが作成され、その学習データを用いて、番組における提供クレジット表示を検出する検出モデルに適用するパラメータが学習される。そして、画像認識部２００においては、学習したパラメータを適用した検出モデルを用いて、提供クレジット表示の検出対象の番組における提供クレジット表示区間が推定される。そのため、画像認識部２００によれば、様々なバリエーションの提供クレジット表示を学習データとすることで、上述したような様々なバリエーションの提供クレジット表示に対しても提供クレジット表示区間を検出することができる。また、画像認識部２００によれば、提供クレジット表示の検出対象の番組の映像信号を用いるので、アナウンスがない場合にも、提供クレジット表示区間を検出することができる。

＜画像認識部の変形例＞
次に、画像認識部の変形例について説明する。図１０は、画像認識部の他の構成例を示す図である。図１０において、図９と同様の構成については同じ符号を付し、説明を省略する。図１０に示す画像認識部２００Ａは、図９示す画像認識部２００と比較して、学習データ作成部２３０を学習データ作成部２３０Ａに変更した点と、学習部２４０を学習部２４０Ａに変更した点と、提供クレジット表示区間推定部２６０を提供クレジット表示区間推定部２６０Ａに変更した点とが異なる。

学習データ作成部２３０Ａは、放送映像／音声信号蓄積部１１０から、曜日ごとに、提供クレジット表示が検出済みの番組の映像信号を取得する。また、学習データ作成部２３０Ａは、その番組における提供クレジット表示の時刻情報を正解メタデータ蓄積部２１０から取得する。学習データ作成部２３０Ａは、取得した提供クレジット表示が検出済みの各曜日の番組から、曜日ごとの学習データを作成し、学習部２４０Ａに出力する。学習データ作成部２３０Ａは、初期学習用学習データ作成部２３１Ａと、曜日別再学習用学習データ作成部２３２Ａとを備える。

初期学習用学習データ作成部２３１Ａは、放送映像／音声信号蓄積部１１０から、提供クレジット表示が検出済みの番組の映像信号を取得する。例えば、初期学習用学習データ作成部２３１Ａは、１カ月前の１日分の番組の映像信号を取得する。また、初期学習用学習データ作成部２３１Ａは、映像信号を取得した番組における提供クレジット表示の時刻情報を正解メタデータ蓄積部２１０から取得する。そして、初期学習用学習データ作成部２３１Ａは、取得した提供クレジット表示が検出済みの番組から、その番組における提供クレジット表示の時刻情報に基づき、検出モデルの初期学習用の学習データを作成する。

具体的には、初期学習用学習データ作成部２３１Ａは、取得した映像信号をデコードして、所定の時間間隔（例えば、１秒ごと）で、時系列的に連続する静止画を作成する。

次に、初期学習用学習データ作成部２３１Ａは、取得した時刻情報に基づき、生成した静止画から、提供クレジット表示ありの静止画を抽出する。また、初期学習用学習データ作成部２３１Ａは、生成した静止画から、提供クレジット表示なしの静止画を抽出する。提供クレジット表示なしの静止画は、取得した時刻情報に示される時刻以外の時刻の静止画からランダムに抽出される。初期学習用学習データ作成部２３１Ａは、提供クレジット表示ありの静止画及び提供クレジット表示なしの静止画をそれぞれ、例えば、８０００枚程度、抽出する。初期学習用学習データ作成部２３１Ａは、抽出した提供クレジット表示ありの静止画及び提供クレジット表示なしの静止画を、検出モデルの初期学習用の学習データとして学習部２４０Ａに出力する。

曜日別再学習用学習データ作成部２３２Ａは、放送映像／音声信号蓄積部１１０から、曜日ごとに、提供クレジット表示が検出済みの番組の映像信号を取得する。例えば、曜日別再学習用学習データ作成部２３２Ａは、前週の曜日ごとの番組の映像信号を取得する。また、曜日別再学習用学習データ作成部２３２Ａは、映像信号を取得した番組における提供クレジット表示の時刻情報を正解メタデータ蓄積部２１０から取得する。そして、曜日別再学習用学習データ作成部２３２Ａは、曜日ごとに、提供クレジット表示が検出済みの番組から、その番組における提供クレジット表示の時刻情報に基づき、検出モデルの再学習用の学習データを作成する。

具体的には、曜日別再学習用学習データ作成部２３２Ａは、取得した放送映像／音声信号をデコードして、所定の時間間隔（例えば、１秒ごと）で、時系列的に連続する静止画を作成する。

次に、曜日別再学習用学習データ作成部２３２Ａは、取得した時刻情報に基づき、生成した静止画から、提供クレジット表示ありの静止画、及び提供クレジット表示なしの静止画を抽出する。提供クレジット表示なしの静止画は、取得した時刻情報に示される時刻以外の時刻の静止画からランダムに抽出される。曜日別再学習用学習データ作成部２３２Ａは、提供クレジット表示ありの静止画及び提供クレジット表示なしの静止画をそれぞれ、例えば、１０００枚程度、抽出する。曜日別再学習用学習データ作成部２３２Ａは、上述した処理を曜日ごとに行う。そして、曜日別再学習用学習データ作成部２３２Ａは、曜日ごとに抽出した提供クレジット表示ありの静止画及び提供クレジット表示なしの静止画を、曜日ごとの再学習用データとして学習部２４０Ａに出力する。

学習部２４０Ａは、学習データ作成部２３０Ａにより作成された曜日ごとの学習データを用いて、検出モデルに適用するパラメータを曜日ごとに学習（再学習）する。学習部２４０Ａは、初期学習部２４１Ａと、曜日別再学習部２４２Ａとを備える。

初期学習部２４１Ａは、初期学習用学習データ作成部２３１Ａにより作成された初期学習用の学習データを用いて、番組における提供クレジット表示を検出する検出モデルに適用するパラメータを学習する。例えば、検出モデルが上述した畳み込みニューラルネットワークを用いたモデルである場合、初期学習部２４１Ａは、確率的勾配法を利用して、フィルタ重み及びバイアスパラメータを学習する。初期学習部２４１Ａは、学習したパラメータをパラメータ蓄積部２２０に蓄積する。

曜日別再学習部２４２Ａは、曜日別再学習用学習データ作成部２３２Ａにより作成された曜日ごとの再学習用データを用いて、番組における提供クレジット表示を検出する検出モデルに適用するパラメータを曜日ごとに学習する。曜日別再学習部２４２Ａは、学習したパラメータをパラメータ蓄積部２２０に蓄積する。すなわち、曜日別再学習部２４２Ａは、曜日ごとに、検出モデルに適用するパラメータを学習し、パラメータ蓄積部２２０に蓄積する。曜日ごとの再学習用データを用いて検出モデルに適用するパラメータを学習（再学習）することで、曜日ごとの番組における提供クレジット表示の検出に適したパラメータを設定することができる。

提供クレジット表示区間推定部２６０Ａは、パラメータ蓄積部２２０に蓄積された、提供クレジット表示の検出対象の番組が放送される曜日について学習されたパラメータを検出モデルに適用して、提供クレジット表示の検出対象の番組における提供クレジット表示区間を推定する。

具体的には、提供クレジット表示区間推定部２６０Ａは、検出用画像データ作成部２５０から出力された、提供クレジット表示の検出対象の番組の時系列的に連続する静止画を順次、番組における提供クレジット表示を検出する検出モデルに入力する。そして、提供クレジット表示区間推定部２６０Ａは、各静止画に対する検出モデルの出力値に基づき、各静止画における提供クレジット表示の有無を時系列的に示す時系列信号を生成する。ここで、提供クレジット表示区間推定部２６０Ａは、パラメータ蓄積部２２０に蓄積された、提供クレジット表示の検出対象の番組が放送される曜日について学習されたパラメータを検出モデルに適用する。

例えば、検出モデルが畳み込みニューラルネットワークを用いたモデルである場合には、提供クレジット表示区間推定部２６０Ａは、パラメータ蓄積部２２０に蓄積された、提供クレジット表示の検出対象の番組が放送される曜日について学習されたパラメータを固定値としたネットワーク（検出モデル）を構築する。

提供クレジット表示区間推定部２６０Ａは、検出モデルの出力値が所定の閾値以上である場合、入力した静止画は、提供クレジット表示ありの静止画であると判定する。また、提供クレジット表示区間推定部２６０Ａは、検出モデルの出力値が所定の閾値より小さい場合、入力した静止画は、提供クレジット表示なしの静止画であると判定する。提供クレジット表示区間推定部２６０Ａは、提供クレジット表示の検出対象の番組の時系列的に連続する静止画それぞれに対して、上述した判定を行い、判定結果を示す信号（本実施形態では、バイナリ時系列信号）を生成し、供クレジット表示区間と推定される区間については信号「１」、それ以外の区間については信号「０」である信号を出力部１４０Ａに出力する。なお、提供クレジット表示区間推定部２６０Ａは、学習部２４０Ａにより曜日ごとに学習されたパラメータをそれぞれ適用した、曜日ごとの検出モデルを構築し、提供クレジット表示の検出対象の番組が放送される曜日に対応する検出モデルを用いてもよい。

一般に、同じ番組であれば、毎週、同じ曜日に放送されることが多い。このような番組では、同じ形式の提供クレジット表示が表示される傾向がある。そのため、画像認識部２００Ａによれば、曜日ごとに学習データを作成し、その学習データを用いて、曜日ごとに、検出モデルに適用するパラメータを学習することで、提供クレジット表示の検出精度の向上を図ることができる。なお、本実施形態においては、曜日ごとに、学習データの作成及び検出モデルに適用するパラメータの学習が行われる例を用いて説明したが、これに限られるものではない。例えば、平日と、土曜日と、日曜日とに分けて、学習データの作成および検出モデルに適用するパラメータの学習が行われてもよい。また、例えば、番組ごとに、学習データの作成及び検出モデルに適用するパラメータの学習が行われてもよい。

ここで、初期学習用学習データ作成部２３１Ａは、取得した時刻情報に基づき、生成した静止画から、提供クレジット表示ありの静止画、及び提供クレジット表示なしの静止画を、その静止画が放送された時刻とペアにして抽出し、抽出した提供クレジット表示ありの静止画とその静止画が放送された時刻とのペア、及び、提供クレジット表示なしの静止画とその静止画が放送された時刻とのペアを、検出モデルの初期学習用の学習データとして学習部２４０Ａに出力するようにしてもよい。この場合には、初期学習部２４１Ａは、初期学習用学習データ作成部２３１Ａにより作成された初期学習用の学習データ（提供クレジット表示ありの静止画とその静止画が放送された時刻とのペア、及び、提供クレジット表示なしの静止画とその静止画が放送された時刻とのペア）を用いて、番組における提供クレジット表示を検出する検出モデルに適用するパラメータを学習する。

また、曜日別再学習用学習データ作成部２３２Ａは、取得した時刻情報に基づき、生成した静止画から、提供クレジット表示ありの静止画、及び提供クレジット表示なしの静止画を、その静止画が放送された時刻とペアにして抽出し、曜日ごとに抽出した、提供クレジット表示ありの静止画とその静止画が放送された時刻とのペア、及び、提供クレジット表示なしの静止画とその静止画が放送された時刻とのペアを、曜日ごとの再学習用データとして学習部２４０Ａに出力するようにしてもよい。この場合には、曜日別再学習部２４２Ａは、曜日別再学習用学習データ作成部２３２Ａにより作成された曜日ごとの再学習用データ（曜日ごとの、提供クレジット表示ありの静止画とその静止画が放送された時刻とのペア、及び、提供クレジット表示なしの静止画とその静止画が放送された時刻とのペア）を用いて、番組における提供クレジット表示を検出する検出モデルに適用するパラメータを曜日ごとに学習する。曜日別再学習部２４２Ａは、学習したパラメータをパラメータ蓄積部２２０に蓄積する。

なお、学習データ作成部２３０Ａは、曜日は区別することなく、提供クレジット表示ありの静止画とその静止画が放送された時刻とのペア、及び、提供クレジット表示なしの静止画とその静止画が放送された時刻とのペアを学習データとして作成してもよい。すなわち、学習データ作成部２３０Ａは、提供クレジット表示が検出済みの番組から、提供クレジット表示ありの静止画及びその静止画が放送された時刻と、提供クレジット表示なしの静止画及びその静止画が放送された時刻とを学習データとして作成してもよい。また、学習部２４０Ａは、曜日は区別することなく、学習データ作成部２３０Ａにより作成された学習データを用いて、検出モデルに適用するパラメータを学習してもよい。

一般に、同じ番組であれば、毎週、同じ曜日の同じ時間帯に放送されることが多い。このような番組では、同じ形式の提供クレジット表示が表示される傾向がある。そのため、提供クレジット表示ありの静止画及びその静止画が放送された時刻と、提供クレジット表示なしの静止画及びその静止画が放送された時刻とを学習データとして作成し、その学習データを用いて、検出モデルに適用するパラメータを学習することで、さらに提供クレジット表示の検出精度の向上を図ることができる。

＜音声認識部＞
次に、音声認識部３００の詳細について説明する。図１１は、音声認識部３００の構成例を示す図である。図１１に示す音声認識部３００は、関連語句蓄積部３１０と、音声データ作成部３２０と、音声認識処理部３３０と、関連語句検出部３４０と、提供クレジット表示区間推定部３５０とを備える。

関連語句蓄積部３１０は、提供クレジット表示のアナウンス（提供クレジット表示の際に流れるアナウンス）に含まれ、提供クレジット表示に関連する関連語句を蓄積する。関連語句としては、例えば、提供クレジット表示のアナウンスに含まれることが多い、「ご覧の」、「スポンサー」、「提供」、「お送り（お送りします／お送りしました）」などの語句がある。また、関連語句としては、例えば、企業名を示す語句などがある。

また、関連語句蓄積部３１０は、関連語句に対応付けて、その関連語句の出現時刻の前後少なくとも一方の所定の期間を提供クレジット表示区間と推定する推定期間を蓄積する。関連語句の推定期間は、提供クレジット表示のアナウンスにおいて、その関連語句が出現する可能性が高い位置に応じて設定される。

例えば、提供クレジット表示のアナウンスとしては、「この番組は、ご覧のスポンサーの提供でお送りします／お送りしました」という定型文が用いられることが多い。このような定型文では、「番組」、「ご覧の」などの関連語句はアナウンスの前半に、「スポンサー」、「提供」などの関連語句はアナウンスの中頃に、「お送り」などの関連語句はアナウンスの後半に出現することが多いという傾向がある。関連語句の推定期間は、このような傾向に基づき設定される。

例えば、アナウンスの前半に出現する可能性が高い関連語句「番組」に対しては、推定期間として、「０秒〜＋５秒」が設定される。また、アナウンスの中頃に出現する可能性が高い関連語句「提供」に対しては、推定期間として、「−３秒〜＋２秒」が設定される。また、アナウンスの後半に出現する可能性が高い関連語句「お送り」に対しては、推定期間として、「−４秒〜＋１秒」が設定される。なお、「−Ｘ秒〜＋Ｙ秒」とは、関連語句の出現時刻の前Ｘ秒から、関連語句の出現時刻の後Ｙ秒までの区間を指す。

音声データ作成部３２０は、放送映像／音声信号蓄積部１１０から、提供クレジット表示の検出対象の番組の音声信号を取得する。音声データ作成部３２０は、取得した音声信号をデコードして、所定の形式の音声認識用の音声信号（例えば、ＷＡＶ形式、１６ｋＨｚ、１６ビット、モノラル音声信号）を音声認識用の音声データとして作成し、音声認識処理部３３０に出力する。

音声認識処理部３３０は、音声データ作成部３２０から出力された、音声認識用の音声データ（提供クレジット表示の検出対象の番組の音声信号）に対する音声認識を行う。具体的には、音声認識処理部３３０は、提供クレジット表示の検出用にチューニングされた、音声認識用の音響モデル／言語モデルに適用するパラメータを蓄積している。音声認識処理部３３０は、蓄積しているパラメータを適用した音響モデル／言語モデルを用いて、提供クレジット表示の検出対象の番組の音声信号に対する音声認識を行い、音声認識の結果を関連語句検出部３４０に出力する。なお、音響モデル／言語モデルに適用するパラメータは、不図示の蓄積部に蓄積されていてもよい。

図１２は、音声認識処理部３３０による音声認識の結果の一例を示す図である。ここでは、「ここからはご覧のスポンサーの提供でお送りします」という文言の音声信号に対する音声認識の結果を示している。

図１２に示すように、音声認識処理部３３０は、音声信号に対する音声認識により、対象の文言を複数の語句（"Word Name"）に分割して、テキストデータとして書き起こす。また、音声認識処理部３３０は、各語句（"Word Name"）に対応付けて、その語句を識別するＩＤ（"Word ID"）、その語句の開始時刻（"Word Start Time"）及びその語句の終了時刻（"Word End Time"）を音声認識の結果として出力する。

図１１を再び参照すると、関連語句検出部３４０は、音声認識処理部３３０による音声認識の結果から、関連語句蓄積部３１０に蓄積されている関連語句を検出し、検出結果を示す信号（本実施形態では、バイナリ時系列信号）を提供クレジット表示区間推定部３５０に出力する。関連語句検出部３４０は、例えば、関連語句が検出された時刻については、信号「１」を、それ以外の時刻については、信号「０」を提供クレジット表示区間推定部３５０に出力する。関連語句検出部３４０は、上述した処理を所定の時間間隔で行う。したがって、例えば、提供クレジット表示の検出対象の番組が６５分であり、１秒間隔で上述した処理を行う場合、関連語句検出部３４０は、時系列的に信号「１」又は信号「０」が３９００個連続するバイナリ時系列信号を提供クレジット表示区間推定部３５０に出力する。

提供クレジット表示区間推定部３５０は、関連語句検出部３４０から出力されたバイナリ時系列信号に基づき、提供クレジット表示区間を推定する。具体的には、提供クレジット表示区間推定部３５０は、検出された関連語句の出現時刻（信号「１」に対応する時刻）を起点として、検出された関連語句に対応付けて関連語句蓄積部３１０に蓄積されている推定期間に相当する期間を、提供クレジット表示区間と推定する。例えば、ある関連語句に対応付けて、推定期間として「−Ｘ秒〜＋Ｙ秒」が設定されており、その関連語句が時刻ｔに検出されたとする。この場合、提供クレジット表示区間推定部３５０は、時刻ｔを起点として、時刻ｔ−Ｘから時刻ｔ＋Ｙまでを提供クレジット表示区間と推定する。なお、提供クレジット表示区間推定部３５０は、音声認識処理部３３０による音声認識の結果を、音声認識処理部３３０あるいは関連語句検出部３４０から出力する。提供クレジット表示区間推定部３５０は、音声認識処理部３３０による音声認識の結果を取得することで、バイナリ時系列信号に含まれる信号「１」が、どの関連語句に対応する信号であるかを特定することができる。

提供クレジット表示区間推定部３５０は、提供クレジット表示区間と推定した時刻については、信号「１」を、それ以外の時刻については、信号「０」を提供クレジット表示区間出力部４００に出力する。提供クレジット表示区間推定部３５０は、上述した処理を所定の時間間隔で行う。したがって、例えば、提供クレジット表示の検出対象の番組が６５分であり、１秒間隔で上述した処理を行う場合、提供クレジット表示区間推定部３５０は、時系列的に１ビットの信号が３９００個連続するバイナリ時系列信号を提供クレジット表示区間出力部４００に出力する。

番組内において、提供クレジット表示区間外に関連語句が出現した場合、提供クレジット表示区間推定部３５０からは信号「１」が出力される。しかしながら、この場合、その語句の前後に、さらに関連語句が出現しなければ、信号「１」が出力される期間は、その関連語句に対応付けられた推定期間に相当する期間だけである。一方、提供クレジット表示区間は通常、関連語句が連続して出現し、例えば、十数秒程度の長さを有している。したがって、信号「１」が所定時間以上連続する区間を、提供クレジット表示区間として検出することで、高精度に提供クレジット表示区間を検出することができる。

＜ＣＭ区間検出方法＞
次に、ＣＭ区間検出装置１００によるＣＭ区間検出方法について、図１３を参照して説明する。図１３は、本発明の一実施形態に係るＣＭ区間検出方法の一例を示すフローチャートである。

ステップＳ１１では、検出用データ作成部１２１により、ＣＭ区間検出用の音声データを作成する。

ステップＳ１２では、音量算出部１２２により、ステップＳ１１で作成された音声データの時系列での音量を算出する。

ステップＳ１３では、ＣＭ境界候補区間決定部１２３により、ステップＳ１２で算出された音量が音量閾値未満となる低音量区間を抽出する。そして、互いに隣接する低音量区間の間隔が略ＣＭ規定長となる部分をＣＭとして検出する。そして、検出したＣＭの端部の低音量区間を含む時間帯をＣＭ境界候補区間と決定する。

ステップＳ１４では、カット点抽出部１２４により、ステップＳ１３で決定されたＣＭ境界候補区間の映像からカット点を抽出する。

ステップＳ１５では、ＣＭ区間決定部１２５により、ステップＳ１４で抽出された各ＣＭ境界候補区間内のカット点の組合せによって構成される全てのカット点系列Ｓ_ｊについて、各隣接カット点時間とＣＭ規定長との差が時間差閾値未満となる一致数を算出し、一致数が最大のカット点系列Ｓ_ｊが１つである場合には、該カット点系列Ｓ_ｊを境界系列と判定し、一致数が最大のカット点系列Ｓ_ｊが複数ある場合には、一致数が最大のカット点系列Ｓ_ｊのうち、隣接カット点時間のＣＭ規定長との差が最小であるカット点系列Ｓ_ｊを境界系列と判定する。そして、ＣＭ区間決定部１２５により、境界系列において、隣接カット点時間が略ＣＭ規定長に一致するカット点をＣＭ境界と決定し、隣接するＣＭ境界の間の区間をＣＭ区間と決定する。

ステップＳ２１では、学習データ作成部２３０により、提供クレジット表示が検出済みの番組の映像信号から、提供クレジット表示ありの静止画、及び提供クレジット表示なしの静止画を学習データとして作成する。

ステップＳ２２では、学習部２４０により、ステップＳ２１で作成された学習データを用いて、番組における提供クレジット表示を検出する検出モデルに適用するパラメータを学習する。

ステップＳ２３では、検出用画像データ作成部２５０により、提供クレジット表示の検出対象の番組の映像信号をデコードして、所定の時間間隔で、時系列的に連続する静止画を検出用画像データとして作成する。

ステップＳ２４では、提供クレジット表示区間推定部２６０により、ステップＳ２３で学習されたパラメータを適用した検出モデルを用いて、提供クレジット表示の検出対象の番組における提供クレジット表示区間を推定する。

ステップＳ３１では、音声データ作成部３２０により、提供クレジット表示の検出対象の番組の音声信号から音声認識用の音声データを作成する。

ステップＳ３２では、音声認識処理部３３０により、ステップＳ３１で作成された音声データに対して音声認識処理を行う。

ステップＳ３３では、関連語句検出部３４０により、ステップＳ３２で得られた音声認識の結果から、提供クレジット表示に関連する関連語句を検出する。

ステップＳ３４では、提供クレジット表示区間推定部３５０により、ステップＳ３３で検出された関連語句に基づき、提供クレジット表示区間を推定する。

ステップＳ２５では、提供クレジット表示区間出力部４００により、ステップＳ２４で推定された提供クレジット表示区間と、ステップＳ３４で推定された提供クレジット表示区間の共通部分又は和集合を最終的な提供クレジット表示区間として出力する。例えば、できるだけ漏れなく提供クレジット表示区間を検出したい場合には、和集合を提供クレジット表示区間とし、できるだけ提供クレジット表示区間の誤検出率を下げたい場合には、共通部分を提供クレジット表示区間とする。なお、ステップＳ２１からステップＳ２４の処理と、ステップＳ３１からステップＳ３４の処理とは、並行して行われてもよいし、いずれか一方が先に行われてもよい。

ステップＳ１６では、ＣＭ区間修正部１４０により、ステップＳ１５で検出されたＣＭ区間を、ステップＳ２５により検出された提供クレジット表示区間に基づいて修正し、修正したＣＭ区間を出力する。

以上説明したように、本発明では、ＣＭ区間修正部１４０は、ＣＭ区間検出部１２０により検出されたＣＭ区間を、提供クレジット表示区間を用いて修正する。そのため、ＣＭ検出区間の修正前では、提供クレジット表示区間をＣＭ区間として誤検出すること、及び番組本編の直前又は直後のＣＭ区間を検出できないことがあったが、このような誤検出及び未検出を修正することが可能となる。関東キー５局の一日分の放送データを対象に実験を行ったところ、ＣＭ区間検出部１２０により検出されたＣＭ区間は４７７０箇所であった。そのうち、ＣＭ区間修正部１４０により、提供クレジット表示区間が含まれるＣＭ区間を誤検出とみなして除外することにより、１６箇所の誤検出を正しく修正することができた。また、ＣＭ区間修正部１４０により、ＣＭ区間及び提供クレジット表示区間の間隔が略１５秒である場合に、該間隔をＣＭ区間とみなして追加することにより、１箇所の未検出を正しく修正することができた。

ＣＭとＣＭの間、及びＣＭと番組の間では、映像が切り替わることが多い。すなわち、ＣＭ境界はカット点であることが多い。そのため、ＣＭ区間検出部１２０は、番組の音声信号の音量が音量閾値未満であり、かつ前フレームからの変化量が画素変化閾値以上であるフレームが再生される時点であるカット点を抽出し、該カット点の間隔とＣＭ規定長とを比較することによりＣＭ区間を検出するのが好適である。この手法によれば、音量にのみ基づいてＣＭ境界を検出する場合に比べて、さらにＣＭ区間を高精度に検出することが可能となる。

なお、発明者らによる検証実験において、ＣＭ区間検出部１２０が上記手法により、７４２個のＣＭを含む、１７時間の再生時間の番組のＣＭ境界を検出した結果、実際のＣＭ境界との差の合計は計３．７秒であった。これに対して、従来のように低音量区間のみに基づいてＣＭ境界が検出された場合、実際のＣＭ境界との差の合計は計１７．７秒であった。また、この検証実験において、従来の判定における適合率は９３．５％であったのに対してＣＭ区間検出部１２０による判定の適合率は９３．９％であった。また、従来の判定における再現率は９７．３％であったのに対して、ＣＭ区間検出部１２０による判定の再現率は９９．０％であった。このことから、ＣＭ区間検出部１２０は従来に比べて正確にＣＭ境界を判定可能であることが検証された。

また、画像認識部２００は、あらかじめ学習データを用いて学習されたパラメータを適用した検出モデルを用いて、提供クレジット表示の検出対象の番組における提供クレジット表示を検出するため、様々なバリエーションの提供クレジット表示を学習データとすることで、上述したような様々なバリエーションの提供クレジット表示の検出が可能となる。そこで、画像認識部２００により検出された高精度の提供クレジット表示区間を用いて、ＣＭ区間検出部１２０により検出されたＣＭ区間を修正することにより、さらにＣＭ区間を高精度に検出することができる。

また、音声認識部３００は、音声認識処理により検出された関連語句の前後の推定期間を提供クレジット表示区間と推定するため、関連語句が連続して出現する区間だけを提供クレジット表示区間として検出することができる。番組内において、提供クレジット表示区間外に関連語句が出現する場合があるが、提供クレジット表示区間外において、関連語句が連続して出現することは少ないため、提供クレジット表示とは無関係に、関連語句が出現しても、提供クレジット表示区間とは検出されず、提供クレジット表示の際に関連語句が連続して出現した区間だけが提供クレジット表示区間として検出される。そこで、音声認識部３００により検出された高精度の提供クレジット表示区間を用いて、ＣＭ区間検出部１２０により検出されたＣＭ区間を修正することにより、さらにＣＭ区間を高精度に検出することができる。

以上、ＣＭ区間検出装置１００について説明したが、ＣＭ区間検出装置１００として機能させるために、コンピュータを用いることも可能である。そのようなコンピュータは、ＣＭ区間検出装置１００の各機能を実現する処理内容を記述したプログラムを、該コンピュータの記憶部に格納しておき、該コンピュータのＣＰＵによってこのプログラムを読み出して実行させることで実現することができる。

また、プログラムは、コンピュータが読取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭなどの記録媒体であってもよい。

上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形及び変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

１００ＣＭ区間検出装置
１１０放送映像／音声信号蓄積部
１２０ＣＭ区間検出部
１２１検出用データ作成部
１２２音量算出部
１２３ＣＭ境界候補区間決定部
１２４カット点抽出部
１２５ＣＭ区間決定部
１３０提供クレジット表示区間推定部
１４０ＣＭ区間修正部
２００画像認識部
２１０正解メタデータ蓄積部
２２０パラメータ蓄積部
２３０，２３０Ａ学習データ作成部
２３１Ａ初期学習用学習データ作成部
２３２Ａ曜日別再学習用学習データ作成部
２４０，２４０Ａ学習部
２４１Ａ初期学習部
２４２Ａ曜日別再学習部
２５０検出用画像データ作成部
２６０，２６０Ａ提供クレジット表示区間推定部
３００音声認識部
３１０関連語句蓄積部
３２０音声データ作成部
３３０音声認識処理部
３４０関連語句検出部
３５０提供クレジット表示区間推定部
４００提供クレジット表示区間出力部

Claims

番組に含まれるＣＭの区間を検出するＣＭ区間検出装置であって、
番組の音量と音量閾値とを比較することにより、前記番組内の１以上のＣＭ区間を検出し、検出したＣＭ区間を示す検出ＣＭ区間を生成するＣＭ区間検出部と、
前記検出ＣＭ区間を、前記番組における、該番組のスポンサーを示す提供クレジットが表示された区間である提供クレジット表示区間に基づいて修正するＣＭ区間修正部と、
を備えることを特徴とするＣＭ区間検出装置。
請求項１に記載のＣＭ区間検出装置において、
前記ＣＭ区間修正部は、前記ＣＭ区間検出部により検出されたＣＭ区間内に前記提供クレジット表示区間が含まれる場合には、該ＣＭ区間を前記検出ＣＭ区間から除外することを特徴とするＣＭ区間検出装置。
請求項１又は２に記載のＣＭ区間検出装置において、
前記ＣＭ区間修正部は、前記ＣＭ区間検出部により検出されたＣＭ区間外に前記提供クレジット表示区間が存在する場合には、該ＣＭ区間及び該提供クレジット表示区間の間隔と、所定時間とを比較することにより、該間隔を前記検出ＣＭ区間に追加するか否かを決定することを特徴とするＣＭ区間検出装置。
請求項１から３のいずれか一項に記載のＣＭ区間検出装置において、
前記ＣＭ区間検出部は、前記番組の音量が音量閾値未満であり、かつ前フレームからの変化量が画素変化閾値以上であるフレームが再生される時点であるカット点を抽出し、該カット点の間隔とＣＭ規定長とを比較することにより１以上のＣＭ区間を検出し、検出したＣＭ区間を示す検出ＣＭ区間を生成することを特徴とするＣＭ区間検出装置。
請求項１から４のいずれか一項に記載のＣＭ区間検出装置において、
検出モデルを用いて、前記提供クレジット表示区間を推定する提供クレジット表示区間推定部をさらに備え
前記検出モデルに適用されるパラメータは、前記提供クレジット表示が検出済みの学習用番組における、前記提供クレジット表示が表示された静止画及び前記提供クレジット表示が表示されていない静止画を含む学習データを用いて、あらかじめ学習されていることを特徴とするＣＭ区間検出装置。
請求項１から４のいずれか一項に記載のＣＭ区間検出装置において、
前記番組の音声信号の音声認識の結果から、前記提供クレジット表示のアナウンスに含まれ、前記提供クレジット表示に関連する関連語句を検出し、該関連語句の出現時刻を起点として、所定の期間を前記提供クレジット表示区間と推定する提供クレジット表示区間推定部をさらに備えることを特徴とするＣＭ区間検出装置。
請求項１から４のいずれか一項に記載のＣＭ区間検出装置において、
検出モデルを用いて、前記番組における第１の提供クレジット表示区間を推定するとともに、前記番組の音声信号の音声認識の結果から、前記提供クレジット表示のアナウンスに含まれ、前記提供クレジット表示に関連する関連語句を検出し、該関連語句の出現時刻を起点として、所定の期間を第２の提供クレジット表示区間と推定し、前記第１の提供クレジット表示区間及び前記第２の提供クレジット表示区間の共通部分又は和集合を前記提供クレジット表示区間と推定する提供クレジット表示区間推定部をさらに備え、
前記検出モデルに適用されるパラメータは、前記提供クレジット表示が検出済みの学習用番組における、前記提供クレジット表示が表示された静止画及び前記提供クレジット表示が表示されていない静止画を含む学習データを用いて、あらかじめ学習されていることを特徴とするＣＭ区間検出装置。
番組に含まれるＣＭの区間を検出するＣＭ区間検出装置におけるＣＭ区間検出方法であって、
番組の音量と音量閾値とを比較することにより、１以上のＣＭ区間を検出し、検出したＣＭ区間を示す検出ＣＭ区間を生成するステップと、
前記検出ＣＭ区間を、前記番組における、該番組のスポンサーを示す提供クレジットが表示された区間である提供クレジット表示区間に基づいて修正するステップと、
を含むことを特徴とするＣＭ区間検出方法。
コンピュータを、請求項１から７のいずれか一項に記載のＣＭ区間検出装置として機能させるプログラム。