WO2022190446A1

WO2022190446A1 - 制御装置、制御方法、および、プログラム

Info

Publication number: WO2022190446A1
Application number: PCT/JP2021/037485
Authority: WO
Inventors: 永一宮; 雄祐前川; 英雄中西
Original assignee: パナソニックＩｐマネジメント株式会社
Priority date: 2021-03-11
Filing date: 2021-10-08
Publication date: 2022-09-15
Also published as: EP4307693A1; JP7499459B2; EP4307693A4; US20240155192A1; JPWO2022190446A1

Abstract

制御装置（１０）は、コンテンツを取得し、かつ、コンテンツの種別を示す第一種別情報を取得する取得部（１１）と、取得部（１１）が取得したコンテンツに対して種別判定処理を行うことで、コンテンツの種別を示す第二種別情報を取得する判定部（１２）と、第一種別情報と第二種別情報とが一致する場合に、第一種別情報と第二種別情報とが一致しない場合よりも、コンテンツを提示する際に付与する提示効果の強度を高くする制御情報を生成して出力する生成部（１３）とを備える。

Description

制御装置、制御方法、および、プログラム

　本開示は、制御装置、制御方法、および、プログラムに関する。

　従来、動画像データであるコンテンツを種別ごとに分類し、種別に基づいて提示効果を制御する技術がある。

　例えば、動画像データに含まれる画像の特徴を分析することで、画像を種別ごとに分類する技術がある（特許文献１参照）。

特開２００６－２７７２３２号公報

　しかし、画像の特徴に基づく種別の分類に誤りが生じ、コンテンツの提示効果の制御が適切でなくなることがあるという問題がある。

　そこで、本開示は、コンテンツの種別に基づく提示効果の制御を適切に行う制御装置等を提供する。

　本開示における制御装置は、コンテンツを取得し、かつ、前記コンテンツの種別を示す第一種別情報を取得する取得部と、前記取得部が取得した前記コンテンツに対して種別判定処理を行うことで、前記コンテンツの種別を示す第二種別情報を取得する判定部と、前記第一種別情報と前記第二種別情報とが一致する場合に、前記第一種別情報と前記第二種別情報とが一致しない場合よりも、前記コンテンツを提示する際に付与する提示効果の強度を高くする制御情報を生成して出力する生成部とを備える制御装置である。

　本開示における制御方法は、コンテンツを取得し、かつ、前記コンテンツの種別を示す第一種別情報を取得し、取得した前記コンテンツに対して種別判定処理を行うことで、前記コンテンツの種別を示す第二種別情報を取得し、前記第一種別情報と前記第二種別情報とが一致する場合に、前記第一種別情報と前記第二種別情報とが一致しない場合よりも、前記コンテンツを提示する際に付与する提示効果の強度を高くする制御情報を生成して出力する制御方法である。

　本開示における制御装置は、コンテンツの種別に基づく提示効果の制御を適切に行うことができる。

図１は、実施の形態に係る制御装置を備える装置の外観を示す説明図である。図２は、実施の形態に係る制御装置の機能構成を示すブロック図である。図３は、実施の形態に係るコンテンツについて取得部が取得する種別と、判定部が判定する種別との一例を示す説明図である。図４は、実施の形態に係る判定部による種別判定のための学習に用いられる訓練データの一例を示す説明図である。図５は、実施の形態に係る判定部による種別判定の結果を示す種別情報の一例を示す説明図である。図６は、実施の形態に係る、取得部による取得結果と判定部による種別判定の結果の一致または不一致の時間的変化の一例を示す説明図である。図７は、実施の形態に係る生成部が制御情報に示される提示効果の強度の一例を示す説明図である。図８は、実施の形態に係る生成部が実行するフィルタ処理の算出に用いられるフレームを示す説明図である。図９は、実施の形態に係る生成部が実行するフィルタ処理に用いられる指標の例である。図１０は、実施の形態に係る生成部が実行するフィルタ処理により得られた提示効果の強度の例である。図１１は、実施の形態に係る提示効果のユーザ設定に用いられる操作バーの画像の一例を示す説明図である。図１２は、実施の形態に係る制御装置の制御方法を示すフロー図である。

　本願発明者は、従来のコンテンツの種別に基づく提示効果の制御に関し、以下の問題が生じることを見出した。

　コンテンツの種別は、例えば、放送番組に付与される公式番組情報（ＳＩ（Ｓｅｒｖｉｃｅ　Ｉｎｆｏｒｍａｔｉｏｎ）ともいう）に基づいて分類される。種別は、例えば、スポーツ、ミュージック、トークまたはシネマなどである。

　しかし、ＳＩに基づいてコンテンツの種別の分類を行う場合、複数の種別に分類されるべき部分が一の放送番組に含まれているときに、適切な分類がなされないという問題がある。その場合、コンテンツの提示の際に適切な提示効果の制御がなされないという問題がある。

　例えば、サッカーの試合をメインに含む放送番組の一部に、サッカー選手がスタジオで話す場面が含まれることがある。この場合、放送番組は、全体としては、スポーツの種別に分類され、放送番組全体においてスポーツの種別の番組に適した提示効果が付与される。サッカー選手が話す場面では、トークの種別のコンテンツに適した提示効果が付与されるのが適切であるが、スポーツの種別のコンテンツに適した提示効果が付与されてしまい、言い換えれば、適切でない提示効果が付与されてしまう。

　本開示の一態様に係る制御装置は、コンテンツを取得し、かつ、前記コンテンツの種別を示す第一種別情報を取得する取得部と、前記取得部が取得した前記コンテンツに対して種別判定処理を行うことで、前記コンテンツの種別を示す第二種別情報を取得する判定部と、前記第一種別情報と前記第二種別情報とが一致する場合に、前記第一種別情報と前記第二種別情報とが一致しない場合よりも、前記コンテンツを提示する際に付与する提示効果の強度を高くする制御情報を生成して出力する生成部とを備える制御装置である。

　上記態様によれば、制御装置は、取得部が取得した種別情報と、判定部が種別判定処理によって取得した種別情報とを用いるので、より適切に判定された種別に応じた提示効果を、より高い強度で付与する制御をすることができる。よって、制御装置は、コンテンツの種別に基づく提示効果の制御を適切に行うことができる。

　例えば、前記判定部は、前記種別判定処理において、機械学習によって構築された認識モデルに、前記コンテンツを入力し、前記認識モデルに前記コンテンツを入力することで出力された前記コンテンツの種別情報を、前記第二種別情報として取得してもよい。

　上記態様によれば、制御装置は、判定部が機械学習によって構築された認識モデルを用いてコンテンツの種別を取得するので、コンテンツの種別をより適切に取得することができる。よって、制御装置は、コンテンツの種別に基づく提示効果の制御を、より適切に行うことができる。

　例えば、前記第一種別情報は、前記コンテンツ全体の種別を示しており、前記判定部は、前記コンテンツに含まれる複数の部分コンテンツそれぞれの種別を判定してもよい。

　上記態様によれば、制御装置は、コンテンツに含まれる複数の部分コンテンツのうち、コンテンツ全体の種別情報が当該部分コンテンツの種別と一致する部分コンテンツを提示する際に付与する提示効果の強度を高くする制御をする。よって、制御装置は、コンテンツの種別に基づく提示効果の制御を、部分コンテンツごとに適切に行うことができる。

　例えば、前記取得部は、前記コンテンツの種別を示す情報として設定された情報を前記制御装置と異なる装置から、前記第一種別情報として取得してもよい。

　上記態様によれば、制御装置は、コンテンツの種別を示す情報として設定された情報を第一種別情報として取得するので、より容易に、第一種別情報を得ることができる。言い換えれば、制御装置は、コンテンツの種別を判定する処理を行うことなく、第一種別情報を得ることができる。そのため、その処理をするとすれば必要となる消費電力、または、処理に用いられるハードウェアなどの資源が不要である。よって、制御装置は、より容易に、コンテンツの種別に基づく提示効果の制御を適切に行うことができる。

　例えば、前記取得部は、取得した前記コンテンツを分析することで得られる前記コンテンツの種別情報を、前記第一種別情報として取得してもよい。

　上記態様によれば、制御装置は、コンテンツを分析することで得られた情報を第一種別情報として取得するので、コンテンツの種別を示す情報を提供する装置が他に存在しない場合であっても、第一種別情報を得ることができる。よって、制御装置は、コンテンツの種別に基づく提示効果の制御を適切に行うことができる。

　例えば、前記制御情報は、前記コンテンツを提示する際の提示効果の強度を時系列で示す情報を含んでもよい。

　上記態様によれば、制御装置は、時系列で示されている制御情報を用いて、提示効果を時系列で制御することができる。よって、制御装置は、コンテンツの種別に基づく提示効果の制御を、より適切に行うことができる。

　例えば、前記生成部は、前記制御情報を生成するときに、前記コンテンツを提示する際の提示効果の強度の急激な変化を抑制する処理を施してもよい。

　上記態様によれば、制御装置は、提示効果の強度の急激な変化が抑制された制御情報を用いて提示効果を制御するので、付与される提示効果の強度が急激に変化することが抑制される。よって、制御装置は、コンテンツの種別に基づく提示効果の制御を、その急激な変化を抑制しながら、適切に行うことができる。

　例えば、前記生成部は、コンテンツの種別を示す種別情報と、当該種別のコンテンツを提示する際に付与すべき提示効果とが予め対応付けられた対応付け情報を有しており、前記制御情報を生成する際には、前記第一種別情報に予め対応付けられた提示効果を付与する制御情報を、前記制御情報として生成してもよい。

　上記態様によれば、制御装置は、コンテンツの種別に予め対応付けられた提示効果を、その強度を制御しながら付与することができる。よって、制御装置は、コンテンツの種別に対応する提示効果を適切に付与しながら、その提示効果の制御を適切に行うことができる。

　例えば、前記生成部は、前記コンテンツを提示する際の提示効果として、音響効果および映像効果の少なくとも一方の強度を高くする制御情報を、前記制御情報として生成してもよい。

　上記態様によれば、制御装置は、提示効果として、音響効果および映像効果の少なくとも一方を制御する。よって、制御装置は、コンテンツの種別に基づく音響効果または映像効果の制御を適切に行うことができる。

　例えば、前記生成部は、提示効果の強度の範囲を設定する操作をユーザから受け、前記操作により設定される強度の範囲内で提示効果を制御する前記制御情報を生成してもよい。

　上記態様によれば、制御装置は、ユーザから受けた範囲内で提示効果の強度を制御する。よって、制御装置は、提示効果の強弱についてのユーザの嗜好を反映した強度で、コンテンツの種別に基づく提示効果の制御をより適切に行うことができる。

　本開示の一態様に係る制御方法は、コンテンツを取得し、かつ、前記コンテンツの種別を示す第一種別情報を取得し、取得した前記コンテンツに対して種別判定処理を行うことで、前記コンテンツの種別を示す第二種別情報を取得し、前記第一種別情報と前記第二種別情報とが一致する場合に、前記第一種別情報と前記第二種別情報とが一致しない場合よりも、前記コンテンツを提示する際に付与する提示効果の強度を高くする制御情報を生成して出力する制御方法である。

　上記態様によれば、制御方法は、上記制御装置と同様の効果を奏する。

　本開示の一態様に係るプログラムは、上記の制御方法をコンピュータに実行させるプログラムである。

　以下、適宜図面を参照しながら実施の形態を説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。

　なお、本願発明者は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって請求の範囲に記載の主題を限定することを意図するものではない。

　（実施の形態）
　本実施の形態において、コンテンツの種別に基づく提示効果の制御を適切に行う制御装置について説明する。

　図１は、本実施の形態に係る制御装置１０を備える装置の外観を示す説明図である。制御装置１０を備える装置の一例は、テレビジョン受像機１である。

　テレビジョン受像機１は、音および映像を含むコンテンツを含む信号を受信して、コンテンツに含まれる音および映像を提示する。上記信号は、例えば、放送局から放送波により送信される放送波に含まれる信号、各種送信源から通信回線を経由して送信される信号、または、外部装置が送信する信号を含む。各種送信源は、例えば、インターネット上の動画提供サービスのサーバ等を含む。外部装置は、例えば、録画装置、コンピュータまたはゲーム機等である。以降では、テレビジョン受像機１が放送波に含まれる信号を受信する場合を例として説明する。

　テレビジョン受像機１は、チューナ（不図示）とスピーカ５と画面６とを備え、放送波に含まれる信号からチューナを介して得られた音をスピーカ５により出力するとともに、放送波に含まれる信号からチューナを介して得られた画像を画面６に表示する。

　なお、コンテンツは、少なくとも映像を含む、ある時間長のデータまたは信号を含んでいる。また、コンテンツは、音および映像を含む、ある時間長のデータであってもよい。コンテンツは、一の放送番組に対応するものであってもよいし、一の放送番組に含まれる所定時間長の部分に対応するものであってもよい。コンテンツの時間長は、例えば、映像の１フレームに相当する時間以上であり、かつ、数秒～数時間以下の時間である。

　また、コンテンツは、さらにメタ情報を含んでもよい。メタ情報は、公式番組情報（ＳＩ（Ｓｅｒｖｉｃｅ　Ｉｎｆｏｒｍａｔｉｏｎ）ともいう）を含んでもよい。

　なお、制御装置１０がテレビジョン受像機１に備えられる場合を例として説明するが、これに限られず、制御装置１０は、放送波を受信してコンテンツを記憶し、その後にコンテンツを再生する録画機に備えられてもよい。

　制御装置１０は、テレビジョン受像機１がコンテンツを再生するときに付与する提示効果を制御する制御情報を出力する。制御装置１０は、テレビジョン受像機１が受信した放送波を取得し、放送波に含まれる信号から得られるコンテンツが、所定の複数の種別のうちのどの種別のコンテンツであるかを判定する。そして、制御装置１０は、そのコンテンツを提示する際の提示効果を制御するための制御情報を生成して出力する。制御情報には、そのコンテンツの種別を示す情報と、そのコンテンツを提示する際の提示効果の強度を示す情報とが含まれている（後述）。コンテンツの種別には、例えばスポーツ、ミュージック、トークまたはシネマなどが含まれる。なお、上記のどの種別にも該当しないものの種別をデフォルトということにする。

　図２は、本実施の形態に係る制御装置１０の機能構成を示すブロック図である。

　図２に示されるように、制御装置１０は、取得部１１と、判定部１２と、生成部１３とを備える。また、制御装置１０は、テレビジョン受像機１が備える音制御部２１と、映像制御部２２とに接続されている。制御装置１０が備える機能部は、制御装置１０が備えるプロセッサ（例えばＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ））（不図示）がメモリ（不図示）を用いて所定のプログラムを実行することで実現され得る。

　取得部１１は、コンテンツを取得し、かつ、そのコンテンツの種別を示す種別情報（第一種別情報に相当）を取得する機能部である。

　取得部１１が取得するコンテンツは、テレビジョン受像機１が放送波などから取得したコンテンツである。取得部１１は、取得したコンテンツを、判定部１２と生成部１３とに提供する。

　取得部１１が取得する種別情報は、取得部１１が取得するコンテンツ全体の種別を示す情報であり、言い換えれば、コンテンツ全体に対して１つ付与される情報である。取得部１１が取得する種別情報は、取得部１１が取得するコンテンツの種別を示す情報として制御装置１０の外部の装置により設定されたメタ情報（例えばＳＩ）であってもよい。上記外部の装置は、放送番組を提供するテレビ局が有する装置であってもよいし、メタ情報を生成する第三者が有する装置であってもよいし、制御装置１０にメタ情報を提供するための専用の装置であってもよい。

　なお、取得部１１が取得するコンテンツが、テレビジョン受像機１がＨＤＭＩ（登録商標）規格に従って受信したコンテンツである場合には、ＨＤＭＩ（登録商標）コンテンツタイプ（Ｃｏｎｔｅｎｔ　Ｔｙｐｅ）から種別情報を取得してもよい。

　また、取得部１１が取得する種別情報は、取得部１１が取得したコンテンツを分析することで得られる種別情報であってもよい。その場合、取得部１１は、コンテンツの映像データ、音データおよびメタ情報における特徴を分析する処理を実行する。具体的には、取得部１１は、コンテンツの映像に含まれる人間の目線の検出処理、コンテンツの映像に含まれる物体の動きの検出処理、コンテンツの音に含まれる特定の音の検出処理、または、コンテンツの映像に含まれる物体のパターン検出処理などを実行することで、コンテンツの種別を特定する。映像データおよび音データの解析には、周知の画像認識技術、音認識技術（音声認識技術）が用いられ得る。取得部１１は、コンテンツの映像、音またはメタ情報に、所定の情報またはデータが検出されることに基づいてコンテンツの種別を判定する。

　例えば、目線の検出処理において、出演者のカメラ目線を検出した場合には、コンテンツの種別を「トーク」と判定する。また、物体の動きの検出処理において、比較的速い動きを検出した場合には、コンテンツの種別を「スポーツ」と判定し、一方、比較的遅い動きを検出した場合には、コンテンツの種別を「トーク」と判定する。また、音の検出処理において、歌唱する歌声または楽器が奏でる音を検出した場合には、コンテンツの種別を「ミュージック」と判定する。また、物体のパターン検出処理において、ユニフォームの画像を検出した場合には、コンテンツの種別を「スポーツ」と判定し、一方、楽器の画像を検出した場合には、コンテンツの種別を「ミュージック」と判定する。

　判定部１２は、取得部１１が取得したコンテンツに対して種別判定処理を行うことで、コンテンツの種別を示す種別情報（第二種別情報に相当）を取得する機能部である。

　判定部１２は、種別判定処理において、事前に機械学習によって構築された認識モデルにコンテンツを入力し、コンテンツを入力することで出力されたコンテンツの種別情報を、第二種別情報として取得してもよい。

　判定部１２は、より具体的には、コンテンツに含まれる複数の部分コンテンツそれぞれの種別を判定する。ここで、部分コンテンツとは、コンテンツに含まれる所定のフレーム数を有する部分であり、例えば、１フレーム、１０フレームまたは３０フレームを有する部分である。なお、部分コンテンツは、コンテンツに含まれる所定の時間長（例えば、１秒間、５秒間または１０秒間など）を有する部分としてもよい。

　判定部１２は、種別判定処理により、取得部１１がコンテンツの種別を取得する方法とは異なる方法で、取得部１１が取得するコンテンツの種別を取得する、ともいえる。より具体的には、判定部１２は、例えばメタ情報を用いることなく、取得部１１が取得するコンテンツの種別を取得する、ともいえる。

　生成部１３は、コンテンツを提示する際の提示効果の強度を制御するための制御情報を生成して出力する機能部である。生成部１３は、取得部１１が取得した第一種別情報と判定部１２が取得した第二種別情報とが一致する場合に、第一種別情報と第二種別情報とが一致しない場合よりも、コンテンツを提示する際に付与する提示効果の強度を高くする制御情報を生成する。提示効果は、音響効果および映像効果の少なくとも一方を含む。制御情報は、音制御部２１および映像制御部２２に出力される。

　制御情報は、具体的には、コンテンツを提示する際に付与する提示効果の強度を時系列で示す情報を含む。制御情報は、コンテンツについての第一種別情報と、当該コンテンツに含まれる複数の部分コンテンツごとの第二種別情報とが一致する場合に、当該部分コンテンツの提示に際してより高い強度の提示効果を付与することを示している。

　生成部１３は、コンテンツの種別を示す種別情報と、当該種別のコンテンツを提示する際に付与すべき提示効果とが予め対応付けられた対応付け情報を有している。そして、生成部１３は、制御情報を生成する際には、第一種別情報に予め対応付けられた提示効果を付与する制御情報を生成する。

　対応付け情報は、例えば、種別情報と音響効果との対応付けとして以下の情報を有する。

　例えば、「スポーツ」の種別のコンテンツに対しては、音の広がりを大きくし、また、視聴者が音に包まれる感じを抱くように、音の出力方向を変更する音響効果が対応付けられる。また、例えば、「ミュージック」の種別のコンテンツに対しては、音の広がりを大きくするように、人が感じる音の聴こえ方を変更する音声信号処理を施し、また、ボーカルの声が強調されるように、出力される周波数帯域ごとに音声振幅を変化させる音響効果が対応付けられる。また、「トーク」の種別のコンテンツに対しては、視聴者が出演者の声を聞き取りやすいように、出力される周波数帯域ごとに音声振幅を変化させる音響効果が対応付けられる。

　また、対応付け情報は、例えば、種別情報と映像効果との対応付けとして以下の情報を有する。

　例えば、「スポーツ」の種別のコンテンツに対しては、映像を明るく鮮やかにするように、映像の輝度およびシャープネスを上げる映像効果が対応付けられる。例えば、「シネマ」の種別のコンテンツに対しては、質感が豊かに表現されるように、映像の輝度を抑えながらコントラストを上げる映像効果が対応付けられる。

　なお、生成部１３は、制御情報を生成するときに、提示効果の強度の急激な変化を抑制する処理を施してもよい。上記処理をフィルタ処理ともいう。上記処理は、いわゆるローパスフィルタ処理であり、ノイズ除去処理または平滑化処理とも呼ばれ得る。

　音制御部２１は、生成部１３が出力した制御情報を取得し、制御情報に基づいてスピーカ５による音の出力を制御する機能部である。音制御部２１は、取得部１１が取得したコンテンツに含まれる音をスピーカ５により出力する制御をする。その際、音制御部２１は、制御情報に含まれる提示効果の強度に従って音響効果を付与するように、出力する音を加工する。

　映像制御部２２は、生成部１３が出力した制御情報を取得し、制御情報に基づいて画面６による画像の表示を制御する機能部である。映像制御部２２は、取得部１１が取得したコンテンツに含まれる映像を画面６に表示する制御をする。その際、映像制御部２２は、制御情報に含まれる強度に従って映像効果を付与するように、表示する映像を加工する。

　以降において、制御装置１０の処理についてより詳細に説明する。

　図３は、本実施の形態に係るコンテンツについて取得部１１が取得する種別と、判定部１２が判定する種別との一例を示す説明図である。

　図３に示されるコンテンツは、取得部１１が取得したコンテンツの一例であり、サッカーの試合の放送番組のコンテンツである。コンテンツは、より詳細には、オープニング、競技、ＣＭ（コマーシャルメッセージ）、競技、観衆、競技、および、インタビューの各部分コンテンツをこの順に含んでいる。

　このコンテンツのＳＩは、このコンテンツの種別が「スポーツ」であることを示しているとする。

　取得部１１は、コンテンツのＳＩを取得することで、このコンテンツ全体の種別として「スポーツ」を示す情報（以降、単に「スポーツ」ともいう）を取得する。

　判定部１２は、コンテンツに含まれる複数の部分コンテンツそれぞれの種別を判定することで、複数の部分コンテンツそれぞれの種別を示す情報を取得する。具体的には、判定部１２は、オープニングまたはＣＭの部分コンテンツの種別として「デフォルト」を取得し、競技または観衆の部分コンテンツの種別として「スポーツ」を取得し、インタビューの部分コンテンツの種別として「トーク」を取得する。

　図４は、本実施の形態に係る判定部１２による種別判定のための学習に用いられる訓練データの一例を示す説明図である。

　図４に示される訓練データは、１つの部分コンテンツと１つの種別とが対応付けられた訓練データである。

　例えば、図４に示される訓練データ＃１では、サッカーをプレイしている選手を示す画像を含む部分コンテンツと、当該部分コンテンツの種別としての「スポーツ」とが対応付けられている。

　また、訓練データ＃２では、ステージで歌唱している歌手を示す画像を含む部分コンテンツと、当該部分コンテンツの種別としての「ミュージック」とが対応付けられている。

　また、訓練データ＃３では、対話をしている出演者を示す画像を含む部分コンテンツと、当該部分コンテンツの種別としての「トーク」とが対応付けられている。

　なお、訓練データには、画像だけでなく、音声も含まれてよい。

　訓練データには、図４に具体的に示される３つの部分コンテンツの他にも、数千～数万以上のコンテンツが含まれ得る。また、各部分コンテンツに対応付けられる種別は、所定の複数の種別のうちのいずれかの種別である。所定の複数の種別は、例えば「スポーツ」、「ミュージック」および「トーク」を含むが、これに限られない。

　判定部１２は、訓練データを用いた機械学習によって、事前に認識モデルを構築しておく。認識モデルは、例えば、ニューラルネットワークによる認識モデルである。その場合、判定部１２は、訓練データを用いた訓練によって、入力された部分コンテンツの画像または音声の特徴を抽出し、入力された部分コンテンツに対応する種別を出力するように、ニューラルネットワークにおける各ノードの係数を調整することで、認識モデルを構築する。

　このように訓練された認識モデルは、未知の部分コンテンツが入力された場合に、入力された部分コンテンツの画像および音の特徴に基づいて、そのコンテンツの種別を示す種別情報を出力する。

　認識モデルにより出力される種別情報は、一例として、入力された部分コンテンツが所定の複数の種別のうちのどの種別であるかを特定する情報であり、この場合を例として説明する。なお、出力される種別情報は、入力された部分コンテンツが所定の複数の種別それぞれに分類される確率であるスコアを含む情報であってもよい。

　図５は、本実施の形態に係る判定部１２による種別判定の結果を示す種別情報の一例を示す説明図である。

　判定部１２は、取得部１１が取得したコンテンツに含まれる部分コンテンツを認識モデルに入力することで出力される種別情報を取得する。

　例えば、図５に示される部分コンテンツ３１が認識モデルに入力された場合、認識モデルは、入力された部分コンテンツ３１の種別として「スポーツ」を出力する。

　図６は、本実施の形態に係る、取得部１１による取得結果と判定部１２による種別判定の結果の一致または不一致の時間的変化の一例を示す説明図である。具体的には、図６は、取得部１１が取得したコンテンツ全体の種別に、判定部１２が判定した部分コンテンツの種別が一致するか、または、一致しないかを時系列で示すグラフである。

　例えば、コンテンツ全体の種別が「スポーツ」である場合、部分コンテンツの種別が判定部１２によって「スポーツ」と判定されたときには、その部分コンテンツに対応する期間において種別が「一致」であり、部分コンテンツの種別が「スポーツ」以外の種別であると判定されたときには、その部分コンテンツに対応する期間において種別が「不一致」である。

　なお、図６の横軸のスケールは任意であるが、例えば、１目盛りが２０フレーム分の時間に相当する。

　図７は、本実施の形態に係る生成部１３が制御情報に示される提示効果の強度Ｉの一例を示す説明図である。

　生成部１３は、図６に示される種別の一致または不一致に基づいて、提示効果の強度Ｉを示す制御情報を生成する。

　図７に示される強度情報において、種別が一致である期間における強度Ｉが１００％と設定されており、種別が不一致である期間における強度Ｉが０％と設定されている。なお、０％の強度とは、特別の提示効果が付与されないことを意味しており、言い換えれば、通常の提示がなされることを意味している。なお、上記における１００％および０％は例示であり、強度情報において、種別が一致である期間における強度Ｉが、種別が不一致である期間における強度Ｉより高く設定されていればよい。

　なお、種別が不一致の場合に、第一種別情報と第二種別情報の組み合わせにより強度を変えるようにしてもよい。

　図７に示される制御情報によって、音制御部２１による音響効果の強度が制御され、制御された強度の音響効果が付与された音がスピーカ５により出力される。また、出力された制御情報によって、映像制御部２２による映像効果の強度が制御され、制御された強度の映像効果が付与された映像が画面６に表示される。

　このようにして、制御装置１０は、コンテンツの種別に基づく提示効果の制御を適切に行うことができる。

　以降において、生成部１３が実行する、提示効果の強度の急激な変化を抑制するフィルタ処理を説明する。フィルタ処理は、加重移動平均を用いた方法が用いられ得る。

　図８は、本実施の形態に係る生成部１３が実行するフィルタ処理の算出に用いられるフレームを示す説明図である。図９は、本実施の形態に係る生成部１３が実行するフィルタ処理に用いられる指標の例である。図１０は、本実施の形態に係る生成部１３が実行するフィルタ処理により得られた提示効果の強度の例である。

　図８に示される時刻ｔのフレームが、種別の判定の対象である部分コンテンツであるフレームである。フィルタ処理において、時刻ｔ－ｋから時刻ｔまでのｋ＋１個のフレームを用いた加重移動平均

に、０より大きな数値であるＧａｉｎを乗じた

を評価値Ｅとして用いる。ここで、ｋは１より大きな整数であり算出区間を示す。また、Ｇａｉｎは、提示効果の強度の変化の感度を調整するためのパラメータとして機能する。評価値Ｅが１を超える場合には、１とすることで、評価値Ｅを０より大きく１以下の範囲に収める。

　このように算出された評価値Ｅの時間的変化を図９に示す。

　図９に示されるように評価値Ｅの時間的変化は、図７に示される強度Ｉの時間的変化における急激な変化が抑制されたものに相当する。

　この評価値Ｅを用いて、時刻ｔにおける強度Ｉ（ｔ）は、時刻ｔの直前つまり時刻ｔ－１における強度Ｉ（ｔ－１）を用いて以下のように表される。

　　Ｉ（ｔ）＝Ｅ×ｐ＋Ｉ（ｔ－１）×（１－ｐ）

　ここで、ｐは、０より大きく１より小さい数値であり、時刻ｔにおける強度Ｉ（ｔ）に、評価値Ｅと時刻ｔ－１における強度Ｉ（ｔ－１）とのどちらを重く反映するかを調整するパラメータとして機能する。

　このように算出された強度Ｉの時間的変化を図１０に示す。

　図１０に示される強度Ｉの時間的変化は、図９に示される評価値Ｅの時間的変化における急激な変化が、より一層抑制されたものに相当する。

　このように導出された強度Ｉを提示効果の強度として用いてコンテンツの提示をすることで、部分コンテンツごとの提示効果の制御を実現するとともに、提示効果の急激な変化を抑えることができる。

　なお、提示効果の強度は、ユーザによる設定を反映して制御することもできる。

　図１１は、本実施の形態に係る提示効果のユーザ設定に用いられる操作バーの一例である画像４０を示す説明図である。

　図１１に示されるように操作バーの画像４０は、左右に延びる操作バーを示す。画像４０は、０を示す目盛り４１と、１０を示す目盛り４２とを有し、また、これらの目盛りの間を移動可能である印４３を有する。

　画像４０がタッチパネルディスプレイに表示される場合、印４３は、ユーザによるタッチ操作によって左右に移動され、印４３の位置によって０から１０までの範囲内の数値を示すようになっている。例えば、実線の印４３の位置は、７の数値を示し、破線の印４３の位置は、４の数値を示す。

　生成部１３は、操作バーの印４３の位置を読み取ることによって、提示効果の強度の範囲の設定をユーザから受ける。そして、生成部１３は、上記操作により設定される強度の範囲内で提示効果を制御する制御情報を生成する。

　具体的には、生成部１３は、操作バーの印４３の位置として読み取った数値を提示効果の上限として用いる。例えば、０から１０までの範囲を示す操作バーにおいて印４３が７の数値を示す場合には、生成部１３が算出した提示効果の強度を０．７倍した強度の提示効果を付与して、提示を行う。

　このようにすることで、制御装置１０は、提示効果の強弱についてのユーザの嗜好を反映した強度で提示効果を付与することができる。

　なお、提示効果の強度を示す数値（上記における０、４、７および１０）は例示であり、他の数値を用いることも可能である。

　なお、操作バーは、左右に延びて配置される例に限られず、上下または斜め方向に延びて配置されてもよい。また、操作バーの形状は、上記の例に限定されず、提示効果の強度の変更の操作の用に供される画像であることがユーザにわかるものであれば、どのようなものであってもよい。

　また、画像４０がタッチパネルディスプレイではない、通常のディスプレイに表示される場合には、ユーザによるボタンまたはキーの操作によって上記と同様の操作がなされ得る。

　以上のように構成された制御装置１０の処理を説明する。

　図１２は、実施の形態に係る制御装置１０の制御方法を示すフロー図である。図１２に示される制御方法は、コンテンツのフレームごとに実行され得る。

　ステップＳ１０１において、取得部１１は、コンテンツを取得する。

　ステップＳ１０２において、取得部１１は、ステップＳ１０１で取得したコンテンツの、コンテンツ全体の種別を示す種別情報を取得する。

　ステップＳ１０３において、判定部１２は、ステップＳ１０１で取得したコンテンツに対して種別判定処理を行うことで、上記コンテンツに含まれる複数の部分コンテンツごとの種別情報を取得する。

　以降のステップＳ１０４、Ｓ１０５およびＳ１１１の処理は、複数の部分コンテンツそれぞれについて実行される。

　ステップＳ１０４において、生成部１３は、ステップＳ１０１で取得したコンテンツ全体の種別情報と、ステップＳ１０２で取得した複数の部分コンテンツそれぞれの種別情報とが一致するか否かを判定する。上記２つの種別情報が一致する場合（ステップＳ１０４でＹｅｓ）にはステップＳ１０５に進み、そうでない場合（ステップＳ１０４でＮｏ）にはステップＳ１１１に進む。

　ステップＳ１０５において、生成部１３は、処理の対象となっている部分コンテンツについて、提示効果の強度を高くする制御情報を生成する。提示効果の強度を高くする制御情報は、言い換えれば、提示効果の強度を通常とする場合（ステップＳ１１１）よりも高い提示効果の強度する制御情報である。提示効果の強度を高くする制御情報は、例えば、図７における１００％を示す制御情報である。

　ステップＳ１１１において、生成部１３は、処理の対象となっている部分コンテンツについて、提示効果の強度を通常とする（つまり、特別の提示効果を付与しない）制御情報を生成する。提示効果の強度を通常とする制御情報は、言い換えれば、提示効果の強度を高くする場合（ステップＳ１０５）よりも低減された提示効果の強度とする制御情報である。提示効果の強度を通常とする制御情報は、例えば、図７における０％を示す制御情報である。

　生成部１３は、複数の部分コンテンツそれぞれについてステップＳ１０５またはステップＳ１１１を実行することで、図７に例示される強度Ｉの時間的変化を取得する。

　ステップＳ１０６において、生成部１３は、提示効果の強度の急激な変化を抑制するフィルタ処理を実行する。これにより、生成部１３は、図１０に例示される強度Ｉの時間的変化を取得する。

　なお、ステップＳ１０６は、実行されなくてもよい。なお、ステップＳ１０６が実行される場合、処理の対象となっている部分コンテンツ以前の所定期間の提示効果の強度が算出されていることが必要である。

　ステップＳ１０７において、生成部１３は、制御情報を出力する。出力される制御情報には、提示効果の種別を示す種別情報と、提示効果の強度Ｉを示す情報とが含まれている。強度Ｉは、ステップＳ１０５またはステップＳ１１１で取得された強度Ｉであり、ステップＳ１０６のフィルタ処理が実行された場合には、そのフィルタ処理が施された強度Ｉである。

　ステップＳ１０７で出力された制御情報によって、音制御部２１による音響効果の強度が制御され、制御された強度の音響効果を伴った音がスピーカ５により出力される。また、出力された制御情報によって、映像制御部２２による映像効果の強度が制御され、制御された強度の映像効果を伴った映像が画面６に表示される。

　図１２に示される一連の処理により、コンテンツの種別に基づく提示効果の制御を適切に行うことができる。

　以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。

　したがって、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。

　また、上述の実施の形態は、本開示における技術を例示するためのものであるから、請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略などを行うことができる。

　本開示は、テレビジョン受像機、または、録画装置などに適用可能である。

　　１　　テレビジョン受像機
　　５　　スピーカ
　　６　　画面
　　１０　　制御装置
　　１１　　取得部
　　１２　　判定部
　　１３　　生成部
　　２１　　音制御部
　　２２　　映像制御部
　　３１　　部分コンテンツ
　　４０　　画像
　　４１、４２　　目盛り
　　４３　　印

Claims

　コンテンツを取得し、かつ、前記コンテンツの種別を示す第一種別情報を取得する取得部と、
　前記取得部が取得した前記コンテンツに対して種別判定処理を行うことで、前記コンテンツの種別を示す第二種別情報を取得する判定部と、
　前記第一種別情報と前記第二種別情報とが一致する場合に、前記第一種別情報と前記第二種別情報とが一致しない場合よりも、前記コンテンツを提示する際に付与する提示効果の強度を高くする制御情報を生成して出力する生成部とを備える
　制御装置。
　前記判定部は、前記種別判定処理において、
　機械学習によって構築された認識モデルに、前記コンテンツを入力し、
　前記認識モデルに前記コンテンツを入力することで出力された前記コンテンツの種別情報を、前記第二種別情報として取得する
　請求項１に記載の制御装置。
　前記第一種別情報は、前記コンテンツ全体の種別を示しており、
　前記判定部は、前記コンテンツに含まれる複数の部分コンテンツそれぞれの種別を判定する
　請求項２に記載の制御装置。
　前記取得部は、前記コンテンツの種別を示す情報として設定された情報を前記制御装置と異なる装置から、前記第一種別情報として取得する
　請求項１～３のいずれか１項に記載の制御装置。
　前記取得部は、取得した前記コンテンツを分析することで得られる前記コンテンツの種別情報を、前記第一種別情報として取得する
　請求項１～３のいずれか１項に記載の制御装置。
　前記制御情報は、前記コンテンツを提示する際の提示効果の強度を時系列で示す情報を含む
　請求項１～５のいずれか１項に記載の制御装置。
　前記生成部は、前記制御情報を生成するときに、前記コンテンツを提示する際の提示効果の強度の急激な変化を抑制する処理を施す
　請求項１～６のいずれか１項に記載の制御装置。
　前記生成部は、
　コンテンツの種別を示す種別情報と、当該種別のコンテンツを提示する際に付与すべき提示効果とが予め対応付けられた対応付け情報を有しており、
　前記制御情報を生成する際には、前記第一種別情報に予め対応付けられた提示効果を付与する制御情報を、前記制御情報として生成する
　請求項１～７のいずれか１項に記載の制御装置。
　前記生成部は、前記コンテンツを提示する際の提示効果として、音響効果および映像効果の少なくとも一方の強度を高くする制御情報を、前記制御情報として生成する
　請求項１～８のいずれか１項に記載の制御装置。
　前記生成部は、提示効果の強度の範囲を設定する操作をユーザから受け、
　前記操作により設定される強度の範囲内で提示効果を制御する前記制御情報を生成する
　請求項１～９のいずれか１項に記載の制御装置。
　コンテンツを取得し、かつ、前記コンテンツの種別を示す第一種別情報を取得し、
　取得した前記コンテンツに対して種別判定処理を行うことで、前記コンテンツの種別を示す第二種別情報を取得し、
　前記第一種別情報と前記第二種別情報とが一致する場合に、前記第一種別情報と前記第二種別情報とが一致しない場合よりも、前記コンテンツを提示する際に付与する提示効果の強度を高くする制御情報を生成して出力する
　制御方法。
　請求項１１に記載の制御方法をコンピュータに実行させるプログラム。