JP2022524260A

JP2022524260A - ビデオにおけるホットスポットセグメントを抽出する方法、装置、電子機器、記憶媒体およびコンピュータプログラム

Info

Publication number: JP2022524260A
Application number: JP2021536295A
Authority: JP
Inventors: 倩張
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-02-21
Filing date: 2020-12-01
Publication date: 2022-05-02
Anticipated expiration: 2040-12-01
Also published as: CN111277861A; EP3890294A1; CN111277861B; WO2021164369A1; JP7246487B2; EP3890294B1; US20220312055A1; EP3890294A4

Abstract

本願は、ビデオにおけるホットスポットセグメントを抽出する方法、装置、電子機器、及びコンピュータ読み取り可能な記憶媒体を開示し、マルチメディア処理技術分野に関する。本願がビデオにおけるホットスポットセグメントを抽出する際に採用する実現形態は、処理待ちのビデオを取得する；前記処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングして、前記処理待ちのビデオのコンパクトセグメントを取得する；前記処理待ちのビデオに対応するユーザ視聴情報に基づいて、前記コンパクトセグメントにおける各フレーム画像を採点する；採点結果が予め設定された条件を満たす画像フレームを順次にスティッチングし、スティッチング結果を前記処理待ちのビデオのホットスポットセグメントとするということである。本願は、ホットスポットセグメントの抽出正確性を向上させ、ホットスポットセグメントのサイズを減少させ、これによりユーザメモリリソース及び帯域幅の浪費を減少させることができる。

Description

本願は、出願日が２０２０年０２月０１日であり、出願番号が２０２０１０１０８６８３８であり、発明名称が「ビデオにおけるホットスポットセグメントを抽出する方法および装置」である中国特許出願の優先権を主張する。

本出願は、インターネット技術の分野に関し、特に、マルチメディア処理技術分野におけるビデオにおけるホットスポットセグメントを抽出する方法、装置、電子機器、およびコンピュータ読み取り可能な記憶媒体に関する。

インターネット技術の発展に伴い、ネットワークにおけるビデオの形態は多様化し、ビデオにおけるハイライトや重要な内容に対する取得がユーザの重要な需要となるようになってきている。

従来技術では、ユーザは、ビデオを素早く視聴するために倍速再生やスキップ再生などの操作を行うことが一般的であった。ここで、倍速再生のオーディオ体験は不十分であり、スキップ再生の速度が把握しにくく、早送りしすぎて見逃したり、早送りしすぎて繰り返し内容を見てしまったりするなどの不具合が発生しやすくなる。したがって、ユーザーがビデオのホットスポット部分を便利で正確に視聴することができる方法が強く望まれている。

本願が技術課題を解決するために採用する技術案は、ビデオにおけるホットスポットセグメントを抽出する方法であって、処理待ちのビデオを取得することと、前記処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングして、前記処理待ちのビデオのコンパクトセグメントを取得することと、前記処理待ちのビデオに対応するユーザ視聴情報に基づいて、前記コンパクトセグメントにおける各フレーム画像を採点することと、採点結果が予め設定された条件を満たす画像フレームをスティッチングし、スティッチング結果を前記処理待ちのビデオのホットスポットセグメントとすることと、を含む。本願は、ユーザがビデオのハイライト内容をより正確で便利に視聴することを可能にし、ホットスポットセグメントのサイズを効果的に低減し、それにより、ユーザのメモリリソース及び帯域幅の浪費を低減することができる。

本願の好ましい実施例によれば、前記処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングすることは、前記処理待ちのビデオのビデオ画像シーケンスを取得することと、前記ビデオ画像シーケンスにおける各フレーム画像間の内容重複度を計算することと、前記内容重複度が第１の閾値を超えるか否かを判定し、超える場合、前記各フレーム画像のうちの１つのフレーム画像を保留して他の画像をフィルタリングし、そうでなければ、前記各フレーム画像を保留することと、を含む。このステップは、画像フレームフィルタリングの正確性を向上させることができる。

本願の好ましい実施例によれば、前記処理待ちのビデオに対応するユーザ視聴情報は、ユーザによる前記処理待ちのビデオにおける各画像フレームに対するマーク回数、およびユーザによる前記処理待ちのビデオにおける各画像フレームに対する有効視聴回数の少なくとも１つを含む。このステップは、ユーザの見る情報の種類を豊富にし、それによって画像フレームの採点結果の正確性を向上させることができる。

本願の好ましい実施例によれば、前記処理待ちのビデオに対応するユーザ視聴情報に基づいて、前記コンパクトセグメントにおける各フレーム画像を採点することは、対応的な画像フレームがマークされた第１の重み、および対応的な画像フレームが効果的に視聴される第２の重みを取得することと、画像フレームのマーク回数及び第１の重みに基づいて第１の採点を取得し、画像フレームの有効視聴回数及び第２の重みに基づいて第２の採点を取得することと、第１の採点と第２の採点との加算結果を画像フレームの採点結果とすることと、を含む。このステップは、多次元情報により画像フレームの採点を行い、採点結果の正確性を向上させることができる。

本願の好ましい実施例によれば、ユーザによる前記処理待ちのビデオにおける各画像フレームに対するマーク回数を取得することは、前記処理待ちのビデオの再生過程にマークボタンを提供することと、前記処理待ちのビデオにおける各画像フレームを再生するときの前記マークボタンのトリガ回数を統計し、前記ユーザによる前記処理待ちのビデオにおける各画像フレームに対するマーク回数とすることと、を含む。

本願の好ましい実施例によれば、ユーザによる前記処理待ちのビデオにおける各画像フレームに対する有効視聴回数を取得することは、再生過程において前記処理待ちのビデオの各画像フレームの再生速度を決定することと、前記処理待ちのビデオにおける各画像フレームが正常な速度で再生された回数を統計し、前記ユーザによる前記処理待ちのビデオにおける各画像フレームに対する有効視聴回数とすることとを含む。

本願の好ましい実施例によれば、前記方法は、ユーザが選択的に視聴するように、前記処理待ちのビデオをそれに対応するホットスポットセグメントと共にユーザに展示すること、をさらに含む。このステップは、ビデオ表示の柔軟性を向上させ、ユーザへ多くの視聴選択を提供することができる。

本願が技術課題を解決するために採用する技術案は、ビデオにおけるホットスポットセグメントを抽出する装置を提供しており、処理待ちのビデオを取得する取得ユニットと、前記処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングして、前記処理待ちのビデオのコンパクトセグメントを取得する簡素化ユニットと、前記処理待ちのビデオに対応するユーザ視聴情報に基づいて、前記コンパクトセグメントにおける各フレーム画像を採点する採点ユニットと、採点結果が予め設定された条件を満たす画像フレームをスティッチングし、スティッチング結果を前記処理待ちのビデオのホットスポットセグメントとする処理ユニットと、を含む。

本願の好ましい実施例によれば、前記簡素化ユニットが前記処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングする場合、具体的には、前記処理待ちのビデオのビデオ画像シーケンスを取得し、前記ビデオ画像シーケンスにおける各フレーム画像間の内容重複度を計算し、前記内容重複度が第１の閾値を超えるか否かを判定し、超える場合、前記各フレーム画像のうちの１つのフレーム画像を保留して他の画像をフィルタリングし、そうでなければ、前記各フレーム画像を保留することを、実行する。

本願の好ましい実施例によれば、前記採点ユニットにおいて前記処理待ちのビデオに対応するユーザ視聴情報は、ユーザによる前記処理待ちのビデオにおける各画像フレームに対するマーク回数、およびユーザによる前記処理待ちのビデオにおける各画像フレームに対する有効視聴回数の少なくとも１つを含む。

本願の好ましい実施例によれば、前記採点ユニットが前記処理待ちのビデオに対応するユーザ視聴情報に基づいて、前記コンパクトセグメントにおける各フレーム画像を採点する場合、具体的に、対応的な画像フレームがマークされた第１の重み、および対応的な画像フレームが効果的に視聴される第２の重みを取得し、画像フレームのマーク回数及び第１の重みに基づいて第１の採点を取得し、画像フレームの有効視聴回数及び第２の重みに基づいて第２の採点を取得し、第１の採点と第２の採点との加算結果を画像フレームの採点結果とすることを、実行する。

本願の好ましい実施例によれば、前記採点ユニットがユーザによる前記処理待ちのビデオにおける各画像フレームに対するマーク回数を取得する場合、具体的に、前記処理待ちのビデオの再生過程にマークボタンを提供し、前記処理待ちのビデオにおける各画像フレームを再生するときの前記マークボタンのトリガ回数を統計し、前記ユーザによる前記処理待ちのビデオにおける各画像フレームに対するマーク回数とすることを、実行する。

本願の好ましい実施例によれば、前記採点ユニットがユーザによる前記処理待ちのビデオにおける各画像フレームに対する有効視聴回数を取得する場合、具体的に、再生過程において前記処理待ちのビデオの各画像フレームの再生速度を決定し、前記処理待ちのビデオにおける各画像フレームが正常な速度で再生された回数を統計し、前記ユーザによる前記処理待ちのビデオにおける各画像フレームに対する有効視聴回数とすることを、実行する。

本願の好ましい実施例によれば、前記処理ユニットは、ユーザが選択的に視聴するように、前記処理待ちのビデオをそれに対応するホットスポットセグメントと共にユーザに展示することを、さらに実行する。

上記の出願の一実施例は、ホットスポットセグメントの抽出正確性を向上させ、ユーザーがビデオのハイライトをより便利に見ることができるようにし、ホットスポットセグメントのサイズを効果的に低減し、ユーザーのメモリリソース及び帯域幅の浪費を低減することができるという利点又は効果を有する。２回の最適化過程によってビデオにおけるホットスポットセグメントを抽出する技術手段を採用することにより、従来技術におけるユーザが倍速再生またはスキップ再生によってビデオを視聴することによって生じるハイライト内容を正確に視聴することができないという技術問題を克服し、ホットスポットセグメントの抽出正確性を向上させ、ホットスポットセグメントのサイズを減少させ、ユーザメモリリソースおよび帯域幅の浪費を減少させる技術的効果を実現する。

以下、具体的な実施例を組み合わせて、上記選択的な方式が具備する他の効果を説明する。

図面は、本技術案をよりよく理解するためのものであり、本願を限定するものではない。

図１は、本願の第１の実施例によるビデオにおけるホットスポットセグメントを抽出する方法のフローチャートである。図２は、本願の第２の実施例によるビデオにおけるホットスポットセグメントを抽出する装置構成図である。図３は、本願の実施例のビデオにおけるホットスポットセグメントを抽出する方法を実現するための電子機器のブロック図である。

添付の図面を組み合わせて本願の例示的な実施例を説明し、よく理解するように、本願の実施例の様々な詳細を含むが、それらは単に例示的なものとみなされるべきである。したがって、当業者は、本願の範囲および精神から逸脱することなく、本明細書に記載された実施例に対して様々な変更および修正を行うことができることを認識するであろう。同様に、明確化および簡潔化のために、以下の説明では、周知の機能及び構成についての記載が省略される。

図１は、本願の一実施例によるビデオにおけるホットスポットセグメントを抽出する方法のフローチャートであり、図１に示すように、前記方法は、

Ｓ１０１では、処理待ちのビデオを取得する。

このステップでは、処理待ちのビデオを取得する。その中、このステップで取得される処理待ちのビデオは、普通のビデオ、例えば、ドラマ、バラエティ、映画などのビデオであってもよいし、短いビデオであってもよい。

なお、このステップでは、処理待ちのビデオを取得した後、当該処理待ちのビデオのビデオ画像シーケンス、即ち、処理待ちのビデオにおけるフレームごとの画像のシーケンスを取得してもよく、ビデオ画像シーケンスの取得は従来技術に属し、ここでは贅言しない。

Ｓ１０２では、前記処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングして、前記処理待ちのビデオのコンパクトセグメントを取得する。

このステップでは、ステップＳ１０１で取得した処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングした後、フィルタリングされていない画像フレームのスティッチング結果を処理待ちのビデオのコンパクトセグメントとする。すなわち、このステップは、ビデオにおける冗長して重複する画像フレームを除去することができ、これによりビデオのサイズを最適化し、ユーザメモリリソース及び帯域幅の浪費を低減する。

具体的には、このステップは、処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングする際に、以下の方式を採用することができる。処理待ちのビデオにおけるビデオ画像シーケンスを取得し、ビデオ画像シーケンスにおける各フレーム画像間の内容重複度を算出し、例えば、ビデオが開始する画像フレームからビデオが終了する画像フレームまで、取得されたビデオ画像シーケンスにおける隣接する２つのフレーム画像又は隣接する複数のフレーム画像間の内容重複度を順次に計算し、内容重複度が第１の閾値を超えるか否かを判定し、超える場合、各フレーム画像のうちの１つのフレーム画像を保留してその他の画像をフィルタリングし、そうでなければ、各フレーム画像を保留する。

ここで、このステップでは、各フレーム画像間の内容重複度を計算する際に、予めトレーニングされたディープラーニングモデルによって計算することができ、すなわち、各フレーム画像をディープラーニングモデルの入力とし、ディープラーニングモデルの出力結果を各フレーム画像間の内容重複度とする。

また、このステップでは、画像フレームにおける画素情報により各フレーム画像間の内容重複度を計算することもでき、例えば、画像フレームにおける画素の階調平均値、画像フレームにおける画素のハッシュ値等により計算し、本願にここでは贅言しない。

なお、このステップでは、処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングする際、処理待ちのビデオにおけるビデオ画像シーケンスを、予めトレーニングされた画像フィルタリングモデルに入力し、当該画像フィルタリングモデルは、ビデオ画像シーケンスにおける内容が重複する画像フレームをフィルタリングすることができ、画像フィルタリングモデルの出力結果に基づいて、処理待ちのビデオのコンパクトセグメントを取得することを、採用することもできると理解すべきである。

このステップでは、処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングした後、残りの画像フレームがそれぞれ異なる内容を有し、これらの画像フレームを順次にスティッチングし、得られたスティッチング結果が、対応的な処理待ちのビデオのコンパクトセグメントである。

Ｓ１０３では、前記処理待ちのビデオに対応するユーザ視聴情報に基づいて、前記コンパクトセグメントにおける各フレーム画像を採点する。

このステップでは、まず、ステップＳ１０１の処理待ちのビデオに対応するユーザ視聴情報を取得し、そして、取得したユーザ視聴情報に基づいて、ステップＳ１０２で得られたコンパクトセグメント中の各画像フレームを採点して、コンパクトセグメントにおける各画像フレームの採点結果を決定する。

具体的には、このステップにおける処理待ちのビデオに対応するユーザ視聴情報は、現在処理待ちのビデオを視聴する全てのユーザの視聴行動を統計することによって得られ、ユーザによる処理待ちのビデオにおける各画像フレームに対するマーカ回数及びユーザによる処理待ちのビデオにおける各画像フレームに対する有効視聴回数のうちの少なくとも１つを含む。

ここで、ユーザによる処理待ちのビデオにおける画像フレームに対するマーカ回数は、ユーザが現在の処理待ちのビデオを視聴する際に、重要な又はハイライト内容を含む画像フレームをマークし、画像フレームがマークされた回数が多いほど、含まれる内容は重要な又はハイライト内容となる。

具体的に、このステップは、ユーザによる処理待ちのビデオにおける各画像フレームに対するマーク回数を取得する場合、以下の方式を採用することができる。処理待ちのビデオの再生中に、ユーザにより手動でトリガされ、またはユーザにより音声でトリガされるマークボタンを提供し、処理待ちのビデオにおける各画像フレームを再生する際におけるマークボタンのトリガ回数を統計して、ユーザによる処理待ちのビデオにおける各画像フレームに対するマーク回数とする。

ユーザによる処理待ちのビデオにおける各画像フレームに対する有効視聴回数は、ユーザが現在処理待ちのビデオを視聴する際に、早送り、倍速再生、スキップなどの行為を行わずに正常な速度で再生することを示し、画像フレームが有効に視聴された回数が多いほど、含まれる内容は重要なまたはハイライト内容となる。

具体的に、このステップは、ユーザによる処理待ちのビデオにおける各画像フレームに対する有効視聴回数を取得する場合、以下の方式を採用することができる。処理待ちのビデオの再生過程における各画像フレームの再生速度を確定し、処理待ちのビデオにおける各画像フレームが正常な速度で再生した回数を統計し、ユーザによる前記処理待ちのビデオにおける各画像フレームに対する有効視聴回数とする。

このステップで取得されるユーザ視聴情報は、処理待ちのビデオにおける各画像フレームの重要度やハイライト程度を反映したものであるため、このステップでは、ユーザ視聴情報によって、コンパクトセグメント中の各画像フレームを採点し、得られる採点結果が異なる画像フレームの重要度やハイライト程度を示すことができる。

具体的に、このステップは、処理待ちのビデオに対応するユーザ視聴情報に基づいて、コンパクトセグメントの各フレーム画像を採点する際に、以下の方式を採用することができる。対応的な画像フレームがマークされる第１の重み、及び対応的な画像フレームが効果的に視聴される第２の重みを取得し、第１の重み及び第２の重みが予め設定され、画像フレームのマーク回数及び第１の重みに基づいて第１の採点を取得し、画像フレームの有効視聴回数及び第２の重みに基づいて第２の採点を取得し、第１の採点及び第２の採点の加算結果を画像フレームの採点結果とする。

例えば、予め設定された第１の重みが１であり、予め設定された第２の重みが０.８であり、ある画像フレームのマーク回数が１００回であり、有効視聴回数が２００回である場合、当該画像フレームの採点結果は、(１００×１) + (２００×０.８) =２６０となる。

Ｓ１０４では、採点結果が予め設定された条件を満たす画像フレームを順次にスティッチングし、スティッチング結果を前記処理待ちのビデオのホットスポットセグメントとする。

このステップでは、ステップＳ１０３でコンパクトセグメントにおける各画像フレームの採点結果を取得した後、コンパクトセグメントの各フレーム画像から、採点結果が予め設定された条件を満たす画像フレームを選択し、そして、各画像フレームを順次スティッチングすることによって、最後のスティッチング結果を、処理待ちのビデオのホットスポットスライスとする。すなわち、ステップＳ１０２で処理待ちのビデオに対して１番目の最適化を行った後、このステップでは、１番目の最適化結果に対して２番目の最適化を行い、ホットスポットセグメントに冗長して重複する画像フレームが含まれないようにし、これにより、処理待ちのビデオのホットスポットセグメントをより正確に取得する。

ここでは、このステップは、予め設定された条件を満たす画像フレームを選択する時、採点結果が第２の閾値を超える画像フレームを選択してもよいし、採点結果に従って各画像フレームを大から小に配列した後、上位Ｎ個の画像フレームを選択してもよい（Ｎは１以上の正の整数である）。

なお、このステップは、処理待ちのビデオに対応するホットスポットセグメントを取得した後、処理待ちのビデオをそれに対応するホットスポットセグメントと共にユーザに展示することができ、それにより、ユーザは、実際な需要に応じて、相応的なバージョンをより柔軟に選択して視聴することができると理解すべきである。

したがって、本願は、２つの最適化プロセスによって、処理待ちのビデオのホットスポットセグメントを抽出し、これにより、ユーザがビデオにおけるハイライト内容をより正確で便利に視聴することができ、抽出されたホットスポットセグメントのサイズを効果的に低減することができ、ユーザメモリリソースおよび帯域幅の浪費を低減することができる。

図２は、本願の一実施例によるビデオにおけるホットスポットセグメントを抽出する装置構成図であり、図２に示すように、前記装置は、取得ユニット２０１、簡素化ユニット２０２、採点ユニット２０３及び処理ユニット２０４を含む。

取得ユニット２０１は、処理待ちのビデオを取得する。

取得ユニット２０１は、処理待ちのビデオを取得する。ここで、取得ユニット２０１が取得する処理待ちのビデオは、普通のビデオ、例えば、ドラマ、バラエティ、映画などのビデオであってもよいし、短いビデオであってもよい。

なお、取得ユニット２０１は、処理待ちのビデオを取得した後、当該処理待ちのビデオのビデオ画像シーケンス、即ち、処理待ちのビデオにおけるフレームごとの画像のシーケンスを取得してもよく、ビデオ画像シーケンスの取得は従来技術に属し、ここでは贅言しない。

簡素化ユニット２０２は、前記処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングして、前記処理待ちのビデオのコンパクトセグメントを取得する。

簡素化ユニット２０２は、取得ユニット２０１によってで取得した処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングした後、フィルタリングされていない画像フレームのスティッチング結果を処理待ちのビデオのコンパクトセグメントとする。すなわち、簡素化ユニット２０２は、ビデオにおける冗長して重複する画像フレームを除去することができ、これによりビデオのサイズを最適化し、ユーザメモリリソース及び帯域幅の浪費を低減する。

具体的には、簡素化ユニット２０２は、処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングする際に、以下の方式を採用することができる。処理待ちのビデオにおけるビデオ画像シーケンスを取得し、ビデオ画像シーケンスにおける各フレーム画像間の内容重複度を算出し、例えば、ビデオが開始する画像フレームからビデオが終了する画像フレームまで、取得されたビデオ画像シーケンスにおける隣接する２つのフレーム画像間又は隣接する複数のフレーム画像間の内容重複度を順次に計算し、内容重複度が第１の閾値を超えるか否かを判定し、超える場合、各フレーム画像のうちの１つのフレーム画像を保留し、そうでなければ、各フレーム画像を保留する。

ここで、簡素化ユニット２０２は、各フレーム画像間の内容重複度を計算する際に、予めトレーニングされたディープラーニングモデルによって計算することができ、すなわち、各フレーム画像をディープラーニングモデルの入力とし、ディープラーニングモデルの出力結果を各フレーム画像間の内容重複度とする。

また、簡素化ユニット２０２は、画像フレームにおける画素情報により各フレーム画像間の内容重複度を計算することもでき、例えば、画像フレームにおける画素の階調平均値、画像フレームにおける画素のハッシュ値等により計算し、本願にここでは贅言しない。

なお、簡素化ユニット２０２は、処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングする際、以下の方式を採用することもできる。処理待ちのビデオにおけるビデオ画像シーケンスを、予めトレーニングされた画像フィルタリングモデルに入力し、当該画像フィルタリングモデルは、ビデオ画像シーケンスにおける内容が重複する画像フレームをフィルタリングすることができ、画像フィルタリングモデルの出力結果に基づいて、処理待ちのビデオのコンパクトセグメントを取得する。

簡素化ユニット２０２は、処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングした後、残りの画像フレームがそれぞれ異なる内容を有し、これらの画像フレームを順次にスティッチングし、得られたスティッチング結果が、処理待ちのビデオに対応するコンパクトセグメントである。

採点ユニット２０３は、前記処理待ちのビデオに対応するユーザ視聴情報に基づいて、前記コンパクトセグメントにおける各フレーム画像を採点する。

採点ユニット２０３は、まず、処理待ちのビデオに対応するユーザ視聴情報を取得し、そして、取得したユーザ視聴情報に基づいて、簡素化ユニット２０２によって得られたコンパクトセグメントの各画像フレームを採点して、コンパクトセグメントにおける各画像フレームの採点結果を決定する。

具体的には、採点ユニット２０３には、処理待ちのビデオに対応するユーザ視聴情報は、現在処理待ちのビデオを視聴する全てのユーザの視聴行動を統計することによって得られ、ユーザによる処理待ちのビデオにおける各画像フレームに対するマーカ回数及びユーザによる処理待ちのビデオにおける各画像フレームに対する有効視聴回数のうちの少なくとも１つを含む。

ここで、ユーザによる処理待ちのビデオにおける画像フレームに対するマーカ回数は、ユーザが現在の処理待ちのビデオを視聴する際に、認定された重要な又はハイライト内容を含む画像フレームをマークし、画像フレームがマークされた回数が多いほど、含まれる内容は重要な又はハイライト内容となる。

具体的に、採点ユニット２０３は、ユーザによる処理待ちのビデオにおける各画像フレームに対するマーク回数を取得する場合、以下の方式を採用することができる。処理待ちのビデオの再生中に、ユーザにより手動でトリガされ、またはユーザにより音声でトリガされるマークボタンを提供し、処理待ちのビデオにおける各画像フレームを再生する際におけるマークボタンのトリガ回数を統計して、ユーザによる処理待ちのビデオにおける各画像フレームに対するマーク回数とする。

具体的に、採点ユニット２０３は、ユーザによる処理待ちのビデオにおける各画像フレームに対する有効視聴回数を取得する場合、以下の方式を採用することができる。処理待ちのビデオの再生過程における各画像フレームの再生速度を確定し、処理待ちのビデオにおける各画像フレームが正常な速度で再生した回数を統計し、ユーザによる前記処理待ちのビデオにおける各画像フレームに対する有効視聴回数とする。

採点ユニット２０３によって取得されるユーザ視聴情報は、処理待ちのビデオにおける各画像フレームの重要度やハイライト程度を反映したものであるため、採点ユニット２０３は、ユーザ視聴情報によって、コンパクトセグメントの各画像フレームを採点し、得られる採点結果が異なる画像フレームの重要度やハイライト程度を示すことができる。

具体的に、採点ユニット２０３は、処理待ちのビデオに対応するユーザ視聴情報に基づいて、コンパクトセグメントの各フレーム画像を採点する際に、以下の方式を採用することができる。対応的な画像フレームがマークされる第１の重み、及び対応的な画像フレームが効果的に視聴される第２の重みを取得し、第１の重み及び第２の重みが予め設定され、画像フレームのマーク回数及び第１の重みに基づいて第１の採点を取得し、画像フレームの有効視聴回数及び第２の重みに基づいて第２の採点を取得し、第１の採点及び第２の採点の加算結果を画像フレームの採点結果とする。

処理ユニット２０４は、採点結果が予め設定された条件を満たす画像フレームを順次にスティッチングし、スティッチング結果を前記処理待ちのビデオのホットスポットセグメントとする。

処理ユニット２０４は、採点ユニット２０３によってコンパクトセグメントにおける各画像フレームの採点結果を取得した後、コンパクトセグメントの各フレーム画像から、採点結果が予め設定された条件を満たす画像フレームを選択し、そして、各画像フレームを順次スティッチングすることによって、最後のスティッチング結果を、処理待ちのビデオのホットスポットスライスとする。

すなわち、簡素化ユニット２０２によって処理待ちのビデオに対して１番目の最適化を行った後、処理ユニット２０４は、１番目の最適化結果に対して２番目の最適化を行い、ホットスポットセグメントに冗長して重複する画像フレームが含まれないようにし、これにより、処理待ちのビデオのホットスポットセグメントをより正確に取得する。

ここでは、処理ユニット２０４は、予め設定された条件を満たす画像フレームを選択する時、採点結果が第２の閾値を超える画像フレームを選択してもよいし、採点結果に従って各画像フレームを大から小に配列した後、処理ユニット２０４は、上位Ｎ個の画像フレームを選択してもよい（Ｎは１以上の正の整数である）。

なお、処理ユニット２０４は、処理待ちのビデオに対応するホットスポットセグメントを取得した後、処理待ちのビデオをそれに対応するホットスポットセグメントと共にユーザに展示することができ、それにより、ユーザは、実際な需要に応じて、相応的なバージョンをより柔軟に選択して視聴することができる。

本願の実施例によれば、本願は、電子機器及び読み取り可能な記憶媒体をさらに提供している。

図３に示すように、本願の実施例によるビデオにおけるホットスポットセグメントを抽出する方法の電子機器のブロック図である。電子機器は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータである。電子機器は、例えば、パーソナルデジタルプロセッシング、携帯電話、スマートフォン、ウェアラブルデバイス、及び他の類似なコンピューティングデバイス等、様々な形態のモバイルデバイスであってもよい。本明細書に示される部品、それらの接続及び関係、並びにそれらの機能は、単なる例示であり、本明細書に記載及び／又は請求される本願の実施を限定しない。

図３に示すように、当該電子機器は、１つまたは複数のプロセッサ３０１と、メモリ３０２と、高速インターフェースと低速インターフェースとを含む、各部品を接続するためのインターフェースとを備える。各部品は、異なるバスで互いに接続され、共通のマザーボード上に実装されてもよいし、必要に応じて他の形態で実装されてもよい。プロセッサは、電子機器で実行される命令を処理してもよく、外部入出力装置（例えば、インターフェースに結合された表示機器）にＧＵＩのグラフィック情報を表示するようにメモリ中またはメモリ上に記憶された命令を含む。他の実施形態では、必要に応じて、複数のプロセッサおよび／または複数のバスを、複数のメモリおよび複数のメモリと共に使用し得る。同様に、複数の電子機器を接続し、各機器が必要な操作の一部（例えば、サーバアレイ、ブレードサーバの集合、マルチプロセッサシステムなど）を提供するようにしてもよい。図３では、１つのプロセッサ３０１を例に挙げている。

メモリ３０２は、本願に提供される非一時的コンピュータ読み取り可能な記憶媒体である。前記メモリは、少なくとも１つのプロセッサに、本願に提供されるビデオにおけるホットスポットセグメントを抽出する方法を実行させるように、少なくとも１つのプロセッサによって実行可能な命令を記憶する。本願の非一時的コンピュータ読み取り可能な記憶媒体は、コンピュータに本願に提供されるビデオにおけるホットスポットセグメントを抽出する方法を実行させるためのコンピュータ命令を記憶する。

メモリ３０２は、非一時的コンピュータ読み取り可能な記憶媒体として、例えば、本願の実施例におけるホットスポットセグメントを抽出する方法に対応するプログラム命令／モジュール（例えば、図２に示す取得ユニット２０１、簡素化ユニット２０２、採点ユニット２０３および処理ユニット２０４）のような、非一時的ソフトウェアプログラム、非一時的コンピュータ実行可能なプログラム及びモジュールを記憶する。プロセッサ３０１は、メモリ３０２に記憶された非一時的ソフトウェアプログラム、命令およびモジュールを実行することによって、サーバの様々な機能アプリケーションおよびデータ処理を実行し、すなわち、上記方法の実施例におけるホットスポットセグメントを抽出する方法を実現する。

メモリ３０２は、記憶プログラム領域および記憶データ領域を含み、記憶プログラム領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションを記憶し、記憶データ領域は、電子機器の使用により作成されたデータ等を記憶する。また、メモリ３０２は、高速ランダムアクセスメモリを含んでもよく、例えば少なくとも１つのディスク記憶デバイス、フラッシュメモリデバイス、または他の非一時的固体記憶デバイスなどの非一時的メモリを含んでもよい。いくつかの実施例では、メモリ３０２は、プロセッサ３０１から遠隔に配置されたメモリを選択することができ、それらの遠隔メモリは、ネットワークを介して、ホットスポットセグメントを抽出する方法の電子機器に接続され得る。上記ネットワークの例示は、インターネット、イントラネット、ローカルエリアネットワーク、移動体通信ネットワーク、及びそれらの組み合わせが挙げられるが、これらに限定されない。

ビデオ中のホットスポットセグメントを抽出する方法の電子機器は、入力装置３０３と、出力装置３０４とをさらに含んでもよい。プロセッサ３０１、メモリ３０２、入力装置３０３、及び出力装置３０４は、バス又は他の方式で接続されてもよく、図３では、バスで接続することを例に挙げている。

入力装置３０３は、入力された数字または文字情報を受信し、ビデオ中のホットスポットセグメントを抽出する方法の電子機器のユーザ設定および機能制御に関するキー信号入力を発生させることができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングバー、一つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置３０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含んでもよい。当該表示装置は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ及びプラズマディスプレイを含むが、これらに限らない。いくつかの実施形態では、表示装置はタッチスクリーンであってもよい。

本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組合せで実現され得る。これらの様々な実施形態は、１つまたは複数のコンピュータプログラム内で実施されることを含み、当該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および／または解釈され、当該プログラマブルプロセッサは、専用または汎用のプログラマブルプロセッサであり、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信し、データおよび命令を当該記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置に送信する。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても言われる）は、プログラマブルプロセッサの機械命令を含み、高級プロセス、および／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／機械言語でこれらの計算プログラムを実施することができる。本明細書で使用される場合、「機械読み取り可能な媒体」および「コンピュータ読み取り可能な媒体」という用語は、機械命令および／またはデータをプログラマブルプロセッサのいずれかのコンピュータプログラム製品、デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））に提供することであり、機械読み取り可能な信号としての機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意の信号である。

ユーザとのインタラクティブを提供するために、コンピュータで本明細書に記載されるシステムおよび技術を実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置（たとえば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザがコンピュータに入力を提供し得るキーボードおよびポインティングデバイス（たとえば、マウスまたはトラックボール）とを有する。他の種類の装置は、ユーザとのインタラクティブを提供するために使用され得る。例えば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（例えば、音声入力、音声入力または触覚入力）でユーザからの入力を受信することができる。

本明細書で説明されるシステムおよび技術を、バックエンド部品を含むコンピューティングシステム（例えば、データサーバとして）、またはミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、またはフロントエンド部品を含むコンピューティングシステム（例えば、ユーザが本明細書で説明されるシステムおよび技術の実施形態とインタラクティブすることができるグラフィカルユーザインターフェースまたはウェブブラウザを有するユーザコンピュータ）、またはそのようなバックエンド部品、ミドルウェア部品、もしくはフロントエンド部品の任意の組合せを含むコンピューティングシステムにおいて実施され得る。任意の形態または媒体のデジタルデータ通信（例えば、通信ネットワーク）を介してシステムの部品を互いに接続することができる。通信ネットワークの例示は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、およびインターネットを含む。

コンピュータシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは、一般に、互いから離れており、通常、通信ネットワークを介してインタラクティブしている。相応的なコンピュータで運行し、互いにクライアント-サーバ関係を有するコンピュータプログラムによって、クライアントとサーバの関係を生成する。

本願の実施例の技術案によれば、２回の最適化の過程によって処理待ちのビデオのホットスポットセグメントを抽出することにより、ホットスポットセグメントの抽出正確性を向上し、ユーザがビデオにおけるハイライト内容をより便利に視聴し、抽出されたホットスポットセグメントのサイズを減少させ、ユーザメモリリソースおよび帯域幅の浪費を減少させることができる。

上記に示された様々な形態のフローを用いて、ステップを並べ替え、追加、または削除することができることを理解されたい。例えば、本願に記載された各ステップは、並列的に実行されてもよく、順番に実行されてもよく、異なる順番で実行されてもよく、本願において開示された技術案の所望の結果を達成することができる限り、ここで制限されない。

上記の具体的な実施形態は、本願の保護範囲を限定するものではない。当業者であれば、設計の要求及び他の要因に応じて、各種の補正、組合、サブ組合および切り替えを行うことができることは明らかであろう。本願の思想及び原則における任意の補正、均等物及び改善は、本願の保護範囲に含まれるべきである。

本願が技術課題を解決するために採用する技術案は、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも１つのプロセッサが前記方法を実行するように、前記少なくとも１つのプロセッサによって実行されることを特徴とする電子機器を提供した。

本願が技術課題を解決するために採用する技術案は、コンピュータ命令は、前記コンピュータに前記方法を実行させることを特徴とするコンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体を提供した。

本願が技術課題を解決するために採用する技術案は、コンピュータに、前記方法を実現させるコンピュータ命令を含むコンピュータプログラムを提供した。

Ｓ１０１では、処理待ちのビデオを取得する。

取得ユニット２０１は、処理待ちのビデオを取得する。

Claims

処理待ちのビデオを取得することと、
前記処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングして、前記処理待ちのビデオのコンパクトセグメントを取得することと、
前記処理待ちのビデオに対応するユーザ視聴情報に基づいて、前記コンパクトセグメントにおける各フレーム画像を採点することと、
採点結果が予め設定された条件を満たす画像フレームを順次にスティッチングし、スティッチング結果を前記処理待ちのビデオのホットスポットセグメントとすることと、を含む
ことを特徴とするビデオにおけるホットスポットセグメントを抽出する方法。
前記処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングすることは、
前記処理待ちのビデオのビデオ画像シーケンスを取得することと、
前記ビデオ画像シーケンスにおける各フレーム画像間の内容重複度を計算することと、
前記内容重複度が第１の閾値を超えるか否かを判定し、超える場合、前記各フレーム画像のうちの１つのフレーム画像を保留して他の画像をフィルタリングし、そうでなければ、前記各フレーム画像を保留することと、を含む
ことを特徴とする請求項１に記載の方法。
前記処理待ちのビデオに対応するユーザ視聴情報は、
ユーザによる前記処理待ちのビデオにおける各画像フレームに対するマーク回数、およびユーザによる前記処理待ちのビデオにおける各画像フレームに対する有効視聴回数の少なくとも１つを含む
ことを特徴とする請求項１に記載の方法。
前記処理待ちのビデオに対応するユーザ視聴情報に基づいて、前記コンパクトセグメントにおける各フレーム画像を採点することは、
対応的な画像フレームがマークされた第１の重み、および対応的な画像フレームが効果的に視聴される第２の重みを取得することと、
画像フレームのマーク回数及び第１の重みに基づいて第１の採点を取得し、画像フレームの有効視聴回数及び第２の重みに基づいて第２の採点を取得することと、
第１の採点と第２の採点との加算結果を画像フレームの採点結果とすることと、を含む
ことを特徴とする請求項３に記載の方法。
ユーザによる前記処理待ちのビデオにおける各画像フレームに対するマーク回数を取得することは、
前記処理待ちのビデオの再生過程にマークボタンを提供することと、
前記処理待ちのビデオにおける各画像フレームを再生するときの前記マークボタンのトリガ回数を統計し、前記ユーザによる前記処理待ちのビデオにおける各画像フレームに対するマーク回数とすることと、を含む
ことを特徴とする請求項３に記載の方法。
ユーザによる前記処理待ちのビデオにおける各画像フレームに対する有効視聴回数を取得することは、
再生過程において前記処理待ちのビデオの各画像フレームの再生速度を決定することと、
前記処理待ちのビデオにおける各画像フレームが正常な速度で再生された回数を統計し、前記ユーザによる前記処理待ちのビデオにおける各画像フレームに対する有効視聴回数とすることとを含む
ことを特徴とする請求項３に記載の方法。
ユーザが選択的に視聴するように、前記処理待ちのビデオをそれに対応するホットスポットセグメントと共にユーザに展示すること、をさらに含む
ことを特徴とする請求項１に記載の方法。
処理待ちのビデオを取得する取得ユニットと、
前記処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングして、前記処理待ちのビデオのコンパクトセグメントを取得する簡素化ユニットと、
前記処理待ちのビデオに対応するユーザ視聴情報に基づいて、前記コンパクトセグメントにおける各フレーム画像を採点する採点ユニットと、
採点結果が予め設定された条件を満たす画像フレームをスティッチングし、スティッチング結果を前記処理待ちのビデオのホットスポットセグメントとする処理ユニットと、を含む
ことを特徴とするビデオにおけるホットスポットセグメントを抽出する装置。
前記簡素化ユニットが前記処理待ちのビデオにおける内容が重複する画像フレームをフィルタリングする場合、具体的に、
前記処理待ちのビデオのビデオ画像シーケンスを取得し、
前記ビデオ画像シーケンスにおける各フレーム画像間の内容重複度を計算し、
前記内容重複度が第１の閾値を超えるか否かを判定し、超える場合、前記各フレーム画像のうちの１つのフレーム画像を保留して他の画像をフィルタリングし、そうでなければ、前記各フレーム画像を保留すること、を実行する
ことを特徴とする請求項８に記載の装置。
前記採点ユニットにおいて前記処理待ちのビデオに対応するユーザ視聴情報は、
ユーザによる前記処理待ちのビデオにおける各画像フレームに対するマーク回数、およびユーザによる前記処理待ちのビデオにおける各画像フレームに対する有効視聴回数の少なくとも１つを含む
ことを特徴とする請求項８に記載の装置。
前記採点ユニットが前記処理待ちのビデオに対応するユーザ視聴情報に基づいて、前記コンパクトセグメントにおける各フレーム画像を採点する場合、具体的に、
対応的な画像フレームがマークされた第１の重み、および対応的な画像フレームが効果的に視聴される第２の重みを取得し、
画像フレームのマーク回数及び第１の重みに基づいて第１の採点を取得し、画像フレームの有効視聴回数及び第２の重みに基づいて第２の採点を取得し、
第１の採点と第２の採点との加算結果を画像フレームの採点結果とすること、を実行する
ことを特徴とする請求項１０に記載の装置。
前記採点ユニットがユーザによる前記処理待ちのビデオにおける各画像フレームに対するマーク回数を取得する場合、具体的に、
前記処理待ちのビデオの再生過程にマークボタンを提供し、
前記処理待ちのビデオにおける各画像フレームを再生するときの前記マークボタンのトリガ回数を統計し、前記ユーザによる前記処理待ちのビデオにおける各画像フレームに対するマーク回数とすること、を実行する
ことを特徴とする請求項１０に記載の装置。
前記採点ユニットがユーザによる前記処理待ちのビデオにおける各画像フレームに対する有効視聴回数を取得する場合、具体的に、
再生過程において前記処理待ちのビデオの各画像フレームの再生速度を決定し、
前記処理待ちのビデオにおける各画像フレームが正常な速度で再生された回数を統計し、前記ユーザによる前記処理待ちのビデオにおける各画像フレームに対する有効視聴回数とすること、を実行する
ことを特徴とする請求項１０に記載の装置。
前記処理ユニットは、ユーザが選択的に視聴するように、前記処理待ちのビデオをそれに対応するホットスポットセグメントと共にユーザに展示することを、さらに実行する
ことを特徴とする請求項８に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶し、前記命令は、前記少なくとも１つのプロセッサが請求項１～７のいずれか一項に記載の方法を実行するように、前記少なくとも１つのプロセッサによって実行される
ことを特徴とする電子機器。
コンピュータ命令は、前記コンピュータに請求項１～７のいずれか一項に記載の方法を実行させる
ことを特徴とするコンピュータ命令を記憶した非一時的なコンピュータ読み取り可能な記憶媒体。