JP7355865B2

JP7355865B2 - ビデオ処理方法、装置、デバイスおよび記憶媒体

Info

Publication number: JP7355865B2
Application number: JP2022023611A
Authority: JP
Inventors: ルー、ダミン; フ、イチェン; チェン、シ; ティアン、ハオ; リ、シン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Baidu USA LLC
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Baidu USA LLC
Priority date: 2021-02-23
Filing date: 2022-02-18
Publication date: 2023-10-03
Anticipated expiration: 2042-02-18
Also published as: JP2022075668A; CN113014988B; EP3982276A2; EP3982276A3; US20220174369A1; CN113014988A

Description

本願の実施例は、コンピュータの分野、具体的には自然言語処理、コンピュータビジョン、深層学習などの人工知能分野、特にビデオ処理方法、装置、デバイスおよび記憶媒体に関する。

ネットワーク技術の発展に伴い、様々なビデオアプリケーションは次々と登場している。ビデオ視聴者間の対話を強化するために、ビデオアプリケーションは、ビデオ視聴者がコメントを追加し、また、これらのコメントがビデオ再生中にビデオ画面を流れることを可能にする。多くのコメントがビデオ画面を流れるときにフライトデザインゲームでの弾幕のようであるので、これらのコメントは弾幕とも呼ばれる。しかし、ビデオ視聴者によって発表された弾幕は通常、発表ボタンが押されてから、ビデオ画面を流れる。

本願の実施例は、ビデオ処理方法、装置、デバイスおよび記憶媒体を提供する。

第一様態では、本願の実施例は、ビデオ処理方法を提供する。この方法は、ターゲットビデオおよびターゲットビデオのターゲットコメントを取得することと、ターゲットビデオ内のピクチャを認識して、ピクチャのテキスト情報を取得することと、テキスト情報の内容と一致するターゲットコメントを決定することと、ターゲットビデオ内のピクチャの表示時刻に内容と一致するターゲットコメントを弾幕の形式で挿入することと、を含む。

第二様態では、本願の実施例は、ビデオ処理装置を提供する。この装置は、ターゲットビデオおよびターゲットビデオのターゲットコメントを取得するように構成された取得モジュールと、ターゲットビデオ内のピクチャを認識して、ピクチャのテキスト情報を取得するように構成された認識モジュールと、テキスト情報の内容と一致するターゲットコメントを決定するように構成された決定モジュールと、ターゲットビデオ内のピクチャの表示時刻に内容と一致するターゲットコメントを弾幕の形式で挿入するように構成された挿入モジュールと、を含む。

第三様態では、本願の実施例は、電子デバイスを提供する。この電子デバイスは、少なくとも１つのプロセッサと、少なくとも１つのプロセッサに通信接続されたメモリと、を含み、このメモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されており、この命令は、少なくとも１つのプロセッサが第一様態の任意の実施形態に記載の方法を実行できるように、少なくとも１つのプロセッサによって実行される。

第四様態では、本願の実施例は、第一様態の任意の実施形態に記載の方法をコンピュータに実行させるためのコンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体を提供する。

第五態様では、本願の実施例は、プロセッサによって実行されると、第一様態の任意の実施形態に記載の方法を実行するコンピュータプログラムを含むコンピュータプログラム製品を提供する。

本願の実施例によって提供されるビデオ処理方法、装置、デバイスおよび記憶媒体は、まず、ターゲットビデオおよびターゲットビデオのターゲットコメントを取得し、次に、ターゲットビデオ内のピクチャを認識して、ピクチャのテキスト情報を取得し、次に、テキスト情報の内容と一致するターゲットコメントを決定し、最後に、ターゲットビデオ内のピクチャの表示時刻に内容と一致するターゲットコメントを弾幕の形式で挿入する。内容と一致するコメントをビデオ内のピクチャの表示時刻に基づいて挿入することは、ビデオが再生されるとき、特定の内容に対応するコメントについて、特定の内容に対応するピクチャを表示することができるので、ユーザがコメントを理解するのに役立ち、さらにビデオ視聴者がコメントに基づいて対話するのに役立つ。

このセクションで説明される内容は、本開示の実施例の主要または重要な特徴を特定することを意図するものではなく、また、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の説明から容易に理解されるであろう。
本願の他の特徴、目的および利点は、以下の図面で行われる非限定的な実施例についての詳細な説明からより明らかになるであろう。図面は、本実施例をより明確に理解するために使用されており、本願を限定するものではない。

本願が適用され得る例示的なシステムアーキテクチャを示す図である。本願に係るビデオ処理方法の一実施例のフローチャートである。本願に係るビデオ取得方法の一実施例のフローチャートである。本願に係るコメント取得方法の一実施例のフローチャートである。本願に係るビデオ処理方法の別の実施例のフローチャートである。本願に係るビデオ処理装置の一実施例の構造概略図である。本願の実施例に係るビデオ処理方法を実行するための電子デバイスのブロック図である。

本願の例示的な実施例は、理解を容易にするための本願の実施例の様々な詳細を含む図面と併せて以下に説明され、単なる例示と見なされるべきである。従って、本願の範囲および精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更および修正を行うことができることは、当業者にとって理解されるであろう。同様に、明瞭性と簡潔性の観点から、公知の機能と構造に関する説明は、以下の説明において省略される。

なお、本願の実施例および実施例の特徴は、矛盾しない限り、互いに組み合わせることができる。以下、図面および実施例を参照して本願を詳細に説明する。

図１は、本願のビデオ処理方法またはビデオ処理装置の実施例が適用され得る例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末装置１０１、１０２、１０３、ネットワーク１０４、およびサーバ１０５を含み得る。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間の通信リンクを提供するための媒体である。ネットワーク１０４は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含み得る。

ユーザは、端末装置１０１、１０２、１０３を使用してネットワーク１０４を介してサーバ１０５と対話して、ビデオフレームなどを送受信することができる。端末装置１０１、１０２、１０３には、ニュースアプリケーション、ウェブブラウザアプリケーション、検索アプリケーションなどの様々なクライアントアプリケーションがインストールされ得る。

端末装置１０１、１０２、１０３は、ハードウェアであり得るか、またはソフトウェアであり得る。端末装置１０１、１０２、１０３がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、様々な電子デバイスであり得る。端末装置１０１、１０２、１０３がソフトウェアである場合、それらは、上記電子デバイスにインストールされ得る。それらは、複数のソフトウェアまたはソフトウェアモジュールとして実装され得るか、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得る。ここでは特に限定されない。

サーバ１０５は様々なサービスを提供することができる。例えば、サーバ１０５は、端末装置１０１、１０２、１０３に表示されたビデオを解析して処理し、処理結果を生成することができる（例えば、適切な時刻に弾幕に挿入されたビデオ）。

なお、サーバ１０５は、ハードウェアであり得るか、またはソフトウェアであり得る。サーバ１０５がハードウェアである場合、それは、複数のサーバからなる分散サーバクラスタとして実装され得るか、または単一のサーバとして実装され得る。サーバ１０５がソフトウェアである場合、それは、複数のソフトウェアまたはソフトウェアモジュール（例えば、分散サービスを提供するためのもの）として実装され得るか、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得る。ここでは特に限定されない。

なお、本願の実施例によって提供されるビデオ処理方法が一般にサーバ１０５によって実行されるため、ビデオ処理装置は、一般にサーバ１０５に配置される。
図１中の端末装置、ネットワーク、およびサーバの数は、単なる例示であることを理解されたい。実際のニーズに応じて、端末装置、ネットワーク、およびサーバの数が任意に設定され得る。

さらに図２を参照すると、図２は、本願に係るビデオ処理方法の一実施例のプロセス２００を示す。このビデオ処理方法は、以下のステップを含む。

ステップ２０１：ターゲットビデオおよびターゲットビデオのターゲットコメントを取得する。

本実施例では、ビデオ処理方法の実行主体（例えば、図１に示すサーバ１０５）は、ターゲットビデオおよびターゲットビデオのターゲットコメントを取得することができる。ここで、ターゲットビデオは、特定の内容を記録するビデオであり得る。ターゲットコメントは、ユーザが特定の内容について発表するコメントであり得る。

本実施例のいくつかの任意の実施形態では、ターゲットビデオは、ビデオアプリケーションによって提供されたビデオであり得る。ターゲットコメントは、ビデオアプリケーションでターゲットビデオを見ているユーザが発表するコメントであり得る。通常、ユーザがビデオアプリケーションでターゲットビデオを再生するとき、ビデオアプリケーションは、特定の場所にコメント入力欄を提供することができる。ユーザは、コメント入力欄にコメントを入力して発表することができる。ここで、ターゲットビデオがコメント入力欄に隠されることを避けるために、コメント入力欄は通常、ターゲットビデオの下方に設けられる。場合によっては、ターゲットビデオがコメントに隠されることを避けるために、ユーザによって発表されたコメントは、ターゲットビデオの下方に表示され得る。場合によっては、ターゲットビデオを見ているユーザ間の対話を実現するために、ユーザによって発表されたコメントは、弾幕の形式でターゲットビデオに表示され得る。

本実施例のいくつかの任意の実施形態では、ターゲットビデオは、ニュースイベントについてのビデオであり得る。ターゲットコメントは、ユーザがニュースイベントについて発表するコメントであり得る。例えば、ターゲットビデオは、ニュースイベントのオリジナルニュースに基づいて合成されたビデオであり得る。ターゲットコメントは、オリジナルニュースを閲覧するユーザが発表するコメントであり得る。通常、ユーザがニュースアプリケーションでオリジナルニュースを閲覧するとき、ニュースアプリケーションは、特定の場所にコメント入力欄を提供することができる。ユーザは、コメント入力欄にコメントを入力して発表することができる。ここで、オリジナルニュースがコメント入力欄およびコメントに隠されることを避けるために、コメント入力欄は通常、オリジナルニュースの下方に設けられる。ユーザによって発表されたコメントは通常、オリジナルニュースの下方に表示される。ここで、オリジナルニュースは、ニュースイベントについての様々な形式の電子データであり得る。ニュースイベントは、社会イベント、財経イベント、娯楽イベント、科学技術イベント、軍事イベント、架空の物語などを含むがこれらに限定されない、テキスト、画像、音声、ビデオなどの任意の形式で記録された任意のタイプのオリジナルイベント素材であり得る。オリジナルニュースは、テキスト、画像、音声、ビデオのうちの少なくとも１つを含み得る。例えば、オリジナルニュースは、ウェブページであり得る。ウェブページは、テキスト、画像、音声、ビデオのうちの少なくとも１つを含み得る。さらに、オリジナルニュースは、テキスト、画像、またはビデオだけであり得る。

ここで、ターゲットコメントは、ユーザが特定の内容について発表するコメントの全部または一部であり得る。通常、ターゲットコメントをターゲットビデオの内容と一致させるために、ユーザが特定の内容について発表するコメントをフィルタリングして、ターゲットビデオの内容と一致するコメントのみをターゲットコメントとして保留することができる。例えば、ターゲットビデオがニュースイベントのオリジナルニュースに基づいて合成されたビデオである場合、オリジナルニュースのオリジナルコメントを取得し、ターゲットビデオの内容と一致するオリジナルコメントをターゲットコメントとして選択することができる。ここで、オリジナルコメントは、ニュースアプリケーションでオリジナルニュースを閲覧するユーザが発表するコメントであり得る。

本実施例のいくつかの任意の実施形態では、上記実行主体は、まず、オリジナルコメントの字句解析を実行し、オリジナルコメントを単語に分解し、次に、単語をアンカーポイントとして、オリジナルコメントを解析し、ターゲットビデオの内容と一致するオリジナルコメントを選択することができる。ここで、オリジナルコメントは通常、中国語コメントである。英語コメントとは異なり、中国語コメントの中国語単語は、スペースで区切られていない。単語分解精度を向上させるために、ＬＡＣ（ＬｅｘｉｃａｌＡｎａｌｙｓｉｓｏｆＣｈｉｎｅｓｅ、中国語字句解析）を使用してオリジナルコメントを単語に分解することができる。ここで、ＬＡＣは、中国語単語分解、単語性質ラベリング、固有名詞認識などのＮＬＰ（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ、自然言語処理）タスクを全体的に完了することができる組み合わせ型字句解析モデルである。ＬＡＣは、積み重ねられた双方向ＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ、ゲート付き回帰型ユニット）構造に基づいて、ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、人工知能）オープンプラットフォーム上の字句解析アルゴリズムを長いテキストに正確に複製する。

ステップ２０２：ターゲットビデオ内のピクチャを認識して、ピクチャのテキスト情報を取得する。

本実施例では、上記実行主体は、ターゲットビデオ内の各フレームのピクチャを認識して、ピクチャのテキスト情報を取得することができる。ここで、ピクチャのテキスト情報は、ピクチャの内容を説明するために使用され得る。場合によっては、ピクチャ上に文字があるため、ピクチャ上の文字を認識して、ピクチャのテキスト情報として決定することができる。場合によっては、ピクチャ上に顔があるため、ピクチャ上の顔を認識して、顔に対応する人物の情報をピクチャのテキスト情報として決定することができる。

ステップ２０３：テキスト情報の内容と一致するターゲットコメントを決定する。
本実施例では、上記実行主体は、テキスト情報の内容と一致するターゲットコメントを決定することができる。具体的には、ターゲットコメントごとに、このターゲットコメントの内容をピクチャのテキスト情報の内容と一致させ、比較結果に基づいて、内容が一致するか否かを決定することができる。例えば、一致度がプリセット閾値よりも高いターゲットコメントを、ピクチャのテキスト情報の内容と一致するターゲットコメントを決定する。また例えば、一致度が最も高いターゲットコメントを、テキスト情報の内容と一致するターゲットコメントを決定する。

ステップ２０４：ターゲットビデオ内のピクチャの表示時刻に内容と一致するターゲットコメントを弾幕の形式で挿入する。

本実施例では、上記実行主体は、ターゲットビデオ内のピクチャの表示時刻に内容と一致するターゲットコメントを弾幕の形式で挿入することができる。

具体的には、ターゲットビデオを再生する際に、ある時刻にピクチャが表示されている場合、上記実行主体は、この時刻に内容と一致するターゲットコメントを挿入することができるので、内容と一致するコメントを、内容と一致するピクチャに対応して表示することができる。また、内容と一致するターゲットコメントを弾幕の形式でターゲットビデオに表示することができるので、ターゲットビデオを見ているユーザ間の対話を実現することができる。例えば、映画および映画評論について、映画中の箇所にその内容と一致する映画評論を挿入する。このようにして、映画が再生されたときの映画評論の適当な箇所に基づいて、その内容と一致する映画評論に対応する弾幕を再生することができる。

本願の実施例によって提供されるビデオ処理方法は、まず、ターゲットビデオおよびターゲットビデオのターゲットコメントを取得し、次に、ターゲットビデオ内のピクチャを認識して、ピクチャのテキスト情報を取得し、次に、テキスト情報の内容と一致するターゲットコメントを決定し、最後に、ターゲットビデオ内のピクチャの表示時刻に内容と一致するターゲットコメントを弾幕の形式で挿入する。内容と一致するコメントをビデオ内のピクチャの表示時刻に基づいて挿入することは、ビデオが再生されるとき、特定の内容に対応するコメントについて、特定の内容に対応するピクチャを表示することができるので、ユーザがコメントを理解するのに役立ち、さらにビデオ視聴者がコメントに基づいて対話するのに役立つ。

さらに図３を参照すると、図３は、本願に係るビデオ取得方法の一実施例のプロセス３００を示す。このビデオ取得方法は、以下のステップを含む。

ステップ３０１：オリジナルニュースを取得する。

本実施例では、ビデオ取得方法の実行主体（例えば、図１に示すサーバ１０５）は、オリジナルニュースを取得することができる。ここで、オリジナルニュースは、ニュースアプリケーションによって提供されるニュースであり得る。オリジナルニュースは、ニュースイベントについての様々な形式の電子データであり得る。ニュースイベントは、社会イベント、財経イベント、娯楽イベント、科学技術イベント、軍事イベント、架空の物語などを含むがこれらに限定されない、テキスト、画像、音声、ビデオなどの任意の形式で記録された任意のタイプのオリジナルイベント素材であり得る。オリジナルニュースは、テキスト、画像、音声、ビデオのうちの少なくとも１つを含み得る。例えば、オリジナルニュースは、ウェブページであり得る。ウェブページは、テキスト、画像、音声、ビデオのうちの少なくとも１つを含み得る。さらに、オリジナルニュースは、テキスト、画像、またはビデオだけであり得る。

ステップ３０２：オリジナルニュースに関連するオリジナルビデオを検索する。

本実施例では、上記実行主体は、オリジナルニュースに関連するオリジナルビデオを検索することができる。ここで、オリジナルビデオは、オリジナルニュースに直接的または間接的に関連する。

本実施例のいくつかの任意の実施形態では、上記実行主体は、まず、オリジナルニュースのオリジナルコメントを取得し、次に、オリジナルニュースおよび／またはオリジナルコメントの内容に基づいて、オリジナルビデオを検索することができる。通常、オリジナルニュースの内容に基づいて検索されたオリジナルビデオは、オリジナルニュースに直接的に関連する。オリジナルコメントの内容に基づいて検索されたオリジナルビデオは、オリジナルニュースに直接的または間接的に関連する。例えば、オリジナルニュースは、人物Ａについてのニュースである。人物Ａについてのニュースに基づいて検索されたオリジナルビデオは、人物Ａについてのビデオである。人物Ａについてのビデオは、人物Ａについてのニュースに直接的に関連する。オリジナルコメントは、人物Ａについてのコメントであり得る。人物Ａについてのコメントに基づいて検索されたオリジナルビデオは、人物Ａについてのビデオであり得る。人物Ａについてのビデオは、人物Ａについてのニュースに直接的に関連する。オリジナルコメントは、人物Ａに関連付けられた人物Ｂについてのコメントであり得る。人物Ａに関連付けられた人物Ｂについてのコメントに基づいて検索されたオリジナルビデオは、人物Ｂについてのビデオであり得る。人物Ｂについてのビデオは、人物Ａについてのニュースに間接的に関連する。

ステップ３０３：オリジナルニュースの要約抽出を実行して、オリジナルニュースの解説文を取得する。

本実施例では、上記実行主体は、オリジナルニュースの要約抽出を実行して、要約抽出によって得られた要約テキストをオリジナルニュースの解説文として決定することができる。ここで、解説文は、オリジナルニュースの主な内容を含み得、人間のスピーチ習慣に合うので、解説に適している。

本実施例のいくつかの任意の実施形態では、上記実行主体は、まず、オリジナルニュースに含まれるテキストを決定し、次に、テキストに含まれて解説に適していないテキストを削除し、次に、テキストに含まれる文章語を同じ意味の口頭語に置き換え、最後に、テキストの要約抽出を実行して、オリジナルニュースの解説文を取得することができる。解説に適していないテキストを削除することは、テキスト内の無効な情報を減らすことができ、さらに最後に生成された解説文の有効情報割合を増やすことができる。テキスト内の文章語を口頭語に置き換えることは、テキストが解説により適するようにし、さらに人間のスピーチ習慣に合う解説詞をより容易に生成することができる。

ステップ３０４：解説文に基づいてビデオ音声を生成し、オリジナルニュースおよびオリジナルビデオに基づいて、ビデオ音声に対応するビデオ画面を生成する。

本実施例では、上記実行主体は、解説文に基づいてビデオ音声を生成し、オリジナルニュースおよびオリジナルビデオに基づいて、ビデオ音声に対応するビデオ画面を生成することができる。具体的には、上記実行主体は、まず、音声合成技術を利用して、解説文に対応するビデオ音声を生成し、次に、ビデオ音声を各文に対応する音声に分割し、次に、オリジナルニュースおよびオリジナルビデオに基づいて、各文に対応する音声と一致するビデオ画面セグメントを生成し、最後に、各文に対応する音声と一致するビデオ画面セグメントを順次組み合わせて、ビデオ音声に対応するビデオ画面を生成することができる。ここで、各文に対応する音声と一致するビデオ画面セグメントは、この文を表示するもの、またはこの文に関連する事物を表示するものであり得る。

ステップ３０５：ビデオ画面およびビデオ音声を合成して、ターゲットビデオを取得する。

本実施例では、上記実行主体は、ビデオ画面およびビデオ音声を合成して、ターゲットビデオを取得することができる。ここで、各文に対応する音声をターゲットビデオにおけるこの文に対応する音声部分として決定し、この文に対応する音声と一致するビデオ画面セグメントを、ターゲットビデオにおけるこの文に対応するビデオ画面部分として決定する。

本願の実施例によって提供されるビデオ取得方法は、まず、オリジナルニュースおよびそれに関連するオリジナルビデオを取得し、次に、オリジナルニュースの要約抽出を実行して、オリジナルニュースの解説文を取得し、次に、解説文に基づいてビデオ音声を生成し、オリジナルニュースおよびオリジナルビデオに基づいて、ビデオ音声に対応するビデオ画面を生成し、最後に、ビデオ画面およびビデオ音声を合成して、ターゲットビデオを取得する。オリジナルニュースがターゲットビデオに変換されて表示され、ターゲットビデオがオリジナルニュースの主な内容を記録しているため、ユーザは、ターゲットビデオを見れば、オリジナルニュースの全文を読まずにオリジナルニュースの対象となるニュースイベントを迅速に理解することができるので、ユーザのニュースイベント取得効率を向上させる。

さらに図４を参照すると、図４は、本願に係るコメント取得方法の一実施例のプロセス４００を示す。このコメント取得方法は、以下のステップを含む。

ステップ４０１：オリジナルニュースのオリジナルコメントを取得する。

本実施例では、コメント取得方法の実行主体（例えば、図１に示すサーバ１０５）は、オリジナルニュースのオリジナルコメントを取得することができる。ここで、オリジナルコメントは、ニュースアプリケーションでオリジナルニュースを閲覧するユーザが発表するコメントであり得る。

ステップ４０２：オリジナルコメントの字句解析を実行し、オリジナルコメントを単語に分解する。

本実施例では、上記実行主体は、オリジナルコメントの字句解析を実行し、オリジナルコメントを単語に分解することができる。ここで、オリジナルコメントは通常、中国語コメントである。英語コメントとは異なり、中国語コメントの中国語単語は、スペースで区切られていない。単語分解精度を向上させるために、ＬＡＣを使用してオリジナルコメントを単語に分解することができる。ここで、ＬＡＣは、中国語単語分解、単語性質ラベリング、固有名詞認識などのＮＬＰタスクを全体的に完了することができる組み合わせ型字句解析モデルである。ＬＡＣは、積み重ねられた双方向ＧＲＵ構造に基づいて、ＡＩオープンプラットフォーム上の字句解析アルゴリズムを長いテキストに正確に複製する。

ステップ４０３：単語をアンカーポイントとして、オリジナルコメントの構文解析を実行し、オリジナルコメントのキーワードおよび文構造を取得する。

本実施例では、上記実行主体は、単語をアンカーポイントとして、オリジナルコメントの構文解析を実行し、オリジナルコメントのキーワードおよび文構造を取得することができる。

通常、単語をアンカーポイントとして、オリジナルコメントの構文解析を実行する場合、オリジナルコメントの単語に対して単語性質ラベリングを実行することにより、オリジナルコメントのキーワードおよび文構造を取得することができる。ここで、オリジナルコメントのキーワードは、特定の単語性質を有する単語であり得る。オリジナルコメントの文構造は、オリジナルコメントの単語間の依存関係を解析することによって決定される主語述語関係、動詞目的語関係、前置詞目的語関係、方位関係などを含み得るが、これらに限定されない。依存構文解析は、文中の単語間の依存関係を解析することによって文の構文構造を決定することを目的とした自然言語処理コア技術の１つである。依存構文解析は、基盤技術として、他のＮＬＰタスクの効果を高めるために直接使用され得る。これらの効果は、意味役割ラベリング、意味的マッチング、イベント抽出などを含み得るが、これらに限定されない。深層学習および大規模なラベル付きデータに基づいて研究開発された依存構文解析ツールは、オリジナルコメントの構文解析を実行するために使用され得るので、ユーザがオリジナルコメントの関連単語ペア、長距離依存単語ペアなどを直接取得するのに役立つことができる。

ステップ４０４：キーワードおよび文構造に基づいて、ターゲットビデオの内容と一致するオリジナルコメントを選択する。

本実施例では、上記実行主体は、キーワードおよび文構造に基づいて、ターゲットビデオの内容と一致するオリジナルコメントを選択することができる。ここで、文構造が特定され、キーワードがターゲットビデオに表示されるオリジナルコメントは、ターゲットビデオの内容と一致するオリジナルコメントである。

ここで、キーワードに基づく選択は、ターゲットビデオの内容と一致しないオリジナルコメントをフィルタリングすることにより、選択されたオリジナルコメントをターゲットビデオの内容とより一致させることができる。文構造に基づく選択は、弾幕としては適していないオリジナルコメントをフィルタリングすることにより、選択されたオリジナルコメントを弾幕の形式でターゲットビデオの再生中に表示されるのにより適合させることができる。例えば、主語述語関係を持つオリジナルコメントについて、そのキーワードは、人物Ａを含む。ターゲットビデオに人物Ａも表示される場合、このオリジナルコメントは、ターゲットビデオの内容と一致するだけでなく、弾幕として表示されるのにも適している。また例えば、方位関係を持つオリジナルコメントについて、それは、弾幕として表示されるのに適していない。

ステップ４０５：単語をアンカーポイントとして、オリジナルコメントの感情解析を実行し、オリジナルコメントの感情情報を取得する。

本実施例では、上記実行主体は、単語をアンカーポイントとして、オリジナルコメントの感情解析を実行し、オリジナルコメントの感情情報を取得することができる。ここで、オリジナルコメントは、ニュースアプリケーションでオリジナルニュースを閲覧するユーザが発表するコメントであり得る。感情情報は、オリジナルコメントを発表するユーザの態度を表現することができる。

通常、ユーザがオリジナルニュースを閲覧するときに発表するオリジナルコメントは通常、オリジナルニュースを対象とした主観的な説明を持つ。感情傾向解析は、主観的な説明を持つ中国語テキストを対象として、このテキストの感情極性カテゴリを自動的に判断して、適切な信頼度を与えることができる。一般的な感情解析モデルは、感情解析－ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、長短期記憶ネットワーク）、感情解析－ＧＲＵ、対話気分認識などを含み得るが、これらに限定されない。ここで、感情解析－ＬＳＴＭは、ＬＳＴＭ構造に基づいて感情傾向解析を実現するものであり、感情タイプは、ポジティブおよびネガティブに分けられる。感情解析－ＧＲＵは、ＧＲＵ構造に基づいて感情傾向解析を実現するものであり、感情タイプは、ポジティブおよびネガティブに分けられる。対話気分認識は、知能対話シナリオでユーザの気分を認識し、知能対話シナリオのユーザテキストに対して、このテキストの気分タイプを自動的に判断して適切な信頼度を与えるために使用されており、気分タイプは、ポジティブ、ネガティブ、および中性に分けられる。このモデルは、ＴｅｘｔＣＮＮ（マルチボリューム核ＣＮＮモデル）に基づいており、文の局所関連性をより効果的に取得することができる。

ステップ４０６：感情情報に基づいて、ターゲットビデオの内容と一致するオリジナルコメントを選択する。

本実施例では、上記実行主体は、感情情報に基づいて、ターゲットビデオの内容と一致するオリジナルコメントを選択することができる。ここで、ターゲットビデオの感情タイプと同じオリジナルコメントは、ターゲットビデオの内容と一致するオリジナルコメントである。

ここで、感情情報に基づく選択は、ターゲットビデオの感情と一致しないオリジナルコメントをフィルタリングすることにより、選択されたオリジナルコメントをターゲットビデオの感情とより一致させることができる。例えば、人物Ａの死亡を悼むというオリジナルニュースについては、悲しみ、惜しみなどの感情情報を表現するオリジナルコメントを選択することができる。

本願の実施例によって提供されるコメント取得方法は、まず、オリジナルニュースのオリジナルコメントの字句解析を実行し、オリジナルコメントを単語に分解し、次に、単語をアンカーポイントとして、オリジナルコメントの構文解析を実行し、オリジナルコメントのキーワードおよび文構造を取得し、キーワードおよび文構造に基づいて、ターゲットビデオの内容と一致するオリジナルコメントを選択し、同時に、単語をアンカーポイントとして、オリジナルコメントの感情解析を実行し、オリジナルコメントの感情情報を取得し、感情情報に基づいて、ターゲットビデオの内容と一致するオリジナルコメントを選択する。これにより、選択されたオリジナルコメントは、ターゲットビデオの内容と一致するだけでなく、弾幕として表示されるのにも適している。同時に、選択されたオリジナルコメントはまた、ターゲットビデオの感情とより一致する。

さらに図５を参照すると、図５は、本願に係るビデオ処理方法の別の実施例のプロセス５００を示す。このビデオ処理方法は、以下のステップを含む。

ステップ５０１：ターゲットビデオおよびターゲットビデオのターゲットコメントを取得する。

本実施例では、ステップ５０１の具体的な操作は、図２に示す実施例中のステップ２０１において詳細に説明されるため、ここではその説明を省略する。

ステップ５０２：ターゲットビデオ内のピクチャに対して光学文字認識を実行して、ピクチャの文字情報を取得する。

本実施例では、ビデオ処理方法の実行主体（例えば、図１に示すサーバ１０５）は、ＯＣＲ（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、光学文字認識）技術を利用してターゲットビデオ内のピクチャを認識して、ピクチャの文字情報を取得することができる。

通常、ターゲットビデオ内のピクチャ上に文字があるため、ＯＣＲ技術を利用してピクチャの文字情報を認識することができる。ＯＣＲ技術は、様々なアプリケーションシナリオで広く使用されている。計算効率を向上させるために、ＰＰ－ＯＣＲを使用することができる。ＰＰ－ＯＣＲは、主にＤＢテキスト検出、検出ボックス補正、およびＣＲＮＮテキスト認識という三つの部分からなる実用的な超軽量型ＯＣＲである。ＰＰ－ＯＣＲは、バックボーンネットワークの選択と調整、予測ヘッドの設計、データ強化、学習率変換戦略、正則化パラメータの選択、事前訓練モデルの使用、およびモデル自動剪断と定量化という８つの面から、１９個の効果的な戦略を採用して、各モジュールのモデルを効果的にチューニングしてスリミングし、最終的に全体サイズが３．５Ｍの超軽量型中国語・英語ＯＣＲおよび２．８Ｍの英語・数字ＯＣＲを取得する。

ステップ５０３：ターゲットビデオ内のピクチャに対して顔認識を実行して、ピクチャの人物情報を取得する。

本実施例では、上記実行主体は、ターゲットビデオ内のピクチャに対して顔認識を実行して、ピクチャの人物情報を取得することができる。

通常、ターゲットビデオ内のピクチャ上に顔があるため、ピクチャ上の顔を認識して、顔に対応する人物の情報をピクチャのテキスト情報として決定することができる。特に有名人の顔があるピクチャについて、より多くの人物情報を導入することができる。

ステップ５０４：テキスト情報およびターゲットコメントを事前に訓練されたスコア計算モデルに入力して、テキスト情報およびターゲットコメントのスコアを取得する。

本実施例では、上記実行主体は、テキスト情報およびターゲットコメントを事前に訓練されたスコア計算モデルに入力して、テキスト情報およびターゲットコメントのスコアを取得することができる。ここで、スコア計算モデルは、ピクチャのテキスト情報とコメント、および両者間のスコア対応関係を特徴付けるために使用され得、ターゲットビデオ内のピクチャと一致するターゲットコメントを迅速かつ正確に選択することができる。

本実施例のいくつかの任意の実施形態では、上記実行主体は、以下のステップに従って、スコア計算モデルを事前に訓練することができる。

まず、訓練サンプルセットを取得することができる。

ここで、訓練サンプルは、ピクチャのテキスト情報とコメント、およびピクチャのテキスト情報とコメントのラベル付きスコアを含み得る。例えば、ピクチャのテキスト情報とコメントの間の一致度にスコアを手動でラベル付けすることができる。

その後、初期スコア計算モデルのモデル構造を決定し、初期スコア計算モデルのモデルパラメータを初期化することができる。

あるいは、初期スコア計算モデルは、畳み込みニューラルネットワークを含み得る。畳み込みニューラルネットワークが多層ニューラルネットワークであり、各層が複数の二次元平面からなり、各平面が複数の独立したニューロンからなるため、ここでは畳み込みニューラルネットワークタイプの初期スコア計算モデルがどの層（例えば、畳み込み層、プール化層、励起関数層など）を含むか、層間の接続順序関係、各層がどのパラメータ（例えば、重みｗｅｉｇｈｔ、バイアスｂｉａｓ、畳み込みのステップサイズ）を含むかなどを決定する必要がある。ここで、畳み込み層は、特徴を抽出するために使用され得る。各畳み込み層について、畳み込みカーネルの数、各畳み込みカーネルのサイズ、各畳み込みカーネルの各ニューロンの重み、各畳み込みカーネルに対応するバイアス項、隣接する２つの畳み込みの間のステップサイズ、充填の必要度、ピクセル点の充填量、充填値（一般に、充填値は０）などを決定することができる。プール化層は、入力情報のダウンサンプル（ＤｏｗｎＳａｍｐｌｅ）を実行することにより、データとパラメータの量を圧縮して過学習を減らすために使用され得る。各プール化層は、各プール化層のプール化方法を決定することができる（例えば、領域平均値または領域最大値を選択する）。励起関数層は、入力情報の非線形計算を実行するために使用される。各励起関数層について、具体的な励起関数を決定することができる。例えば、活性化関数は、ＲｅＬＵ、ＲｅＬＵの派生する様々な活性化関数、Ｓｉｇｍｏｉｄ関数、Ｔａｎｈ（双曲線正接）関数、Ｍａｘｏｕｔ関数などであり得る。

その後、初期スコア計算モデルのモデルパラメータを初期化することができる。実際には、初期スコア計算モデルの各モデルパラメータは、いくつかの異なる小さな乱数で初期化され得る。「小さな乱数」は、モデルが過度の重みのために飽和状態に入り、訓練が失敗するという場合が発生しないようにするために使用されており、「異なる」は、モデルが正常に学習できるようにするために使用される。

次に、訓練サンプルセットにおける訓練サンプル内のピクチャのテキスト情報とコメントを初期スコア計算モデルの入力とし、訓練サンプル内のラベル付きスコアを初期スコア計算モデルの出力として、機械学習方法を利用して初期スコア計算モデルを訓練することができる。

具体的には、まず、訓練サンプルセットにおける訓練サンプル内のピクチャのテキスト情報とコメントを初期スコア計算モデルに入力して、ピクチャのテキスト情報とコメントのスコアを取得することができる。次に、取得されたスコアとこの訓練サンプル内のラベル付きスコアとの間の差を計算することができる。最後に、計算された差に基づいて、初期スコア計算モデルのモデルパラメータを調整することができ、プリセットの訓練終了条件を満たした場合に訓練が終了する。例えば、ここでのプリセットの訓練終了条件は、訓練時間がプリセット時間を超えたこと、訓練回数がプリセット回数を超えたこと、計算された差がプリセット差閾値を超えたことのうちの少なくとも１つを含み得る。

ここで、様々な実施形態を採用して、取得されたスコアとこの訓練サンプル内のラベル付きスコアとの間の差に基づいて、初期スコア計算モデルのモデルパラメータを調整することができる。例えば、確率的勾配降下法（ＳＧＤ、ＳｔｏｃｈａｓｔｉｃＧｒａｄｉｅｎｔＤｅｓｃｅｎｔ）、ニュートン法（Ｎｅｗｔｏｎ'ｓＭｅｔｈｏｄ）、準ニュートン法（Ｑｕａｓｉ－ＮｅｗｔｏｎＭｅｔｈｏｄｓ）、共役勾配法（ＣｏｎｊｕｇａｔｅＧｒａｄｉｅｎｔ）、ヒューリスティック最適化法、および現在知られているかまたは将来開発される他の様々な最適化アルゴリズムを採用することができる。

最後に、訓練された初期スコア計算モデルを事前に訓練されたスコア計算モデルとして決定することができる。

ステップ５０５：テキスト情報およびターゲットコメントのスコアに基づいて、テキスト情報の内容がターゲットコメントと一致するか否かを決定する。

本実施例では、上記実行主体は、テキスト情報およびターゲットコメントのスコアに基づいて、テキスト情報の内容がターゲットコメントと一致するか否かを決定することができる。例えば、スコアがプリセット閾値よりも高いターゲットコメントを、ピクチャのテキスト情報の内容と一致するターゲットコメントを決定する。また例えば、スコアが最も高いターゲットコメントを、テキスト情報の内容と一致するターゲットコメントを決定する。

ステップ５０６：ターゲットビデオ内のピクチャの表示時刻に内容と一致するターゲットコメントを弾幕の形式で挿入する。

本実施例では、ステップ５０６の具体的な操作は、図２に示す実施例中のステップ２０４において詳細に説明されるため、ここではその説明を省略する。

図５から分かるように、本実施例のビデオ処理方法は、図２に対応する実施例と比べて、ターゲットビデオ内のピクチャをターゲットコメントと一致させるステップを強調している。従って、本実施例に記載の解決手段は、ターゲットビデオ内のピクチャおよびターゲットコメントから十分な情報を取得し、スコア計算モデルを利用してターゲットビデオ内のターゲットコメントの表示時刻を決定し、この時刻にターゲットコメントを弾幕の形式で挿入することにより、ビデオが再生されるとき、特定の内容に対応するコメントについて、特定の内容に対応するピクチャを表示することができるので、ユーザがコメントを理解するのに役立ち、さらにビデオ視聴者がコメントに基づいて対話するのに役立つ。

さらに図６を参照すると、上記の各図に示す方法の実施形態として、本願は、図２に示す方法の実施例に対応するビデオ処理装置の実施例を提供する。この装置は、様々な電子デバイスに特に適用できる。

図６に示すように、本実施例のビデオ処理装置６００は、取得モジュール６０１、認識モジュール６０２、決定モジュール６０３、および挿入モジュール６０４を含み得る。取得モジュール６０１は、ターゲットビデオおよびターゲットビデオのターゲットコメントを取得するように構成される。認識モジュール６０２は、ターゲットビデオ内のピクチャを認識して、ピクチャのテキスト情報を取得するように構成される。決定モジュール６０３は、テキスト情報の内容と一致するターゲットコメントを決定するように構成される。挿入モジュール６０４は、ターゲットビデオ内のピクチャの表示時刻に内容と一致するターゲットコメントを弾幕の形式で挿入するように構成される。

本実施例では、ビデオ処理装置６００の取得モジュール６０１、認識モジュール６０２、決定モジュール６０３、および挿入モジュール６０４の具体的な処理とその技術的効果については、それぞれ図２に対応する実施例のステップ２０１－２０４の関連説明を参照されたいが、ここでは繰り返さない。

本実施例のいくつかの任意の実施形態では、取得モジュール６０１は、オリジナルニュースを取得するように構成された第一取得サブモジュールと、オリジナルニュースに関連するオリジナルビデオを検索するように構成された検索サブモジュールと、オリジナルニュースの要約抽出を実行して、オリジナルニュースの解説文を取得するように構成された抽出サブモジュールと、解説文に基づいてビデオ音声を生成し、オリジナルニュースおよびオリジナルビデオに基づいて、ビデオ音声に対応するビデオ画面を生成するように構成された生成サブモジュールと、ビデオ画面およびビデオ音声を合成して、ターゲットビデオを取得するように構成された合成サブモジュールと、を含む。

本実施例のいくつかの任意の実施形態では、検索サブモジュールは、オリジナルニュースのオリジナルコメントを取得することと、オリジナルニュースおよび／またはオリジナルコメントの内容に基づいて、オリジナルビデオを検索することと、を実行するようにさらに構成される。

本実施例のいくつかの任意の実施形態では、取得モジュール６０１は、オリジナルニュースのオリジナルコメントを取得するように構成された第二取得サブモジュールと、ターゲットビデオの内容と一致するオリジナルコメントをターゲットコメントとして選択するように構成された選択サブモジュールと、を含む。

本実施例のいくつかの任意の実施形態では、選択サブモジュールは、オリジナルコメントの字句解析を実行し、オリジナルコメントを単語に分解するように構成された分解ユニットと、単語をアンカーポイントとして、オリジナルコメントを解析し、ターゲットビデオの内容と一致するオリジナルコメントを選択するように構成された選択ユニットと、を含む。

本実施例のいくつかの任意の実施形態では、選択ユニットは、単語をアンカーポイントとして、オリジナルコメントの構文解析を実行し、オリジナルコメントのキーワードおよび文構造を取得することと、キーワードおよび文構造に基づいて、ターゲットビデオの内容と一致するオリジナルコメントを選択することと、を実行するようにさらに構成される。

本実施例のいくつかの任意の実施形態では、選択ユニットは、単語をアンカーポイントとして、オリジナルコメントの感情解析を実行し、オリジナルコメントの感情情報を取得することと、感情情報に基づいて、ターゲットビデオの内容と一致するオリジナルコメントを選択することと、を実行するようにさらに構成される。

本実施例のいくつかの任意の実施形態では、認識モジュール６０２は、ターゲットビデオ内のピクチャに対して光学文字認識を実行して、ピクチャの文字情報を取得するようにさらに構成される。

本実施例のいくつかの任意の実施形態では、認識モジュール６０２は、ターゲットビデオ内のピクチャに対して顔認識を実行して、ピクチャの人物情報を取得するようにさらに構成される。

本実施例のいくつかの任意の実施形態では、決定モジュール６０３は、テキスト情報およびターゲットコメントを事前に訓練されたスコア計算モデルに入力して、テキスト情報およびターゲットコメントのスコアを取得することと、テキスト情報およびターゲットコメントのスコアに基づいて、テキスト情報の内容がターゲットコメントと一致するか否かを決定することと、を取得するようにさらに構成される。

本願の実施例によれば、本願は、電子デバイス、可読記憶媒体、およびコンピュータプログラム製品をさらに提供する。

図７は、本開示の実施例を実施するために使用され得る例示的な電子デバイス７００の概略ブロック図を示す。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子デバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は単なる例示であり、本明細書に説明および／または請求される本開示の実施形態を限定することを意図したものではない。

図７に示すように、デバイス７００は、リードオンリメモリ（ＲＯＭ）７０２に記憶されたコンピュータプログラム、または記憶ユニット７０８からランダムアクセスメモリ（ＲＡＭ）７０３にロードされたコンピュータプログラムに従って、各種の適切な動作および処理を実行することができる計算ユニット７０１を含む。ＲＡＭ７０３には、デバイス７００の動作に必要な各種のプログラムおよびデータも記憶され得る。計算ユニット７０１、ＲＯＭ７０２、およびＲＡＭ７０３は、バス７０４を介して互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース７０５も、バス７０４に接続される。

デバイス７００内の複数のコンポーネントは、Ｉ／Ｏインターフェース７０５に接続されており、キーボード、マウスなどの入力ユニット７０６と、各種のディスプレイ、スピーカーなどの出力ユニット７０７と、磁気ディスク、光ディスクなどの記憶ユニット７０８と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット７０９と、を含む。通信ユニット７０９は、デバイス７００が、インターネットなどのコンピュータネットワーク、および／または様々な通信ネットワークを介して、他の装置との間で情報／データを交換することを可能にする。

計算ユニット７０１は、処理能力および計算能力を備えた様々な汎用および／または専用の処理コンポーネントであり得る。計算ユニット７０１のいくつかの例は、中央処理装置（ＣＰＵ）、グラフィックス処理ユニット（ＧＰＵ）、様々な専用の人工知能（ＡＩ）計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ（ＤＳＰ）、任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット７０１は、上記様々な方法および処理、例えば、ビデオ処理方法を実行する。例えば、いくつかの実施例では、ビデオ処理方法は、記憶ユニット７０８などの機械可読媒体に具体的に含まれるコンピュータソフトウェアプログラムとして実装され得る。いくつかの実施例では、コンピュータプログラムの一部または全部は、ＲＯＭ７０２および／または通信ユニット７０９を介して、デバイス７００にロードおよび／またはインストールされ得る。コンピュータプログラムがＲＡＭ７０３にロードされ、計算ユニット７０１によって実行されると、上記ビデオ処理方法の１つまたは複数のステップが実行され得る。あるいは、他の実施例では、計算ユニット７０１は、他の任意の適切な手段（例えば、ファームウェア）を介して、ビデオ処理方法を実行するように構成され得る。

本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途用標準品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、ロードプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実装され得る。これらの様々な実施形態は、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信したり、この記憶システム、この少なくとも１つの入力装置、およびこの少なくとも１つの出力装置にデータおよび命令を送信したりすることができる専用又は汎用のプログラマブルプロセッサであり得る少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行および／または解釈され得る１つまたは複数のコンピュータプログラムに実装されることを含み得る。

本開示の方法を実施するためのプログラムコードは、１つまたは複数のプログラミング言語の任意の組み合わせで書かれ得る。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供され得るので、プログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび／またはブロック図で指定された機能／動作が実行される。プログラムコードは、完全にマシン上で実行され得るか、または部分的にマシン上で実行され得るか、または独立したソフトウェアパッケージとして、部分的にマシン上で、部分的にリモートマシン上で実行され得るか、または完全にリモートマシンまたはサーバ上で実行され得る。

本開示の文脈において、機械可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれらと組み合わせて使用するためのプログラムを含むかまたは記憶することができる有形媒体であり得る。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置またはデバイス、または上記の任意の適切な組み合わせを含み得るが、これらに限定されない。機械可読記憶媒体のより具体的な例は、１本または複数本の導線を備えた電気コネクタ、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリメモリ（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブル・コンパクト・ディスク・リードオンリメモリ（ＣＤ－ＲＯＭ）、光学メモリ、磁気メモリ、または上記の任意の適切な組み合わせを含む。

ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、情報をユーザに表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザが入力をコンピュータに提供することを可能にするキーボードとポインティングデバイス（例えば、マウスまたはトラックボール）とを備えたコンピュータに実装され得る。他のタイプの装置は、ユーザとの対話を提供するためにも使用されており、例えば、任意の形態の感覚フィードバック（例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック）をユーザに提供したり、任意の形態（音響入力、音声入力、および触覚入力を含む形態）を使用してユーザからの入力を受信したりするために使用され得る。

本明細書に記載のシステムおよび技術は、バックエンドコンポーネント（例えば、データサーバ）を含むコンピュータシステム、ミドルウェアコンポーネント（例えば、アプリケーションサーバ）を含むコンピュータシステム、フロントエンドコンポーネント（例えば、ユーザが本明細書に記載のシステムおよび技術の実施形態と対話することを可能にするグラフィカルユーザインターフェースまたはウェブブラウザを備えたユーザコンピュータ）を含むコンピュータシステム、または、これらバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムに実装され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体（例えば、通信ネットワーク）を介して互いに接続され得る。通信ネットワークの例は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、およびインターネットを含む。

コンピュータシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは通常、互いに遠く離れており、通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータで実行され、クライアント－サーバの関係を有するコンピュータプログラムによって生成される。

ステップの並べ替え、追加、または削除は、上記様々な形態のプロセスによって実行され得ることを理解されたい。例えば、本開示に記載の各ステップは、本開示に開示された技術的解決手段の所望の結果が達成できる限り、並行して、順次に、または異なる順序で実行され得るが、本明細書に限定されない。

上記特定の実施形態は、本開示の保護範囲を限定するものではない。設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的組み合わせおよび置換を行うことができることは、当業者にとって明らかであろう。本開示の精神と原則の範囲内で行われたあらゆる修正、同等置換、改良などは、本開示の保護範囲に含まれるべきである。

Claims

ビデオ処理装置により実行されるビデオ処理方法であって、
ターゲットビデオおよび前記ターゲットビデオのターゲットコメントを取得することと、
前記ターゲットビデオ内のピクチャを認識して、前記ピクチャのテキスト情報を取得することと、
前記テキスト情報の内容と一致するターゲットコメントを決定することと、
前記ターゲットビデオ内の前記ピクチャの表示時刻に前記内容と一致するターゲットコメントを弾幕の形式で挿入することと、を含み、
前述したターゲットビデオを取得することは、
オリジナルニュースを取得することと、
前記オリジナルニュースに関連するオリジナルビデオを検索することと、
前記オリジナルニュースの要約抽出を実行して、前記オリジナルニュースの解説文を取得することと、
前記解説文に基づいてビデオ音声を生成し、前記オリジナルニュースおよび前記オリジナルビデオに基づいて、前記ビデオ音声に対応するビデオ画面を生成することと、
前記ビデオ画面および前記ビデオ音声を合成して、前記ターゲットビデオを取得することと、
を含む、ビデオ処理方法。
前述した前記オリジナルニュースに関連するオリジナルビデオを検索することは、
前記オリジナルニュースのオリジナルコメントを取得することと、
前記オリジナルニュースおよび／または前記オリジナルコメントの内容に基づいて、前記オリジナルビデオを検索することと、
を含む請求項１に記載のビデオ処理方法。
前述した前記ターゲットビデオのターゲットコメントを取得することは、
前記オリジナルニュースのオリジナルコメントを取得することと、
前記ターゲットビデオの内容と一致するオリジナルコメントを前記ターゲットコメントとして選択することと、
を含む請求項１に記載のビデオ処理方法。
前述した前記ターゲットビデオの内容と一致するオリジナルコメントを選択することは、
前記オリジナルコメントの字句解析を実行し、前記オリジナルコメントを単語に分解することと、
前記単語をアンカーポイントとして、前記オリジナルコメントを解析し、前記ターゲットビデオの内容と一致するオリジナルコメントを選択することと、
を含む請求項３に記載のビデオ処理方法。
前述した前記単語をアンカーポイントとして、前記オリジナルコメントを解析し、前記ターゲットビデオの内容と一致するオリジナルコメントを選択することは、
前記単語をアンカーポイントとして、前記オリジナルコメントの構文解析を実行し、前記オリジナルコメントのキーワードおよび文構造を取得することと、
前記キーワードおよび前記文構造に基づいて、前記ターゲットビデオの内容と一致するオリジナルコメントを選択することと、
を含む請求項４に記載のビデオ処理方法。
前述した前記単語をアンカーポイントとして、前記オリジナルコメントを解析し、前記ターゲットビデオの内容と一致するオリジナルコメントを選択することは、
前記単語をアンカーポイントとして、前記オリジナルコメントの感情解析を実行し、前記オリジナルコメントの感情情報を取得することと、
前記感情情報に基づいて、前記ターゲットビデオの内容と一致するオリジナルコメントを選択することと、
を含む請求項４に記載のビデオ処理方法。
前述した前記ターゲットビデオ内のピクチャを認識して、前記ピクチャのテキスト情報を取得することは、
前記ターゲットビデオ内のピクチャに対して光学文字認識を実行して、前記ピクチャの文字情報を取得すること、
を含む請求項１に記載のビデオ処理方法。
前述した前記ターゲットビデオ内のピクチャを認識して、前記ピクチャのテキスト情報を取得することは、
前記ターゲットビデオ内のピクチャに対して顔認識を実行して、前記ピクチャの人物情報を取得すること、
を含む請求項１に記載のビデオ処理方法。
前述した前記テキスト情報の内容と一致するターゲットコメントを決定することは、
前記テキスト情報および前記ターゲットコメントを事前に訓練されたスコア計算モデルに入力して、前記テキスト情報および前記ターゲットコメントのスコアを取得することと、
前記テキスト情報および前記ターゲットコメントのスコアに基づいて、前記テキスト情報の内容が前記ターゲットコメントと一致するか否かを決定することと、
を含む請求項１に記載のビデオ処理方法。
ターゲットビデオおよび前記ターゲットビデオのターゲットコメントを取得するように構成された取得モジュールと、
前記ターゲットビデオ内のピクチャを認識して、前記ピクチャのテキスト情報を取得するように構成された認識モジュールと、
前記テキスト情報の内容と一致するターゲットコメントを決定するように構成された決定モジュールと、
前記ターゲットビデオ内の前記ピクチャの表示時刻に前記内容と一致するターゲットコメントを弾幕の形式で挿入するように構成された挿入モジュールと、を含み、
前記取得モジュールは、
オリジナルニュースを取得するように構成された第一取得サブモジュールと、
前記オリジナルニュースに関連するオリジナルビデオを検索するように構成された検索サブモジュールと、
前記オリジナルニュースの要約抽出を実行して、前記オリジナルニュースの解説文を取得するように構成された抽出サブモジュールと、
前記解説文に基づいてビデオ音声を生成し、前記オリジナルニュースおよび前記オリジナルビデオに基づいて、前記ビデオ音声に対応するビデオ画面を生成するように構成された生成サブモジュールと、
前記ビデオ画面および前記ビデオ音声を合成して、前記ターゲットビデオを取得するように構成された合成サブモジュールと、
を含む、ビデオ処理装置。
前記検索サブモジュールは、
前記オリジナルニュースのオリジナルコメントを取得することと、
前記オリジナルニュースおよび／または前記オリジナルコメントの内容に基づいて、前記オリジナルビデオを検索することと、
を実行するようにさらに構成される請求項１０に記載のビデオ処理装置。
前記取得モジュールは、
前記オリジナルニュースのオリジナルコメントを取得するように構成された第二取得サブモジュールと、
前記ターゲットビデオの内容と一致するオリジナルコメントを前記ターゲットコメントとして選択するように構成された選択サブモジュールと、
を含む請求項１０に記載のビデオ処理装置。
前記選択サブモジュールは、
前記オリジナルコメントの字句解析を実行し、前記オリジナルコメントを単語に分解するように構成された分解ユニットと、
前記単語をアンカーポイントとして、前記オリジナルコメントを解析し、前記ターゲットビデオの内容と一致するオリジナルコメントを選択するように構成された選択ユニットと、
を含む請求項１２に記載のビデオ処理装置。
前記選択ユニットは、
前記単語をアンカーポイントとして、前記オリジナルコメントの構文解析を実行し、前記オリジナルコメントのキーワードおよび文構造を取得することと、
前記キーワードおよび前記文構造に基づいて、前記ターゲットビデオの内容と一致するオリジナルコメントを選択することと、
を実行するようにさらに構成される請求項１３に記載のビデオ処理装置。
前記選択ユニットは、
前記単語をアンカーポイントとして、前記オリジナルコメントの感情解析を実行し、前記オリジナルコメントの感情情報を取得することと、
前記感情情報に基づいて、前記ターゲットビデオの内容と一致するオリジナルコメントを選択することと、
を実行するようにさらに構成される請求項１３に記載のビデオ処理装置。
前記認識モジュールは、
前記ターゲットビデオ内のピクチャに対して光学文字認識を実行して、前記ピクチャの文字情報を取得すること、
を実行するようにさらに構成される請求項１０に記載のビデオ処理装置。
前記認識モジュールは、
前記ターゲットビデオ内のピクチャに対して顔認識を実行して、前記ピクチャの人物情報を取得すること、
を実行するようにさらに構成される請求項１０に記載のビデオ処理装置。
前記決定モジュールは、
前記テキスト情報および前記ターゲットコメントを事前に訓練されたスコア計算モデルに入力して、前記テキスト情報および前記ターゲットコメントのスコアを取得することと、
前記テキスト情報および前記ターゲットコメントのスコアに基づいて、前記テキスト情報の内容が前記ターゲットコメントと一致するか否かを決定することと、
を実行するようにさらに構成される請求項１０に記載のビデオ処理装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されたメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが請求項１－９のいずれか一項に記載の方法を実行できるように、前記少なくとも１つのプロセッサによって実行される、
電子デバイス。
請求項１－９のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１－９のいずれか一項に記載の方法を実行するコンピュータプログラム。