JP7355865B2 - ビデオ処理方法、装置、デバイスおよび記憶媒体 - Google Patents

ビデオ処理方法、装置、デバイスおよび記憶媒体 Download PDF

Info

Publication number
JP7355865B2
JP7355865B2 JP2022023611A JP2022023611A JP7355865B2 JP 7355865 B2 JP7355865 B2 JP 7355865B2 JP 2022023611 A JP2022023611 A JP 2022023611A JP 2022023611 A JP2022023611 A JP 2022023611A JP 7355865 B2 JP7355865 B2 JP 7355865B2
Authority
JP
Japan
Prior art keywords
original
comment
video
target
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022023611A
Other languages
English (en)
Other versions
JP2022075668A (ja
Inventor
ルー、ダミン
フ、イチェン
チェン、シ
ティアン、ハオ
リ、シン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Baidu USA LLC
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd, Baidu USA LLC filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022075668A publication Critical patent/JP2022075668A/ja
Application granted granted Critical
Publication of JP7355865B2 publication Critical patent/JP7355865B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/478Supplemental services, e.g. displaying phone caller identification, shopping application
    • H04N21/4788Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4886Data services, e.g. news ticker for displaying a ticker, e.g. scrolling banner for news, stock exchange, weather data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23412Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs for generating or manipulating the scene composition of objects, e.g. MPEG-4 objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4882Data services, e.g. news ticker for displaying messages, e.g. warnings, reminders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Electrically Operated Instructional Devices (AREA)

Description

本願の実施例は、コンピュータの分野、具体的には自然言語処理、コンピュータビジョン、深層学習などの人工知能分野、特にビデオ処理方法、装置、デバイスおよび記憶媒体に関する。
ネットワーク技術の発展に伴い、様々なビデオアプリケーションは次々と登場している。ビデオ視聴者間の対話を強化するために、ビデオアプリケーションは、ビデオ視聴者がコメントを追加し、また、これらのコメントがビデオ再生中にビデオ画面を流れることを可能にする。多くのコメントがビデオ画面を流れるときにフライトデザインゲームでの弾幕のようであるので、これらのコメントは弾幕とも呼ばれる。しかし、ビデオ視聴者によって発表された弾幕は通常、発表ボタンが押されてから、ビデオ画面を流れる。
本願の実施例は、ビデオ処理方法、装置、デバイスおよび記憶媒体を提供する。
第一様態では、本願の実施例は、ビデオ処理方法を提供する。この方法は、ターゲットビデオおよびターゲットビデオのターゲットコメントを取得することと、ターゲットビデオ内のピクチャを認識して、ピクチャのテキスト情報を取得することと、テキスト情報の内容と一致するターゲットコメントを決定することと、ターゲットビデオ内のピクチャの表示時刻に内容と一致するターゲットコメントを弾幕の形式で挿入することと、を含む。
第二様態では、本願の実施例は、ビデオ処理装置を提供する。この装置は、ターゲットビデオおよびターゲットビデオのターゲットコメントを取得するように構成された取得モジュールと、ターゲットビデオ内のピクチャを認識して、ピクチャのテキスト情報を取得するように構成された認識モジュールと、テキスト情報の内容と一致するターゲットコメントを決定するように構成された決定モジュールと、ターゲットビデオ内のピクチャの表示時刻に内容と一致するターゲットコメントを弾幕の形式で挿入するように構成された挿入モジュールと、を含む。
第三様態では、本願の実施例は、電子デバイスを提供する。この電子デバイスは、少なくとも1つのプロセッサと、少なくとも1つのプロセッサに通信接続されたメモリと、を含み、このメモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されており、この命令は、少なくとも1つのプロセッサが第一様態の任意の実施形態に記載の方法を実行できるように、少なくとも1つのプロセッサによって実行される。
第四様態では、本願の実施例は、第一様態の任意の実施形態に記載の方法をコンピュータに実行させるためのコンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体を提供する。
第五態様では、本願の実施例は、プロセッサによって実行されると、第一様態の任意の実施形態に記載の方法を実行するコンピュータプログラムを含むコンピュータプログラム製品を提供する。
本願の実施例によって提供されるビデオ処理方法、装置、デバイスおよび記憶媒体は、まず、ターゲットビデオおよびターゲットビデオのターゲットコメントを取得し、次に、ターゲットビデオ内のピクチャを認識して、ピクチャのテキスト情報を取得し、次に、テキスト情報の内容と一致するターゲットコメントを決定し、最後に、ターゲットビデオ内のピクチャの表示時刻に内容と一致するターゲットコメントを弾幕の形式で挿入する。内容と一致するコメントをビデオ内のピクチャの表示時刻に基づいて挿入することは、ビデオが再生されるとき、特定の内容に対応するコメントについて、特定の内容に対応するピクチャを表示することができるので、ユーザがコメントを理解するのに役立ち、さらにビデオ視聴者がコメントに基づいて対話するのに役立つ。
このセクションで説明される内容は、本開示の実施例の主要または重要な特徴を特定することを意図するものではなく、また、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の説明から容易に理解されるであろう。
本願の他の特徴、目的および利点は、以下の図面で行われる非限定的な実施例についての詳細な説明からより明らかになるであろう。図面は、本実施例をより明確に理解するために使用されており、本願を限定するものではない。
本願が適用され得る例示的なシステムアーキテクチャを示す図である。 本願に係るビデオ処理方法の一実施例のフローチャートである。 本願に係るビデオ取得方法の一実施例のフローチャートである。 本願に係るコメント取得方法の一実施例のフローチャートである。 本願に係るビデオ処理方法の別の実施例のフローチャートである。 本願に係るビデオ処理装置の一実施例の構造概略図である。 本願の実施例に係るビデオ処理方法を実行するための電子デバイスのブロック図である。
本願の例示的な実施例は、理解を容易にするための本願の実施例の様々な詳細を含む図面と併せて以下に説明され、単なる例示と見なされるべきである。従って、本願の範囲および精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更および修正を行うことができることは、当業者にとって理解されるであろう。同様に、明瞭性と簡潔性の観点から、公知の機能と構造に関する説明は、以下の説明において省略される。
なお、本願の実施例および実施例の特徴は、矛盾しない限り、互いに組み合わせることができる。以下、図面および実施例を参照して本願を詳細に説明する。
図1は、本願のビデオ処理方法またはビデオ処理装置の実施例が適用され得る例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、およびサーバ105を含み得る。ネットワーク104は、端末装置101、102、103とサーバ105との間の通信リンクを提供するための媒体である。ネットワーク104は、有線、無線通信リンク、または光ファイバケーブルなどの様々な接続タイプを含み得る。
ユーザは、端末装置101、102、103を使用してネットワーク104を介してサーバ105と対話して、ビデオフレームなどを送受信することができる。端末装置101、102、103には、ニュースアプリケーション、ウェブブラウザアプリケーション、検索アプリケーションなどの様々なクライアントアプリケーションがインストールされ得る。
端末装置101、102、103は、ハードウェアであり得るか、またはソフトウェアであり得る。端末装置101、102、103がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、ラップトップポータブルコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されない、様々な電子デバイスであり得る。端末装置101、102、103がソフトウェアである場合、それらは、上記電子デバイスにインストールされ得る。それらは、複数のソフトウェアまたはソフトウェアモジュールとして実装され得るか、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得る。ここでは特に限定されない。
サーバ105は様々なサービスを提供することができる。例えば、サーバ105は、端末装置101、102、103に表示されたビデオを解析して処理し、処理結果を生成することができる(例えば、適切な時刻に弾幕に挿入されたビデオ)。
なお、サーバ105は、ハードウェアであり得るか、またはソフトウェアであり得る。サーバ105がハードウェアである場合、それは、複数のサーバからなる分散サーバクラスタとして実装され得るか、または単一のサーバとして実装され得る。サーバ105がソフトウェアである場合、それは、複数のソフトウェアまたはソフトウェアモジュール(例えば、分散サービスを提供するためのもの)として実装され得るか、または単一のソフトウェアまたはソフトウェアモジュールとして実装され得る。ここでは特に限定されない。
なお、本願の実施例によって提供されるビデオ処理方法が一般にサーバ105によって実行されるため、ビデオ処理装置は、一般にサーバ105に配置される。
図1中の端末装置、ネットワーク、およびサーバの数は、単なる例示であることを理解されたい。実際のニーズに応じて、端末装置、ネットワーク、およびサーバの数が任意に設定され得る。
さらに図2を参照すると、図2は、本願に係るビデオ処理方法の一実施例のプロセス200を示す。このビデオ処理方法は、以下のステップを含む。
ステップ201:ターゲットビデオおよびターゲットビデオのターゲットコメントを取得する。
本実施例では、ビデオ処理方法の実行主体(例えば、図1に示すサーバ105)は、ターゲットビデオおよびターゲットビデオのターゲットコメントを取得することができる。ここで、ターゲットビデオは、特定の内容を記録するビデオであり得る。ターゲットコメントは、ユーザが特定の内容について発表するコメントであり得る。
本実施例のいくつかの任意の実施形態では、ターゲットビデオは、ビデオアプリケーションによって提供されたビデオであり得る。ターゲットコメントは、ビデオアプリケーションでターゲットビデオを見ているユーザが発表するコメントであり得る。通常、ユーザがビデオアプリケーションでターゲットビデオを再生するとき、ビデオアプリケーションは、特定の場所にコメント入力欄を提供することができる。ユーザは、コメント入力欄にコメントを入力して発表することができる。ここで、ターゲットビデオがコメント入力欄に隠されることを避けるために、コメント入力欄は通常、ターゲットビデオの下方に設けられる。場合によっては、ターゲットビデオがコメントに隠されることを避けるために、ユーザによって発表されたコメントは、ターゲットビデオの下方に表示され得る。場合によっては、ターゲットビデオを見ているユーザ間の対話を実現するために、ユーザによって発表されたコメントは、弾幕の形式でターゲットビデオに表示され得る。
本実施例のいくつかの任意の実施形態では、ターゲットビデオは、ニュースイベントについてのビデオであり得る。ターゲットコメントは、ユーザがニュースイベントについて発表するコメントであり得る。例えば、ターゲットビデオは、ニュースイベントのオリジナルニュースに基づいて合成されたビデオであり得る。ターゲットコメントは、オリジナルニュースを閲覧するユーザが発表するコメントであり得る。通常、ユーザがニュースアプリケーションでオリジナルニュースを閲覧するとき、ニュースアプリケーションは、特定の場所にコメント入力欄を提供することができる。ユーザは、コメント入力欄にコメントを入力して発表することができる。ここで、オリジナルニュースがコメント入力欄およびコメントに隠されることを避けるために、コメント入力欄は通常、オリジナルニュースの下方に設けられる。ユーザによって発表されたコメントは通常、オリジナルニュースの下方に表示される。ここで、オリジナルニュースは、ニュースイベントについての様々な形式の電子データであり得る。ニュースイベントは、社会イベント、財経イベント、娯楽イベント、科学技術イベント、軍事イベント、架空の物語などを含むがこれらに限定されない、テキスト、画像、音声、ビデオなどの任意の形式で記録された任意のタイプのオリジナルイベント素材であり得る。オリジナルニュースは、テキスト、画像、音声、ビデオのうちの少なくとも1つを含み得る。例えば、オリジナルニュースは、ウェブページであり得る。ウェブページは、テキスト、画像、音声、ビデオのうちの少なくとも1つを含み得る。さらに、オリジナルニュースは、テキスト、画像、またはビデオだけであり得る。
ここで、ターゲットコメントは、ユーザが特定の内容について発表するコメントの全部または一部であり得る。通常、ターゲットコメントをターゲットビデオの内容と一致させるために、ユーザが特定の内容について発表するコメントをフィルタリングして、ターゲットビデオの内容と一致するコメントのみをターゲットコメントとして保留することができる。例えば、ターゲットビデオがニュースイベントのオリジナルニュースに基づいて合成されたビデオである場合、オリジナルニュースのオリジナルコメントを取得し、ターゲットビデオの内容と一致するオリジナルコメントをターゲットコメントとして選択することができる。ここで、オリジナルコメントは、ニュースアプリケーションでオリジナルニュースを閲覧するユーザが発表するコメントであり得る。
本実施例のいくつかの任意の実施形態では、上記実行主体は、まず、オリジナルコメントの字句解析を実行し、オリジナルコメントを単語に分解し、次に、単語をアンカーポイントとして、オリジナルコメントを解析し、ターゲットビデオの内容と一致するオリジナルコメントを選択することができる。ここで、オリジナルコメントは通常、中国語コメントである。英語コメントとは異なり、中国語コメントの中国語単語は、スペースで区切られていない。単語分解精度を向上させるために、LAC(Lexical Analysis of Chinese、中国語字句解析)を使用してオリジナルコメントを単語に分解することができる。ここで、LACは、中国語単語分解、単語性質ラベリング、固有名詞認識などのNLP(Natural Language Processing、自然言語処理)タスクを全体的に完了することができる組み合わせ型字句解析モデルである。LACは、積み重ねられた双方向GRU(Gated Recurrent Unit、ゲート付き回帰型ユニット)構造に基づいて、AI(Artificial Intelligence、人工知能)オープンプラットフォーム上の字句解析アルゴリズムを長いテキストに正確に複製する。
ステップ202:ターゲットビデオ内のピクチャを認識して、ピクチャのテキスト情報を取得する。
本実施例では、上記実行主体は、ターゲットビデオ内の各フレームのピクチャを認識して、ピクチャのテキスト情報を取得することができる。ここで、ピクチャのテキスト情報は、ピクチャの内容を説明するために使用され得る。場合によっては、ピクチャ上に文字があるため、ピクチャ上の文字を認識して、ピクチャのテキスト情報として決定することができる。場合によっては、ピクチャ上に顔があるため、ピクチャ上の顔を認識して、顔に対応する人物の情報をピクチャのテキスト情報として決定することができる。
ステップ203:テキスト情報の内容と一致するターゲットコメントを決定する。
本実施例では、上記実行主体は、テキスト情報の内容と一致するターゲットコメントを決定することができる。具体的には、ターゲットコメントごとに、このターゲットコメントの内容をピクチャのテキスト情報の内容と一致させ、比較結果に基づいて、内容が一致するか否かを決定することができる。例えば、一致度がプリセット閾値よりも高いターゲットコメントを、ピクチャのテキスト情報の内容と一致するターゲットコメントを決定する。また例えば、一致度が最も高いターゲットコメントを、テキスト情報の内容と一致するターゲットコメントを決定する。
ステップ204:ターゲットビデオ内のピクチャの表示時刻に内容と一致するターゲットコメントを弾幕の形式で挿入する。
本実施例では、上記実行主体は、ターゲットビデオ内のピクチャの表示時刻に内容と一致するターゲットコメントを弾幕の形式で挿入することができる。
具体的には、ターゲットビデオを再生する際に、ある時刻にピクチャが表示されている場合、上記実行主体は、この時刻に内容と一致するターゲットコメントを挿入することができるので、内容と一致するコメントを、内容と一致するピクチャに対応して表示することができる。また、内容と一致するターゲットコメントを弾幕の形式でターゲットビデオに表示することができるので、ターゲットビデオを見ているユーザ間の対話を実現することができる。例えば、映画および映画評論について、映画中の箇所にその内容と一致する映画評論を挿入する。このようにして、映画が再生されたときの映画評論の適当な箇所に基づいて、その内容と一致する映画評論に対応する弾幕を再生することができる。
本願の実施例によって提供されるビデオ処理方法は、まず、ターゲットビデオおよびターゲットビデオのターゲットコメントを取得し、次に、ターゲットビデオ内のピクチャを認識して、ピクチャのテキスト情報を取得し、次に、テキスト情報の内容と一致するターゲットコメントを決定し、最後に、ターゲットビデオ内のピクチャの表示時刻に内容と一致するターゲットコメントを弾幕の形式で挿入する。内容と一致するコメントをビデオ内のピクチャの表示時刻に基づいて挿入することは、ビデオが再生されるとき、特定の内容に対応するコメントについて、特定の内容に対応するピクチャを表示することができるので、ユーザがコメントを理解するのに役立ち、さらにビデオ視聴者がコメントに基づいて対話するのに役立つ。
さらに図3を参照すると、図3は、本願に係るビデオ取得方法の一実施例のプロセス300を示す。このビデオ取得方法は、以下のステップを含む。
ステップ301:オリジナルニュースを取得する。
本実施例では、ビデオ取得方法の実行主体(例えば、図1に示すサーバ105)は、オリジナルニュースを取得することができる。ここで、オリジナルニュースは、ニュースアプリケーションによって提供されるニュースであり得る。オリジナルニュースは、ニュースイベントについての様々な形式の電子データであり得る。ニュースイベントは、社会イベント、財経イベント、娯楽イベント、科学技術イベント、軍事イベント、架空の物語などを含むがこれらに限定されない、テキスト、画像、音声、ビデオなどの任意の形式で記録された任意のタイプのオリジナルイベント素材であり得る。オリジナルニュースは、テキスト、画像、音声、ビデオのうちの少なくとも1つを含み得る。例えば、オリジナルニュースは、ウェブページであり得る。ウェブページは、テキスト、画像、音声、ビデオのうちの少なくとも1つを含み得る。さらに、オリジナルニュースは、テキスト、画像、またはビデオだけであり得る。
ステップ302:オリジナルニュースに関連するオリジナルビデオを検索する。
本実施例では、上記実行主体は、オリジナルニュースに関連するオリジナルビデオを検索することができる。ここで、オリジナルビデオは、オリジナルニュースに直接的または間接的に関連する。
本実施例のいくつかの任意の実施形態では、上記実行主体は、まず、オリジナルニュースのオリジナルコメントを取得し、次に、オリジナルニュースおよび/またはオリジナルコメントの内容に基づいて、オリジナルビデオを検索することができる。通常、オリジナルニュースの内容に基づいて検索されたオリジナルビデオは、オリジナルニュースに直接的に関連する。オリジナルコメントの内容に基づいて検索されたオリジナルビデオは、オリジナルニュースに直接的または間接的に関連する。例えば、オリジナルニュースは、人物Aについてのニュースである。人物Aについてのニュースに基づいて検索されたオリジナルビデオは、人物Aについてのビデオである。人物Aについてのビデオは、人物Aについてのニュースに直接的に関連する。オリジナルコメントは、人物Aについてのコメントであり得る。人物Aについてのコメントに基づいて検索されたオリジナルビデオは、人物Aについてのビデオであり得る。人物Aについてのビデオは、人物Aについてのニュースに直接的に関連する。オリジナルコメントは、人物Aに関連付けられた人物Bについてのコメントであり得る。人物Aに関連付けられた人物Bについてのコメントに基づいて検索されたオリジナルビデオは、人物Bについてのビデオであり得る。人物Bについてのビデオは、人物Aについてのニュースに間接的に関連する。
ステップ303:オリジナルニュースの要約抽出を実行して、オリジナルニュースの解説文を取得する。
本実施例では、上記実行主体は、オリジナルニュースの要約抽出を実行して、要約抽出によって得られた要約テキストをオリジナルニュースの解説文として決定することができる。ここで、解説文は、オリジナルニュースの主な内容を含み得、人間のスピーチ習慣に合うので、解説に適している。
本実施例のいくつかの任意の実施形態では、上記実行主体は、まず、オリジナルニュースに含まれるテキストを決定し、次に、テキストに含まれて解説に適していないテキストを削除し、次に、テキストに含まれる文章語を同じ意味の口頭語に置き換え、最後に、テキストの要約抽出を実行して、オリジナルニュースの解説文を取得することができる。解説に適していないテキストを削除することは、テキスト内の無効な情報を減らすことができ、さらに最後に生成された解説文の有効情報割合を増やすことができる。テキスト内の文章語を口頭語に置き換えることは、テキストが解説により適するようにし、さらに人間のスピーチ習慣に合う解説詞をより容易に生成することができる。
ステップ304:解説文に基づいてビデオ音声を生成し、オリジナルニュースおよびオリジナルビデオに基づいて、ビデオ音声に対応するビデオ画面を生成する。
本実施例では、上記実行主体は、解説文に基づいてビデオ音声を生成し、オリジナルニュースおよびオリジナルビデオに基づいて、ビデオ音声に対応するビデオ画面を生成することができる。具体的には、上記実行主体は、まず、音声合成技術を利用して、解説文に対応するビデオ音声を生成し、次に、ビデオ音声を各文に対応する音声に分割し、次に、オリジナルニュースおよびオリジナルビデオに基づいて、各文に対応する音声と一致するビデオ画面セグメントを生成し、最後に、各文に対応する音声と一致するビデオ画面セグメントを順次組み合わせて、ビデオ音声に対応するビデオ画面を生成することができる。ここで、各文に対応する音声と一致するビデオ画面セグメントは、この文を表示するもの、またはこの文に関連する事物を表示するものであり得る。
ステップ305:ビデオ画面およびビデオ音声を合成して、ターゲットビデオを取得する。
本実施例では、上記実行主体は、ビデオ画面およびビデオ音声を合成して、ターゲットビデオを取得することができる。ここで、各文に対応する音声をターゲットビデオにおけるこの文に対応する音声部分として決定し、この文に対応する音声と一致するビデオ画面セグメントを、ターゲットビデオにおけるこの文に対応するビデオ画面部分として決定する。
本願の実施例によって提供されるビデオ取得方法は、まず、オリジナルニュースおよびそれに関連するオリジナルビデオを取得し、次に、オリジナルニュースの要約抽出を実行して、オリジナルニュースの解説文を取得し、次に、解説文に基づいてビデオ音声を生成し、オリジナルニュースおよびオリジナルビデオに基づいて、ビデオ音声に対応するビデオ画面を生成し、最後に、ビデオ画面およびビデオ音声を合成して、ターゲットビデオを取得する。オリジナルニュースがターゲットビデオに変換されて表示され、ターゲットビデオがオリジナルニュースの主な内容を記録しているため、ユーザは、ターゲットビデオを見れば、オリジナルニュースの全文を読まずにオリジナルニュースの対象となるニュースイベントを迅速に理解することができるので、ユーザのニュースイベント取得効率を向上させる。
さらに図4を参照すると、図4は、本願に係るコメント取得方法の一実施例のプロセス400を示す。このコメント取得方法は、以下のステップを含む。
ステップ401:オリジナルニュースのオリジナルコメントを取得する。
本実施例では、コメント取得方法の実行主体(例えば、図1に示すサーバ105)は、オリジナルニュースのオリジナルコメントを取得することができる。ここで、オリジナルコメントは、ニュースアプリケーションでオリジナルニュースを閲覧するユーザが発表するコメントであり得る。
ステップ402:オリジナルコメントの字句解析を実行し、オリジナルコメントを単語に分解する。
本実施例では、上記実行主体は、オリジナルコメントの字句解析を実行し、オリジナルコメントを単語に分解することができる。ここで、オリジナルコメントは通常、中国語コメントである。英語コメントとは異なり、中国語コメントの中国語単語は、スペースで区切られていない。単語分解精度を向上させるために、LACを使用してオリジナルコメントを単語に分解することができる。ここで、LACは、中国語単語分解、単語性質ラベリング、固有名詞認識などのNLPタスクを全体的に完了することができる組み合わせ型字句解析モデルである。LACは、積み重ねられた双方向GRU構造に基づいて、AIオープンプラットフォーム上の字句解析アルゴリズムを長いテキストに正確に複製する。
ステップ403:単語をアンカーポイントとして、オリジナルコメントの構文解析を実行し、オリジナルコメントのキーワードおよび文構造を取得する。
本実施例では、上記実行主体は、単語をアンカーポイントとして、オリジナルコメントの構文解析を実行し、オリジナルコメントのキーワードおよび文構造を取得することができる。
通常、単語をアンカーポイントとして、オリジナルコメントの構文解析を実行する場合、オリジナルコメントの単語に対して単語性質ラベリングを実行することにより、オリジナルコメントのキーワードおよび文構造を取得することができる。ここで、オリジナルコメントのキーワードは、特定の単語性質を有する単語であり得る。オリジナルコメントの文構造は、オリジナルコメントの単語間の依存関係を解析することによって決定される主語述語関係、動詞目的語関係、前置詞目的語関係、方位関係などを含み得るが、これらに限定されない。依存構文解析は、文中の単語間の依存関係を解析することによって文の構文構造を決定することを目的とした自然言語処理コア技術の1つである。依存構文解析は、基盤技術として、他のNLPタスクの効果を高めるために直接使用され得る。これらの効果は、意味役割ラベリング、意味的マッチング、イベント抽出などを含み得るが、これらに限定されない。深層学習および大規模なラベル付きデータに基づいて研究開発された依存構文解析ツールは、オリジナルコメントの構文解析を実行するために使用され得るので、ユーザがオリジナルコメントの関連単語ペア、長距離依存単語ペアなどを直接取得するのに役立つことができる。
ステップ404:キーワードおよび文構造に基づいて、ターゲットビデオの内容と一致するオリジナルコメントを選択する。
本実施例では、上記実行主体は、キーワードおよび文構造に基づいて、ターゲットビデオの内容と一致するオリジナルコメントを選択することができる。ここで、文構造が特定され、キーワードがターゲットビデオに表示されるオリジナルコメントは、ターゲットビデオの内容と一致するオリジナルコメントである。
ここで、キーワードに基づく選択は、ターゲットビデオの内容と一致しないオリジナルコメントをフィルタリングすることにより、選択されたオリジナルコメントをターゲットビデオの内容とより一致させることができる。文構造に基づく選択は、弾幕としては適していないオリジナルコメントをフィルタリングすることにより、選択されたオリジナルコメントを弾幕の形式でターゲットビデオの再生中に表示されるのにより適合させることができる。例えば、主語述語関係を持つオリジナルコメントについて、そのキーワードは、人物Aを含む。ターゲットビデオに人物Aも表示される場合、このオリジナルコメントは、ターゲットビデオの内容と一致するだけでなく、弾幕として表示されるのにも適している。また例えば、方位関係を持つオリジナルコメントについて、それは、弾幕として表示されるのに適していない。
ステップ405:単語をアンカーポイントとして、オリジナルコメントの感情解析を実行し、オリジナルコメントの感情情報を取得する。
本実施例では、上記実行主体は、単語をアンカーポイントとして、オリジナルコメントの感情解析を実行し、オリジナルコメントの感情情報を取得することができる。ここで、オリジナルコメントは、ニュースアプリケーションでオリジナルニュースを閲覧するユーザが発表するコメントであり得る。感情情報は、オリジナルコメントを発表するユーザの態度を表現することができる。
通常、ユーザがオリジナルニュースを閲覧するときに発表するオリジナルコメントは通常、オリジナルニュースを対象とした主観的な説明を持つ。感情傾向解析は、主観的な説明を持つ中国語テキストを対象として、このテキストの感情極性カテゴリを自動的に判断して、適切な信頼度を与えることができる。一般的な感情解析モデルは、感情解析-LSTM(Long Short-Term Memory、長短期記憶ネットワーク)、感情解析-GRU、対話気分認識などを含み得るが、これらに限定されない。ここで、感情解析-LSTMは、LSTM構造に基づいて感情傾向解析を実現するものであり、感情タイプは、ポジティブおよびネガティブに分けられる。感情解析-GRUは、GRU構造に基づいて感情傾向解析を実現するものであり、感情タイプは、ポジティブおよびネガティブに分けられる。対話気分認識は、知能対話シナリオでユーザの気分を認識し、知能対話シナリオのユーザテキストに対して、このテキストの気分タイプを自動的に判断して適切な信頼度を与えるために使用されており、気分タイプは、ポジティブ、ネガティブ、および中性に分けられる。このモデルは、TextCNN(マルチボリューム核CNNモデル)に基づいており、文の局所関連性をより効果的に取得することができる。
ステップ406:感情情報に基づいて、ターゲットビデオの内容と一致するオリジナルコメントを選択する。
本実施例では、上記実行主体は、感情情報に基づいて、ターゲットビデオの内容と一致するオリジナルコメントを選択することができる。ここで、ターゲットビデオの感情タイプと同じオリジナルコメントは、ターゲットビデオの内容と一致するオリジナルコメントである。
ここで、感情情報に基づく選択は、ターゲットビデオの感情と一致しないオリジナルコメントをフィルタリングすることにより、選択されたオリジナルコメントをターゲットビデオの感情とより一致させることができる。例えば、人物Aの死亡を悼むというオリジナルニュースについては、悲しみ、惜しみなどの感情情報を表現するオリジナルコメントを選択することができる。
本願の実施例によって提供されるコメント取得方法は、まず、オリジナルニュースのオリジナルコメントの字句解析を実行し、オリジナルコメントを単語に分解し、次に、単語をアンカーポイントとして、オリジナルコメントの構文解析を実行し、オリジナルコメントのキーワードおよび文構造を取得し、キーワードおよび文構造に基づいて、ターゲットビデオの内容と一致するオリジナルコメントを選択し、同時に、単語をアンカーポイントとして、オリジナルコメントの感情解析を実行し、オリジナルコメントの感情情報を取得し、感情情報に基づいて、ターゲットビデオの内容と一致するオリジナルコメントを選択する。これにより、選択されたオリジナルコメントは、ターゲットビデオの内容と一致するだけでなく、弾幕として表示されるのにも適している。同時に、選択されたオリジナルコメントはまた、ターゲットビデオの感情とより一致する。
さらに図5を参照すると、図5は、本願に係るビデオ処理方法の別の実施例のプロセス500を示す。このビデオ処理方法は、以下のステップを含む。
ステップ501:ターゲットビデオおよびターゲットビデオのターゲットコメントを取得する。
本実施例では、ステップ501の具体的な操作は、図2に示す実施例中のステップ201において詳細に説明されるため、ここではその説明を省略する。
ステップ502:ターゲットビデオ内のピクチャに対して光学文字認識を実行して、ピクチャの文字情報を取得する。
本実施例では、ビデオ処理方法の実行主体(例えば、図1に示すサーバ105)は、OCR(Optical Character Recognition、光学文字認識)技術を利用してターゲットビデオ内のピクチャを認識して、ピクチャの文字情報を取得することができる。
通常、ターゲットビデオ内のピクチャ上に文字があるため、OCR技術を利用してピクチャの文字情報を認識することができる。OCR技術は、様々なアプリケーションシナリオで広く使用されている。計算効率を向上させるために、PP-OCRを使用することができる。PP-OCRは、主にDBテキスト検出、検出ボックス補正、およびCRNNテキスト認識という三つの部分からなる実用的な超軽量型OCRである。PP-OCRは、バックボーンネットワークの選択と調整、予測ヘッドの設計、データ強化、学習率変換戦略、正則化パラメータの選択、事前訓練モデルの使用、およびモデル自動剪断と定量化という8つの面から、19個の効果的な戦略を採用して、各モジュールのモデルを効果的にチューニングしてスリミングし、最終的に全体サイズが3.5Mの超軽量型中国語・英語OCRおよび2.8Mの英語・数字OCRを取得する。
ステップ503:ターゲットビデオ内のピクチャに対して顔認識を実行して、ピクチャの人物情報を取得する。
本実施例では、上記実行主体は、ターゲットビデオ内のピクチャに対して顔認識を実行して、ピクチャの人物情報を取得することができる。
通常、ターゲットビデオ内のピクチャ上に顔があるため、ピクチャ上の顔を認識して、顔に対応する人物の情報をピクチャのテキスト情報として決定することができる。特に有名人の顔があるピクチャについて、より多くの人物情報を導入することができる。
ステップ504:テキスト情報およびターゲットコメントを事前に訓練されたスコア計算モデルに入力して、テキスト情報およびターゲットコメントのスコアを取得する。
本実施例では、上記実行主体は、テキスト情報およびターゲットコメントを事前に訓練されたスコア計算モデルに入力して、テキスト情報およびターゲットコメントのスコアを取得することができる。ここで、スコア計算モデルは、ピクチャのテキスト情報とコメント、および両者間のスコア対応関係を特徴付けるために使用され得、ターゲットビデオ内のピクチャと一致するターゲットコメントを迅速かつ正確に選択することができる。
本実施例のいくつかの任意の実施形態では、上記実行主体は、以下のステップに従って、スコア計算モデルを事前に訓練することができる。
まず、訓練サンプルセットを取得することができる。
ここで、訓練サンプルは、ピクチャのテキスト情報とコメント、およびピクチャのテキスト情報とコメントのラベル付きスコアを含み得る。例えば、ピクチャのテキスト情報とコメントの間の一致度にスコアを手動でラベル付けすることができる。
その後、初期スコア計算モデルのモデル構造を決定し、初期スコア計算モデルのモデルパラメータを初期化することができる。
あるいは、初期スコア計算モデルは、畳み込みニューラルネットワークを含み得る。畳み込みニューラルネットワークが多層ニューラルネットワークであり、各層が複数の二次元平面からなり、各平面が複数の独立したニューロンからなるため、ここでは畳み込みニューラルネットワークタイプの初期スコア計算モデルがどの層(例えば、畳み込み層、プール化層、励起関数層など)を含むか、層間の接続順序関係、各層がどのパラメータ(例えば、重みweight、バイアスbias、畳み込みのステップサイズ)を含むかなどを決定する必要がある。ここで、畳み込み層は、特徴を抽出するために使用され得る。各畳み込み層について、畳み込みカーネルの数、各畳み込みカーネルのサイズ、各畳み込みカーネルの各ニューロンの重み、各畳み込みカーネルに対応するバイアス項、隣接する2つの畳み込みの間のステップサイズ、充填の必要度、ピクセル点の充填量、充填値(一般に、充填値は0)などを決定することができる。プール化層は、入力情報のダウンサンプル(Down Sample)を実行することにより、データとパラメータの量を圧縮して過学習を減らすために使用され得る。各プール化層は、各プール化層のプール化方法を決定することができる(例えば、領域平均値または領域最大値を選択する)。励起関数層は、入力情報の非線形計算を実行するために使用される。各励起関数層について、具体的な励起関数を決定することができる。例えば、活性化関数は、ReLU、ReLUの派生する様々な活性化関数、Sigmoid関数、Tanh(双曲線正接)関数、Maxout関数などであり得る。
その後、初期スコア計算モデルのモデルパラメータを初期化することができる。実際には、初期スコア計算モデルの各モデルパラメータは、いくつかの異なる小さな乱数で初期化され得る。「小さな乱数」は、モデルが過度の重みのために飽和状態に入り、訓練が失敗するという場合が発生しないようにするために使用されており、「異なる」は、モデルが正常に学習できるようにするために使用される。
次に、訓練サンプルセットにおける訓練サンプル内のピクチャのテキスト情報とコメントを初期スコア計算モデルの入力とし、訓練サンプル内のラベル付きスコアを初期スコア計算モデルの出力として、機械学習方法を利用して初期スコア計算モデルを訓練することができる。
具体的には、まず、訓練サンプルセットにおける訓練サンプル内のピクチャのテキスト情報とコメントを初期スコア計算モデルに入力して、ピクチャのテキスト情報とコメントのスコアを取得することができる。次に、取得されたスコアとこの訓練サンプル内のラベル付きスコアとの間の差を計算することができる。最後に、計算された差に基づいて、初期スコア計算モデルのモデルパラメータを調整することができ、プリセットの訓練終了条件を満たした場合に訓練が終了する。例えば、ここでのプリセットの訓練終了条件は、訓練時間がプリセット時間を超えたこと、訓練回数がプリセット回数を超えたこと、計算された差がプリセット差閾値を超えたことのうちの少なくとも1つを含み得る。
ここで、様々な実施形態を採用して、取得されたスコアとこの訓練サンプル内のラベル付きスコアとの間の差に基づいて、初期スコア計算モデルのモデルパラメータを調整することができる。例えば、確率的勾配降下法(SGD、Stochastic Gradient Descent)、ニュートン法(Newton's Method)、準ニュートン法(Quasi-Newton Methods)、共役勾配法(Conjugate Gradient)、ヒューリスティック最適化法、および現在知られているかまたは将来開発される他の様々な最適化アルゴリズムを採用することができる。
最後に、訓練された初期スコア計算モデルを事前に訓練されたスコア計算モデルとして決定することができる。
ステップ505:テキスト情報およびターゲットコメントのスコアに基づいて、テキスト情報の内容がターゲットコメントと一致するか否かを決定する。
本実施例では、上記実行主体は、テキスト情報およびターゲットコメントのスコアに基づいて、テキスト情報の内容がターゲットコメントと一致するか否かを決定することができる。例えば、スコアがプリセット閾値よりも高いターゲットコメントを、ピクチャのテキスト情報の内容と一致するターゲットコメントを決定する。また例えば、スコアが最も高いターゲットコメントを、テキスト情報の内容と一致するターゲットコメントを決定する。
ステップ506:ターゲットビデオ内のピクチャの表示時刻に内容と一致するターゲットコメントを弾幕の形式で挿入する。
本実施例では、ステップ506の具体的な操作は、図2に示す実施例中のステップ204において詳細に説明されるため、ここではその説明を省略する。
図5から分かるように、本実施例のビデオ処理方法は、図2に対応する実施例と比べて、ターゲットビデオ内のピクチャをターゲットコメントと一致させるステップを強調している。従って、本実施例に記載の解決手段は、ターゲットビデオ内のピクチャおよびターゲットコメントから十分な情報を取得し、スコア計算モデルを利用してターゲットビデオ内のターゲットコメントの表示時刻を決定し、この時刻にターゲットコメントを弾幕の形式で挿入することにより、ビデオが再生されるとき、特定の内容に対応するコメントについて、特定の内容に対応するピクチャを表示することができるので、ユーザがコメントを理解するのに役立ち、さらにビデオ視聴者がコメントに基づいて対話するのに役立つ。
さらに図6を参照すると、上記の各図に示す方法の実施形態として、本願は、図2に示す方法の実施例に対応するビデオ処理装置の実施例を提供する。この装置は、様々な電子デバイスに特に適用できる。
図6に示すように、本実施例のビデオ処理装置600は、取得モジュール601、認識モジュール602、決定モジュール603、および挿入モジュール604を含み得る。取得モジュール601は、ターゲットビデオおよびターゲットビデオのターゲットコメントを取得するように構成される。認識モジュール602は、ターゲットビデオ内のピクチャを認識して、ピクチャのテキスト情報を取得するように構成される。決定モジュール603は、テキスト情報の内容と一致するターゲットコメントを決定するように構成される。挿入モジュール604は、ターゲットビデオ内のピクチャの表示時刻に内容と一致するターゲットコメントを弾幕の形式で挿入するように構成される。
本実施例では、ビデオ処理装置600の取得モジュール601、認識モジュール602、決定モジュール603、および挿入モジュール604の具体的な処理とその技術的効果については、それぞれ図2に対応する実施例のステップ201-204の関連説明を参照されたいが、ここでは繰り返さない。
本実施例のいくつかの任意の実施形態では、取得モジュール601は、オリジナルニュースを取得するように構成された第一取得サブモジュールと、オリジナルニュースに関連するオリジナルビデオを検索するように構成された検索サブモジュールと、オリジナルニュースの要約抽出を実行して、オリジナルニュースの解説文を取得するように構成された抽出サブモジュールと、解説文に基づいてビデオ音声を生成し、オリジナルニュースおよびオリジナルビデオに基づいて、ビデオ音声に対応するビデオ画面を生成するように構成された生成サブモジュールと、ビデオ画面およびビデオ音声を合成して、ターゲットビデオを取得するように構成された合成サブモジュールと、を含む。
本実施例のいくつかの任意の実施形態では、検索サブモジュールは、オリジナルニュースのオリジナルコメントを取得することと、オリジナルニュースおよび/またはオリジナルコメントの内容に基づいて、オリジナルビデオを検索することと、を実行するようにさらに構成される。
本実施例のいくつかの任意の実施形態では、取得モジュール601は、オリジナルニュースのオリジナルコメントを取得するように構成された第二取得サブモジュールと、ターゲットビデオの内容と一致するオリジナルコメントをターゲットコメントとして選択するように構成された選択サブモジュールと、を含む。
本実施例のいくつかの任意の実施形態では、選択サブモジュールは、オリジナルコメントの字句解析を実行し、オリジナルコメントを単語に分解するように構成された分解ユニットと、単語をアンカーポイントとして、オリジナルコメントを解析し、ターゲットビデオの内容と一致するオリジナルコメントを選択するように構成された選択ユニットと、を含む。
本実施例のいくつかの任意の実施形態では、選択ユニットは、単語をアンカーポイントとして、オリジナルコメントの構文解析を実行し、オリジナルコメントのキーワードおよび文構造を取得することと、キーワードおよび文構造に基づいて、ターゲットビデオの内容と一致するオリジナルコメントを選択することと、を実行するようにさらに構成される。
本実施例のいくつかの任意の実施形態では、選択ユニットは、単語をアンカーポイントとして、オリジナルコメントの感情解析を実行し、オリジナルコメントの感情情報を取得することと、感情情報に基づいて、ターゲットビデオの内容と一致するオリジナルコメントを選択することと、を実行するようにさらに構成される。
本実施例のいくつかの任意の実施形態では、認識モジュール602は、ターゲットビデオ内のピクチャに対して光学文字認識を実行して、ピクチャの文字情報を取得するようにさらに構成される。
本実施例のいくつかの任意の実施形態では、認識モジュール602は、ターゲットビデオ内のピクチャに対して顔認識を実行して、ピクチャの人物情報を取得するようにさらに構成される。
本実施例のいくつかの任意の実施形態では、決定モジュール603は、テキスト情報およびターゲットコメントを事前に訓練されたスコア計算モデルに入力して、テキスト情報およびターゲットコメントのスコアを取得することと、テキスト情報およびターゲットコメントのスコアに基づいて、テキスト情報の内容がターゲットコメントと一致するか否かを決定することと、を取得するようにさらに構成される。
本願の実施例によれば、本願は、電子デバイス、可読記憶媒体、およびコンピュータプログラム製品をさらに提供する。
図7は、本開示の実施例を実施するために使用され得る例示的な電子デバイス700の概略ブロック図を示す。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子デバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブルデバイス、および他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを表すこともできる。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は単なる例示であり、本明細書に説明および/または請求される本開示の実施形態を限定することを意図したものではない。
図7に示すように、デバイス700は、リードオンリメモリ(ROM)702に記憶されたコンピュータプログラム、または記憶ユニット708からランダムアクセスメモリ(RAM)703にロードされたコンピュータプログラムに従って、各種の適切な動作および処理を実行することができる計算ユニット701を含む。RAM703には、デバイス700の動作に必要な各種のプログラムおよびデータも記憶され得る。計算ユニット701、ROM702、およびRAM703は、バス704を介して互いに接続される。入力/出力(I/O)インターフェース705も、バス704に接続される。
デバイス700内の複数のコンポーネントは、I/Oインターフェース705に接続されており、キーボード、マウスなどの入力ユニット706と、各種のディスプレイ、スピーカーなどの出力ユニット707と、磁気ディスク、光ディスクなどの記憶ユニット708と、ネットワークカード、モデム、無線通信トランシーバなどの通信ユニット709と、を含む。通信ユニット709は、デバイス700が、インターネットなどのコンピュータネットワーク、および/または様々な通信ネットワークを介して、他の装置との間で情報/データを交換することを可能にする。
計算ユニット701は、処理能力および計算能力を備えた様々な汎用および/または専用の処理コンポーネントであり得る。計算ユニット701のいくつかの例は、中央処理装置(CPU)、グラフィックス処理ユニット(GPU)、様々な専用の人工知能(AI)計算チップ、機械学習モデルアルゴリズムを実行する様々な計算ユニット、デジタル信号プロセッサ(DSP)、任意の適切なプロセッサ、コントローラ、マイクロコントローラなどを含むが、これらに限定されない。計算ユニット701は、上記様々な方法および処理、例えば、ビデオ処理方法を実行する。例えば、いくつかの実施例では、ビデオ処理方法は、記憶ユニット708などの機械可読媒体に具体的に含まれるコンピュータソフトウェアプログラムとして実装され得る。いくつかの実施例では、コンピュータプログラムの一部または全部は、ROM702および/または通信ユニット709を介して、デバイス700にロードおよび/またはインストールされ得る。コンピュータプログラムがRAM703にロードされ、計算ユニット701によって実行されると、上記ビデオ処理方法の1つまたは複数のステップが実行され得る。あるいは、他の実施例では、計算ユニット701は、他の任意の適切な手段(例えば、ファームウェア)を介して、ビデオ処理方法を実行するように構成され得る。
本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途用標準品(ASSP)、システムオンチップ(SOC)、ロードプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実装され得る。これらの様々な実施形態は、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信したり、この記憶システム、この少なくとも1つの入力装置、およびこの少なくとも1つの出力装置にデータおよび命令を送信したりすることができる専用又は汎用のプログラマブルプロセッサであり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行および/または解釈され得る1つまたは複数のコンピュータプログラムに実装されることを含み得る。
本開示の方法を実施するためのプログラムコードは、1つまたは複数のプログラミング言語の任意の組み合わせで書かれ得る。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサまたはコントローラに提供され得るので、プログラムコードがプロセッサまたはコントローラによって実行されると、フローチャートおよび/またはブロック図で指定された機能/動作が実行される。プログラムコードは、完全にマシン上で実行され得るか、または部分的にマシン上で実行され得るか、または独立したソフトウェアパッケージとして、部分的にマシン上で、部分的にリモートマシン上で実行され得るか、または完全にリモートマシンまたはサーバ上で実行され得る。
本開示の文脈において、機械可読媒体は、命令実行システム、装置、またはデバイスによって、またはそれらと組み合わせて使用するためのプログラムを含むかまたは記憶することができる有形媒体であり得る。機械可読媒体は、機械可読信号媒体または機械可読記憶媒体であり得る。機械可読媒体は、電子、磁気、光学、電磁気、赤外線、または半導体のシステム、装置またはデバイス、または上記の任意の適切な組み合わせを含み得るが、これらに限定されない。機械可読記憶媒体のより具体的な例は、1本または複数本の導線を備えた電気コネクタ、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能なプログラマブルリードオンリメモリ(EPROMまたはフラッシュメモリ)、光ファイバ、ポータブル・コンパクト・ディスク・リードオンリメモリ(CD-ROM)、光学メモリ、磁気メモリ、または上記の任意の適切な組み合わせを含む。
ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、情報をユーザに表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザが入力をコンピュータに提供することを可能にするキーボードとポインティングデバイス(例えば、マウスまたはトラックボール)とを備えたコンピュータに実装され得る。他のタイプの装置は、ユーザとの対話を提供するためにも使用されており、例えば、任意の形態の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック)をユーザに提供したり、任意の形態(音響入力、音声入力、および触覚入力を含む形態)を使用してユーザからの入力を受信したりするために使用され得る。
本明細書に記載のシステムおよび技術は、バックエンドコンポーネント(例えば、データサーバ)を含むコンピュータシステム、ミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含むコンピュータシステム、フロントエンドコンポーネント(例えば、ユーザが本明細書に記載のシステムおよび技術の実施形態と対話することを可能にするグラフィカルユーザインターフェースまたはウェブブラウザを備えたユーザコンピュータ)を含むコンピュータシステム、または、これらバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムに実装され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体(例えば、通信ネットワーク)を介して互いに接続され得る。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットを含む。
コンピュータシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは通常、互いに遠く離れており、通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータで実行され、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。
ステップの並べ替え、追加、または削除は、上記様々な形態のプロセスによって実行され得ることを理解されたい。例えば、本開示に記載の各ステップは、本開示に開示された技術的解決手段の所望の結果が達成できる限り、並行して、順次に、または異なる順序で実行され得るが、本明細書に限定されない。
上記特定の実施形態は、本開示の保護範囲を限定するものではない。設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的組み合わせおよび置換を行うことができることは、当業者にとって明らかであろう。本開示の精神と原則の範囲内で行われたあらゆる修正、同等置換、改良などは、本開示の保護範囲に含まれるべきである。

Claims (21)

  1. ビデオ処理装置により実行されるビデオ処理方法であって、
    ターゲットビデオおよび前記ターゲットビデオのターゲットコメントを取得することと、
    前記ターゲットビデオ内のピクチャを認識して、前記ピクチャのテキスト情報を取得することと、
    前記テキスト情報の内容と一致するターゲットコメントを決定することと、
    前記ターゲットビデオ内の前記ピクチャの表示時刻に前記内容と一致するターゲットコメントを弾幕の形式で挿入することと、を含み、
    前述したターゲットビデオを取得することは、
    オリジナルニュースを取得することと、
    前記オリジナルニュースに関連するオリジナルビデオを検索することと、
    前記オリジナルニュースの要約抽出を実行して、前記オリジナルニュースの解説文を取得することと、
    前記解説文に基づいてビデオ音声を生成し、前記オリジナルニュースおよび前記オリジナルビデオに基づいて、前記ビデオ音声に対応するビデオ画面を生成することと、
    前記ビデオ画面および前記ビデオ音声を合成して、前記ターゲットビデオを取得することと、
    を含む、ビデオ処理方法。
  2. 前述した前記オリジナルニュースに関連するオリジナルビデオを検索することは、
    前記オリジナルニュースのオリジナルコメントを取得することと、
    前記オリジナルニュースおよび/または前記オリジナルコメントの内容に基づいて、前記オリジナルビデオを検索することと、
    を含む請求項に記載のビデオ処理方法。
  3. 前述した前記ターゲットビデオのターゲットコメントを取得することは、
    前記オリジナルニュースのオリジナルコメントを取得することと、
    前記ターゲットビデオの内容と一致するオリジナルコメントを前記ターゲットコメントとして選択することと、
    を含む請求項に記載のビデオ処理方法。
  4. 前述した前記ターゲットビデオの内容と一致するオリジナルコメントを選択することは、
    前記オリジナルコメントの字句解析を実行し、前記オリジナルコメントを単語に分解することと、
    前記単語をアンカーポイントとして、前記オリジナルコメントを解析し、前記ターゲットビデオの内容と一致するオリジナルコメントを選択することと、
    を含む請求項に記載のビデオ処理方法。
  5. 前述した前記単語をアンカーポイントとして、前記オリジナルコメントを解析し、前記ターゲットビデオの内容と一致するオリジナルコメントを選択することは、
    前記単語をアンカーポイントとして、前記オリジナルコメントの構文解析を実行し、前記オリジナルコメントのキーワードおよび文構造を取得することと、
    前記キーワードおよび前記文構造に基づいて、前記ターゲットビデオの内容と一致するオリジナルコメントを選択することと、
    を含む請求項に記載のビデオ処理方法。
  6. 前述した前記単語をアンカーポイントとして、前記オリジナルコメントを解析し、前記ターゲットビデオの内容と一致するオリジナルコメントを選択することは、
    前記単語をアンカーポイントとして、前記オリジナルコメントの感情解析を実行し、前記オリジナルコメントの感情情報を取得することと、
    前記感情情報に基づいて、前記ターゲットビデオの内容と一致するオリジナルコメントを選択することと、
    を含む請求項に記載のビデオ処理方法。
  7. 前述した前記ターゲットビデオ内のピクチャを認識して、前記ピクチャのテキスト情報を取得することは、
    前記ターゲットビデオ内のピクチャに対して光学文字認識を実行して、前記ピクチャの文字情報を取得すること、
    を含む請求項1に記載のビデオ処理方法。
  8. 前述した前記ターゲットビデオ内のピクチャを認識して、前記ピクチャのテキスト情報を取得することは、
    前記ターゲットビデオ内のピクチャに対して顔認識を実行して、前記ピクチャの人物情報を取得すること、
    を含む請求項1に記載のビデオ処理方法。
  9. 前述した前記テキスト情報の内容と一致するターゲットコメントを決定することは、
    前記テキスト情報および前記ターゲットコメントを事前に訓練されたスコア計算モデルに入力して、前記テキスト情報および前記ターゲットコメントのスコアを取得することと、
    前記テキスト情報および前記ターゲットコメントのスコアに基づいて、前記テキスト情報の内容が前記ターゲットコメントと一致するか否かを決定することと、
    を含む請求項1に記載のビデオ処理方法。
  10. ターゲットビデオおよび前記ターゲットビデオのターゲットコメントを取得するように構成された取得モジュールと、
    前記ターゲットビデオ内のピクチャを認識して、前記ピクチャのテキスト情報を取得するように構成された認識モジュールと、
    前記テキスト情報の内容と一致するターゲットコメントを決定するように構成された決定モジュールと、
    前記ターゲットビデオ内の前記ピクチャの表示時刻に前記内容と一致するターゲットコメントを弾幕の形式で挿入するように構成された挿入モジュールと、を含み、
    前記取得モジュールは、
    オリジナルニュースを取得するように構成された第一取得サブモジュールと、
    前記オリジナルニュースに関連するオリジナルビデオを検索するように構成された検索サブモジュールと、
    前記オリジナルニュースの要約抽出を実行して、前記オリジナルニュースの解説文を取得するように構成された抽出サブモジュールと、
    前記解説文に基づいてビデオ音声を生成し、前記オリジナルニュースおよび前記オリジナルビデオに基づいて、前記ビデオ音声に対応するビデオ画面を生成するように構成された生成サブモジュールと、
    前記ビデオ画面および前記ビデオ音声を合成して、前記ターゲットビデオを取得するように構成された合成サブモジュールと、
    を含む、ビデオ処理装置。
  11. 前記検索サブモジュールは、
    前記オリジナルニュースのオリジナルコメントを取得することと、
    前記オリジナルニュースおよび/または前記オリジナルコメントの内容に基づいて、前記オリジナルビデオを検索することと、
    を実行するようにさらに構成される請求項10に記載のビデオ処理装置。
  12. 前記取得モジュールは、
    前記オリジナルニュースのオリジナルコメントを取得するように構成された第二取得サブモジュールと、
    前記ターゲットビデオの内容と一致するオリジナルコメントを前記ターゲットコメントとして選択するように構成された選択サブモジュールと、
    を含む請求項10に記載のビデオ処理装置。
  13. 前記選択サブモジュールは、
    前記オリジナルコメントの字句解析を実行し、前記オリジナルコメントを単語に分解するように構成された分解ユニットと、
    前記単語をアンカーポイントとして、前記オリジナルコメントを解析し、前記ターゲットビデオの内容と一致するオリジナルコメントを選択するように構成された選択ユニットと、
    を含む請求項12に記載のビデオ処理装置。
  14. 前記選択ユニットは、
    前記単語をアンカーポイントとして、前記オリジナルコメントの構文解析を実行し、前記オリジナルコメントのキーワードおよび文構造を取得することと、
    前記キーワードおよび前記文構造に基づいて、前記ターゲットビデオの内容と一致するオリジナルコメントを選択することと、
    を実行するようにさらに構成される請求項13に記載のビデオ処理装置。
  15. 前記選択ユニットは、
    前記単語をアンカーポイントとして、前記オリジナルコメントの感情解析を実行し、前記オリジナルコメントの感情情報を取得することと、
    前記感情情報に基づいて、前記ターゲットビデオの内容と一致するオリジナルコメントを選択することと、
    を実行するようにさらに構成される請求項13に記載のビデオ処理装置。
  16. 前記認識モジュールは、
    前記ターゲットビデオ内のピクチャに対して光学文字認識を実行して、前記ピクチャの文字情報を取得すること、
    を実行するようにさらに構成される請求項10に記載のビデオ処理装置。
  17. 前記認識モジュールは、
    前記ターゲットビデオ内のピクチャに対して顔認識を実行して、前記ピクチャの人物情報を取得すること、
    を実行するようにさらに構成される請求項10に記載のビデオ処理装置。
  18. 前記決定モジュールは、
    前記テキスト情報および前記ターゲットコメントを事前に訓練されたスコア計算モデルに入力して、前記テキスト情報および前記ターゲットコメントのスコアを取得することと、
    前記テキスト情報および前記ターゲットコメントのスコアに基づいて、前記テキスト情報の内容が前記ターゲットコメントと一致するか否かを決定することと、
    を実行するようにさらに構成される請求項10に記載のビデオ処理装置。
  19. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信接続されたメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されており、前記命令は、前記少なくとも1つのプロセッサが請求項1-のいずれか一項に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    電子デバイス。
  20. 請求項1-9のいずれか一項に記載の方法をコンピュータに実行させるためのコンピュータ命令を記憶する非一時的なコンピュータ可読記憶媒体。
  21. プロセッサによって実行されると、請求項1-のいずれか一項に記載の方法を実行するコンピュータプログラム。
JP2022023611A 2021-02-23 2022-02-18 ビデオ処理方法、装置、デバイスおよび記憶媒体 Active JP7355865B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110200351.7 2021-02-23
CN202110200351.7A CN113014988B (zh) 2021-02-23 2021-02-23 视频处理方法、装置、设备以及存储介质

Publications (2)

Publication Number Publication Date
JP2022075668A JP2022075668A (ja) 2022-05-18
JP7355865B2 true JP7355865B2 (ja) 2023-10-03

Family

ID=76407155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022023611A Active JP7355865B2 (ja) 2021-02-23 2022-02-18 ビデオ処理方法、装置、デバイスおよび記憶媒体

Country Status (4)

Country Link
US (1) US20220174369A1 (ja)
EP (1) EP3982276A3 (ja)
JP (1) JP7355865B2 (ja)
CN (1) CN113014988B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113613065B (zh) * 2021-08-02 2022-09-09 北京百度网讯科技有限公司 视频编辑方法、装置、电子设备以及存储介质
CN113673414B (zh) * 2021-08-18 2023-09-01 北京奇艺世纪科技有限公司 弹幕生成方法、装置、电子设备及存储介质
CN113742501A (zh) * 2021-08-31 2021-12-03 北京百度网讯科技有限公司 一种信息提取方法、装置、设备、及介质
CN114584841A (zh) * 2022-03-02 2022-06-03 湖南快乐阳光互动娱乐传媒有限公司 评论内容生成方法及装置、存储介质及电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006155384A (ja) 2004-11-30 2006-06-15 Nippon Telegr & Teleph Corp <Ntt> 映像コメント入力・表示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2006352779A (ja) 2005-06-20 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 映像情報入力・表示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2011151741A (ja) 2010-01-25 2011-08-04 Nippon Hoso Kyokai <Nhk> 選択肢生成提示装置及び選択肢生成提示プログラム
WO2016088566A1 (ja) 2014-12-03 2016-06-09 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
US20160301650A1 (en) 2013-02-08 2016-10-13 Google Inc. Methods, systems, and media for presenting comments based on correlation with content
JP2018525745A (ja) 2016-02-01 2018-09-06 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 情報をプッシュ配信する方法及び装置
JP2019161465A (ja) 2018-03-13 2019-09-19 株式会社東芝 情報処理システム、情報処理方法およびプログラム
CN111327960A (zh) 2020-03-05 2020-06-23 北京字节跳动网络技术有限公司 文章处理方法、装置、电子设备及计算机存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559214B (zh) * 2013-10-11 2017-02-08 中国农业大学 视频自动生成方法及装置
CN104618806A (zh) * 2014-03-17 2015-05-13 腾讯科技(北京)有限公司 获取视频的评论信息的方法、装置及***
US20150382077A1 (en) * 2014-06-26 2015-12-31 Xiaomi Inc. Method and terminal device for acquiring information
CN108124167A (zh) * 2016-11-30 2018-06-05 阿里巴巴集团控股有限公司 一种播放处理方法、装置和设备
US10678851B2 (en) * 2018-04-25 2020-06-09 International Business Machines Corporation Cognitive content display device
CN109618236B (zh) * 2018-12-13 2023-04-07 连尚(新昌)网络科技有限公司 视频评论处理方法和装置
CN114666663A (zh) * 2019-04-08 2022-06-24 百度(美国)有限责任公司 用于生成视频的方法和装置
CN111954052B (zh) * 2019-05-17 2022-04-05 上海哔哩哔哩科技有限公司 显示弹幕信息的方法、计算机设备及可读存储介质
CN110267113B (zh) * 2019-06-14 2021-10-15 北京字节跳动网络技术有限公司 视频文件加工方法、***、介质和电子设备
CN110366002B (zh) * 2019-06-14 2022-03-11 北京字节跳动网络技术有限公司 视频文件合成方法、***、介质和电子设备
CN110377842A (zh) * 2019-06-14 2019-10-25 北京字节跳动网络技术有限公司 语音评论显示方法、***、介质和电子设备
CN110740387B (zh) * 2019-10-30 2021-11-23 深圳Tcl数字技术有限公司 一种弹幕编辑方法、智能终端及存储介质
US20210185386A1 (en) * 2019-12-17 2021-06-17 Tencent Technology (Shenzhen) Company Limited Video playing method and apparatus, electronic device, and storage medium
CN111294663B (zh) * 2020-02-10 2022-01-07 腾讯科技(深圳)有限公司 弹幕处理方法、装置、电子设备及计算机可读存储介质
CN111711865A (zh) * 2020-06-30 2020-09-25 浙江同花顺智能科技有限公司 输出数据的方法、设备及存储介质
CN113905125B (zh) * 2021-09-08 2023-02-21 维沃移动通信有限公司 视频显示方法、装置、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006155384A (ja) 2004-11-30 2006-06-15 Nippon Telegr & Teleph Corp <Ntt> 映像コメント入力・表示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2006352779A (ja) 2005-06-20 2006-12-28 Nippon Telegr & Teleph Corp <Ntt> 映像情報入力・表示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2011151741A (ja) 2010-01-25 2011-08-04 Nippon Hoso Kyokai <Nhk> 選択肢生成提示装置及び選択肢生成提示プログラム
US20160301650A1 (en) 2013-02-08 2016-10-13 Google Inc. Methods, systems, and media for presenting comments based on correlation with content
WO2016088566A1 (ja) 2014-12-03 2016-06-09 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
JP2018525745A (ja) 2016-02-01 2018-09-06 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 情報をプッシュ配信する方法及び装置
JP2019161465A (ja) 2018-03-13 2019-09-19 株式会社東芝 情報処理システム、情報処理方法およびプログラム
CN111327960A (zh) 2020-03-05 2020-06-23 北京字节跳动网络技术有限公司 文章处理方法、装置、电子设备及计算机存储介质

Also Published As

Publication number Publication date
JP2022075668A (ja) 2022-05-18
CN113014988B (zh) 2024-04-05
EP3982276A2 (en) 2022-04-13
EP3982276A3 (en) 2022-07-06
US20220174369A1 (en) 2022-06-02
CN113014988A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
JP7355865B2 (ja) ビデオ処理方法、装置、デバイスおよび記憶媒体
CN107193792B (zh) 基于人工智能的生成文章的方法和装置
JP6967059B2 (ja) 映像を生成するための方法、装置、サーバ、コンピュータ可読記憶媒体およびコンピュータプログラム
CN109697239B (zh) 用于生成图文信息的方法
EP3872652B1 (en) Method and apparatus for processing video, electronic device, medium and product
JP7108259B2 (ja) 情報を生成するための方法、装置、サーバー、コンピュータ可読記憶媒体およびコンピュータプログラム
JP6361351B2 (ja) 発話ワードをランク付けする方法、プログラム及び計算処理システム
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN109582825B (zh) 用于生成信息的方法和装置
US11704506B2 (en) Learned evaluation model for grading quality of natural language generation outputs
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
JP2023022845A (ja) ビデオ処理方法、ビデオサーチ方法及びモデルトレーニング方法、装置、電子機器、記憶媒体及びコンピュータプログラム
CN110263218B (zh) 视频描述文本生成方法、装置、设备和介质
JP2023535108A (ja) ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム
WO2020052061A1 (zh) 用于处理信息的方法和装置
JP7030095B2 (ja) ナレーションを生成するための方法、装置、サーバー、コンピュータ可読記憶媒体及びコンピュータプログラム
CN113704507A (zh) 数据处理方法、计算机设备以及可读存储介质
CN114782722A (zh) 图文相似度的确定方法、装置及电子设备
CN113038175B (zh) 视频处理方法、装置、电子设备及计算机可读存储介质
CN112307738B (zh) 用于处理文本的方法和装置
CN114120166A (zh) 视频问答方法、装置、电子设备及存储介质
CN111259180B (zh) 图像推送方法、装置、电子设备和存储介质
KR102422844B1 (ko) 인공지능에 기반하여 영상 컨텐츠의 언어 위기를 관리하는 방법
WO2023016163A1 (zh) 文字识别模型的训练方法、识别文字的方法和装置
CN115952317A (zh) 视频处理方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230921

R150 Certificate of patent or registration of utility model

Ref document number: 7355865

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150