JP7213291B2 - 画像を生成するための方法及装置 - Google Patents

画像を生成するための方法及装置 Download PDF

Info

Publication number
JP7213291B2
JP7213291B2 JP2021052215A JP2021052215A JP7213291B2 JP 7213291 B2 JP7213291 B2 JP 7213291B2 JP 2021052215 A JP2021052215 A JP 2021052215A JP 2021052215 A JP2021052215 A JP 2021052215A JP 7213291 B2 JP7213291 B2 JP 7213291B2
Authority
JP
Japan
Prior art keywords
rectangular frame
picture
bounding
target image
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021052215A
Other languages
English (en)
Other versions
JP2021152901A (ja
Inventor
ジアオ・ヤン
ヤン・イー
ワン・ジエングオ
リー・イー
チェン・シアオドン
リウ・リン
ホー・シアン
ヂュー・イエンフォン
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Publication of JP2021152901A publication Critical patent/JP2021152901A/ja
Application granted granted Critical
Publication of JP7213291B2 publication Critical patent/JP7213291B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/203Drawing of straight lines or curves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18076Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Description

本願は、画像を生成するための方法及び装置を開示し、コンピュータの技術分野に関し、特にコンピュータビジョン分野に関する。
Html(ハイパーテキスト言語)ウェブページにおける文字及びピクチャは常に重要な情報を含み、非常に価値のある素材である。従来技術において、htmlウェブページにおけるファイルに基づいて、コーディングの方式でその中の抽出しようとする素材を決定し、次にサーバから抽出しようとする素材に対応するファイルをダウンロードして、htmlウェブページ中の素材を取得する。
本願の実施例は、画像を生成するための方法、装置、デバイス及び記憶媒体を提供する。
第1態様によれば、画像を生成するための方法を提供しており、該方法は、端末にロードされたウェブページのスクリーンショットを取得してソース画像とするステップと、ソース画像における連通領域を識別し、各連通領域の輪郭外に第1外接矩形枠を生成するステップと、連通領域間の距離がプリセット距離閾値よりも小さい場合、連通領域を結合し、結合された連通領域の輪郭外に第2外接矩形枠を生成するステップと、第1外接矩形枠と第2外接矩形枠との間の入れ子関係及び第1外接矩形枠におけるピクチャに基づいて、ターゲット画像を生成するステップと、を含む。
第2態様によれば、画像を生成するための装置を提供しており、該装置、端末にロードされたウェブページのスクリーンショットを取得してソース画像とする画像取得モジュールと、ソース画像における連通領域を識別し、各連通領域の輪郭外に第1外接矩形枠を生成するように構成される第1生成モジュールと、連通領域間の距離がプリセット距離閾値よりも小さい場合、連通領域を結合し、結合された連通領域の輪廓外に第2外接矩形枠を生成するように構成される第2生成モジュールと、第1外接矩形枠と第2外接矩形枠との間の入れ子関係及び第1外接矩形枠におけるピクチャに基づいて、ターゲット画像を生成する画像生成モジュールと、を備える。
第3態様によれば、コンピュータプログラムを提供しており、コンピュータプログラムは、プロセッサにより実行されると、コンピュータに第1態様に記載の方法を実行させる。
本願の技術的解決手段によれば、従来技術におけるウェブページから抽出された素材が各素材間の空間的関係を反映できないという問題を解決し、ソース画像における連通領域を識別して結合することで、それぞれ第1外接矩形枠と第2外接矩形枠を生成し、第1外接矩形枠と第2外接矩形枠との間の入れ子関係によりウェブページの素材間の空間関係を表し、生成されたターゲット画像にソース画像の各素材間の空間関係を体現することができる。
なお、この部分で説明する内容は、本開示の実施例の肝心なまたは重要な特徴を特定することを意図するものではなく、本開示の範囲を限定することを意図するものでもない。本開示の他の特徴は以下の明細書を通じて容易に理解される。
図面は、本解決手段をより良く理解するためのものであり、本願を限定するものではない。
本願の実施例の適用可能で例示的なシステムアーキテクチャの図である。 本願の実施例による画像を生成するための方法の第1実施例の概略図である。 本願の実施例による画像を生成するための方法の第1実施例の概略図である。 本願の実施例による画像を生成するための方法の適用シーンの概略図である。 本願の実施例による画像を生成するための方法の第2実施例の概略図である。 本願の実施例の画像を生成するための方法を実現するための電子デバイスのブロック図である。 本願の実施例のコンピュータ記憶可能な媒体のシーン図である。
以下、図面を参照して、本願の例示的な実施例を説明し、理解に役に立つように、本願の実施例の様々な詳細を含み、単に例示的なものと見なされる。従って、当業者は、本願の範囲と精神から逸脱せずに、ここで説明する実施例に様々な変更と修正を加えることができることを識別すべきである。同様に、明確かつ簡潔にするために、以下の説明では、公知の機能と構造の説明を省略する。
図1は本願の実施例の画像を生成するための方法または装置の適用可能で例示的なシステムアーキテクチャ100を示す。
図1に示すように、システムアーキテクチャ100は、端末デバイス101、102、103、ネットワーク104及びサーバ105を備えてもよい。ネットワーク104は、端末デバイス101、102、103とサーバ105の間に通信リンクを提供する媒体である。ネットワーク104は、様々な接続タイプ、例えば有線、無線通信リンクまたはいは光ファイバケーブルなどを含んでもよい。
ユーザは、端末デバイス101、102、103を使用して、ネットワーク104を介してサーバ105とインタラクティブし、データなどを送受信することができる。例えば、ユーザは、自分が閲覧しようがするウェブページのアドレスを端末デバイスに入力することができる。端末デバイスはネットワーク104を介してサーバ105からデータを取得し、次に、取得されたデータに基づいて、端末は解析およびレンダリングなどのステップによりウェブページを生成し、最後にそれをユーザに表示する。
端末デバイス101、102、103は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末デバイス101、102、103がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されなく、サーバおよび他の端末とのデータインタラクティブを行う機能を備えた様々な電子デバイスであってもよい。端末デバイス101、102、103がソフトウェアの場合、上記の電子デバイスにインストールされてもよい。これらは、複数のソフトウェアまたはソフトウェアモジュールとして、または単一のソフトウェアまたはソフトウェアモジュールとして実装できるが、ここでは具体的に限定されない。
サーバ105は、データ処理サービスを提供するサーバであり得る。例えば、端末デバイスがアクセスするウェブページを生成するために、端末デバイス101、102、103によって送信されるアクセスリクエスに従って、対応するデータを送信する。
なお、本願の実施例による画像を生成するための方法はサーバ105により実行されてもよく、それに対応して、画像を生成するため装置はサーバ105に設置されてもよい。この時、サーバ105はネットワーク104を介して端末デバイス101、102、103にプリロードされたウェブページ情報を取得し、その後、取得されたウェブページ情報に従ってソース画像及びソース画像から抽出した素材を生成する。本願の実施例による画像を生成するための方法は端末デバイスにより実行されてもよく、それに対応して、画像を生成するため装置は端末デバイスに設置されてもよい。この時、端末デバイスはネットワーク104を介して他の端末デバイスに通信接続され、他の端末デバイスにプリロードされたウェブページ情報を取得するようにしてもよく、その後、取得されたウェブページ情報従ってソース画像及びソース画像から抽出した素材を生成する。ここでは限定しない。
図2(a)をさらに参照して、図2(a)は本願に開示される画像を生成するための方法の第1実施例のフローチャートを示し、以下のステップを含み、
ステップS201、端末にロードされたウェブページのスクリーンショットを取得し、ソース画像とする。
本実施例では、実行主体によって抽出されるオブジェクトは、端末によって表示されるウェブページに含まれる素材であり、それは文字素材とピクチャ素材を含む。ソース画像はウェブページにおける素材だけでなく、各素材間の空間関係も含む。
例示として、ソース画像は次の方式で生成するでき、実行主体は、端末にプリロードされたウェブページのネットワークアドレスを取得し、ネットワークアドレスにアクセスして取得されたウェブページは、端末にロードされたウェブページであり、取得されたウェブページに対してスクリーンショットを行い、取得されたウェブページスクリーンショットをソース画像とする。たとえば実行主体は、SnapShotツールを介して以上のステップを実行するようにしてもよく、ネットワークを介して端末デバイスにより送信されるウェブページのスクリーンショットを直接受信するようにしてもよく、本願はこれを限定するものではない。
ステップS202、ソース画像における連通領域を識別し、各連通領域の輪郭外に第1外接矩形枠を生成する。
連通領域は、連通の領域とも呼ばれ、画像に同じ画素値があり且つ隣接する前景画素点で構成される画像領域を指す。連通領域分析により、画像における各連通領域を識別し、連通領域の輪廓外に外接矩形枠を生成することができる。連通領域分析技術は、画像処理の分野における通常の技術的手段、たとえばTwo-Pass方法、OCRアルゴリズム(Optical Character Recognition、光学文字識別)などでこの機能をいずれも実現することができ、本願はこれを限定するものではない。
本実施例では、第1外接矩形枠はソース画像における最小連通領域をマークすることに用いられる。たとえば、実行主体は、(図1に示される端末)OCRアルゴリズムでソース画像における連通領域を識別し、ソース画像に存在する一部の文字であれば、各行の文字の画像における領域はいずれも一つの連通領域として識別され、それに応じて、各行の文字は画像における領域輪郭の外にいずれも一つの第1外接矩形枠を生成し、実行主体は該文字画像から複数の連通領域を識別し、かつ複数の第1外接矩形枠を生成することができる。
なお、最小連通領域の識別精度は実際の需要に応じて調整することができ、例えば上記例において、さらに同じ段落の文字を一つの連通領域として識別することができ、それに応じて、該段落文字のソース画像における領域は第1外接矩形枠を生成することができる。本願はこれを限定するものではない。
ステップS203、連通領域間の距離がプリセット距離閾値よりも小さい場合、連通領域を結合し、結合された連通領域の輪廓外に第2外接矩形枠を生成する。
本実施例では、第2外接矩形枠は入れ子関係を持つ外接矩形枠を表すことに用いられる。連通領域的を結合することで、複数の層の入れ子関係を含む第2外接矩形枠を得ることができる。連通領域間の距離がソース画像における異なる連通領域に含まれる素材間の位置関係を表す。
図2(b)を参照してながら説明し、図2(b)は本実施例の一具体的な例を示し、連通領域1、2、3、4(図2(b)に示される201、202、203、204)は、それぞれ第1外接矩形枠a、b、c、d(図2(b)に示される205、206、207、208)に対応する。実行主体は、ステップS203を実行し、連通領域1と2を結合することで連通領域5(図2(b)に示される209)を得、連通領域3と4を結合することで連通領域6(図2(b)に示される210)を得、その後、連通領域5の輪廓外に第2矩形枠e(図2(b)に示される211)を生成し、連通領域6の輪廓外に第2検出枠f(図2(b)に示される212)を生成し、その後、連通領域5と連通領域6と間の距離が依然としてプリセット距離閾値よりも小さい場合、実行主体は、続いて連通領域5と連通領域6を結合し、連通領域7(図2(b)に示される213)を得、連通領域7の輪廓外に第2検出枠g(図2(b)に示される214)を生成する。最後に、第2外接矩形枠e、fとgを得、ここでは、第2外接矩形枠gは第2外接矩形枠とfを含むが、第2外接矩形枠eは第1外接矩形枠aとbを含み、第2外接矩形枠fは第1外接矩形枠cとdを含む。各外接矩形枠間の包含関係は、すなわち第1外接矩形枠と第2外接矩形枠との間の入れ子関係であり、各連通領域における素材間の空間関係を表すことに用いられてもよい。
ステップS204、第1外接矩形枠と第2外接矩形枠との間の入れ子関係及び第1外接矩形枠におけるピクチャに基づいて、ターゲット画像を生成する。
本実施例では、第1外接矩形枠におけるピクチャはソース画像から抽出し待ち素材を示し、ターゲット画像の基本エレメントを生成することに用いられ、第1外接矩形枠と第2外接矩形枠との間の入れ子関係はソース画像における各素材間の空間関係を表すことに用いられる。
実行主体が第1外接矩形枠におけるピクチャをステップS203で得られた入れ子関係に従って合成することで生成される画像はターゲット画像である。
具体的な例において、以下の方式で目標画像を生成することができ、実行主体はrect関数を利用して第1外接矩形枠及び第2外接矩形枠を表すことができ、各rectは外接矩形枠の左上隅のソース画像における座標及び外接矩形枠の長さ及び幅を記憶し、このようにして、各rectは1つの第1外接矩形枠又は1つの第2外接矩形枠を代表する。次に実行主体は含まれるrect数が最も多いrectを親ノードとして、第1外接矩形枠と第2外接矩形枠との間の入れ子関係に基づいて、rectツリー構造を構築し、ツリー構造における各ノードはいずれも1つの第1外接矩形枠又は1つの第2外接矩形枠を代表し、ここで最下層ノードはソース画像における第1外接矩形枠を代表する。最後に本体がツリー構造に基づいて、それにより第1外接矩形枠におけるピクチャを組み合わせて、ターゲット画像を得ることができる。
図3をさらに参照して、図3は本願に開示される画像を生成するための方法のシーン概略図である。該適用シーンでは、実行主体は、306は端末デバイスであってもよく、サーバであってもよい。実行主体は、ネットワークを介して端末305にプリロードされたウェブページのスクリーンショット301を取得し、その連通領域を識別し各第1検出枠(図3中の302に示される)を得、距離がプリセット距離閾値よりも小さい連通領域を結合し、各第2検出枠(図3中の303に示される)を得、最後に第1検出枠と第2検出枠との間の入れ子関係に基づいて、第1検出枠におけるピクチャをターゲット画像304に合成する。
本願に開示される上記の実施例における画像を生成するための方法は、ソース画像における連通領域を識別して結合することで、それぞれ第1外接矩形枠と第2外接矩形枠を生成し、第1外接矩形枠と第2外接矩形枠との間の入れ子関係によりウェブページの素材間の空間関係を表し、生成されたターゲット画像にソース画像の各素材間の空間関係を体現することができる。
図4をさらに参照して、図4は本願に開示される画像を生成するための方法の第2実施例のフローチャートであり、以下のステップを含む。
ステップS401、端末にロードされたウェブページのスクリーンショットを取得し、ソース画像とする。このステップは上記のステップS201に対応し、ここでは繰り返し説明しない。
ステップS402、ソース画像における連通領域を識別し、各連通領域の輪郭外に第1外接矩形枠を生成する。このステップは上記のステップS202に対応し、ここでは繰り返し説明しない。
ステップS403、連通領域間の距離がプリセット距離閾値よりも小さい場合、連通領域を結合し、結合された連通領域の輪廓外に第2外接矩形枠を生成する。このステップは上記のステップS203に対応し、ここでは繰り返し説明しない。
ステップS404、第1外接矩形枠におけるピクチャの解像度がプリセット解像度閾値よりも小さい場合、該第1外接矩形枠を削除する。このように、ソース画像から解像度の低い素材を抽出することができ、それにより生成されたターゲット画像の品質を確保する。
ステップS405、第1外矩形枠がソース画像における位置に基づいて、ソース画像のプリセット領域にある第1外接矩形枠を削除する。
本実施例では、プリセット領域は、ソース画像の重要度の低い素材が所在する領域を示す。たとえば、ソース画像の底部領域と上部領域であってもよい。通常、ウェブページは重要度の低い文字やピクチャをこれら2つ領域(ウェブページに掲載された広告など)に設置する。第1外接矩形枠は、ソース画像で抽出される素材の位置と領域をマークするために用いられる。これにより、実行主体は、ソース画像から領域内の画像を抽出できる。つまり、ソース画像から素材を抽出するステップを完成する。したがって、第1外接矩形枠を削除すると、第1外接矩形枠の画像は抽出され得ないことを意味する。
実行主体は、プリセット領域にある第1外接矩形枠を削除し、これらの価値の低い素材をフィルタリングすることができ、これは演算量の削減に寄与し、生成するされたターゲット画像に価値の低い素材が含まれることを回避する。
ステップS406、第1外接矩形枠におけるピクチャを識別し、第1外接矩形枠におけるピクチャコンテンツに対応する識別結果を取得する。
本実施例では、第1外接矩形枠におけるピクチャは文字素材ピクチャと画画素材ピクチャを含み、そのうち価値の低い素材、たとえばある文字素材ピクチャはウェブページにおける広告文であり、ある画画素材ピクチャはlogo図またはウェブページにおけるボタンのピクチャであり、これらの素材に含まれる有効情報が少ないため、価値も低い。第1外接矩形枠におけるピクチャを識別することにより、ピクチャコンテンツに対応する識別結果を取得することができ、識別結果は該第1外接矩形枠におけるピクチャをフィルタリングする必要があるか否かを判断するために用いられる。例えば、実行主体はソース画像を畳み込みニューラルネットワークモデルに入力することができ、ソース画像における各第1外接矩形枠における画像の識別結果を取得し、識別結果は例えば文字、logo図、広告文又はボタン図などの様々なタイプであってもよい。
ステップS407、識別結果に基づいて、プリセット条件を満たす第1外接矩形枠を削除する。プリセット条件は、必要としない素材を取り除き、価値のある素材を保有するように、実際の需要に従って設けられ得る。
本実施例では、抽出する素材は文字素材と画画素材を含み、たとえば、プリセット条件はlogo図、ボタン図と広告文に設定され、識別結果は上記3種である場合、実行主体は、対応する第1外接矩形枠を削除し、このようして、その後、ターゲット画像を生成するときに該部分ピクチャ領域におけるコンテンツを含まなく、ソース画像から抽出したコンテンツのフィルタリングを実現し、価値の低い素材を生成されたターゲット画像に追加することを回避する。
本実施例のいくつの選択可能な実施形態では、プリセット条件を満たす第1外接矩形枠を削除する前に、さらに、識別結果に基づいて、識別結果に対応する第1外接矩形枠におけるピクチャをプリセット位置に保存する。実際の適用シーンでは、ソース画像におけるあるピクチャはターゲット画像に必要ではないが、他の用途があり、たとえば、ソース画像におけるlogo図はウェブページのビジネスデータ分析に使用することができ、ボタン図はウェブページのインタラクティブ機能の分析などに使用することができ、従って、実行主体は、識別されたlogo図とボタン図を対応する記憶位置に保存することができ、後続の適用を容易にする。
ステップS408、第1外接矩形枠と第2外接矩形枠との間の入れ子関係に基づいて、各第1外接矩形枠におけるピクチャを初期ターゲット画像に合成する。このステップは、上記のステップS204にターゲット画像を生成するステップと類似しており、相違点は、本実施例では第1外接矩形枠と第2外接矩形枠との間の入れ子関係に基づいて、各第1外接矩形枠におけるピクチャを合成して形成される画像を初期ターゲット画像とし、後続ステップで処理された後、ターゲット画像を得る。
ステップS409、初期ターゲット画像にプリセットターゲットを含む領域である初期ターゲット画像におけるコア領域を決定する。
本実施例では、プリセットターゲットは、初期ターゲット画像の重要な情報を含む素材を表すために用いられ、プリセットターゲットは、顔を含む画像と密集文字の1つを少なくとも含む。例示として、実行主体は、顕著性検出アルゴリズムを採用し、初期ターゲット画像から、顔を含む画像と密集文字が所在する領域、すなわち初期ターゲット画像のコア領域を識別し、なお、コア領域の数は1つまたは複数であり、初期ターゲット画像における顔画像領域または文字密集領域の数により決定される。
ステップS410、プリセットトリミング比率とサイズに基づいて、初期ターゲット画像を分割し、分割された後のコア領域のピクチャを得る。
本実施例では、実行主体は、実際に必要なプリセットトリミング比率とサイズに応じて、初期ターゲット画像を分割し、複数のトリミング比率とサイズが一致している分割された後のピクチャを得、その後、コア領域外のピクチャを削除し、それにより分割された後のコア領域のピクチャを得る。たとえば、初期ターゲット画像に複数の文字密集領域と複数の顔画像領域が含まれる場合、実行主体は、初期ターゲット画像を分割した後に複数のコア領域ピクチャを取得することができるが、他のコア領域に位置しないピクチャが分割後に削除される。
ステップS411、分割された後のコア領域のピクチャの特徴情報に基づいて、分割された後のコア領域のピクチャを集約し、ターゲット画像を得る。特徴情報は、サイズ、縦横比率及びピクチャの構成属性の少なくとも1つを含む。
本実施例では、ピクチャの構成属性は文字と画像を含み、該ピクチャに含まれる素材コンテンツが文字であるか画像であるかを表すために用いられる。
ステップS410により分割された後のコア領域のピクチャの特徴情報に基づいて、実行主体は、プリセットルールで各分割された後のコア領域のピクチャを集約し、ターゲット画像を得るするようにしてもよい。たとえば、構成属性が文字でサイズが同じである分割された後のコア領域のピクチャを繋ぎ合わせ、それにより関連する2つの領域における文字をの1段落文字に集約し、文字素材の間の連続性を保証することができる。さらに、例えば、構成属性が画像であり、かつ且縦横比率及びサイズがいずれも同じである複数枚の分割された後のコア領域のピクチャを1つの領域に集合させることにより、複数の画画素材の間のコントラスト及び連絡を強調することができる。
図4からわかるように、第2実施例は図2にされる第1実施例に比べて、入れ子関係に基づいて初期ターゲット画像を生成してそのコア領域を識別し、次に初期ターゲット画像を分割して集約するステップ、及びプリセットルールに応じてソース画像から抽出された素材をフィルタリングするステップを体現する。初期ターゲット画像の分割及び集約により、初期ターゲット画像から重要な素材をさらに抽出することができ、プリセットルールに応じてソース画像から抽出された素材をフィルタリングし、ソース画像における価値の低い素材を取り除き、ターゲット画像に価値の低い素材を含むことを回避し、それにより生成されたターゲット画像に含まれる素材の品質を向上させる。
図5は本願に開示される画像を生成するための方法の電子デバイスのブロック図を示す。該電子デバイスは、端末にロードされたウェブページのスクリーンショットを取得してソース画像とする画像取得モジュール501と、ソース画像における連通領域を識別し、各連通領域の輪郭外に第1外接矩形枠を生成するように構成される第1生成モジュール502と、連通領域間の距離がプリセット距離閾値よりも小さい場合、連通領域を結合し、結合された連通領域の輪廓外に第2外接矩形枠を生成するように構成される第2生成モジュール503と、第1外接矩形枠と第2外接矩形枠との間の入れ子関係及び第1外接矩形枠におけるピクチャに基づいて、ターゲット画像を生成するように構成される画像生成モジュール504と、を備える。
本実施例では、画像生成モジュール504は、第1外接矩形枠と第2外接矩形枠との間の入れ子関係に基づいて、各第1外接矩形枠におけるピクチャを初期ターゲット画像に合成するように構成される初期画像モジュールと、初期ターゲット画像にプリセットターゲットを含む領域である初期ターゲット画像におけるコア領域を決定するように構成される領域を識別しモジュールと、プリセットトリミング比率とサイズに基づいて、初期ターゲット画像を分割し、分割された後のコア領域のピクチャを得るように構成される画像分割モジュールと、分割された後のコア領域のピクチャの特徴情報に基づいて、分割された後のコア領域のピクチャを集約し、ターゲット画像を得るように構成されるピクチャ集約モジュールと、を備え、特徴情報はサイズ、縦横比率及びピクチャの構成属性の少なくとも1つを含む。
本実施例では、装置は、さらに、第1外接矩形枠におけるピクチャのコア領域を決定する前に、第1外接矩形枠におけるピクチャを識別し、第1外接矩形枠におけるピクチャコンテンツに対応する識別結果を取得するステップと、識別結果に基づいて、プリセット条件を満たす第1外接矩形枠を削除するステップと、を実行するように構成されるピクチャ識別モジュールを備える。
本実施例では、ピクチャ識別モジュールは、さらに、プリセット条件を満たす第1外接矩形枠を削除する前に、識別結果に基づいて、識別結果に対応する第1外接矩形枠におけるピクチャをプリセット位置に保存するように構成される。
本実施例では、装置は、さらに、
初期ターゲット画像を生成する前に、第1外接矩形枠がソース画像における位置に基づいて、ソース画像のプリセット領域にある第1外接矩形枠を削除するように構成される位置検出モジュールを備える。
本実施例では、該装置は、初期ターゲット画像を生成する前に、第1外接矩形枠におけるピクチャの解像度がプリセット解像度閾値よりも小さい場合、第1外接矩形枠を削除するように構成される解像度検出モジュールを備える。
本願の実施例によれば、本願は電子デバイスと読み取り可能な記憶媒体をさらに提供する。
図6に示すように、本願の実施例によるコンピュータ記憶可能な媒体の方法の電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、その他の適切なコンピュータなどのさまざまな態様のデジタルコンピュータを表すことを目的とする。電子デバイスは、パーソナルデジタル処理、セルラー方式の携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティング装置などのさまざまな態様のモバイル装置を表すこともできる。本文に示されるコンポーネント、それらの接続及び関係、ならびにそれらの機能は、単なる例であり、本文に記載されるおよび/または主張される本願の実現を限定することを意図しない。
図6に示すように、該電子デバイスは、1つまたは複数のプロセッサ601、メモリ602、及び高速インターフェース及び低速インターフェースを備える各コンポーネントを接続するためのインターフェースを備える。各コンポーネントは、異なるバスで相互に接続されており、共通のマザーボードにインストールしてもよいし、必要に応じて、他の方法でインストールしてもよい。プロセッサは、GUIのグラフィック情報を外部入/出力装置(インターフェースに結合されたディスプレイデバイスなど)に表示できるように、メモリ内またはメモリ上に記憶された命令を含む電子デバイスで実行された命令を処理でき、他の実施例では、必要とすれば、複数のプロセッサおよび/または複数のバスを、複数のメモリ及び複数のメモリと共に使用することができる。同様に、複数の電子デバイスを接続でき、各デバイスはいくつかの必要なオペレーティングを提供する(例えば、サーバアレイ、ブレードサーバグループ、またはマルチプロセッサシステムとする)。図6では、1つのプロセッサ601を例にする。
メモリ602は、すなわち、本願による非一時的なコンピュータ読み取り可能な記憶媒体である。ただし、前記メモリは、少なくとも1つのプロセッサによって実行可能な命令を記憶するので、前記少なくとも1つのプロセッサに本願によるコンピュータ記憶可能な媒体の方法を実行させる。本願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータに本願によるコンピュータ記憶可能な媒体の方法を実行させるためのコンピュータ命令を記憶する。
メモリ602は非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータによって実行可能なプログラム、及びモジュールを記憶することに用いられ、例えば、本願の実施例のコンピュータ記憶可能な媒体の方法に対応するプログラム命令/モジュール(例えば、図5に示される画像取得モジュール501、第1生成モジュール502、第2生成モジュール503及び画像生成モジュール504)。プロセッサ601は、メモリ602に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法の実施例のコンピュータ記憶可能な媒体の方法を実現する。
メモリ602は、記憶プログラム領域と記憶データ領域を含んでもよく、ただし、記憶プログラム領域は、オペレーティングシステム、少なくとも1つの機能に必要なアプリケーションプログラムを記憶してもよく、記憶データ領域は、コンピュータ記憶可能な媒体の方法の電子デバイスの使用のため、作成されたデータなどを記憶することができ、また、メモリ602は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的なメモリを含んでもよく、例えば、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、または他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよく、いくつかの実施例では、メモリ602は、プロセッサ601に対してリモートで設定されたメモリを選択してもよく、これらのリモートメモリは、ネットワークを介してコンピュータ記憶可能な媒体の方法の電子デバイスに接続されてもよい。上記のネットワークの例としては、インターネット、ブロックチェーンネットワーク、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせなどを含むが、これらに限定されない。
コンピュータ記憶可能な媒体の方法の電子デバイスは、入力装置603及び出力装置604をさらに備えてよい。プロセッサ601、メモリ602、入力装置603、出力装置604は、バスなどで接続されてもよいが、図6にバスによる接続を例にする。
入力装置603は、入力デジタルまたは文字情報を受信し、コンピュータ記憶可能な媒体の方法の電子デバイスのユーザー設定及び機能制御に関連するキー信号入力を生成することができる。例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ以上のマウスボタン、トラックボール、ジョイスティック、その他の入力装置。出力装置604は、ディスプレイデバイス、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モーター)などを備えてもよい。該ディスプレイデバイスは、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ、及びプラズマディスプレイを備えてもよい。いくつかの実施例では、ディスプレイデバイスはタッチスクリーンであってもよい。
ここでは説明されるシステム及び技術の様々な実施例は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせにおいて実現できる。これらの様々な実施例は、以下を含んでもよく、1つまたは複数のコンピュータプログラムに実施され、該1つまたは複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および/または解釈されてもよく、該プログラマブルプロセッサは、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータと命令を受信し、そのデータと命令をストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置に送信できる専用または汎用のプログラマブルプロセッサであってもよい。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び/またはオブジェクト指向プログラミング言語、及び/またはアセンブリ/機械言語を利用してこれらのコンピュータプログラムを実施することができる。本文で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために用いられる任意のコンピュータプログラム製品、デバイス、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置(PLD)を指す。機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために用いられる任意の信号を指す。
ユーザーとのインタラクティブを提供するために、コンピュータにここでは説明されるシステム及び技術を実施してもよく、該コンピュータは、ユーザーに情報を表示するためのディスプレイ装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニター)、及びキーボードとポインティング装置(マウスやトラックボールなど)を備え、ユーザーが該キーボードとポインティング装置を介してコンピュータに入力を提供することができる。他のタイプの装置もユーザーとのインタラクティブを提供するために用いられ、例えば、ユーザーに提供されるフィードバックは、任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であってもよく、任意の形式(音入力、音声入力、または触覚入力を含み)でユーザーからの入力を受信することができる。
ここでは説明されるシステムと技術は、バックエンドコンポーネント(例えば、データサーバ)を含むコンピュータシステム、ミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含むコンピュータシステム、またはフロントエンドコンポーネントを含むコンピュータシステム(例えば、グラフィカルユーザーインターフェイスまたはWebブラウザーを備え、ユーザーが該ラフィカルユーザーインターフェイスまたはWebブラウザーでシステムと技術の実施例とインタラクティブできるユーザーのコンピュータ)、またはそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントを含む任意の組み合わせに実施してもよく、システムのコンポーネントは、任意の形式または媒体のデジタルデータ通信(通信ネットワークなど)を介して相互に接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、インターネット、ブロックチェーンネットワークが挙げられる。
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバは、一般的に互いに離れており、通常は通信ネットワークを介してインタラクティブする。対応するコンピュータ上で、互いにクライアント/サーバ関係を持つコンピュータプログラムを実行することによりクライアントとサーバの関係を生成する。
本願の実施例の技術解決手段によれば、ソース画像における連通領域を識別して結合することで、それぞれ第1外接矩形枠と第2外接矩形枠を生成し、第1外接矩形枠と第2外接矩形枠との間の入れ子関係によりウェブページの素材間の空間関係を表し、生成されたターゲット画像にソース画像の各素材間の空間関係を体現することができる。
なお、上記に示される様々な形態のプロセスを使用してソートし、ステップを追加し、削除できる。例えば、本願に記載される各ステップは、本願に開示される技術的解決手段の所望の結果を達成できる限り、並列、順次、または異なる順序で実行されてもよく、ここでは本文に限定されない。
上記の具体的な実施形態は、本願の特許範囲を限定するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができると理解すべきである。本願の精神及び原則を逸脱せずに行われる補正、同等置換、改良などはすべて本願の特許範囲に含まれるべきである。

Claims (13)

  1. 画像を生成するための方法であって、
    端末にロードされたウェブページのスクリーンショットを取得してソース画像とするステップと、
    前記ソース画像における連通領域を識別し、各連通領域の輪郭外に第1外接矩形枠を生成するステップと、
    前記連通領域間の距離がプリセット距離閾値よりも小さい場合、前記連通領域を結合し、結合された連通領域の輪廓外に第2外接矩形枠を生成するステップと、
    前記第1外接矩形枠と前記第2外接矩形枠との間の入れ子関係及び前記第1外接矩形枠におけるピクチャに基づいて、ターゲット画像を生成するステップと、を含み、
    前記第1外接矩形枠と前記第2外接矩形枠との間の入れ子関係及び前記第1外接矩形枠におけるピクチャに基づいて、ターゲット画像を生成するステップは、
    前記第1外接矩形枠と前記第2外接矩形枠との間の入れ子関係に基づいて、各前記第1外接矩形枠におけるピクチャを初期ターゲット画像に合成することと、
    前記初期ターゲット画像にプリセットターゲットを含む領域である前記初期ターゲット画像におけるコア領域を決定することと、
    プリセットトリミング比率とサイズに基づいて、前記初期ターゲット画像を分割し、分割された後のコア領域のピクチャを得ることと、
    前記分割された後のコア領域のピクチャの特徴情報に基づいて、前記分割された後のコア領域のピクチャを集約し、前記ターゲット画像を得ることと、を含み、前記特徴情報はサイズ、縦横比率及びピクチャの構成属性の少なくとも1つを含む方法。
  2. 初期ターゲット画像を生成する前に、前記方法は、さらに、
    前記第1外接矩形枠におけるピクチャを識別し、前記第1外接矩形枠におけるピクチャコンテンツに対応する識別結果を取得するステップと、
    前記識別結果に基づいて、プリセット条件を満たす第1外接矩形枠を削除するステップと、を含む請求項1に記載の方法。
  3. プリセット条件を満たす第1外接矩形枠を削除する前に、さらに、
    前記識別結果に基づいて、前記識別結果に対応する第1外接矩形枠におけるピクチャをプリセット位置に保存するステップを含む請求項2に記載の方法。
  4. 初期ターゲット画像を生成する前に、前記方法は、さらに、前記第1外接矩形枠が前記ソース画像における位置に基づいて、前記ソース画像のプリセット領域にある第1外接矩形枠を削除するステップを含む請求項2に記載の方法。
  5. 初期ターゲット画像を生成する前に、前記方法は、さらに、
    前記第1外接矩形枠におけるピクチャの解像度がプリセット解像度閾値よりも小さい場合、前記第1外接矩形枠を削除するステップを含む請求項1~4のいずれか1項に記載の方法。
  6. 画像を生成するための装置であって、
    端末にロードされたウェブページのスクリーンショットを取得してソース画像とする画像取得モジュールと、
    前記ソース画像における連通領域を識別し、各連通領域の輪郭外に第1外接矩形枠を生成するように構成される第1生成モジュールと、
    前記連通領域間の距離がプリセット距離閾値よりも小さい場合、前記連通領域を結合し、結合された連通領域の輪廓外に第2外接矩形枠を生成するように構成される第2生成モジュールと、
    前記第1外接矩形枠と前記第2外接矩形枠との間の入れ子関係及び前記第1外接矩形枠におけるピクチャに基づいて、ターゲット画像を生成する画像生成モジュールと、を備え
    前記画像生成モジュールは、
    前記第1外接矩形枠と前記第2外接矩形枠との間の入れ子関係に基づいて、各前記第1外接矩形枠におけるピクチャを初期ターゲット画像に合成するように構成される初期画像モジュールと、
    前記初期ターゲット画像にプリセットターゲットを含む領域である前記初期ターゲット画像におけるコア領域を決定するように構成される領域を識別しモジュールと、
    プリセットトリミング比率とサイズに基づいて、前記初期ターゲット画像を分割し、分割された後のコア領域のピクチャを得るように構成される画像分割モジュールと、
    前記分割された後のコア領域のピクチャの特徴情報に基づいて、前記分割された後のコア領域のピクチャを集約し、前記ターゲット画像を得るように構成されるピクチャ集約モジュールと、を備え、前記特徴情報はサイズ、縦横比率及びピクチャの構成属性の少なくとも1つを含む装置。
  7. 前記装置は、さらに、初期ターゲット画像を生成する前に、
    前記第1外接矩形枠におけるピクチャを識別し、前記第1外接矩形枠におけるピクチャコンテンツに対応する識別結果を取得するステップと、
    前記識別結果に基づいて、プリセット条件を満たす第1外接矩形枠を削除するステップと、を実行するように構成されるピクチャ識別モジュールを備える請求項6に記載の装置。
  8. 前記ピクチャ識別モジュールは、さらに、
    プリセット条件を満たす第1外接矩形枠を削除する前に、前記識別結果に基づいて、前記識別結果に対応する第1外接矩形枠におけるピクチャをプリセット位置に保存するように構成される請求項7に記載の装置。
  9. 前記装置は、さらに、
    前記初期ターゲット画像を生成する前に、前記第1外接矩形枠が前記ソース画像における位置に基づいて、前記ソース画像のプリセット領域にある第1外接矩形枠を削除するように構成される位置検出モジュールを備える請求項7に記載の装置。
  10. 前記装置は、さらに、
    前記初期ターゲット画像を生成する前に、前記第1外接矩形枠におけるピクチャの解像度がプリセット解像度閾値よりも小さい場合、前記第1外接矩形枠を削除するように構成される解像度検出モジュールを備える請求項6~9のいずれか1項に記載の装置。
  11. 電子デバイスであって、
    少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信接続されるメモリと、を備え、
    前記メモリは、前記少なくとも1つのプロセッサによって実行可能な命令を記憶し、前記少なくとも1つのプロセッサが請求項1~5いずれか1項に記載の方法を実行できるように、前記命令が前記少なくとも1つのプロセッサに実行される電子デバイス。
  12. コンピュータ命令を記憶する非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項1~5いずれか1項に記載の方法を実行させる記憶媒体。
  13. コンピュータプログラムであって、プロセッサにより実行されると、コンピュータに請求項1~5いずれか1項に記載の方法を実行させるコンピュータプログラム。
JP2021052215A 2020-04-21 2021-03-25 画像を生成するための方法及装置 Active JP7213291B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010315358.9A CN113538450B (zh) 2020-04-21 2020-04-21 用于生成图像的方法及装置
CN202010315358.9 2020-04-21

Publications (2)

Publication Number Publication Date
JP2021152901A JP2021152901A (ja) 2021-09-30
JP7213291B2 true JP7213291B2 (ja) 2023-01-26

Family

ID=75108280

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021052215A Active JP7213291B2 (ja) 2020-04-21 2021-03-25 画像を生成するための方法及装置

Country Status (5)

Country Link
US (1) US11810333B2 (ja)
EP (1) EP3828766A3 (ja)
JP (1) JP7213291B2 (ja)
KR (1) KR102648760B1 (ja)
CN (1) CN113538450B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10984066B2 (en) * 2019-01-02 2021-04-20 Zyte Group Limited System and method for a web scraping tool and classification engine
KR20230075006A (ko) 2021-11-22 2023-05-31 주식회사 신세계아이앤씨 상품 배너 자동 제작 및 관리 가능한 배너제작관리시스템
CN114943113B (zh) * 2022-07-26 2022-11-01 江西少科智能建造科技有限公司 多边形房间内布置散流器方法、***、存储介质及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130061132A1 (en) 2010-05-19 2013-03-07 Li-Wei Zheng System and method for web page segmentation using adaptive threshold computation
JP2013149210A (ja) 2012-01-23 2013-08-01 Fujitsu Ltd 画像処理プログラム、画像処理方法、及び画像処理装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2633432A4 (en) * 2010-10-26 2015-10-21 Hewlett Packard Development Co EXTRACTION OF CONTENT FROM ONE WEBSITE
CN102567300B (zh) * 2011-12-29 2013-11-27 方正国际软件有限公司 图片文档的处理方法及装置
US9251580B2 (en) * 2013-08-23 2016-02-02 Cimpress Schweiz Gmbh Methods and systems for automated selection of regions of an image for secondary finishing and generation of mask image of same
CN103885712B (zh) * 2014-03-21 2017-08-15 小米科技有限责任公司 网页调整方法、装置及电子设备
CN104951741A (zh) * 2014-03-31 2015-09-30 阿里巴巴集团控股有限公司 一种文字识别方法及装置
WO2017165774A1 (en) 2016-03-25 2017-09-28 Quad Analytix Llc Systems and methods for multi-modal automated categorization
CN110334706B (zh) * 2017-06-30 2021-06-01 清华大学深圳研究生院 一种图像目标识别方法及装置
CN107748888B (zh) * 2017-10-13 2019-11-08 众安信息技术服务有限公司 一种图像文本行检测方法及装置
CN109711508B (zh) * 2017-10-25 2020-06-05 北京京东尚科信息技术有限公司 图像处理方法和装置
CN108446697B (zh) * 2018-03-06 2019-11-12 平安科技(深圳)有限公司 图片处理方法、电子装置及存储介质
CN109002842A (zh) * 2018-06-27 2018-12-14 北京字节跳动网络技术有限公司 图像识别方法和装置
CN109325201A (zh) * 2018-08-15 2019-02-12 北京百度网讯科技有限公司 实体关系数据的生成方法、装置、设备及存储介质
CN109951654B (zh) * 2019-03-06 2022-02-15 腾讯科技(深圳)有限公司 一种视频合成的方法、模型训练的方法以及相关装置
CN110555839A (zh) * 2019-09-06 2019-12-10 腾讯云计算(北京)有限责任公司 缺陷检测识别方法、装置、计算机设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130061132A1 (en) 2010-05-19 2013-03-07 Li-Wei Zheng System and method for web page segmentation using adaptive threshold computation
JP2013149210A (ja) 2012-01-23 2013-08-01 Fujitsu Ltd 画像処理プログラム、画像処理方法、及び画像処理装置

Also Published As

Publication number Publication date
US20210264614A1 (en) 2021-08-26
KR20210040305A (ko) 2021-04-13
EP3828766A2 (en) 2021-06-02
KR102648760B1 (ko) 2024-03-15
CN113538450A (zh) 2021-10-22
JP2021152901A (ja) 2021-09-30
CN113538450B (zh) 2023-07-21
US11810333B2 (en) 2023-11-07
EP3828766A3 (en) 2021-10-06

Similar Documents

Publication Publication Date Title
JP7213291B2 (ja) 画像を生成するための方法及装置
JP7135125B2 (ja) 近赤外画像の生成方法、近赤外画像の生成装置、生成ネットワークの訓練方法、生成ネットワークの訓練装置、電子機器、記憶媒体及びコンピュータプログラム
CN111709878B (zh) 人脸超分辨率实现方法、装置、电子设备及存储介质
US10521513B2 (en) Language generation from flow diagrams
US11841921B2 (en) Model training method and apparatus, and prediction method and apparatus
CN111709873B (zh) 图像转换模型生成器的训练方法和装置
CN111967297B (zh) 图像的语义分割方法、装置、电子设备及介质
US10152213B2 (en) Techniques for selecting objects in images
US11641446B2 (en) Method for video frame interpolation, and electronic device
CN114550177A (zh) 图像处理的方法、文本识别方法及装置
US20170039192A1 (en) Language generation from flow diagrams
JP7242994B2 (ja) ビデオイベント識別方法、装置、電子デバイス及び記憶媒体
WO2019020061A1 (zh) 视频台词处理方法、客户端、服务器及存储介质
JP7264929B2 (ja) 背景なし画像の生成方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
CN111768356A (zh) 一种人脸图像融合方法、装置、电子设备及存储介质
JP7389824B2 (ja) オブジェクト識別方法と装置、電子機器及び記憶媒体
JP2023525462A (ja) 特徴を抽出するための方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN114004840A (zh) 图像处理方法、训练方法、检测方法、装置、设备及介质
CN115731313A (zh) Svg格式的图片的处理方法、装置、设备、介质及产品
JP2023543964A (ja) 画像処理方法、画像処理装置、電子機器、記憶媒体およびコンピュータプログラム
US11055526B2 (en) Method, system and apparatus for processing a page of a document
CN115082298A (zh) 图像生成方法、装置、电子设备以及存储介质
CN111651969A (zh) 样式迁移
CN115147850B (zh) 文字生成模型的训练方法、文字生成方法及其装置
CN113630606B (zh) 视频水印处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230116

R150 Certificate of patent or registration of utility model

Ref document number: 7213291

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150