JP7213291B2

JP7213291B2 - 画像を生成するための方法及装置

Info

Publication number: JP7213291B2
Application number: JP2021052215A
Authority: JP
Inventors: ジアオ・ヤン; ヤン・イー; ワン・ジエングオ; リー・イー; チェン・シアオドン; リウ・リン; ホー・シアン; ヂュー・イエンフォン
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2020-04-21
Filing date: 2021-03-25
Publication date: 2023-01-26
Anticipated expiration: 2041-03-25
Also published as: US20210264614A1; KR20210040305A; EP3828766A2; KR102648760B1; CN113538450A; JP2021152901A; CN113538450B; US11810333B2; EP3828766A3

Description

本願は、画像を生成するための方法及び装置を開示し、コンピュータの技術分野に関し、特にコンピュータビジョン分野に関する。

Ｈｔｍｌ（ハイパーテキスト言語）ウェブページにおける文字及びピクチャは常に重要な情報を含み、非常に価値のある素材である。従来技術において、ｈｔｍｌウェブページにおけるファイルに基づいて、コーディングの方式でその中の抽出しようとする素材を決定し、次にサーバから抽出しようとする素材に対応するファイルをダウンロードして、ｈｔｍｌウェブページ中の素材を取得する。

本願の実施例は、画像を生成するための方法、装置、デバイス及び記憶媒体を提供する。

第１態様によれば、画像を生成するための方法を提供しており、該方法は、端末にロードされたウェブページのスクリーンショットを取得してソース画像とするステップと、ソース画像における連通領域を識別し、各連通領域の輪郭外に第１外接矩形枠を生成するステップと、連通領域間の距離がプリセット距離閾値よりも小さい場合、連通領域を結合し、結合された連通領域の輪郭外に第２外接矩形枠を生成するステップと、第１外接矩形枠と第２外接矩形枠との間の入れ子関係及び第１外接矩形枠におけるピクチャに基づいて、ターゲット画像を生成するステップと、を含む。

第２態様によれば、画像を生成するための装置を提供しており、該装置、端末にロードされたウェブページのスクリーンショットを取得してソース画像とする画像取得モジュールと、ソース画像における連通領域を識別し、各連通領域の輪郭外に第１外接矩形枠を生成するように構成される第１生成モジュールと、連通領域間の距離がプリセット距離閾値よりも小さい場合、連通領域を結合し、結合された連通領域の輪廓外に第２外接矩形枠を生成するように構成される第２生成モジュールと、第１外接矩形枠と第２外接矩形枠との間の入れ子関係及び第１外接矩形枠におけるピクチャに基づいて、ターゲット画像を生成する画像生成モジュールと、を備える。

第３態様によれば、コンピュータプログラムを提供しており、コンピュータプログラムは、プロセッサにより実行されると、コンピュータに第１態様に記載の方法を実行させる。

本願の技術的解決手段によれば、従来技術におけるウェブページから抽出された素材が各素材間の空間的関係を反映できないという問題を解決し、ソース画像における連通領域を識別して結合することで、それぞれ第１外接矩形枠と第２外接矩形枠を生成し、第１外接矩形枠と第２外接矩形枠との間の入れ子関係によりウェブページの素材間の空間関係を表し、生成されたターゲット画像にソース画像の各素材間の空間関係を体現することができる。

なお、この部分で説明する内容は、本開示の実施例の肝心なまたは重要な特徴を特定することを意図するものではなく、本開示の範囲を限定することを意図するものでもない。本開示の他の特徴は以下の明細書を通じて容易に理解される。

図面は、本解決手段をより良く理解するためのものであり、本願を限定するものではない。

本願の実施例の適用可能で例示的なシステムアーキテクチャの図である。本願の実施例による画像を生成するための方法の第１実施例の概略図である。本願の実施例による画像を生成するための方法の第１実施例の概略図である。本願の実施例による画像を生成するための方法の適用シーンの概略図である。本願の実施例による画像を生成するための方法の第２実施例の概略図である。本願の実施例の画像を生成するための方法を実現するための電子デバイスのブロック図である。本願の実施例のコンピュータ記憶可能な媒体のシーン図である。

以下、図面を参照して、本願の例示的な実施例を説明し、理解に役に立つように、本願の実施例の様々な詳細を含み、単に例示的なものと見なされる。従って、当業者は、本願の範囲と精神から逸脱せずに、ここで説明する実施例に様々な変更と修正を加えることができることを識別すべきである。同様に、明確かつ簡潔にするために、以下の説明では、公知の機能と構造の説明を省略する。

図１は本願の実施例の画像を生成するための方法または装置の適用可能で例示的なシステムアーキテクチャ１００を示す。

図１に示すように、システムアーキテクチャ１００は、端末デバイス１０１、１０２、１０３、ネットワーク１０４及びサーバ１０５を備えてもよい。ネットワーク１０４は、端末デバイス１０１、１０２、１０３とサーバ１０５の間に通信リンクを提供する媒体である。ネットワーク１０４は、様々な接続タイプ、例えば有線、無線通信リンクまたはいは光ファイバケーブルなどを含んでもよい。

ユーザは、端末デバイス１０１、１０２、１０３を使用して、ネットワーク１０４を介してサーバ１０５とインタラクティブし、データなどを送受信することができる。例えば、ユーザは、自分が閲覧しようがするウェブページのアドレスを端末デバイスに入力することができる。端末デバイスはネットワーク１０４を介してサーバ１０５からデータを取得し、次に、取得されたデータに基づいて、端末は解析およびレンダリングなどのステップによりウェブページを生成し、最後にそれをユーザに表示する。

端末デバイス１０１、１０２、１０３は、ハードウェアであってもよいし、ソフトウェアであってもよい。端末デバイス１０１、１０２、１０３がハードウェアである場合、それらは、スマートフォン、タブレットコンピュータ、デスクトップコンピュータなどを含むがこれらに限定されなく、サーバおよび他の端末とのデータインタラクティブを行う機能を備えた様々な電子デバイスであってもよい。端末デバイス１０１、１０２、１０３がソフトウェアの場合、上記の電子デバイスにインストールされてもよい。これらは、複数のソフトウェアまたはソフトウェアモジュールとして、または単一のソフトウェアまたはソフトウェアモジュールとして実装できるが、ここでは具体的に限定されない。

サーバ１０５は、データ処理サービスを提供するサーバであり得る。例えば、端末デバイスがアクセスするウェブページを生成するために、端末デバイス１０１、１０２、１０３によって送信されるアクセスリクエスに従って、対応するデータを送信する。

なお、本願の実施例による画像を生成するための方法はサーバ１０５により実行されてもよく、それに対応して、画像を生成するため装置はサーバ１０５に設置されてもよい。この時、サーバ１０５はネットワーク１０４を介して端末デバイス１０１、１０２、１０３にプリロードされたウェブページ情報を取得し、その後、取得されたウェブページ情報に従ってソース画像及びソース画像から抽出した素材を生成する。本願の実施例による画像を生成するための方法は端末デバイスにより実行されてもよく、それに対応して、画像を生成するため装置は端末デバイスに設置されてもよい。この時、端末デバイスはネットワーク１０４を介して他の端末デバイスに通信接続され、他の端末デバイスにプリロードされたウェブページ情報を取得するようにしてもよく、その後、取得されたウェブページ情報従ってソース画像及びソース画像から抽出した素材を生成する。ここでは限定しない。

図２（ａ）をさらに参照して、図２（ａ）は本願に開示される画像を生成するための方法の第１実施例のフローチャートを示し、以下のステップを含み、
ステップＳ２０１、端末にロードされたウェブページのスクリーンショットを取得し、ソース画像とする。

本実施例では、実行主体によって抽出されるオブジェクトは、端末によって表示されるウェブページに含まれる素材であり、それは文字素材とピクチャ素材を含む。ソース画像はウェブページにおける素材だけでなく、各素材間の空間関係も含む。

例示として、ソース画像は次の方式で生成するでき、実行主体は、端末にプリロードされたウェブページのネットワークアドレスを取得し、ネットワークアドレスにアクセスして取得されたウェブページは、端末にロードされたウェブページであり、取得されたウェブページに対してスクリーンショットを行い、取得されたウェブページスクリーンショットをソース画像とする。たとえば実行主体は、ＳｎａｐＳｈｏｔツールを介して以上のステップを実行するようにしてもよく、ネットワークを介して端末デバイスにより送信されるウェブページのスクリーンショットを直接受信するようにしてもよく、本願はこれを限定するものではない。

ステップＳ２０２、ソース画像における連通領域を識別し、各連通領域の輪郭外に第１外接矩形枠を生成する。

連通領域は、連通の領域とも呼ばれ、画像に同じ画素値があり且つ隣接する前景画素点で構成される画像領域を指す。連通領域分析により、画像における各連通領域を識別し、連通領域の輪廓外に外接矩形枠を生成することができる。連通領域分析技術は、画像処理の分野における通常の技術的手段、たとえばＴｗｏ－Ｐａｓｓ方法、ＯＣＲアルゴリズム（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、光学文字識別）などでこの機能をいずれも実現することができ、本願はこれを限定するものではない。

本実施例では、第１外接矩形枠はソース画像における最小連通領域をマークすることに用いられる。たとえば、実行主体は、（図１に示される端末）ＯＣＲアルゴリズムでソース画像における連通領域を識別し、ソース画像に存在する一部の文字であれば、各行の文字の画像における領域はいずれも一つの連通領域として識別され、それに応じて、各行の文字は画像における領域輪郭の外にいずれも一つの第１外接矩形枠を生成し、実行主体は該文字画像から複数の連通領域を識別し、かつ複数の第１外接矩形枠を生成することができる。

なお、最小連通領域の識別精度は実際の需要に応じて調整することができ、例えば上記例において、さらに同じ段落の文字を一つの連通領域として識別することができ、それに応じて、該段落文字のソース画像における領域は第１外接矩形枠を生成することができる。本願はこれを限定するものではない。

ステップＳ２０３、連通領域間の距離がプリセット距離閾値よりも小さい場合、連通領域を結合し、結合された連通領域の輪廓外に第２外接矩形枠を生成する。

本実施例では、第２外接矩形枠は入れ子関係を持つ外接矩形枠を表すことに用いられる。連通領域的を結合することで、複数の層の入れ子関係を含む第２外接矩形枠を得ることができる。連通領域間の距離がソース画像における異なる連通領域に含まれる素材間の位置関係を表す。

図２（ｂ）を参照してながら説明し、図２（ｂ）は本実施例の一具体的な例を示し、連通領域１、２、３、４（図２（ｂ）に示される２０１、２０２、２０３、２０４）は、それぞれ第１外接矩形枠ａ、ｂ、ｃ、ｄ（図２（ｂ）に示される２０５、２０６、２０７、２０８）に対応する。実行主体は、ステップＳ２０３を実行し、連通領域１と２を結合することで連通領域５（図２（ｂ）に示される２０９）を得、連通領域３と４を結合することで連通領域６（図２（ｂ）に示される２１０）を得、その後、連通領域５の輪廓外に第２矩形枠ｅ（図２（ｂ）に示される２１１）を生成し、連通領域６の輪廓外に第２検出枠ｆ（図２（ｂ）に示される２１２）を生成し、その後、連通領域５と連通領域６と間の距離が依然としてプリセット距離閾値よりも小さい場合、実行主体は、続いて連通領域５と連通領域６を結合し、連通領域７（図２（ｂ）に示される２１３）を得、連通領域７の輪廓外に第２検出枠ｇ（図２（ｂ）に示される２１４）を生成する。最後に、第２外接矩形枠ｅ、ｆとｇを得、ここでは、第２外接矩形枠ｇは第２外接矩形枠とｆを含むが、第２外接矩形枠ｅは第１外接矩形枠ａとｂを含み、第２外接矩形枠ｆは第１外接矩形枠ｃとｄを含む。各外接矩形枠間の包含関係は、すなわち第１外接矩形枠と第２外接矩形枠との間の入れ子関係であり、各連通領域における素材間の空間関係を表すことに用いられてもよい。

ステップＳ２０４、第１外接矩形枠と第２外接矩形枠との間の入れ子関係及び第１外接矩形枠におけるピクチャに基づいて、ターゲット画像を生成する。

本実施例では、第１外接矩形枠におけるピクチャはソース画像から抽出し待ち素材を示し、ターゲット画像の基本エレメントを生成することに用いられ、第１外接矩形枠と第２外接矩形枠との間の入れ子関係はソース画像における各素材間の空間関係を表すことに用いられる。

実行主体が第１外接矩形枠におけるピクチャをステップＳ２０３で得られた入れ子関係に従って合成することで生成される画像はターゲット画像である。

具体的な例において、以下の方式で目標画像を生成することができ、実行主体はｒｅｃｔ関数を利用して第１外接矩形枠及び第２外接矩形枠を表すことができ、各ｒｅｃｔは外接矩形枠の左上隅のソース画像における座標及び外接矩形枠の長さ及び幅を記憶し、このようにして、各ｒｅｃｔは１つの第１外接矩形枠又は１つの第２外接矩形枠を代表する。次に実行主体は含まれるｒｅｃｔ数が最も多いｒｅｃｔを親ノードとして、第１外接矩形枠と第２外接矩形枠との間の入れ子関係に基づいて、ｒｅｃｔツリー構造を構築し、ツリー構造における各ノードはいずれも１つの第１外接矩形枠又は１つの第２外接矩形枠を代表し、ここで最下層ノードはソース画像における第１外接矩形枠を代表する。最後に本体がツリー構造に基づいて、それにより第１外接矩形枠におけるピクチャを組み合わせて、ターゲット画像を得ることができる。

図３をさらに参照して、図３は本願に開示される画像を生成するための方法のシーン概略図である。該適用シーンでは、実行主体は、３０６は端末デバイスであってもよく、サーバであってもよい。実行主体は、ネットワークを介して端末３０５にプリロードされたウェブページのスクリーンショット３０１を取得し、その連通領域を識別し各第１検出枠（図３中の３０２に示される）を得、距離がプリセット距離閾値よりも小さい連通領域を結合し、各第２検出枠（図３中の３０３に示される）を得、最後に第１検出枠と第２検出枠との間の入れ子関係に基づいて、第１検出枠におけるピクチャをターゲット画像３０４に合成する。

本願に開示される上記の実施例における画像を生成するための方法は、ソース画像における連通領域を識別して結合することで、それぞれ第１外接矩形枠と第２外接矩形枠を生成し、第１外接矩形枠と第２外接矩形枠との間の入れ子関係によりウェブページの素材間の空間関係を表し、生成されたターゲット画像にソース画像の各素材間の空間関係を体現することができる。

図４をさらに参照して、図４は本願に開示される画像を生成するための方法の第２実施例のフローチャートであり、以下のステップを含む。

ステップＳ４０１、端末にロードされたウェブページのスクリーンショットを取得し、ソース画像とする。このステップは上記のステップＳ２０１に対応し、ここでは繰り返し説明しない。

ステップＳ４０２、ソース画像における連通領域を識別し、各連通領域の輪郭外に第１外接矩形枠を生成する。このステップは上記のステップＳ２０２に対応し、ここでは繰り返し説明しない。

ステップＳ４０３、連通領域間の距離がプリセット距離閾値よりも小さい場合、連通領域を結合し、結合された連通領域の輪廓外に第２外接矩形枠を生成する。このステップは上記のステップＳ２０３に対応し、ここでは繰り返し説明しない。

ステップＳ４０４、第１外接矩形枠におけるピクチャの解像度がプリセット解像度閾値よりも小さい場合、該第１外接矩形枠を削除する。このように、ソース画像から解像度の低い素材を抽出することができ、それにより生成されたターゲット画像の品質を確保する。

ステップＳ４０５、第１外矩形枠がソース画像における位置に基づいて、ソース画像のプリセット領域にある第１外接矩形枠を削除する。

本実施例では、プリセット領域は、ソース画像の重要度の低い素材が所在する領域を示す。たとえば、ソース画像の底部領域と上部領域であってもよい。通常、ウェブページは重要度の低い文字やピクチャをこれら２つ領域（ウェブページに掲載された広告など）に設置する。第１外接矩形枠は、ソース画像で抽出される素材の位置と領域をマークするために用いられる。これにより、実行主体は、ソース画像から領域内の画像を抽出できる。つまり、ソース画像から素材を抽出するステップを完成する。したがって、第１外接矩形枠を削除すると、第１外接矩形枠の画像は抽出され得ないことを意味する。

実行主体は、プリセット領域にある第１外接矩形枠を削除し、これらの価値の低い素材をフィルタリングすることができ、これは演算量の削減に寄与し、生成するされたターゲット画像に価値の低い素材が含まれることを回避する。

ステップＳ４０６、第１外接矩形枠におけるピクチャを識別し、第１外接矩形枠におけるピクチャコンテンツに対応する識別結果を取得する。

本実施例では、第１外接矩形枠におけるピクチャは文字素材ピクチャと画画素材ピクチャを含み、そのうち価値の低い素材、たとえばある文字素材ピクチャはウェブページにおける広告文であり、ある画画素材ピクチャはｌｏｇｏ図またはウェブページにおけるボタンのピクチャであり、これらの素材に含まれる有効情報が少ないため、価値も低い。第１外接矩形枠におけるピクチャを識別することにより、ピクチャコンテンツに対応する識別結果を取得することができ、識別結果は該第１外接矩形枠におけるピクチャをフィルタリングする必要があるか否かを判断するために用いられる。例えば、実行主体はソース画像を畳み込みニューラルネットワークモデルに入力することができ、ソース画像における各第１外接矩形枠における画像の識別結果を取得し、識別結果は例えば文字、ｌｏｇｏ図、広告文又はボタン図などの様々なタイプであってもよい。

ステップＳ４０７、識別結果に基づいて、プリセット条件を満たす第１外接矩形枠を削除する。プリセット条件は、必要としない素材を取り除き、価値のある素材を保有するように、実際の需要に従って設けられ得る。

本実施例では、抽出する素材は文字素材と画画素材を含み、たとえば、プリセット条件はｌｏｇｏ図、ボタン図と広告文に設定され、識別結果は上記３種である場合、実行主体は、対応する第１外接矩形枠を削除し、このようして、その後、ターゲット画像を生成するときに該部分ピクチャ領域におけるコンテンツを含まなく、ソース画像から抽出したコンテンツのフィルタリングを実現し、価値の低い素材を生成されたターゲット画像に追加することを回避する。

本実施例のいくつの選択可能な実施形態では、プリセット条件を満たす第１外接矩形枠を削除する前に、さらに、識別結果に基づいて、識別結果に対応する第１外接矩形枠におけるピクチャをプリセット位置に保存する。実際の適用シーンでは、ソース画像におけるあるピクチャはターゲット画像に必要ではないが、他の用途があり、たとえば、ソース画像におけるｌｏｇｏ図はウェブページのビジネスデータ分析に使用することができ、ボタン図はウェブページのインタラクティブ機能の分析などに使用することができ、従って、実行主体は、識別されたｌｏｇｏ図とボタン図を対応する記憶位置に保存することができ、後続の適用を容易にする。

ステップＳ４０８、第１外接矩形枠と第２外接矩形枠との間の入れ子関係に基づいて、各第１外接矩形枠におけるピクチャを初期ターゲット画像に合成する。このステップは、上記のステップＳ２０４にターゲット画像を生成するステップと類似しており、相違点は、本実施例では第１外接矩形枠と第２外接矩形枠との間の入れ子関係に基づいて、各第１外接矩形枠におけるピクチャを合成して形成される画像を初期ターゲット画像とし、後続ステップで処理された後、ターゲット画像を得る。

ステップＳ４０９、初期ターゲット画像にプリセットターゲットを含む領域である初期ターゲット画像におけるコア領域を決定する。

本実施例では、プリセットターゲットは、初期ターゲット画像の重要な情報を含む素材を表すために用いられ、プリセットターゲットは、顔を含む画像と密集文字の１つを少なくとも含む。例示として、実行主体は、顕著性検出アルゴリズムを採用し、初期ターゲット画像から、顔を含む画像と密集文字が所在する領域、すなわち初期ターゲット画像のコア領域を識別し、なお、コア領域の数は１つまたは複数であり、初期ターゲット画像における顔画像領域または文字密集領域の数により決定される。

ステップＳ４１０、プリセットトリミング比率とサイズに基づいて、初期ターゲット画像を分割し、分割された後のコア領域のピクチャを得る。

本実施例では、実行主体は、実際に必要なプリセットトリミング比率とサイズに応じて、初期ターゲット画像を分割し、複数のトリミング比率とサイズが一致している分割された後のピクチャを得、その後、コア領域外のピクチャを削除し、それにより分割された後のコア領域のピクチャを得る。たとえば、初期ターゲット画像に複数の文字密集領域と複数の顔画像領域が含まれる場合、実行主体は、初期ターゲット画像を分割した後に複数のコア領域ピクチャを取得することができるが、他のコア領域に位置しないピクチャが分割後に削除される。

ステップＳ４１１、分割された後のコア領域のピクチャの特徴情報に基づいて、分割された後のコア領域のピクチャを集約し、ターゲット画像を得る。特徴情報は、サイズ、縦横比率及びピクチャの構成属性の少なくとも１つを含む。

本実施例では、ピクチャの構成属性は文字と画像を含み、該ピクチャに含まれる素材コンテンツが文字であるか画像であるかを表すために用いられる。

ステップＳ４１０により分割された後のコア領域のピクチャの特徴情報に基づいて、実行主体は、プリセットルールで各分割された後のコア領域のピクチャを集約し、ターゲット画像を得るするようにしてもよい。たとえば、構成属性が文字でサイズが同じである分割された後のコア領域のピクチャを繋ぎ合わせ、それにより関連する２つの領域における文字をの１段落文字に集約し、文字素材の間の連続性を保証することができる。さらに、例えば、構成属性が画像であり、かつ且縦横比率及びサイズがいずれも同じである複数枚の分割された後のコア領域のピクチャを１つの領域に集合させることにより、複数の画画素材の間のコントラスト及び連絡を強調することができる。

図４からわかるように、第２実施例は図２にされる第１実施例に比べて、入れ子関係に基づいて初期ターゲット画像を生成してそのコア領域を識別し、次に初期ターゲット画像を分割して集約するステップ、及びプリセットルールに応じてソース画像から抽出された素材をフィルタリングするステップを体現する。初期ターゲット画像の分割及び集約により、初期ターゲット画像から重要な素材をさらに抽出することができ、プリセットルールに応じてソース画像から抽出された素材をフィルタリングし、ソース画像における価値の低い素材を取り除き、ターゲット画像に価値の低い素材を含むことを回避し、それにより生成されたターゲット画像に含まれる素材の品質を向上させる。

図５は本願に開示される画像を生成するための方法の電子デバイスのブロック図を示す。該電子デバイスは、端末にロードされたウェブページのスクリーンショットを取得してソース画像とする画像取得モジュール５０１と、ソース画像における連通領域を識別し、各連通領域の輪郭外に第１外接矩形枠を生成するように構成される第１生成モジュール５０２と、連通領域間の距離がプリセット距離閾値よりも小さい場合、連通領域を結合し、結合された連通領域の輪廓外に第２外接矩形枠を生成するように構成される第２生成モジュール５０３と、第１外接矩形枠と第２外接矩形枠との間の入れ子関係及び第１外接矩形枠におけるピクチャに基づいて、ターゲット画像を生成するように構成される画像生成モジュール５０４と、を備える。

本実施例では、画像生成モジュール５０４は、第１外接矩形枠と第２外接矩形枠との間の入れ子関係に基づいて、各第１外接矩形枠におけるピクチャを初期ターゲット画像に合成するように構成される初期画像モジュールと、初期ターゲット画像にプリセットターゲットを含む領域である初期ターゲット画像におけるコア領域を決定するように構成される領域を識別しモジュールと、プリセットトリミング比率とサイズに基づいて、初期ターゲット画像を分割し、分割された後のコア領域のピクチャを得るように構成される画像分割モジュールと、分割された後のコア領域のピクチャの特徴情報に基づいて、分割された後のコア領域のピクチャを集約し、ターゲット画像を得るように構成されるピクチャ集約モジュールと、を備え、特徴情報はサイズ、縦横比率及びピクチャの構成属性の少なくとも１つを含む。

本実施例では、装置は、さらに、第１外接矩形枠におけるピクチャのコア領域を決定する前に、第１外接矩形枠におけるピクチャを識別し、第１外接矩形枠におけるピクチャコンテンツに対応する識別結果を取得するステップと、識別結果に基づいて、プリセット条件を満たす第１外接矩形枠を削除するステップと、を実行するように構成されるピクチャ識別モジュールを備える。

本実施例では、ピクチャ識別モジュールは、さらに、プリセット条件を満たす第１外接矩形枠を削除する前に、識別結果に基づいて、識別結果に対応する第１外接矩形枠におけるピクチャをプリセット位置に保存するように構成される。

本実施例では、装置は、さらに、
初期ターゲット画像を生成する前に、第１外接矩形枠がソース画像における位置に基づいて、ソース画像のプリセット領域にある第１外接矩形枠を削除するように構成される位置検出モジュールを備える。

本実施例では、該装置は、初期ターゲット画像を生成する前に、第１外接矩形枠におけるピクチャの解像度がプリセット解像度閾値よりも小さい場合、第１外接矩形枠を削除するように構成される解像度検出モジュールを備える。

本願の実施例によれば、本願は電子デバイスと読み取り可能な記憶媒体をさらに提供する。

図６に示すように、本願の実施例によるコンピュータ記憶可能な媒体の方法の電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、その他の適切なコンピュータなどのさまざまな態様のデジタルコンピュータを表すことを目的とする。電子デバイスは、パーソナルデジタル処理、セルラー方式の携帯電話、スマートフォン、ウェアラブルデバイス、及び他の同様のコンピューティング装置などのさまざまな態様のモバイル装置を表すこともできる。本文に示されるコンポーネント、それらの接続及び関係、ならびにそれらの機能は、単なる例であり、本文に記載されるおよび／または主張される本願の実現を限定することを意図しない。

図６に示すように、該電子デバイスは、１つまたは複数のプロセッサ６０１、メモリ６０２、及び高速インターフェース及び低速インターフェースを備える各コンポーネントを接続するためのインターフェースを備える。各コンポーネントは、異なるバスで相互に接続されており、共通のマザーボードにインストールしてもよいし、必要に応じて、他の方法でインストールしてもよい。プロセッサは、ＧＵＩのグラフィック情報を外部入／出力装置（インターフェースに結合されたディスプレイデバイスなど）に表示できるように、メモリ内またはメモリ上に記憶された命令を含む電子デバイスで実行された命令を処理でき、他の実施例では、必要とすれば、複数のプロセッサおよび／または複数のバスを、複数のメモリ及び複数のメモリと共に使用することができる。同様に、複数の電子デバイスを接続でき、各デバイスはいくつかの必要なオペレーティングを提供する（例えば、サーバアレイ、ブレードサーバグループ、またはマルチプロセッサシステムとする）。図６では、１つのプロセッサ６０１を例にする。

メモリ６０２は、すなわち、本願による非一時的なコンピュータ読み取り可能な記憶媒体である。ただし、前記メモリは、少なくとも１つのプロセッサによって実行可能な命令を記憶するので、前記少なくとも１つのプロセッサに本願によるコンピュータ記憶可能な媒体の方法を実行させる。本願の非一時的なコンピュータ読み取り可能な記憶媒体は、コンピュータに本願によるコンピュータ記憶可能な媒体の方法を実行させるためのコンピュータ命令を記憶する。

メモリ６０２は非一時的なコンピュータ読み取り可能な記憶媒体として、非一時的なソフトウェアプログラム、非一時的なコンピュータによって実行可能なプログラム、及びモジュールを記憶することに用いられ、例えば、本願の実施例のコンピュータ記憶可能な媒体の方法に対応するプログラム命令／モジュール（例えば、図５に示される画像取得モジュール５０１、第１生成モジュール５０２、第２生成モジュール５０３及び画像生成モジュール５０４）。プロセッサ６０１は、メモリ６０２に記憶された非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち、上記方法の実施例のコンピュータ記憶可能な媒体の方法を実現する。

メモリ６０２は、記憶プログラム領域と記憶データ領域を含んでもよく、ただし、記憶プログラム領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶してもよく、記憶データ領域は、コンピュータ記憶可能な媒体の方法の電子デバイスの使用のため、作成されたデータなどを記憶することができ、また、メモリ６０２は、高速ランダムアクセスメモリを含んでもよく、さらに非一時的なメモリを含んでもよく、例えば、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、または他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよく、いくつかの実施例では、メモリ６０２は、プロセッサ６０１に対してリモートで設定されたメモリを選択してもよく、これらのリモートメモリは、ネットワークを介してコンピュータ記憶可能な媒体の方法の電子デバイスに接続されてもよい。上記のネットワークの例としては、インターネット、ブロックチェーンネットワーク、企業イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせなどを含むが、これらに限定されない。

コンピュータ記憶可能な媒体の方法の電子デバイスは、入力装置６０３及び出力装置６０４をさらに備えてよい。プロセッサ６０１、メモリ６０２、入力装置６０３、出力装置６０４は、バスなどで接続されてもよいが、図６にバスによる接続を例にする。

入力装置６０３は、入力デジタルまたは文字情報を受信し、コンピュータ記憶可能な媒体の方法の電子デバイスのユーザー設定及び機能制御に関連するキー信号入力を生成することができる。例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ以上のマウスボタン、トラックボール、ジョイスティック、その他の入力装置。出力装置６０４は、ディスプレイデバイス、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モーター）などを備えてもよい。該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを備えてもよい。いくつかの実施例では、ディスプレイデバイスはタッチスクリーンであってもよい。

ここでは説明されるシステム及び技術の様々な実施例は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実現できる。これらの様々な実施例は、以下を含んでもよく、１つまたは複数のコンピュータプログラムに実施され、該１つまたは複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行および／または解釈されてもよく、該プログラマブルプロセッサは、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータと命令を受信し、そのデータと命令をストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置に送信できる専用または汎用のプログラマブルプロセッサであってもよい。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び／またはオブジェクト指向プログラミング言語、及び／またはアセンブリ／機械言語を利用してこれらのコンピュータプログラムを実施することができる。本文で使用されるように、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、プログラマブルプロセッサに機械命令および／またはデータを提供するために用いられる任意のコンピュータプログラム製品、デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジック装置（ＰＬＤ）を指す。機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、プログラマブルプロセッサに機械命令および／またはデータを提供するために用いられる任意の信号を指す。

ユーザーとのインタラクティブを提供するために、コンピュータにここでは説明されるシステム及び技術を実施してもよく、該コンピュータは、ユーザーに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニター）、及びキーボードとポインティング装置（マウスやトラックボールなど）を備え、ユーザーが該キーボードとポインティング装置を介してコンピュータに入力を提供することができる。他のタイプの装置もユーザーとのインタラクティブを提供するために用いられ、例えば、ユーザーに提供されるフィードバックは、任意の形式の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であってもよく、任意の形式（音入力、音声入力、または触覚入力を含み）でユーザーからの入力を受信することができる。

ここでは説明されるシステムと技術は、バックエンドコンポーネント（例えば、データサーバ）を含むコンピュータシステム、ミドルウェアコンポーネント（例えば、アプリケーションサーバ）を含むコンピュータシステム、またはフロントエンドコンポーネントを含むコンピュータシステム（例えば、グラフィカルユーザーインターフェイスまたはＷｅｂブラウザーを備え、ユーザーが該ラフィカルユーザーインターフェイスまたはＷｅｂブラウザーでシステムと技術の実施例とインタラクティブできるユーザーのコンピュータ）、またはそのようなバックエンドコンポーネント、ミドルウェアコンポーネント、またはフロントエンドコンポーネントを含む任意の組み合わせに実施してもよく、システムのコンポーネントは、任意の形式または媒体のデジタルデータ通信（通信ネットワークなど）を介して相互に接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、インターネット、ブロックチェーンネットワークが挙げられる。

コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバは、一般的に互いに離れており、通常は通信ネットワークを介してインタラクティブする。対応するコンピュータ上で、互いにクライアント／サーバ関係を持つコンピュータプログラムを実行することによりクライアントとサーバの関係を生成する。

本願の実施例の技術解決手段によれば、ソース画像における連通領域を識別して結合することで、それぞれ第１外接矩形枠と第２外接矩形枠を生成し、第１外接矩形枠と第２外接矩形枠との間の入れ子関係によりウェブページの素材間の空間関係を表し、生成されたターゲット画像にソース画像の各素材間の空間関係を体現することができる。

なお、上記に示される様々な形態のプロセスを使用してソートし、ステップを追加し、削除できる。例えば、本願に記載される各ステップは、本願に開示される技術的解決手段の所望の結果を達成できる限り、並列、順次、または異なる順序で実行されてもよく、ここでは本文に限定されない。

上記の具体的な実施形態は、本願の特許範囲を限定するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができると理解すべきである。本願の精神及び原則を逸脱せずに行われる補正、同等置換、改良などはすべて本願の特許範囲に含まれるべきである。

Claims

画像を生成するための方法であって、
端末にロードされたウェブページのスクリーンショットを取得してソース画像とするステップと、
前記ソース画像における連通領域を識別し、各連通領域の輪郭外に第１外接矩形枠を生成するステップと、
前記連通領域間の距離がプリセット距離閾値よりも小さい場合、前記連通領域を結合し、結合された連通領域の輪廓外に第２外接矩形枠を生成するステップと、
前記第１外接矩形枠と前記第２外接矩形枠との間の入れ子関係及び前記第１外接矩形枠におけるピクチャに基づいて、ターゲット画像を生成するステップと、を含み、
前記第１外接矩形枠と前記第２外接矩形枠との間の入れ子関係及び前記第１外接矩形枠におけるピクチャに基づいて、ターゲット画像を生成するステップは、
前記第１外接矩形枠と前記第２外接矩形枠との間の入れ子関係に基づいて、各前記第１外接矩形枠におけるピクチャを初期ターゲット画像に合成することと、
前記初期ターゲット画像にプリセットターゲットを含む領域である前記初期ターゲット画像におけるコア領域を決定することと、
プリセットトリミング比率とサイズに基づいて、前記初期ターゲット画像を分割し、分割された後のコア領域のピクチャを得ることと、
前記分割された後のコア領域のピクチャの特徴情報に基づいて、前記分割された後のコア領域のピクチャを集約し、前記ターゲット画像を得ることと、を含み、前記特徴情報はサイズ、縦横比率及びピクチャの構成属性の少なくとも１つを含む方法。
初期ターゲット画像を生成する前に、前記方法は、さらに、
前記第１外接矩形枠におけるピクチャを識別し、前記第１外接矩形枠におけるピクチャコンテンツに対応する識別結果を取得するステップと、
前記識別結果に基づいて、プリセット条件を満たす第１外接矩形枠を削除するステップと、を含む請求項１に記載の方法。
プリセット条件を満たす第１外接矩形枠を削除する前に、さらに、
前記識別結果に基づいて、前記識別結果に対応する第１外接矩形枠におけるピクチャをプリセット位置に保存するステップを含む請求項２に記載の方法。
初期ターゲット画像を生成する前に、前記方法は、さらに、前記第１外接矩形枠が前記ソース画像における位置に基づいて、前記ソース画像のプリセット領域にある第１外接矩形枠を削除するステップを含む請求項２に記載の方法。
初期ターゲット画像を生成する前に、前記方法は、さらに、
前記第１外接矩形枠におけるピクチャの解像度がプリセット解像度閾値よりも小さい場合、前記第１外接矩形枠を削除するステップを含む請求項１～４のいずれか１項に記載の方法。
画像を生成するための装置であって、
端末にロードされたウェブページのスクリーンショットを取得してソース画像とする画像取得モジュールと、
前記ソース画像における連通領域を識別し、各連通領域の輪郭外に第１外接矩形枠を生成するように構成される第１生成モジュールと、
前記連通領域間の距離がプリセット距離閾値よりも小さい場合、前記連通領域を結合し、結合された連通領域の輪廓外に第２外接矩形枠を生成するように構成される第２生成モジュールと、
前記第１外接矩形枠と前記第２外接矩形枠との間の入れ子関係及び前記第１外接矩形枠におけるピクチャに基づいて、ターゲット画像を生成する画像生成モジュールと、を備え、
前記画像生成モジュールは、
前記第１外接矩形枠と前記第２外接矩形枠との間の入れ子関係に基づいて、各前記第１外接矩形枠におけるピクチャを初期ターゲット画像に合成するように構成される初期画像モジュールと、
前記初期ターゲット画像にプリセットターゲットを含む領域である前記初期ターゲット画像におけるコア領域を決定するように構成される領域を識別しモジュールと、
プリセットトリミング比率とサイズに基づいて、前記初期ターゲット画像を分割し、分割された後のコア領域のピクチャを得るように構成される画像分割モジュールと、
前記分割された後のコア領域のピクチャの特徴情報に基づいて、前記分割された後のコア領域のピクチャを集約し、前記ターゲット画像を得るように構成されるピクチャ集約モジュールと、を備え、前記特徴情報はサイズ、縦横比率及びピクチャの構成属性の少なくとも１つを含む装置。
前記装置は、さらに、初期ターゲット画像を生成する前に、
前記第１外接矩形枠におけるピクチャを識別し、前記第１外接矩形枠におけるピクチャコンテンツに対応する識別結果を取得するステップと、
前記識別結果に基づいて、プリセット条件を満たす第１外接矩形枠を削除するステップと、を実行するように構成されるピクチャ識別モジュールを備える請求項６に記載の装置。
前記ピクチャ識別モジュールは、さらに、
プリセット条件を満たす第１外接矩形枠を削除する前に、前記識別結果に基づいて、前記識別結果に対応する第１外接矩形枠におけるピクチャをプリセット位置に保存するように構成される請求項７に記載の装置。
前記装置は、さらに、
前記初期ターゲット画像を生成する前に、前記第１外接矩形枠が前記ソース画像における位置に基づいて、前記ソース画像のプリセット領域にある第１外接矩形枠を削除するように構成される位置検出モジュールを備える請求項７に記載の装置。
前記装置は、さらに、
前記初期ターゲット画像を生成する前に、前記第１外接矩形枠におけるピクチャの解像度がプリセット解像度閾値よりも小さい場合、前記第１外接矩形枠を削除するように構成される解像度検出モジュールを備える請求項６～９のいずれか１項に記載の装置。
電子デバイスであって、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されるメモリと、を備え、
前記メモリは、前記少なくとも１つのプロセッサによって実行可能な命令を記憶し、前記少なくとも１つのプロセッサが請求項１～５いずれか１項に記載の方法を実行できるように、前記命令が前記少なくとも１つのプロセッサに実行される電子デバイス。
コンピュータ命令を記憶する非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ命令は、コンピュータに請求項１～５いずれか１項に記載の方法を実行させる記憶媒体。
コンピュータプログラムであって、プロセッサにより実行されると、コンピュータに請求項１～５いずれか１項に記載の方法を実行させるコンピュータプログラム。