JP7383083B1

JP7383083B1 - 情報処理装置、情報処理方法、および情報処理プログラム

Info

Publication number: JP7383083B1
Application number: JP2022098597A
Authority: JP
Inventors: ビヨンシュテンガー; 満中澤
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2023-11-17
Anticipated expiration: 2042-06-20
Also published as: JP2024000072A

Abstract

【課題】画像やテキストが有する特徴に基づいて、当該画像へ表示する当該テキストの表示設定を決定する情報処理装置、情報処理方法及び情報処理プログラムを提供する。【解決手段】情報処理装置１０は、画像データ取得部１０１、テキストデータ取得部１０２、コンテキスト抽出部１０３、前景抽出部１０４、色彩検出部１０５、表示設定決定部１０６、出力部１０７、学習モデル記憶部１１０及びコンテンツ記憶部１２０を備える。画像データ取得部１０１は、広告対象となるアイテムの画像を含む画像データを取得する。コンテキスト抽出部１０３、前景抽出部１０４、色彩検出部１０５及び表示設定決定部１０６は、画像データ取得部１０１により取得された画像や、テキストデータ取得部１０２により取得されたテキストが固有に有する特徴を検出または抽出する機能を有する。【選択図】図１

Description

本発明は、情報処理装置、情報処理方法、および情報処理プログラムに関し、特に、画像に表示するテキストに対する設定を決定するための技術に関する。

近年、インターネット上のウェブページにおいて配信する広告が広く利用されている。このような広告の生成に関する技術として、特許文献１には、テキストで構成されるテキスト広告と、当該テキスト広告に関連する画像とを所定の形式で組み合わせることにより、広告コンテンツを生成する技術が開示されている。

特開２０１７－１３００３３号公報

上記文献では、テキスト広告と画像とを所定の形式で組み合わせることにより広告コンテンツを生成している。すなわち、テキスト広告を固定的な方法で画像に表示した広告コンテンツを生成している。しかしながら、当該テキスト広告のテキストや当該画像は、それぞれ特徴を有するため、このような特徴を考慮することにより、視覚的またはマーケット戦略上より効果的に、当該テキストを当該画像へ表示できる可能性がある。

本発明は上記課題に鑑みてなされたものであり、画像やテキストが有する特徴に基づいて、当該画像へ表示する当該テキストの表示設定を決定するための技術を提供することを目的とする。

上記課題を解決するために、本発明による情報処理装置の一態様は、テキストが有する特徴および画像が有する特徴を検出する特徴検出手段と、検出された前記特徴に基づいて、前記テキストを前記画像に重畳表示する際の、前記画像における前記テキストの表示設定を決定する決定手段と、を有する。

上記課題を解決するために、本発明による情報処理方法の一態様は、前記テキストが有する特徴および画像が有する特徴を検出する特徴検出工程と、検出された前記特徴に基づいて、前記テキストを前記画像に重畳表示する際の、前記画像における前記テキストの表示設定を決定する決定工程と、を有する。

上記課題を解決するために、本発明によるプログラムの一態様は、情報処理をコンピュータに実行させるための情報処理プログラムであって、該情報処理プログラムは、前記コンピュータに、テキストが有する特徴および画像が有する特徴を検出する特徴検出処理と、検出された前記特徴に基づいて、前記テキストを前記画像に重畳表示する際の、前記画像における前記テキストの表示設定を決定する決定処理と、を含む処理を実行させるためのものである、

本発明によれば、画像やテキストが有する特徴に基づいて、当該画像へ表示する当該テキストの表示設定を決定することが可能となる。
上記した本発明の目的、態様および効果並びに上記されなかった本発明の目的、態様および効果は、当業者であれば添付図面および請求の範囲の記載を参照することにより下記の発明を実施するための形態から理解できるであろう。

図１は、実施形態による情報処理装置１０の機能構成例を示す。図２は、情報処理装置１０のハードウェア構成例を示す。図３は、フォントデザイン決定処理を説明するための概略図である。図４は、フォントカラー決定処理を説明するための概略図である。図５は、フォントサイズ決定処理を説明するための概略図である。図６は、表示位置決定処理を説明するための概略図である。図７は、表示設定予測モデル１１５を使用した表示設定予測処理を説明するための概略図である。図８は、実施形態による画像表示例を示す。図９は、情報処理装置１０により実行される処理のフローチャートを示す。

以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。以下に開示される構成要素のうち、同一機能を有するものには同一の符号を付し、その説明を省略する。なお、以下に開示される実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。

［テキストに対する表示設定決定の手順の概要］
図８を参照して、本実施形態による、テキストに対する表示設定決定の手順の概要について説明する。図８は、本実施形態による画面表示例を示す図である。図８において、画像８０は、広告対象のアイテムであるホテル８１（名前：楽天ホテル）に対する広告、または、ホテル８１を宿泊先として含んだ旅行パッケージに対する広告のための画像である。画像８０には、ホテル８１のロゴマーク８２も含まれている。

本実施形態では、このような、広告対象のアイテム（図８ではホテル８１に対応）を含む画像８０上に、予め設定されたテキスト８３を表示する。テキスト８３は、アイテムに関連するテキストコンテンツであり、図８では「ＴＲＵＬＹＥＰＩＣ（真に壮大）」というテキストが使用されている。図８の例において、テキスト８３は、広告のためのテキストやキャッチフレーズ、ホテル８１に対する過去の宿泊者によるコメント等、予め設定された、ホテル８１に関するテキスト情報であれば、どのような内容であってもよい。テキスト８３を画像８０上に表示（重畳表示。以下同様）する際、本実施形態では、画像８０が有する特徴やテキスト８３が有する特徴に基づいて、テキスト８３の表示設定を決定する。さらに、本実施形態では、マーケティング戦略的観点および／または審美的観点（視覚的に美しく感じる観点）を考慮し、画像８０上のテキスト８３の表示設定を決定する。

マーケティング戦略の観点のために、例えば、ＣＴＲ（ＣｌｉｃｋＴｈｒｏｕｇｈＲａｔｅ）とＣＶＲ（ＣｏｎｖｅｒｓｉｏｎＲａｔｅ）という、ユーザへの広告効果を測定するための指標が用いられる。ＣＴＲは、表示された広告の数に対する、クリックされた数（クリック数）の割合を示す。ＣＶＲは、広告のクリック数に対する、獲得できたコンバージョン数の割合を示す。コンバージョンとは、商品購入といった、広告に対して期待される成果結果である。ＣＴＲやＣＶＲが高い広告は、広告効果が高いと言える。本実施形態では、高いＣＴＲやＣＶＲを得るように、画像８０上のテキスト８３の表示設定を決定することを可能にする。

一方で、広告計画を立てる場合や、サンプル数が少ない場合等、ＣＴＲやＣＶＲを取得することが困難な場合もある。また、ＣＴＲやＣＶＲが高くない場合であっても、審美性が高い広告は、ユーザに広く好印象を与え、将来的に、広告が期待する顧客の獲得に繋がりうる。本実施形態では、広告としての美しさといった、審美的観点を考慮し、高い審美的スコアを得るように画像８０上のテキスト８３の表示設定を決定することを可能にする。審美的スコア（ａｅｓｔｈｅｔｉｃｓｃｏｒｅ）は、不特定多数のユーザにより検証された広告の美しさやユーザの主観的な好みを反映するスコアであり、例えば、広告を提供する前もしくは提供した後に、不特定多数のユーザに対してアンケートを取った結果により得ることが可能である。

本実施形態では、画像８０やテキスト８３それぞれが有する特徴に基づいたテキスト８３の表示設定として、（１）フォントデザイン、（２）フォントカラー、（３）フォントサイズ、および（４）テキスト表示位置（レイアウト）を決定する。

フォントデザインは、図８の例では、テキスト８３のフォントデザインであり、例えば、画像８０が有する特徴として、ロゴマーク８２の特徴に基づいてテキスト８３のフォントデザインが決定される。代替的に、または、追加的に、テキスト８３が示すコンテキスト等に応じて、テキスト８３のフォントデザインが決定されうる。

フォントカラーは、図８の例では、テキスト８３のフォントカラーである。例えば、画像８０が有する特徴として、ホテル８１、背景８４、またはロゴマーク８２を構成する色彩に基づいて、テキスト８３のフォントカラーが決定される。代替的に、または、追加的に、テキスト８３が示すコンテキスト等に応じて、テキスト８３のフォントカラーが決定されうる。

フォントサイズは、図８の例では、テキスト８３のフォントサイズである。例えば、画像８０が有する特徴として、ホテル８１やロゴマーク８２が画像８０に占める割合（領域サイズ）に基づいて、フォントサイズが決定される。具体的には、テキスト８３のフォントサイズの縦横が、それぞれ、ホテル８１の領域サイズの縦横の長さの１／ｎ、１／ｍ（ｎとｍは任意に決定されうる）となるように決定されうる。

テキスト表示位置は、図８の例では、画像８０においてテキスト８３を配置する位置や領域である。例えば、画像８０が有する特徴として、画像８０における背景に含まれる空白領域（Ｅｍｐｔｙｒｅｇｉｏｎ）に基づいて、テキスト表示位置が決定される。図８では、テキスト８３が画像８０上に表示されていない時点では、領域８５と領域８６が、空白領域（ホテル８１とロゴマーク８２が含まれない領域）である。領域８５または領域８６において、テキスト８３の表示位置が決定される。

以下では、このような、画像やテキストの特徴に基づいた、当該画像へ表示する当該テキストの表示設定を決定するための装置の構成例、および、具体的な処理手順の例について説明する。

［情報処理装置１０の機能構成］
本実施形態による情報処理装置１０は、画像とテキストのデータを取得し、当該画像および／または当該テキストが固有に有する特徴に基づいて、当該テキストの当該画像上の表示設定として、フォント、カラー、サイズ、表示位置の少なくともいずれかを決定する。本実施形態では、当該特徴は、テキストが有する意味論的特徴（ｓｅｍａｎｔｉｃｆｅａｔｕｒｅｓ）、または、画像に含まれる前景オブジェクトが有する視覚的特徴または当該前景オブジェクトが有する印象を含む。
一実施形態では、情報処理装置１０は、マーケティング戦略の観点および／または審美的観点を考慮しつつ、当該表示設定を決定する。なお、本実施形態において画像という言葉は、静止画および／または動画を含む意味で解釈されるものとする。

図１は、本実施形態による情報処理装置１０の機能構成の一例を示すブロック図である。
図１に示す情報処理装置１０は、画像データ取得部１０１、テキストデータ取得部１０２、コンテキスト抽出部１０３、前景抽出部１０４、色彩検出部１０５、表示設定決定部１０６、出力部１０７、学習モデル記憶部１１０、およびコンテンツ記憶部１２０を備える。学習モデル記憶部１１０は、フォントデザイン予測モデル１１１、フォントカラー予測モデル１１２、フォントサイズ予測モデル１１３、表示位置予測モデル１１４、および表示設定予測モデル１１５を記憶可能に構成される。また、コンテンツ記憶部１２０は、デザインコンテンツ１２１を記憶可能に構成される。以下の説明において、画像データと画像、および、テキストデータとテキストは、それぞれ同じ意味に使用される。

画像データ取得部１０１は、広告対象となるアイテム（アイテムの画像）を含む画像データを取得する。例えば、画像データ取得部１０１は、通信Ｉ／Ｆ２７（図２）を介して、外部装置から画像データを取得する。あるいは、画像データ取得部１０１は、操作者による入力部（図２の入力部２５）における入力操作により画像データを取得してもよいし、記憶部（図２のＲＯＭ２２やＲＡＭ２３）に格納されている画像データを取得してもよい。

本実施形態において、広告の対象となるアイテムは、種々のサービスで提供されるアイテムである。
例えば、金融（フィンテック）サービスに関しては、銀行口座、株式や投資信託や保険商品といった金融商品、暗号通貨、スマホアプリ決済等のアイテムが存在する。また、デジタルコンテンツサービスに関しては、映画やアニメといった動画コンテンツや、写真やイラストやテキストといった静止画コンテンツ等のアイテムが存在する。また、トラベルサービスに関しては、ホテルやパックツアー等のアイテムが存在する。また、モバイルサービスに関しては、モバイル機器、公衆網／インターネット接続、通信利用料金等のアイテムが存在する。また、カードサービスに関しては、クレジットカード決済やポイント取引等のアイテムが存在する。また、スポーツおよび文化サービスに関しては、スポーツイベントやコンサートといったイベントやイベントで販売される商品等のアイテムが存在する。

テキストデータ取得部１０２は、画像データ取得部１０１により取得された画像に表示（重畳表示）するテキストデータを取得する。例えば、テキストデータ取得部１０２は、通信Ｉ／Ｆ２７（図２）を介して、外部装置から当該テキストデータを取得する。あるいは、テキストデータ取得部１０２は、操作者による入力部（図２の入力部２５）における入力操作により当該テキストデータを取得してもよいし、記憶部（図２のＲＯＭ２２やＲＡＭ２３）に格納されている当該テキストデータを取得してもよい。以下の説明において、画像データ取得部１０１により取得された画像に表示するテキストデータを、表示テキストとも称する。

表示テキストは、画像データに含まれる広告対象のアイテムに関連するテキストである。表示テキストは、広告提供側が予め設定したテキスト（キャッチコピー等）や、ユーザによる利用コメント等、当該アイテムに関するテキスト情報であれば、どのような内容であってもよい。また、表示テキストは複数のテキストを含んでもよい。

コンテキスト抽出部１０３、前景抽出部１０４、色彩検出部１０５、および表示設定決定部１０６は、画像データ取得部１０１により取得された画像や、テキストデータ取得部１０２により取得されたテキストが固有に有する特徴を検出または抽出する機能を有する。

コンテキスト抽出部１０３は、テキストデータ取得部１０２により取得された表示テキストが有する意味論的特徴といった、テキストが有する特徴を抽出する。本実施形態では、コンテキスト抽出部１０３は、当該表示テキストのコンテキスト（文脈、状況、テキストの背景）を抽出する。コンテキスト抽出部１０３は、当該コンテキストを、周知のＮＬＰ（自然言語処理）によって抽出することができる。

また、コンテキスト抽出部１０３または情報処理装置１０が有しうる他のテキスト解析部（不図示）は、当該表示テキストの属性または属性値を推定（取得）してよい。例えば、コンテキスト抽出部１０３またはテキスト解析部は、当該表示テキストを形態素解析（ｍｏｒｐｈｏｌｏｇｉｃａｌａｎａｌｙｓｉｓ）することにより、テキスト含まれる１つ以上の語句（形態素）の属性または属性値を推定してよい。また、コンテキスト抽出部１０３またはテキスト解析部は、当該語句と辞書とのマッチングを行うことにより、当該表示テキストの属性または属性値を決定してよい。また、コンテキスト抽出部１０３またはテキスト解析部は、当該表示テキストをベクトル表現に変換した上で当該ベクトルを学習済みの機械学習モデルに基づく推定ネットワークに入力することにより、当該表示テキストの属性または属性値を推定してよい。

また、コンテキスト抽出部１０３またはテキスト解析部は、表示テキストと、画像データに含まれる広告対象のアイテムやテキストを取得した際のあらゆる情報（ユーザに関する情報を含む）との関係性から、コンテキストを抽出することができる。また、コンテキスト抽出部１０３またはテキスト解析部は、当該表示テキストの感情極性値を推定または決定してよい。例えば、コンテキスト抽出部１０３またはテキスト解析部は、当該表示テキストに関するポジティブおよびネガティブの二軸の感情軸を例とするｎ軸の感情極性（ｎ＞１）における感情極性値を推定してよい。また、コンテキスト抽出部１０３またはテキスト解析部は、当該語句と辞書のマッチングを行うことにより、感情極性値を決定してよい。また、コンテキスト抽出部１０３またはテキスト解析部は、当該表示テキストをベクトル表現に変換した上で当該ベクトル表現を学習済みの機械学習モデルに基づく推定ネットワークに入力することにより、感情極性値を推定してよい。
なお、コンテキスト抽出部１０３またはテキスト解析部により抽出、推定、または決定などを経て検出された各種情報は、表示テキストが有する特徴や広義のコンテキストとして扱うことができる。

前景抽出部１０４は、画像データ取得部１０１により取得された画像における前景（前景オブジェクト）を抽出する。例えば、前景抽出部１０４は、周知の画像処理により前景オブジェクトを抽出することができる。あるいは、前景抽出部１０４は、機械学習モデルにより前景オブジェクトを抽出してもよい。

図８の例では、前景抽出部１０４は、前景オブジェクトとしてホテル８１を抽出することができる。また、当該例では、前景抽出部１０４は、ロゴマーク８２も、前景オブジェクトとして抽出することができる。ロゴマークは、広告対象のアイテムに直接的に関連する情報であるため、前景オブジェクトとして抽出し、テキストのデザインを決定するために使用される。また、画像において、広告対象のアイテムが受賞したアワードに関連するマークが含まれる場合、当該マークも前景オブジェクトとして抽出されうる。前景抽出部１０４は前景オブジェクトのサイズも抽出することができる（視覚的特徴）。ここで、サイズとは、例として、画像中で前景オブジェクトが占める割合を指してよい。

前景抽出部１０４はまた、前景オブジェクトの抽出により、背景における空白領域を抽出することができる。例えば、前景抽出部１０４は、背景において、前景部分を含まない領域、かつ、所定サイズより大きい領域を、空白領域として抽出することができる。当該空白領域は、図８の例では、テキスト８３が画像８０上に表示されていない状態での領域８５と領域８６に対応する。前景抽出部１０４は、機械学習モデルにより前景を抽出してもよい。例えば、前景抽出部１０４は、意味論的理解（ｓｅｍａｎｔｉｃｕｎｄｅｒｓｔａｎｄｉｎｇ）タスクを、機械学習モデルを用いて解くことによって、空白領域を抽出してよい。また、前景抽出部１０４は、顕著性スコア（ｓａｌｉｅｎｃｙｓｃｏｒｅ）および審美的スコア（ａｅｓｔｈｅｔｉｃｓｃｏｒｅ）などの何らかの機械学習モデルが出力しうる画像の評価スコアがマッピングされたヒートマップを用いて、例えばスコアが相対的に低い領域を空白領域として抽出してよい。また、前景抽出部１０４は、画像に対してクラス活性化マッピング（ＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐｐｉｎｇ（ＣＡＭ））を行うことで前景オブジェクトの検出の根拠に相当するヒートマップを生成し、当該ヒートマップにおいて示されるマッピングされた値（スコア）の相対的な大小に応じて、前景オブジェクト、背景、および空白領域の抽出を行ってよい。また、前景抽出部１０４は、セマンティックセグメンテーションタスクを解く既知の手法において生成しうるヒートマップに基づいて、前景オブジェクト、背景、および空白領域の抽出を行ってよい。

色彩検出部１０５は、画像データ取得部１０１により取得された画像において支配的に使用されている色を検出する（視覚的特徴）。本実施形態では、色彩検出部１０５は、前景抽出部１０４により抽出された前景オブジェクトや背景において支配的に使用されている色を検出する。色彩検出部１０５により検出される色は、１つに限定されない。また、色彩検出部１０５は、画像中の色相、彩度、または明度を検出してよい。また、色彩検出部１０５は、画像中の前景オブジェクトの色相、彩度、明度、または配色（配色バランスや配色比率に相当）、画像中の背景の色相、彩度、明度、または配色、あるいは、画像中の空白領域の色相、彩度、明度、または配色を検出してよい。また、色彩検出部１０５は、画像中の前景オブジェクト、背景、および空白領域を含む各領域が、無彩色、または有彩色であるか否かを検出してよい。また、色彩検出部１０５は、画像中の前景オブジェクト、背景、および空白領域を含む各領域が、蛍光色、構造色、および金属色などの特殊な色彩を模した色彩を呈するか否かを検出してよい。

表示設定決定部１０６は、画像データ取得部１０１により取得された画像上に表示する、テキストデータ取得部１０２により取得された表示テキストの表示設定を決定する。具体的には、本実施形態では、表示設定決定部１０６は、表示設定として、表示テキストに適用するフォントデザイン、フォントカラー、フォントサイズ、および表示テキストの画像上の表示位置（配置位置）、のうちの少なくとも１つを決定する。表示設定決定部１０６は、以下に説明するように、機械学習モデルを用いて、表示設定を決定することができる。表示設定の決定処理については後述する。

出力部１０７は、表示設定決定部１０６により決定された表示設定に従って、表示テキストを画像へ表示させた広告コンテンツを作成して出力する。当該出力は、あらゆる出力処理であり得、通信Ｉ／Ｆ（図２の通信Ｉ／Ｆ２７）を介した外部装置への出力（配信）であってもよいし、紙媒体への出力であってもよい。

学習モデル記憶部１１０は、学習済みの、フォントデザイン予測モデル１１１、フォントカラー予測モデル１１２、フォントサイズ予測モデル１１３、表示位置予測モデル１１４、および表示設定予測モデル１１５を記憶する。フォントデザイン予測モデル１１１、フォントカラー予測モデル１１２、フォントサイズ予測モデル１１３、表示位置予測モデル１１４、および表示設定予測モデル１１５については後述する。学習モデル記憶部１１０は、表示テキストの表示設定の項目のそれぞれについて個別に学習済みのモデルを記憶してよい。各学習モデルは、抽出、推定、または決定などを経て検出された特徴と少なくとも何らかのラベリングが対応付けられた学習データ（教師データ、訓練データ）で適宜、学習処理がされることで構築される。

コンテンツ記憶部１２０は、デザインコンテンツ１２１を記憶する。デザインコンテンツ１２１は、表示テキストに適用可能（使用可能）な、複数のフォントデザインやフォントカラーや複数のフォントサイズの情報を含む。デザインコンテンツ１２１はさらに、フォントデザインや色だけでなくまた、表示テキストに適用可能なあらゆるエフェクトの情報を含みうる。なお、当該エフェクトは、表示テキストの二次元的または三次元的な回転角度を含んでよい。また、当該エフェクトは、太字（ボールド）であるか否か、斜体であるか否か、文字の輪郭に関する強調表現の有無、影（シャドウ）の有無、下線部（アンダーライン）の有無、透明度といった、他の外観的特徴を含んでよい。本実施形態では、表示設定決定部１０６は、デザインコンテンツ１２１に含まれる、複数のフォントサイズ、複数のフォントカラー、複数のフォントサイズから、表示テキストに適用するフォントサイズ、フォントカラー、フォントサイズを決定する。

［情報処理装置１０のハードウェア構成］
図２は、本実施形態による情報処理装置１０のハードウェア構成の一例を示すブロック図である。
本実施形態による情報処理装置１０は、単一または複数の、あらゆるコンピュータ、モバイルデバイス、または他のいかなる処理プラットフォーム上にも実装することができる。
図２を参照して、情報処理装置１０は、単一のコンピュータに実装される例が示されているが、本実施形態による情報処理装置１０は、複数のコンピュータを含むコンピュータシステムに実装されてよい。複数のコンピュータは、有線または無線のネットワークにより相互通信可能に接続されてよい。

図２に示すように、情報処理装置１０は、ＣＰＵ２１と、ＲＯＭ２２と、ＲＡＭ２３と、ＨＤＤ２４と、入力部２５と、表示部２６と、通信Ｉ／Ｆ２７と、システムバス２８とを備えてよい。情報処理装置１０はまた、外部メモリを備えてよい。
ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２１は、情報処理装置１０における動作を統括的に制御するものであり、データ伝送路であるシステムバス２８を介して、各構成部（２２～２７）を制御する。

ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２２は、ＣＰＵ２１が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）２４、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の不揮発性メモリや着脱可能な記憶媒体（不図示）等の外部メモリに記憶されていてもよい。
ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２３は、揮発性メモリであり、ＣＰＵ２１の主メモリ、ワークエリア等として機能する。すなわち、ＣＰＵ２１は、処理の実行に際してＲＯＭ２２から必要なプログラム等をＲＡＭ２３にロードし、当該プログラム等を実行することで各種の機能動作を実現する。本実施形態では、学習モデル記憶部１１０とコンテンツ記憶部１２０は、ＲＡＭ２３で構成されうる。

ＨＤＤ２４は、例えば、ＣＰＵ２１がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶している。また、ＨＤＤ２４には、例えば、ＣＰＵ２１がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。
入力部２５は、キーボードやマウス等のポインティングデバイスにより構成される。
表示部２６は、液晶ディスプレイ（ＬＣＤ）等のモニターにより構成される。表示部２６は、入力部２５と組み合わせて構成されることにより、ＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）として機能してもよい。

通信Ｉ／Ｆ２７は、情報処理装置１０と外部装置との通信を制御するインタフェースである。
通信Ｉ／Ｆ２７は、ネットワークとのインタフェースを提供し、ネットワークを介して、外部装置との通信を実行する。通信Ｉ／Ｆ２７を介して、外部装置との間で各種データや各種パラメータ等が送受信される。本実施形態では、通信Ｉ／Ｆ２７は、イーサネット（登録商標）等の通信規格に準拠する有線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）や専用線を介した通信を実行してよい。ただし、本実施形態で利用可能なネットワークはこれに限定されず、無線ネットワークで構成されてもよい。この無線ネットワークは、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＺｉｇＢｅｅ（登録商標）、ＵＷＢ（ＵｌｔｒａＷｉｄｅＢａｎｄ）等の無線ＰＡＮ（ＰｅｒｓｏｎａｌＡｒｅａＮｅｔｗｏｒｋ）を含む。また、Ｗｉ－Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）（登録商標）等の無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）や、ＷｉＭＡＸ（登録商標）等の無線ＭＡＮ（ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ）を含む。さらに、ＬＴＥ／３Ｇ、４Ｇ、５Ｇ等の無線ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）を含む。なお、ネットワークは、各機器を相互に通信可能に接続し、通信が可能であればよく、通信の規格、規模、構成は上記に限定されない。

図１に示す情報処理装置１０の各要素のうち少なくとも一部の機能は、ＣＰＵ２１がプログラムを実行することで実現することができる。ただし、図１に示す情報処理装置１０の各要素のうち少なくとも一部の機能が専用のハードウェアとして動作するようにしてもよい。この場合、専用のハードウェアは、ＣＰＵ２１の制御に基づいて動作する。

［フォントデザイン決定処理］
図３を参照して、表示テキストに適用するフォントデザインの決定処理の例について説明する。図３は、フォントデザイン決定処理を説明するための概略図である。本実施形態では、表示設定決定部１０６は、学習済みのフォントデザイン予測モデル１１１を用いて、表示テキストに適用するフォントデザインを決定する。フォントデザイン予測モデル１１１は、前景抽出部１０４により抽出された前景オブジェクト、および／または、コンテキスト抽出部１０３により抽出された表示テキストのコンテキストのうちの少なくとも１つを用いて学習されうる。例えば、フォントデザイン予測モデル１１１は、当該前景オブジェクトおよび／または当該コンテキストに対して割り当てられた印象に対応するフォントデザインに対する、ＣＴＲやＣＶＲの結果、および／または、審美的スコアの結果がラベリングされた学習データを用いて学習される。前景オブジェクトに割り当てられた印象に対応するフォントデザインは、例えば、当該前景オブジェクトがホテル８１（および／または、ロゴマーク８２）の場合は、任意の情報処理技術またはルールベースで、当該前景オブジェクトに「クラシカル」な印象が割り当てられ（分類され）、当該前景オブジェクトはクラシカルなデザインに分類されるフォントデザインに対応付けられる。コンテキストの場合も同様である。例えば、テキスト８３（ＴＲＵＬＹＥＰＩＣ）には「クラシカル」な印象が割り当てられ（分類され）、当該テキストはクラシカルなデザインに分類されるフォントデザインに対応付けられる。

学習済みのフォントデザイン予測モデル１１１は、前景抽出部１０４により抽出された前景オブジェクトおよび／またはコンテキスト抽出部１０３により抽出されたテキストのコンテキストを入力として、当該入力を複数の印象のいずれかに分類を（印象を予測する）ように構成される。複数の印象のそれぞれは、異なるフォントデザインに対応し、例えば、クラシカル、ポップ、レトロ等である。さらに、フォントデザイン予測モデル１１１は、当該分類に従って、最適な（すなわち、高ＣＴＲや高ＣＶＲを得る、および／または、高審美的スコアを得る）フォントデザイン（フォントデザインを識別する情報）を出力するように構成される。

図３において、表示設定決定部１０６は、フォントデザイン予測モデル１１１に、前景抽出部１０４により抽出された前景オブジェクト３１（図８では、例えば、ホテル８１とロゴマーク８２のうち少なくとも１つ）を入力し、予測されたフォントデザイン３３を得ることができる。予測されたフォントデザイン３３の種類は、図３の下部の表３４に示すように、フォントデザイン予測モデル１１１で予測された分類（図３では、クラシカル、ポップ、レトロ）に対応するフォントデザインとなる。図８の例では、テキスト８３は、「クラシカル」の印象に分類され、表３４に従って、フォントデザインが決定されうる。

前景オブジェクト３１に加えて、または、これに代えて、表示設定決定部１０６は、フォントデザイン予測モデル１１１に、コンテキスト抽出部１０３により抽出された表示テキストのコンテキスト３２を入力し、予測されたフォントデザイン３３を得てもよい。例えば、表示テキストが「Ｙｕｍｍｙ！（おいしい）」の場合、「ポップ」の印象に分類され、表３４に従って、フォントデザインが決定されうる。
表示設定決定部１０６は、当該予測されたフォントデザイン３３を、表示テキストに適用するフォントデザインとして決定することができる。

［フォントカラー決定処理］
図４を参照して、フォントカラー決定処理の例について説明する。図４は、フォントカラー決定処理を説明するための概略図である。本実施形態では、表示設定決定部１０６は、学習済みのフォントカラー予測モデル１１２を用いて、表示テキストに適用するフォントカラーを決定する。フォントカラー予測モデル１１２は、色彩検出部１０５により検出された前景オブジェクトにおいて支配的に使用されている色、および／または、背景において支配的に使用されている色の少なくとも１つを用いて学習されうる。例えば、フォントカラー予測モデル１１２は、当該支配的に使用されている色から決定した色に対して、ＣＴＲやＣＶＲの結果、および／または、審美的スコアの結果がラベリングされた学習データを用いて学習される。当該支配的に使用されている色から決定された色は、例えば、前景オブジェクトに対して同系統の色であり、背景に対して補色の関係にある色である。

学習済みのフォントカラー予測モデル１１２は、前景オブジェクトや背景において支配的に使用されている色を入力として、最適な（すなわち、高ＣＴＲや高ＣＶＲを得る、および／または、高審美的スコアを得る）フォントカラー（フォントカラーを識別する情報）を出力するように構成される。フォントカラーは、複数の色で構成されてもよい。

図４において、表示設定決定部１０６は、フォントカラー予測モデル１１２に、色彩検出部１０５により検出された前景オブジェクト（図８の例では、ホテル８１とロゴマーク８２のうち少なくとも１つ）において支配系な（支配的に使用されている）色４１および／または背景（図８の例では背景８４）において支配的な色４２を入力する。フォントカラー予測モデル１１２は、当該入力に対して予測したフォントカラー４３を出力し、表示設定決定部１０６は、当該予測された色を、表示テキストに適用するフォントカラーとして決定することができる。

［フォントサイズ決定処理］
図５を参照して、フォントサイズ決定処理について説明する。図５は、フォントサイズ決定処理を説明するための概略図である。本実施形態では、表示設定決定部１０６は、学習済みのフォントサイズ予測モデル１１３を用いて、表示テキストに適用するフォントサイズを決定する。フォントサイズ予測モデル１１３は、前景抽出部１０４により抽出された前景オブジェクトのサイズ（領域サイズ）、および／または、コンテキスト抽出部１０３により抽出された表示テキストのコンテキストのうちの少なくとも１つを用いて学習されうる。例えば、フォントサイズ予測モデル１１３は、領域サイズから任意のルールにより決定されたサイズや抽出したコンテキストに割り当てられた印象に割り当てられたサイズに対して、ＣＴＲやＣＶＲの結果、および／または、審美的スコアの結果がラベリングされた学習データを用いて学習される。当該前景オブジェクトの画像サイズから任意のルールにより決定されたサイズは、例えば、縦が領域サイズの１／ｍ、横が領域サイズの１／ｎ（ｍとｎは任意に設定可能）である。

学習済みのフォントサイズ予測モデル１１３は、前景抽出部１０４により抽出された前景オブジェクトの領域サイズ、および／または、コンテキスト抽出部１０３により抽出された表示テキストのコンテキストを入力として、最適な（すなわち、高ＣＴＲや高ＣＶＲを得る、および／または、高審美的スコアを得る。）フォントサイズ（フォントサイズを識別する情報）を出力するように構成される。フォントサイズは、抽出された前景オブジェクトの慮域サイズに対する相対的なサイズであってもよいし、ポイント（ｐｔ）により表されてもよい。フォントサイズは、表示位置によって、適用可能なサイズが限定されうるため、フォントサイズ予測モデル１１３は、表示位置または空白領域についての条件つきで、フォントサイズが出力されるように構成されてもよい

図５において、表示設定決定部１０６は、フォントサイズ予測モデル１１３に、前景抽出部１０４により抽出された前景オブジェクト（図８の例では、ホテル８１とロゴマーク８２のうち少なくとも１つ）のサイズ５１、および／または、コンテキスト抽出部１０３により抽出された表示テキストのコンテキスト３２を入力し、予測されたフォントサイズ５２を得ることができる。表示設定決定部１０６は、当該予測されたサイズを、表示テキストに適用するフォントサイズとして決定することができる。

［表示位置決定処理］
図６を参照して、表示位置決定処理について説明する。図６は、表示位置決定処理を説明するための概略図である。本実施形態では、表示設定決定部１０６は、学習済みの表示位置予測モデル１１４を用いて、表示テキストの表示位置（配置位置）を決定する。表示位置予測モデル１１４は、前景抽出部１０４により抽出された空白領域の位置およびコンテキスト抽出部１０３により抽出された表示テキストのコンテキストに割り当てられた印象を用いて学習されうる。例えば、フォントカラー予測モデル１１２は、当該空白領域の位置と当該コンテキストに割り当てられた印象に対して、ＣＴＲやＣＶＲの結果、および／または、審美的スコアの結果がラベリングされた学習データを用いて学習される。なお、空白領域の位置は、画像において識別可能な空白領域の位置や、当該画像から抽出された前景オブジェクトに対する位置でありうる。また、学習に使用される表示テキストのフォントサイズは任意に決定されうる。

学習済みの表示位置予測モデル１１４は、前景抽出部１０４により抽出された空白領域の位置およびコンテキスト抽出部１０３により抽出された表示テキストのコンテキストを入力として、最適な（すなわち、高ＣＴＲや高ＣＶＲを得る、および／または、高審美的スコアを得る。）表示位置を出力するように構成される。表示位置は、フォントサイズによって、表示可能な位置が変動しうるため、表示位置予測モデル１１４は、フォントサイズについての条件つきで、表示位置が出力されるように構成されてもよい。表示位置は、画像内での位置が理解可能な情報であればよい。

図６において、表示設定決定部１０６は、表示位置予測モデル１１４に、前景抽出部１０４により抽出された１つ以上の空白領域（図８の例では、領域８５、８６）の位置６１、および、コンテキスト抽出部１０３により抽出された表示テキストのコンテキスト３２を入力し、予測された表示位置６２を得ることができる。表示設定決定部１０６は、当該予測された表示位置を、表示テキストを配置する表示位置として決定することができる。

さらに、表示設定決定部１０６は、表示テキストを表示する画像のアスペクト比（矩形における長辺と短辺の比率）にも基づいて、表示位置を決定してもよい。この場合、学習段階および予測段階において、画像のアスペクト比を用いて学習処理および予測処理が行われ、アスペクト比と前景オブジェクトとの関係を考慮して、適切な表示位置を決定することが可能となる。表示テキストを表示する画像のサイズは、例えば、ウェブ広告の場合は、あらゆる縦と横のサイズが採用されるが、そのような場合であっても、当該サイズに応じた表示位置を決定することができる。

本実施形態では、表示設定決定部１０６は、機械学習モデルを用いて、表示テキストに適用する表示設定（フォントデザイン、フォントサイズ、およびフォントカラー、および表示位置）を決定したが、ルールベースで当該表示設定を決定してもよい。この場合、ＣＴＲやＣＶＲの結果、および／または、審美的スコアの結果が考慮されてルールが形成されうる。

［表示設定決定処理の変形例］
なお、上記例では、表示設定決定部１０６は、４つの機械学習モデルを用いて、表示テキストに適用する各デザインと表示位置を決定したが、当該４つの機械学習モデルを１つの機械学習モデルとして構成してもよい。表示設定予測モデル１１５は、フォントデザイン予測モデル１１１、フォントカラー予測モデル１１２、フォントサイズ予測モデル１１３、表示位置予測モデル１１４で予測可能な結果を出力するように構成された機械学習モデルである。図７に、表示設定予測モデル１１５を使用した表示設定予測処理を説明するための概略図を示す。

図７に示すように、表示設定決定部１０６は、前述した、前景オブジェクト３１、表示テキストのコンテキスト３２、前景オブジェクトにおける支配的な色４１、背景において支配的な色４２、前景オブジェクトのサイズ５１、空白領域の位置６１を入力し、予測された表示設定７１を得ることができる。表示設定７１には、フォントデザイン、フォントサイズ、およびフォントカラー、および表示位置の少なくとも１つが含まれる表示設定決定部１０６は、当該予測された表示設定を、表示テキストに適用する表示設定として決定することができる。表示設定予測モデル１１５を用いることにより、あらゆる種類の入力データを網羅的に考慮して、高ＣＴＲやＣＶＲ、および／または、高審美的スコアを得ることができるように、表示テキストの表示設定を決定することが可能となる。

［処理の流れ］
図９に、本実施形態による情報処理装置１０により実行される処理のフローチャートを示す。図９に示す処理は、情報処理装置１０のＣＰＵ２１がＲＯＭ２２等に格納されたプログラムをＲＡＭ２３にロードして実行することによって実現されうる。学習済みの、フォントデザイン予測モデル１１１、フォントカラー予測モデル１１２、フォントサイズ予測モデル１１３、表示位置予測モデル１１４、および表示設定予測モデル１１５は、学習モデル記憶部１１０に格納されているものとする。また、図９の処理の順序は、図示される順序に限定されない。

Ｓ９１において、画像データ取得部１０１は、画像データ（画像）を取得する。当該画像は、少なくとも１つの広告対象のアイテムを含む。
Ｓ９２において、テキストデータ取得部１０２は、テキストデータ（表示テキスト）を取得する。当該表示テキストは、Ｓ９１で取得された画像に表示することが意図されたテキストであり、例えば、広告対象のアイテムに関するテキスト情報である。

Ｓ９３において、Ｓ９１で取得された画像および／またはＳ９２で取得された表示テキストが有する特徴を取得する。具体的には、コンテキスト抽出部１０３は、当該表示テキストのコンテキストを抽出する。また、前景抽出部１０４は、当該画像から前景オブジェクト、背景、および空白領域を抽出する。また、色彩検出部１０５は、前景オブジェクトや背景において支配的に使用されている色を検出する。また、表示設定決定部１０６により、フォントデザイン予測モデル１１１を用いて予測（分類）される、前景オブジェクトや表示テキストのコンテキストの印象も、当該画像や当該表示テキストの特徴でありうる。

Ｓ９４において、表示設定決定部１０６は、Ｓ９１で取得された画像、Ｓ９２で取得された表示テキスト、および、Ｓ９３で取得された１つ以上の特徴を用いて、当該画像へ表示する当該表示テキストの表示設定を決定する。当該表示設定の決定処理については、上述した通りである。
Ｓ９５では、Ｓ９４で決定された表示設定に従って、出力部１０７は、Ｓ９１で取得された画像に、Ｓ９２で取得された表示テキストを重畳表示して広告コンテンツを生成し、出力する。

このように、本実施形態によれば、画像にテキストを表示する際に、画像や表示テキストの特徴を用いて、当該画像へ表示する当該表示テキストの表示設定を決定することが可能となる。また、過去に得られたＣＴＲやＣＶＲ、および／または、審美的スコアの結果を用いることにより、よりマーケティング戦略的観点および／または審美的観点上で適した表示設定を決定することが可能となる。さらに、ＣＴＲやＣＶＲ、および／または、審美的スコアの結果を、異なる属性のユーザセグメントから取得することにより、ユーザセグメント毎に適切な表示設定を決定し、広告コンテンツを作成することができる。

なお、本実施形態では、最終成果として広告コンテンツを作成することを例に説明したが、テキストを効果的に画像に重畳表示するあらゆるケースに対して、本実施形態を適用可能である。例えば、ＹｏｕＴｕｂｅ（登録商標）のサムネイル（画像）に対する宣伝コメント（表示テキスト）の表示や、映画ポスター（画像）に対する宣伝コメント（表示コメント）の表示に、本実施形態を適用可能である。

なお、上記において特定の実施形態が説明されているが、当該実施形態は単なる例示であり、本発明の範囲を限定する意図はない。本明細書に記載された装置および方法は上記した以外の形態において具現化することができる。また、本発明の範囲から離れることなく、上記した実施形態に対して適宜、省略、置換および変更をなすこともできる。かかる省略、置換および変更をなした形態は、請求の範囲に記載されたものおよびこれらの均等物の範疇に含まれ、本発明の技術的範囲に属する。

本実施形態の開示は以下の構成を含む。
［１］テキストが有する特徴および画像が有する特徴を検出する特徴検出手段と、検出された前記特徴に基づいて、前記テキストを前記画像に重畳表示する際の、前記画像における前記テキストの表示設定を決定する決定手段と、を有することを特徴とする情報処理装置。

［２］前記特徴は、前記テキストが有する意味論的特徴を含むことを特徴とする［１］に記載の情報処理装置。

［３］前記特徴は、前記画像の前景オブジェクトが有する視覚的特徴または前記前景オブジェクトが有する印象を含むことを特徴とする［１］または［２］に記載の情報処理装置。

［４］前記特徴は、前記画像の前景オブジェクトにおいて支配的に使用されている色を含むことを特徴とする［１］から［３］のいずれかに記載の情報処理装置。

［５］前記特徴は、前記画像の前景オブジェクトのサイズを含むことを特徴とする［１］から［４］のいずれかに記載の情報処理装置。

［６］前記特徴は、前記テキストが示すコンテキストを含むことを特徴とする請求項［１］から［５］のいずれかに記載の情報処理装置。

［７］前記表示設定は、前記テキストに適用するフォントデザイン、フォントカラー、およびフォントサイズのうち少なくとも１つを含むことを特徴とする［１］から［６］のいずれかに記載の情報処理装置。

［８］前記決定手段はさらに、前記画像において前景オブジェクトが存在しない空白領域と前記テキストに基づいて、前記テキストの前記画像における表示位置を、前記表示設定として決定することを特徴とする［１］から［７］のいずれかに記載の情報処理装置。

［９］前記決定手段は、機械学習モデルを用いて、前記表示設定を決定することを特徴とする［１］から［８］のいずれかに記載の情報処理装置。

［１０］前記表示設定に従って、前記テキストを前記画像に表示させたコンテンツを生成する生成手段を更に有すること特徴とする［１］から［９］のいずれかに記載の情報処理装置。

［１１］テキストが有する特徴および画像が有する特徴を検出する特徴検出工程と、検出された前記特徴に基づいて、前記テキストを前記画像に重畳表示する際の、前記画像における前記テキストの表示設定を決定する決定工程と、を有することを特徴とする情報処理方法。

［１２］情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、テキストが有する特徴および画像が有する特徴を検出する特徴検出処理と、検出された前記特徴に基づいて、前記テキストを前記画像に重畳表示する際の、前記画像における前記テキストの表示設定を決定する決定処理と、を含む処理を実行させるためのものである、情報処理プログラム。

１０：情報処理装置、１０１：画像データ取得部、１０２：テキストデータ取得部、１０３：コンテキスト抽出部、１０４：前景抽出部、１０５：色彩検出部、１０６：表示設定決定部、１０７：出力部、１１０：学習モデル記憶部、１１１：フォントサイズ予測モデル、１１２：フォントカラー予測モデル、１１３：フォントサイズ予測モデル、１１４：表示位置予測モデル、１１５：表示設定予測モデル、１２０：コンテンツ記憶部、１２１：デザインコンテンツ

Claims

テキストが有する特徴および画像が有する特徴を検出する特徴検出手段と、
検出された前記特徴に基づいて、前記テキストを前記画像に重畳表示する際の、前記画像における前記テキストの表示設定として、前記テキストに適用するフォントデザイン、フォントカラー、およびフォントサイズを決定し、かつ、前記画像において前景オブジェクトが存在しない複数の空白領域と前記テキストに基づいて、前記複数の空白領域のうち前記テキストの前記画像における表示位置を決定する決定手段と、
を有し、
前記特徴は、前記テキストが有する意味論的特徴、前記画像の前景オブジェクトが有する視覚的特徴または前記前景オブジェクトが有する印象、前記画像の前景オブジェクトと背景において支配的に使用されている色、前記画像の前景オブジェクトのサイズ、および前記画像における前記複数の空白領域の位置を含む、ことを特徴とする情報処理装置。
前記決定手段は、前記特徴を機械学習モデルに入力することにより、前記表示設定を決定することを特徴とする請求項１に記載の情報処理装置。
前記表示設定に従って、前記テキストを前記画像に表示させたコンテンツを生成する生成手段を更に有すること特徴とする請求項１に記載の情報処理装置。
情報処理装置により実行される情報処理方法であって、
テキストが有する特徴および画像が有する特徴を検出する特徴検出工程と、
検出された前記特徴に基づいて、前記テキストを前記画像に重畳表示する際の、前記画像における前記テキストの表示設定として、前記テキストに適用するフォントデザイン、フォントカラー、およびフォントサイズを決定し、かつ、前記画像において前景オブジェクトが存在しない複数の空白領域と前記テキストに基づいて、前記複数の空白領域のうち前記テキストの前記画像における表示位置を決定する決定工程と、
を有し、
前記特徴は、前記テキストが有する意味論的特徴、前記画像の前景オブジェクトが有する視覚的特徴または前記前景オブジェクトが有する印象、前記画像の前景オブジェクトと背景において支配的に使用されている色、前記画像の前景オブジェクトのサイズ、および前記画像における前記複数の空白領域の位置を含む、ことを特徴とする情報処理方法。
情報処理をコンピュータに実行させるための情報処理プログラムであって、該情報処理プログラムは、前記コンピュータに、
テキストが有する特徴および画像が有する特徴を検出する特徴検出処理と、
検出された前記特徴に基づいて、前記テキストを前記画像に重畳表示する際の、前記画像における前記テキストの表示設定として、前記テキストに適用するフォントデザイン、フォントカラー、およびフォントサイズを決定し、かつ、前記画像において前景オブジェクトが存在しない複数の空白領域と前記テキストに基づいて、前記複数の空白領域のうち前記テキストの前記画像における表示位置を決定する決定処理と、を含む処理を実行させるためのものであり、
前記特徴は、前記テキストが有する意味論的特徴、前記画像の前景オブジェクトが有する視覚的特徴または前記前景オブジェクトが有する印象、前記画像の前景オブジェクトと背景において支配的に使用されている色、前記画像の前景オブジェクトのサイズ、および前記画像における前記複数の空白領域の位置を含む、
情報処理プログラム。