JP2020086850A

JP2020086850A - 情報処理装置、情報処理方法およびプログラム、並びに、画像形成システム

Info

Publication number: JP2020086850A
Application number: JP2018219453A
Authority: JP
Inventors: 啓水奥間; Hiromi Okuma
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2020-06-04
Anticipated expiration: 2038-11-22
Also published as: WO2020105366A1; US20210234975A1; JP7208771B2; US11496635B2

Abstract

【課題】専用のデバイスおよび所定の濃淡パターンを用いることなく、入力された画像に対して濃淡を付与する情報処理装置を提供する。【解決手段】第１画像を表す第１画像データを入力し、入力された第１画像データに基づき、画像に濃淡を付与するための学習済みモデルを用いて、第１画像に濃淡を付与した第２画像を表す第２画像データを出力する。【選択図】図５

Description

本発明は、画像に濃淡を付与する情報処理装置、情報処理方法およびプログラム、並びに、画像形成システムに関する。

近年、電子ペン等で入力された電子的な手書き文字の画像に対して、万年筆等の筆記具で文字を書いたときのような濃淡を付与する方法が提案されている。ここで、濃淡付与は、モノクロ２階調で表現された画像に対して２５６階調で表現されたマスク画像を合成することによって中間調を表現する階調変換処理に相当する。特許文献１では、ユーザがタブレット上で指やペンを用いて筆記した際の圧力値や速度の情報に基づいてタブレット上の軌跡に対して濃淡を付与する方法が記載されている。また、特許文献２では、穂先に圧電センサの付いた専用のペンで筆記することで、穂先のそれぞれから電圧値を取得し、電圧値に応じて濃淡を付与する方法が記載されている。また、特許文献３では、複数の濃淡パターンを予め保持しておき、保持された中からパターンをランダムに文字上に配置することで濃淡を付与する方法が記載されている。

特開２０１５−５６１０１号公報特開２０１４−１６８７１号公報特開平９−６３０９号公報

特許文献１や特許文献２では、文字に濃淡を付与するためには、文字部分の座標毎に圧力値や電圧値といったセンサ情報が必要であり、また、センサ情報を取得するための専用のデバイスが必要となる。また、特許文献３では、予め濃淡パターンを登録しなければならず、また、登録されたパターン以外の濃淡を付与することができない。

本発明の目的は、このような従来の問題点を解決することにある。上記の点に鑑み、本発明は、専用のデバイスおよび所定の濃淡パターンを用いることなく、入力された画像に対して濃淡を付与する情報処理装置、情報処理方法およびプログラム、並びに、画像形成システムを提供することを目的とする。

上記課題を解決するため、本発明に係る情報処理装置は、第１画像を表す第１画像データを入力する入力手段と、前記入力手段により入力された前記第１画像データに基づき、画像に濃淡を付与するための学習済みモデルを用いて、前記第１画像に濃淡を付与した第２画像を表す第２画像データを出力する出力手段とを備えることを特徴とする。

本発明によれば、専用のデバイスおよび所定の濃淡パターンを用いることなく、入力された画像に対して濃淡を付与することができる。

画像形成システム全体の構成を示す図である。情報端末の内部構成を示す図である。サーバの内部構成を示す図である。画像形成装置の内部構成を示す図である。サーバにおける文字に濃淡を付与する処理のブロック構成を示す図である。学習データの生成の処理を示すフローチャートである。濃淡学習用画像データを示す図である。学習データセットのデータベースを示す図である。濃淡学習の処理を示すフローチャートである。濃淡付与の処理を示すフローチャートである。図１０の処理により濃淡が付与された画像を示す図である。学習データの生成の処理を示すフローチャートである。正解画像の形状の一部分を示す図である。画像形成装置のユーザインタフェース画面を示す図である。情報端末のユーザインタフェース画面を示す図である。

以下、添付図面を参照して本発明の実施形態を詳しく説明する。尚、以下の実施形態は特許請求の範囲に係る本発明を限定するものでなく、また本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。なお、同一の構成要素には同一の参照番号を付して、説明を省略する。

［第１実施形態］
図１は、本実施形態における画像形成システム全体の構成を示す図である。画像形成システム１０は、情報端末１００（情報処理装置）、サーバ１０１、画像形成装置１０２を含んで構成され、それぞれネットワーク１０３を介して相互に通信可能に接続されている。ネットワーク１０３は、有線媒体や無線媒体、若しくはそれらの混在したネットワークであっても良い。なお、情報端末１００や画像形成装置１０２は、ネットワーク１０３上にそれぞれ複数台あっても良い。サーバ１０１は、ネットワーク１０３上に複数台構成され、各サーバがそれぞれに対応したサービスを提供するようにしても良い。また、１つのサービスが複数の装置により提供されるようにしても良い。情報端末１００は、例えば、汎用的なＰＣや携帯端末であり、例えば、ネットワーク１０３を介して画像形成装置１０２への印刷指示を実行する。画像形成装置１０２は、例えば、情報端末１００から印刷指示を受信すると、サーバ１０１から印刷対象の画像データを取得して印刷を実行する。また、画像形成装置１０２は、プリンタ以外にもスキャナ等の機能を有するＭＦＰ（ＭｕｌｔｉｆｕｎｃｔｉｏｎａｌＰｒｉｎｔｅｒ）として構成される場合がある。また、図１では、サーバ１０１は、画像形成装置１０２と別装置として示されているが、画像形成装置１０２がサーバ１０１を内部サーバとして含む構成であっても良い。

図２は、情報端末１００の内部構成を示す図である。情報端末１００は、ＣＰＵ２０１、ＲＡＭ２０２、ＲＯＭ２０３、キーボードインタフェース（Ｉ／Ｆ）２０５、ディスプレイＩ／Ｆ２０６、外部メモリＩ／Ｆ２０７、マウスＩ／Ｆ２０８、ネットワークＩ／Ｆ２１３を有する。これらは、システムバス２０４を介して相互に通信可能に接続されている。

キーボードＩ／Ｆ２０５には、キーボード２０９が接続され、マウスＩ／Ｆ２０８には、マウス２１２が接続され、ユーザからの指示や設定の操作を受け付ける。ディスプレイＩ／Ｆ２０６にはディスプレイ２１０が接続され、ユーザに対して、各種ユーザインタフェース画面を表示する。外部メモリＩ／Ｆ２０７には、ＨＤＤなど外部メモリ２１１が接続される。

ＣＰＵ２０１は、ＲＯＭ２０３やＨＤＤ等の外部メモリ２１１などに記憶されたプログラムを、ＲＡＭ２０２に読み込んで実行することにより、情報端末１００全体を統括的に制御する。例えば、ＣＰＵ２０１は、コンピュータ読取可能な記憶媒体に記憶されたコンピュータプログラムを実行することにより、後述するフローチャートの各処理を実行することにより本実施形態の動作を実現する。ＲＯＭ２０３は、ＣＰＵ２０１を起動するためのプログラムを含む各種データを記憶する。ＲＡＭ２０２は、例えば、ＣＰＵ２０１のワークメモリとして用いられる。

図３は、サーバ１０１の内部構成を示す図である。サーバ１０１は、ＣＰＵ３０１、ＲＡＭ３０２、ＲＯＭ３０３、キーボードＩ／Ｆ３０５、ディスプレイＩ／Ｆ３０６、外部メモリＩ／Ｆ３０７、マウスＩ／Ｆ３０８、ネットワークＩ／Ｆ３１３、学習部３１４、文字認識部３１５を有する。これらは、システムバス３０４を介して相互に通信可能に接続されている。キーボードＩ／Ｆ３０５には、キーボード３０９が接続され、マウスＩ／Ｆ３０８には、マウス３１２が接続され、ユーザからの指示や設定の操作を受け付ける。ディスプレイＩ／Ｆ３０６にはディスプレイ３１０が接続され、ユーザに対して、各種ユーザインタフェース画面を表示する。外部メモリＩ／Ｆ３０７には、ＨＤＤなど外部メモリ３１１が接続される。

ＣＰＵ３０１は、ＲＯＭ３０３やＨＤＤ等の外部メモリ３１１などに記憶されたプログラムを、ＲＡＭ３０２に読み込んで実行することにより、サーバ１０１全体を統括的に制御する。例えば、ＣＰＵ３０１は、コンピュータ読取可能な記憶媒体に記憶されたコンピュータプログラムを実行することにより本実施形態の動作を実現する。ＲＯＭ３０３は、ＣＰＵ３０１を起動するためのプログラムを含む各種データを記憶する。ＲＡＭ３０２は、例えば、ＣＰＵ３０１のワークメモリとして用いられる。

学習部３１４は、機械学習を実行するＧＰＵを含む。学習部３１４は、例えば、ビッグデータベースに記憶されているビッグデータを用いて、類似性解析や回帰分析等により特徴量を学習する。なお、ビッグデータベースは、例えば、外部メモリ３１１として構成されても良いし、他のサーバに構成されても良い。ビッグデータベースは、例えば、ネットワーク１０３に接続された各機器からデータ（例えば、ユーザ毎の履歴データ）が収集されることによって構築される。印刷システム１０において、学習部３１４は、例えば、白黒画像データとカラー画像データとを学習データセットとしてニューラルネットワークを用いて学習を行うことにより、白黒画像をカラー画像に変換可能な学習済みモデルを生成することができる。その結果、学習済みモデルに対して任意の白黒画像データを入力することにより、カラー化した画像データが得られるシステムを構築することができる。文字認識部３１５は、入力された画像データから、スペクトル分布の検出等により文字を認識する。

図４は、画像形成装置１０２の内部構成を示す図である。画像形成装置１０２は、ＣＰＵ４０１、ＲＡＭ４０２、ＲＯＭ４０３、ネットワークＩ／Ｆ部４０４、スキャナ部４０５、プリンタ部（印刷部）４０６、操作部４０７、ＨＤＤ４０８を有する。これらは、システムバス４０９を介して相互に通信可能に接続される。ＣＰＵ４０１は、ＲＯＭ４０３やＨＤＤ４０８などに記憶されたプログラムを、ＲＡＭ４０２に読み込んで実行することにより、画像形成装置１０２全体を統括的に制御する。ＲＯＭ４０３は、画像形成装置１０２を制御するためのプログラムや各種データを記憶する。ＲＡＭ４０２は、例えば、ＣＰＵ４０１が動作するためのワークメモリであり、画像データを一時的に保存する。

スキャナ部４０５は、不図示のＡＤＦ（自動原稿給送装置）や原稿台に載置された原稿を光学的に読み取ることでスキャン画像データを生成する。プリンタ部４０６は、印刷対象の画像データに基づいて、用紙等の記録媒体に対して、インクジェット記録方式や電子写真方式等により、画像を記録する。操作部４０７は、タッチパネル等の表示部、ユーザ操作を受け付けるためのスイッチ、ＬＥＤ表示器等を有する。

情報端末１００、サーバ１０１、画像形成装置１０２はそれぞれ、図２、図３、図４に示す構成に限られず、各装置が実行可能な機能に応じて適宜ブロックが構成されても良い。例えば、音声指示を受付可能なようにマイクが構成されても良いし、音声出力が可能なようにスピーカが構成されても良い。また、その場合、受け付けた音声信号を音声データに変換するブロックが構成される。また、受け付けた音声指示を解析可能な音声認識部が構成されても良い。また、画像形成装置１０２がサーバ１０１を内部サーバとして含む構成の場合には、画像形成装置１０２は、図４の構成に加えて図３の構成を含むことになる。また、そのような構成の場合、以降で説明するサーバ１０１の動作は、画像形成装置１０２において実行されることになる。

図５は、サーバ１０１における文字に濃淡を付与する処理のブロック構成を示す図である。図５のブロック構成は、例えば、サーバ１０１の学習部３１４に構成される。本実施形態において、サーバ１０１で実行される処理は大きく二つあり、入力された画像データに基づいて画像の濃淡を学習する処理と、画像データに対して濃淡を付与する処理である。濃淡を学習する処理は、学習データ生成部５０１と濃淡学習部５０２で実行され、濃淡を付与する処理は、濃淡付与部５０３で実行される。サーバ１０１は、万年筆等での手書き文字のような濃淡画像を表す濃淡画像データを入力し、濃淡を学習する。また、サーバ１０１は、一般的な手書き風フォント等（形状が手書き風）の濃淡のない画像データを入力し、その画像データに対して濃淡を付与する。本実施形態では、濃淡を付与する処理により、濃淡のない画像データから濃淡が付与された画像データを出力する。そのような構成により、入力された手書き風フォントに基づいて、濃淡が付与されることでより手書き感を出した手書き風フォントを出力することができる。

濃淡を学習する処理では、サーバ１０１は、濃淡学習用画像データ５０４を入力する。濃淡学習用画像データ５０４は、例えば、情報端末１００で動作するアプリケーションから送信された画像データや画像形成装置１０２のスキャナ部４０５でスキャンされた画像データである。例えば、濃淡学習用画像データ５０４として、万年筆等での手書き文字のような濃淡画像がスキャナで読み取られた画像データが入力される。

学習データ生成部５０１は、学習データセット５０７を生成する。学習データセット５０７は、濃淡学習用画像データ５０４と、濃淡学習用画像データ５０４を２値化した２値化画像データとのデータセットである。濃淡学習部５０２は、生成された学習データセット５０７を用いて、文字の濃淡を学習する。濃淡学習部５０２は、濃淡学習用画像データ５０４と２値化画像データとのデータセットを学習データセット５０７としてニューラルネットワークを用いて学習を行うことにより、濃淡のない画像を濃淡が付与された画像へ変換可能な学習済みモデル５０８を生成する。

濃淡を付与する処理では、サーバ１０１は、濃淡のない画像データ５０５を入力する。濃淡のない画像データ５０５は、例えば、情報端末１００で動作するアプリケーションから送信された画像データや画像形成装置１０２のスキャナ部４０５でスキャンされた画像データ等である。例えば、濃淡のない画像データ５０５として、手書き風フォントに基づいた画像データが入力される。それらの画像データで表される文字は、形状は手書き風であっても濃淡がない点で、前述の濃淡学習用画像データ５０４と異なる。

濃淡付与部５０３は、前述の濃淡学習部５０２で学習が行われた学習済みモデル５０８を取得し、学習済みモデル５０８に対して濃淡のない画像データ５０５を入力することにより、濃淡が付与された画像データ５０６を出力する。その際、出力として、例えば、情報端末１００へ濃淡が付与された画像データ５０６を送信して情報端末１００のディスプレイ３１０で表示出力させても良い。若しくは、画像形成装置１０２へ濃淡が付与された画像データ５０６を送信して画像形成装置１０２のプリンタ部４０６で印刷出力させても良い。

図６は、サーバ１０１の学習データ生成部５０１の処理を示すフローチャートである。図６の各処理は、例えば、プログラムがサーバ１０１のＲＯＭ３０３、ＲＡＭ３０２、外部メモリ３１１のいずれかに格納され、ＣＰＵ３０１により実行されることで実現される。

Ｓ６００において、学習データ生成部５０１は、情報端末１００や画像形成装置１０２等から送信された濃淡学習用画像データ５０４を入力する。図７は、濃淡学習用画像データ５０４の一例を示す図である。濃淡学習用画像データ５０４は、図７（ａ）の画像７００や画像７０１に示すように、画像内に手書きの文字が一文字のみ含まれるような画像を示す画像データである。しかしながら、濃淡学習用画像データ５０４は、図７（ｂ）の画像７０２に示すように、画像内に複数の文字が含まれるような画像、例えば、ホワイトボード上の文字がスキャンされたようなデータであっても良い。

Ｓ６０１において、学習データ生成部５０１は、入力した濃淡学習用画像データ５０４に対して、エッジ検出や輪郭検出等により文字毎の領域の切り出しを行う。例えば、図７（ｂ）の画像７０２の場合、図７（ｃ）の画像７０３に示すように文字領域が検出され、各切り出された文字領域に対応する文字画像データが生成される。

Ｓ６０２において、学習データ生成部５０１は、Ｓ６０１で生成された文字画像データの各画素値を２階調で表現した（２値化した）２値化画像データを生成する。２値化画像データは、例えば、各画素の画素値を所定の閾値と比較することによって生成される。

Ｓ６０３において、学習データ生成部５０１は、Ｓ６００で入力した濃淡学習用画像データ５０４と、Ｓ６０２で生成された２値化画像データとのセットを学習データセット５０７として、外部メモリ３１１等に格納し、その後、図６の処理を終了する。学習データセット５０７が、いわゆる教師あり学習における訓練データとなる。なお、学習データ生成部５０１は、画像内に複数の文字が含まれるような画像である場合、Ｓ６０１で生成された文字画像データと、Ｓ６０２で生成された２値化画像データとのセットを学習データセット５０７とする。また、濃淡学習用画像データ５０４が図７（ａ）に示すような画像の画像データであっても、Ｓ６０１で生成された文字画像データと、Ｓ６０２で生成された２値化画像データとのセットを学習データセット５０７としても良い。

図８（ａ）は、学習データセット５０７により構築されるデータベース８００の一例を示す図である。データベース８００は、例えば、外部メモリ３１１に構成される。ＩＤ８０１は、データベース８００へ学習データセット５０７が追加される度に付与される、学習データセット５０７を一意に識別するためのフィールドである。ＩＤ８０１は、各学習データセット５０７を識別するだけでなく、文字認識部３１５による文字認識結果、例えば「レ」を表す情報も含む。２値化画像データ８０２は、Ｓ６０２で生成された２値化画像データを保持するフィールドである。正解画像データ８０３は、Ｓ６００で受信した濃淡学習用画像データ５０４又はＳ６０１で生成された文字画像データを保持するフィールドである。

学習データ生成部５０１は、図８（ａ）に示すように、Ｓ６００で受信した濃淡学習用画像データ５０４又はＳ６０１で生成された文字画像データを正解画像データ８０３へ格納する。そして、学習データ生成部５０１は、Ｓ６０２で生成された２値化画像データを２値化画像データ８０２へ格納し、一意のＩＤ８０１を付与する。図６での処理が、後述する図９の学習処理を実行するための前処理となる。

図９は、濃淡学習部５０２の処理を示すフローチャートである。図９の各処理は、例えば、プログラムがサーバ１０１のＲＯＭ３０３、ＲＡＭ３０２、外部メモリ３１１のいずれかに格納され、ＣＰＵ３０１により読み出されて実行されることで実現される。

Ｓ９００において、濃淡学習部５０２は、データベース８００において学習対象とするＩＤ８０１を特定する。濃淡学習部５０２は、例えば、データベース８００の先頭のＩＤを特定するとしても良い。Ｓ９０１において、濃淡学習部５０２は、Ｓ６０３でデータベース８００へ格納した２値化画像データ８０２と正解画像データ８０３との学習データセット５０７を取得する。例えば、図８（ａ）のデータベース８００の場合、濃淡学習部５０２は、まずＩＤ１に対応する２値化画像データ８０２と正解画像データ８０３との学習データセット５０７を取得する。

Ｓ９０２において、濃淡学習部５０２は、取得した学習データセット５０７を用いて、文字の形状に対する濃淡の傾向を学習する。例えば、濃淡学習部５０２は、２値化画像データ８０２（例えば、濃淡のない文字「レ」）をニューラルネットワークに入力し、その出力結果が正解画像データ８０３（例えば、濃淡がある文字「レ」）となるようなモデルを深層学習により生成する。

Ｓ９０２で学習される濃淡の傾向の一例について、図１３を参照しながら説明する。例えば、Ｓ９０２での学習では、まず、入力された濃淡のない文字「レ」の形状の大まかな特徴（高次の特徴量）を抽出し、その特徴量に対応づけて濃淡がある文字「レ」の濃淡の傾向を学習する。

図１３は、図８（ａ）のデータベース８００に含まれる正解画像データ８０３が表す正解画像の形状の一部分を示す図である。例えば、図１３（ａ）に示すように、文字の縦線部分について、下側に向かうにつれて濃くなるという濃淡の傾向が学習される。また、図１３（ｂ）に示すように、文字の横線部分について、右側に向かうにつれて濃くなるという濃淡の傾向が学習される。また、図１３（ｃ）に示すように、文字の線の交点部分について、他の部分よりも濃くなるという濃淡の傾向が学習される。このように、濃淡学習部５０２は、文字の形状の高次の特徴量を抽出し、形状に対する濃淡の傾向を深層学習により学習する。本実施形態によれば、このように濃淡の傾向を学習する構成により、専用の手書き入力用のペン等を用意する必要がなく、また、濃淡のパターンを生成して登録しておく必要がない。

Ｓ９０３において、濃淡学習部５０２は、データベース８００の学習対象となる全てのＩＤについてＳ９０２の学習が実行されたか否かを判定する。ここで、学習対象となる全てのＩＤについてＳ９０２の学習が実行されたと判定された場合、Ｓ９０４に進む。Ｓ９０４において、濃淡学習部５０２は、文字ごとに、学習済みモデル５０８として外部メモリ３１１に格納し、その後、図９の処理を終了する。一方、Ｓ９０３で学習対象となる全てのＩＤについてＳ９０２の学習が実行されていないと判定された場合、Ｓ９０５において、濃淡学習部５０２は、次のＩＤを特定し、Ｓ９０１からの処理を繰り返す。

図８（ａ）のＩＤ８０１は、同じ文字の学習データセット５０７を識別可能な識別情報である。そして、図９の処理は、データベース８００において同じ文字の学習データセット５０７について所定数以上が蓄積されると、例えば、文字「レ」について１００以上の学習データセット５０７が蓄積されると開始される。例えば、図８（ａ）では、説明上、文字「レ」について学習データセット５０７は１つしか示されていないが、データベース８００には、文字「レ」について複数の学習データセット５０７（例えば、複数のユーザから提供された複数の学習データセット）が格納されている。Ｓ９０１〜Ｓ９０３、Ｓ９０５の処理を繰り返すことにより、Ｓ９０２において、例えば文字「レ」について複数の学習データセット５０７を用いて、図１３に示すような濃淡の傾向が学習され、その結果、文字「レ」について学習済みモデル５０８が生成される。図９のＳ９０５においては、同じ文字についての学習データ５０７のうち、まだ、Ｓ９０２の学習が行われていない学習データセット５０７のＩＤが特定される。文字「レ」について図９の処理の終了後、他の文字、例えば文字「ポ」の学習データセット５０７のグループのうち、一つの学習データセット５０７のＩＤをＳ９００で特定し、Ｓ９０１以下の処理を行うことで、文字「ポ」について学習済みモデル５０８が生成される。

また、ＩＤについては、さらにユーザ情報と対応づけるようにしても良い。そして、図９の処理は、同じ文字の学習データセット５０７のグループについて、異なる複数のユーザ情報が混在するようにＩＤを特定するようにしても良い。例えば、学習データセット５０７の総数が１０００であり、画像形成システム１０のユーザが１００人である場合、学習対象となる学習データセット５０７のＩＤを多くすることよりも、異なるユーザが均等に含まれることを優先して学習対象となる学習データセット５０７のＩＤを特定するようにしても良い。これは、濃淡学習用画像データ５０４が、例えばユーザにより手書きされた文字をスキャナ部４０５により読み取られた原稿画像データであり、ユーザの癖が反映されているからである。つまり、学習対象となる学習データセット５０７が多数取得できたとしても、ユーザが同一である場合には、そのユーザの癖を強く学習することになり、適切に学習が行われない。そこで、ユーザが均等に含まれるように図９の処理の対象となるＩＤを特定することで、上記のような過学習を防ぎ、学習済みモデル５０８の汎化能力を向上させることができる。一方で、指定されたユーザに対応する学習データセット５０７のＩＤが含まれるようにしても良い。画像形成システム１０を利用するユーザが限られている場合に、そのユーザの癖に対する学習の比率を大きくすることにより、特定のユーザにより適応した学習済みモデル５０８を生成することができる。また、上記の２つのタイプの学習モデル５０８の生成を選択的に実行できるようにしても良い。

図１０は、濃淡付与部５０３の処理を示すフローチャートである。図１０の各処理は、例えば、プログラムがサーバ１０１のＲＯＭ３０３、ＲＡＭ３０２、外部メモリ３１１のいずれかに格納され、ＣＰＵ３０１により読み出されて実行されることで実現される。

Ｓ１０００において、濃淡付与部５０３は、情報端末１００や画像形成装置１０２から送信された画像データを入力する。ここで、情報端末１００や画像形成装置１０２から送信された画像データとは、例えば、スキャナ部４０５により光学的に読み取られた原稿画像データや、アプリケーションで作成されたテキストデータである。そして、濃淡付与部５０３は、入力された画像データに対して文字認識を行い、認識された文字ごとに切り出しを行うことで、濃淡のない画像データ５０５を取得する。

Ｓ１００１において、濃淡付与部５０３は、文字認識の結果に基づいて、Ｓ９０３で格納された対応する学習済みモデル５０８を外部メモリ３１１から読み込む。例えば、濃淡のない画像データ５０５が表す文字が「レ」であれば、「レ」に対応する学習済みモデル５０８を外部メモリ３１１から読み込む。

Ｓ１００２において、濃淡付与部５０３は、Ｓ１０００で取得した濃淡のない画像データ５０５を学習済みモデル５０８に入力することで、濃淡が付与された画像データ５０６を生成する。学習済みモデル５０８では、濃淡のない画像データ５０５が表す文字の形状の大まかな特徴を高次の特徴量として抽出する。そして、抽出した特徴量に基づき、学習済みの濃淡の傾向に従って文字内の濃淡分布が決定される。Ｓ１００３において、濃淡付与部５０３は、濃淡が付与された画像データ５０６を出力する。前述のとおり、ここでの出力は、情報端末１００のディスプレイ３１０での表示出力でも良いし、画像形成装置１０２のプリンタ部４０６での印刷出力でも良い。

図１１は、図１０の処理により濃淡が付与された画像データ５０６が表す画像の一例を示す図である。例えば、学習済みモデル５０８に２値画像を表す画像データ１１０１を、文字「あ」に対応する学習済みモデル５０８に入力すると、濃淡が付与された画像データ１１０２が出力される。図１１に示すように、文字「あ」の縦線部分について、下側に向かうにつれ濃くなるように濃淡が付与されている。また、文字「あ」の横線部分について、右側に向かうにつれ濃くなるように濃淡が付与されている。また、文字「あ」の線の交点について他の部分よりも濃くなるように濃淡が付与されている。このように、図１３で説明したような濃淡の傾向が反映されて出力される。

本実施形態では、文字ごとに学習済みモデル５０８を生成する構成について説明した。しかしながら、学習済みモデル５０８の生成について他の構成が用いられても良い。例えば、文字における特定の形状部分に着目し、その形状部分に対応した学習済みモデル５０８を生成するようにしても良い。特定の形状部分とは、例えば、文字の縦線部分、横線部分、はらい部分、止め部分である。そのような構成においては、図６のＳ６００で濃淡学習用画像データ５０４を入力すると、Ｓ６０１で、文字画像データを生成する代わりに、各特定の形状部分の画像データを生成する。これは、文字を走査したスペクトル結果に基づいて各特定の形状部分を特定して切り出しても良い。Ｓ６０２においては、特定の形状部分の画像データについて２値化画像データを生成し、Ｓ６０３においては、特定の形状部分の画像データと２値化画像データとを学習データセット５０７として外部メモリ３１１等に格納する。図９の処理については、前述の説明と同様である。また、図１０の処理については、以下のように行われても良い。Ｓ１０００において、濃淡付与部５０３は、濃淡のない画像データ５０５に対してさらに、上記Ｓ６０１と同様の手法により特定の形状部分を検出する。そして、Ｓ１００１において、濃淡付与部５０３は、特定の形状部分の検出結果に対応する、Ｓ９０４で保存された対応する学習済みモデル５０８を外部メモリ３１１から読み込む。そして、Ｓ１００２において、濃淡付与部５０３は、Ｓ１０００で検出した濃淡のない画像データ５０５のうちの特定の形状部分を学習済みモデル５０８に入力することで、特定の形状部分について濃淡が付与された画像データ５０６を出力する。そして、各特定の形状部分について出力された濃淡が付与された画像データ５０６（例えば、横線部分）を濃淡のない画像データ５０５（例えば、文字「あ」）に対して重畳することにより、濃淡が付与された画像データ５０６を出力する。

上記のように、特定の形状部分に対応した学習構成にすることにより、例えば、ひらがな、漢字、かたかな、アルファベットといった文字種類によらずに、濃淡を付与することが可能となる。

以上のように、本実施形態によれば、手書きの文字を含む画像データから２値化した画像データを生成し、濃淡のある画像データと濃淡のない画像データとの学習データセットを生成し、文字ごと若しくは特定の形状ごとに濃淡を学習することで学習済みモデルを生成する。そのような構成により、専用のデバイスおよび所定の濃淡パターンを用いることなく、入力された画像に対して濃淡を付与する濃淡のない文字に対して、手書きしたときのような濃淡を付与することができる。

［第２実施形態］
第１実施形態では、図６で説明したように、濃淡の学習において、文字単位で学習データセット５０７を生成していた。本実施形態では、文字単位でなく、画像全体を一定の大きさの矩形領域で切り出した画像を用いる。以下、第２実施形態について、第１実施形態と異なる点について説明する。

図１２は、本実施形態における学習データ生成部５０１の処理を示すフローチャートである。図１２の各処理は、プログラムがサーバ１０１のＲＯＭ３０３、ＲＡＭ３０２、外部メモリ３１２のいずれかに格納され、ＣＰＵ３０１により実行されることで実現される。

Ｓ１２００において、学習データ生成部５０１は、情報端末１００や画像形成装置１０２等から送信された濃淡学習用画像データ５０４を入力する。

Ｓ１２０１において、学習データ生成部５０１は、Ｓ１２００で入力した濃淡学習用画像データ５０４の各画素値を２階調で表現した（２値化した）２値化画像データを生成する。２値化画像データは、例えば、各画素の画素値を所定の閾値と比較することによって生成される。

Ｓ１２０２において、学習データ生成部５０１は、Ｓ１２００で入力された濃淡学習用画像データ５０４とＳ１２０１で生成された２値化画像データとのそれぞれを、一定の大きさの矩形領域で切り出す。例えば、図７（ｂ）に示すような濃淡学習用画像データ７０２であれば、図７（ｄ）の濃淡学習用画像データ７０４に示すように、矩形領域で分割された領域毎に切り出しを行う。ここで、濃淡学習用画像データ７０２と２値化画像データについて、同じ矩形領域により切り出しが行われる。また、矩形領域の大きさは、文字が複数含まれる程度の大きさであれば良い。

Ｓ１２０３において、学習データ生成部５０１は、Ｓ１２０２で切り出された矩形領域の１つを特定する。ここで、濃淡学習用画像データ５０４の矩形領域と２値化画像データの矩形領域のいずれが特定されても良い。

Ｓ１２０４において、学習データ生成部５０１は、特定された矩形領域内の文字画素数は所定数未満であるか否かを判定する。ここで、所定数未満であると判定された場合、切り出した画像データには濃淡情報が少なく学習に適していないと判断し、Ｓ１２０５において、その矩形領域を学習対象外とし、Ｓ１２０７に進む。一方、所定数未満でないと判定された場合、Ｓ１２０６において、その矩形領域を学習対象とし、Ｓ１２０７に進む。

Ｓ１２０７において、学習データ生成部５０１は、全ての矩形領域についてＳ１２０３〜Ｓ１２０６の処理を終了したか否かを判定する。ここで、全ての矩形領域について終了したと判定された場合、Ｓ１２０９に進む。一方、全ての矩形領域について終了していないと判定された場合、Ｓ１２０８において、学習データ生成部５０１は、次の矩形領域を特定し、Ｓ１２０３からの処理を繰り返す。

Ｓ１２０９において、学習データ生成部５０１は、Ｓ１２０２で切り出された濃淡学習用画像データと２値化画像データとのデータセットで且つＳ１２０６で学習対象とされたデータセットを学習データセット５０７として、外部メモリ３１１に格納する。例えば、図７（ｄ）の濃淡学習用画像データ７０４から学習データセット５０７を生成した場合、図８（ｂ）に示すような学習データセット５０７のデータベース８１０が外部メモリ３１１に保存される。Ｓ１２０９の後、図１２の処理を終了する。

図１２の処理後の濃淡学習については、図９での説明と同様である。濃淡付与について、図１０のＳ１００１では、Ｓ１０００で取得された濃淡のない画像データ５０５の文字認識結果に対応する文字を含む学習済みモデル５０８を外部メモリ３１１から読み込む。例えば、濃淡のない画像データ５０５が表す文字が「レ」であれば、「レ」を含む、図８（ｂ）のＩＤ１の学習済みモデル５０８が取得される。Ｓ１００２、Ｓ１００３については、前述の説明と同様である。

以上のように、本実施形態によれば、Ｓ６０１で説明したような文字単位での切り出し処理を行なわずに、学習データセット５０７を生成することができる。

第１及び第２実施形態では、図６、図９、図１０、図１２の処理は、サーバ１０１上で実行されていた。しかしながら、いずれの実施形態においても、それらの処理は、サーバ１０１と異なる装置上で実行されるようにしても良い。例えば、画像形成装置１０２上で実行されるようにしても良い。その場合、図６、図９、図１０、図１２の各処理は、例えば、プログラムが画像形成装置１０２のＲＯＭ４０３、ＲＡＭ４０２、ＨＤＤ４０８のいずれかに格納される。そして、各処理を実行する際、画像形成装置１０２のＲＯＭ４０３、ＲＡＭ４０２、ＨＤＤ４０８のいずれかからプログラムを読み出してＣＰＵ４０１により実行される。その際、濃淡学習用画像データ５０４や濃淡のない画像データ５０５は、例えば、情報端末１００から送信された画像データや、画像形成装置１０２のスキャナ部４０５でスキャンされた画像データである。図６及び図１２の処理で生成される学習データセット５０７、図９で生成される学習済みモデル５０８は、画像形成装置１０２のＨＤＤ４０８に格納される。また、濃淡学習を実行するタイミングは、濃淡を付与する処理の前であればいつでも良い。例えば、画像形成装置１０２の製品出荷前に濃淡学習を実行しておき、学習済みモデル５０８を画像形成装置１０２のＨＤＤ４０８に格納するようにしても良い。

図１５は、情報端末１００から画像形成装置１０２へ印刷ジョブを投入する際の、情報端末１００のディスプレイ２１０に表示される印刷時の設定画面の一例を示す図である。ユーザが文書データ等を情報端末１００上で印刷指示すると、印刷設定画面１５００がディスプレイ２１０に表示される。

図１５に示すように、印刷設定画面１５００には、文字に濃淡を付与するか否かを示すチェックボックス１５０１が設けられており、ユーザは文字に濃淡を付与したい場合は、チェックボックス１５０１にチェックを入れる。キャンセルボタン１５０３が押下されると、印刷設定画面１５００の設定内容がリセットされる。チェックボックス１５０１にチェックを入れた状態で印刷ボタン１５０２が押下されると、情報端末１００から送信された画像データに対して、画像形成装置１０２で図６、図９、図１０、図１２の各処理を実行し、濃淡が付与された画像をプリンタ部４０６で印刷する。以上のような処理により、印刷対象の画像データ上での文字に対して濃淡を付与するかしないかをユーザに選択させることができる。

第１及び第２実施形態において図６、図９、図１０、図１２の各処理をサーバ１０１上で実行する場合に、画像形成装置１０２のスキャナ部４０５でスキャンされた画像データをサーバ１０１に送信する際の構成を説明する。

図１４は、画像形成装置１０２のスキャナ部４０５で濃淡学習用画像データ５０４を取得するためのユーザインタフェース画面の一例を示す図である。図１４の画面は、例えば、画像形成装置１０２のメインメニューから表示されても良い。図１４の画面１４００は、画像形成装置１０２の操作部４０７で濃淡学習用画像データ５０４をスキャンするための画面である。テキストボックス１４０１は、スキャンされた画像データの送信宛先となる送信先アドレスの指定を受け付ける領域である。ユーザがテキストボックスで送信先アドレスを指定し、原稿台に文字が手書きで書かれた原稿をセットしてスキャン開始ボタン１４０２を押下すると、画像形成装置１０２は、スキャナ部４０５でスキャンを開始し、濃淡学習用画像データ５０４を取得してサーバ１０１に送信する。テキストボックス１４０１は、図６、図９、図１０、図１２の処理が可能な装置（例えばサーバ１０１）のアドレスが指定され、ユーザにより選択が可能である。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０画像形成システム：１００情報端末：１０１サーバ：１０２画像形成装置：２０１、３０１、４０１ＣＰＵ：３１４学習部

Claims

第１画像を表す第１画像データを入力する入力手段と、
前記入力手段により入力された前記第１画像データに基づき、画像に濃淡を付与するための学習済みモデルを用いて、前記第１画像に濃淡を付与した第２画像を表す第２画像データを出力する出力手段と、
を備えることを特徴とする情報処理装置。
複数の画像データに対応する複数の学習済みモデルを記憶する第１記憶手段と、
前記第１記憶手段に記憶された前記複数の学習済みモデルから、前記入力手段により入力された前記第１画像データに対応する前記学習済みモデルを取得する取得手段と、をさらに備え、
前記出力手段は、前記取得手段により取得した前記学習済みモデルを用いて、前記第１画像に濃淡を付与した第２画像を表す第２画像データを出力する、
ことを特徴とする請求項１に記載の情報処理装置。
データセットを記憶する第２記憶手段と、
前記第２記憶手段に記憶された前記データセットを用いて、前記学習済みモデルを生成する第１生成手段と、をさらに備え、
前記第１生成手段により生成された前記学習済みモデルは、前記第１記憶手段に格納される、
ことを特徴とする請求項２に記載の情報処理装置。
濃淡画像データに基づいて２値化画像データを生成する第２生成手段、をさらに備え、
前記第２記憶手段は、前記濃淡画像データと、前記第２生成手段により生成された前記２値化画像データとを前記データセットとして記憶する、
ことを特徴とする請求項３に記載の情報処理装置。
前記学習済みモデルは、前記２値化画像データが入力されると前記濃淡画像データを出力するよう学習されたモデルであることを特徴とする請求項４に記載の情報処理装置。
前記濃淡画像データが表す濃淡画像は、文字であることを特徴とする請求項４又は５に記載の情報処理装置。
前記濃淡画像データが表す濃淡画像は、文字を構成する形状であることを特徴とする請求項４又は５に記載の情報処理装置。
前記濃淡画像データが表す濃淡画像は、文字を含むように画像が複数の矩形領域に分割され、当該分割された複数の矩形領域の一つに対応する画像であることを特徴とする請求項４又は５に記載の情報処理装置。
前記濃淡画像データは、手書き文字がスキャンされたデータであることを特徴とする請求項６乃至８のいずれか１項に記載の情報処理装置。
前記出力手段は、印刷部に前記第２画像データを出力することを特徴とする請求項１乃至９のいずれか１項に記載の情報処理装置。
前記出力手段は、表示部に前記第２画像データを出力することを特徴とする請求項１乃至９のいずれか１項に記載の情報処理装置。
前記出力手段は、指定に応じて、前記第２画像データを出力することを特徴とする請求項１乃至１１のいずれか１項に記載の情報処理装置。
情報処理装置において実行可能な情報処理方法であって、
第１画像を表す第１画像データを入力する入力工程と、
前記入力工程において入力された前記第１画像データに基づき、画像に濃淡を付与するための学習済みモデルを用いて、前記第１画像に濃淡を付与した第２画像を表す第２画像データを出力する出力工程と、
を有することを特徴とする情報処理方法。
請求項１乃至１２のいずれか１項に記載の情報処理装置の各手段としてコンピュータを機能させるためのプログラム。
情報処理装置と画像形成装置とを含む画像形成システムであって、
前記情報処理装置は、
第１画像を表す第１画像データを前記画像形成装置から取得する取得手段と、
前記取得手段により取得された前記第１画像データに基づき、画像に濃淡を付与するための学習済みモデルを用いて、前記第１画像に濃淡を付与した第２画像を表す第２画像データを生成する生成手段と、
前記生成手段により生成された前記第２画像データを前記画像形成装置に送信する送信手段と、を備え、
前記画像形成装置は、
前記送信手段により送信された前記第２画像データに基づいて、前記第２画像の画像形成を行う画像形成手段、を備える、
ことを特徴とする画像形成システム。
前記画像形成システムは、前記情報処理装置を複数、含み、
前記画像形成装置は、
前記複数の情報処理装置のいずれかの指定を受け付ける受付手段と、
原稿画像を読み取って画像データを生成する読取手段と、
前記読取手段により生成された前記画像データを、前記受付手段により指定を受け付けた情報処理装置に送信する第２送信手段と、をさらに備え、
前記取得手段は、前記第２送信手段により送信された前記画像データを、前記第１画像データとして取得する、
ことを特徴とする請求項１５に記載の画像形成システム。