JP7129206B2 - システム、集計方法、及びプログラム - Google Patents
システム、集計方法、及びプログラム Download PDFInfo
- Publication number
- JP7129206B2 JP7129206B2 JP2018091348A JP2018091348A JP7129206B2 JP 7129206 B2 JP7129206 B2 JP 7129206B2 JP 2018091348 A JP2018091348 A JP 2018091348A JP 2018091348 A JP2018091348 A JP 2018091348A JP 7129206 B2 JP7129206 B2 JP 7129206B2
- Authority
- JP
- Japan
- Prior art keywords
- print data
- data
- feature
- feature amount
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Record Information Processing For Printing (AREA)
- Control Or Security For Electrophotography (AREA)
- Computer And Data Communications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Facsimiles In General (AREA)
- Accessory Devices And Overall Control Thereof (AREA)
Description
また、印刷枚数の多いアプリケーションを調べることによって、どの分野の業務で印刷を多く行っているかを類推し、業務の改善や電子化の促進といった対策を検討することができる。
特許文献1には、テキスト文書のクラスタリングとクラスタのラベリング技術が開示されている。
また、特許文献2には、印刷データに含まれる複数の特徴を特徴量として用いて、クラスタリングを実行し、さらにクラスタと当該クラスタに固有の印刷設定を見つける技術が開示されている。
クラス分類は、データをどのようなグループに分けるか予め指定して学習する技術である。通常、クラス分類はサンプルデータ(教師データ)とその分類結果(正解値)のセットを複数用意して、事前に学習を実施する構成をとる。特定の帳票フォーマットを識別するなど、分類したい電子文書の種類が具体的に決まっている場合は、高い確率で分類することが可能である。
一方、クラスタリングは、対象となるデータ集合を類似の特徴を持つグループに分割する技術である。クラスタリングは、教師データを事前に用意する必要がなく、個別の環境に応じた柔軟な分類が可能であり、事前学習などの煩わしい操作が不要、というメリットがある。しかし、分類した結果のクラスタがどういった意味を持つかは、分類されたデータから判別する必要がある。
このように、アプリケーションと印刷コストの発生する業務の種類とは、必ずしも結びついていない。したがって、従来のようなアプリケーション毎の集計では、印刷コスト削減のための情報としては十分とは言えない。
図1は、本実施例の印刷システムの構成例を示すシステム構成図である。
ネットワーク105に、プリンタA100、プリンタB101、プリンタC102、サーバー103、クライアントPC104が接続され、これらの装置が相互に通信可能な状態にある。
サーバー103は、本実施例における情報処理装置の役割を担う。
本実施例では、プリンタA100、プリンタB101、プリンタC103の3台が接続されているが、プリンタは3台に限定されるものではなく、より多くのプリンタが接続される構成でもよい。
また、プリンタの代わりに、プリント機能を有する複合機などの画像処理装置が接続される構成でもよい。また、クライアントPCも、同様に、複数台接続される構成でもよい。
図2は、本実施例のプリンタA100のハードウェア構成を示すハードウェアブロック図である。
ここでは、プリンタA100についてのみ説明するが、プリンタB101やプリンタC102についても、プリンタA100と同様のハードウェア構成を有する。
CPU201は、ROM203あるいはHDD204に記憶されたプログラムをRAM202に読み出し、実行する。さらに、CPU201は、システムバス205に接続される各デバイスを統括的に制御する。
RAM202は、CPU201のメインメモリであり、プリンタを制御する制御プログラムのためのワークエリアとして使用される。
ROM203には、電源ON時に実行されるブートプログラムが格納される。
HDD204には、オペレーティングシステムと、プリンタの制御プログラム本体が格納される。また、HDD204は、ビットマップイメージや印刷データなどの大容量データを一時的あるいは長期的に保持する目的でも使用される。
操作部I/F207は、操作部214とのインターフェース部であり、操作部214に表示するビットマップデータを操作部214に対して出力する。また、操作部214からプリンタA100の使用者が入力した情報を、CPU201に伝える役割をする。
操作部214は、出力器として液晶パネルと音源を備え、入力器としてタッチパネルとハードキーを備える。
プリンタエンジン215は、コントローラユニット200からの画像信号を媒体上に出力する出力機であり、電子写真方式、インクジェット方式のいずれでもよい。
プリンタ画像処理部210は、プリント出力イメージデータに対して、画像補正、ハーフトーニングなどを行う。
画像圧伸部211は、多値画像データに対してはJPEG、2値画像データに対してはJBIG、MMR、MHの、圧縮伸張処理を行う。
画像回転部212は、画像データの回転を行う。
図3は、本実施例のサーバー103のハードウェア構成を示すハードウェアブロック図である。
サーバー103は、コントローラユニット300、操作部310、ディスプレイ311を備える。
CPU301は、ROM303あるいはHDD304に記憶されたプログラムを、RAM302に読み出し、実行する。CPU301は、さらに、システムバス305に接続される各デバイスをCPU301が統括的に制御する。
ROM303は、電源ON時に実行されるブートプログラムを格納する。
HDD304は、オペレーティングシステムとアプリケーションプログラムを格納する。また、HDD304は、大容量データを一時的あるいは長期的に保持する目的でも使用される。
ディスプレイI/F308は、ディスプレイ311に表示すべき画像データをディスプレイ311に対して出力する。
ネットワーク306は、ローカルエリアネットワーク(LAN)309に接続し、クライアントPCやプリンタなどの外部機器との通信を担う。
図4は、本実施例のプリンタA100のソフトウェア構成を説明するソフトウェアモジュール構成図である。
ここでは、プリンタA100についてのみ説明するが、プリンタB101やプリンタC102についても、プリンタA100と同様のソフトウェア構成を有する。
図4に示される各ソフトウェアモジュールは、プログラムとしてHDD204に格納され、RAM202にロードされ、CPU201により実行される。より具体的には、各ソフトウェアモジュールは、CPU201上で動作するOS(オペレーティングシステム)によりRAM202にロードされ、スレッド単位で実行権を付与され、実行される。
ジョブ制御部401は、データ受信から印刷までのジョブ制御の全般を司る。
PDLインタプリタ403は、印刷データとしてページ記述言語(Page Description Language:PDL)により記述されたPDLデータを解釈して、中間データであるディスプレイリストを生成する。生成されたディスプレイリストは、ジョブ制御部401を介してジョブデータ管理部409で保持される。
レンダラ404は、ディスプレイリストからビットマップイメージを生成するモジュールである。多くの処理は専用ハードウェアRIP209により実行される。生成されたビットマップイメージは、ジョブ制御部401を介してジョブデータ管理部409で保持される。
ユーザインタフェース405は、操作部I/F207を介して、操作部214を制御するモジュールである。また、操作部214の液晶パネルに表示するデータを生成し、タッチパネルからの入力にしたがい、液晶パネルの表示を更新する。また、タッチパネルからの入力が何らかのジョブを実行する指示であった場合は、ジョブ制御部202に指示を伝達する。
データ送信部408は、印刷終了後にジョブデータ管理部409に保持する特徴量データをサーバーに対して送信するモジュールである。
ジョブデータ管理部409は、印刷データ、ディスプレイリスト、ビットマップイメージ、特徴量データのそれぞれを、一時的もしくは長期的に、保持管理するデータベースである。
図5は、本実施例のサーバー103のソフトウェア構成を示すソフトウェアモジュール構成図である。
図5に記載した各ソフトウェアモジュールは、プログラムとしてHDD304に格納され、RAM302にロードされ、CPU301により実行される。より具体的には、各ソフトウェアモジュールは、CPU301上で動作するOS(オペレーティングシステム)によりRAM302にロードされ、スレッド単位で実行権を付与され、実行される。
制御部501は、特徴量データの受信から、クラスタリング、レポート生成までの一連の処理を司る。
クラスタリング実行部502は、特徴量データを用いて、印刷データのデータクラスタリングを実行するモジュールである。
レポート生成部503は、印刷データのクラスタと印刷枚数の集計レポートを生成するモジュールである。レポート生成の要求は、Webサーバー504より受け付けられる。生成されたレポートは、Webサーバー504により要求元に返信される。
図6は、情報処理装置(サーバー103)における印刷データのクラスタリングを行う基本フローチャートである。
なお、ここでは、クラスタリングは図5の各ソフトウェアモジュールによって実行されるものとして説明する。また、本フローチャートは、HDD304に記憶された図5の各ソフトウェアモジュール内の各プログラムがRAM302に読み出され、CPU301により実行されることにより、実現される。
サーバーイベントには、後述する特徴量データの受信通知と、印刷データのクラスタリングと印刷枚数の集計レポートの生成要求と、の2つがある。
S602でYesの場合、S603に進み、特徴量データ受信部505は、特徴量データを受信し、制御部501を介してデータ管理部506へ格納する。
特徴量とは、印刷データの特徴を多次元ベクトルで表現したものであり、印刷の前処理時に抽出される。また、特徴量データには、特徴量の他に、付属情報として、特徴量の元となった印刷データの印刷枚数、カラー印刷枚数、モノクロ印刷枚数、代表画像が含まれる。特徴量データのさらなる詳細およびその抽出方法については後述する。
S602でNoの場合は、S604へ進み、制御部501は、サーバーイベントが印刷データのクラスタリングと印刷枚数の集計レポートの生成要求であるか否かを判断する。
なお、集計レポートの生成要求は、Webサーバー504によるWebページ上でのユーザ操作により発生したものが、制御部501にイベントとして通知されるものである。
対象の特徴量データは、データ管理部506に保存されたすべての特徴量データであるが、特徴量データを受信した期間や特徴量データの送信元のプリンタなどにより、フィルタリングをしてもよい。
データクラスタリングは、特徴量の類似するデータのグループであるクラスタに分割する処理であり、その詳細なフローについては、図13で後述する。
データクラスタリングの結果として、複数のクラスタと各特徴量データ、すなわち、その元になった印刷データが帰属するクラスタが決定される。そして、クラスタとそのクラスタに属する特徴量データのリストは、制御部501を介してデータ管理部506に保存される。
レポート生成部503は、各クラスタに属する印刷データの印刷枚数の合計値、カラー印刷の合計値、モノクロ印刷の合計値を、それぞれ、算出する。
レポート生成部503は、各クラスタの印刷枚数の合計値、カラー印刷の合計値、モノクロ印刷の合計値を集計レポートに記載する。また、レポート生成部503は、各クラスタの特徴を最も反映した画像として、クラスタの重心点に最も近い印刷データである代表画像を表示する。
図14に、集計レポートの一例を示す。この例では、4つのクラスタについて、それぞれをカテゴリ1から4に割り当て、各々に代表画像と印刷枚数を表示している。
そして、S601に戻り、制御部501は再びサーバーイベント待ちに入る。
また、S604でNoの場合も、同様に、S601に戻り、制御部501は再びサーバーイベント待ちに入る。
図7は、プリンタにおける印刷の基本フローチャートである。
なお、ここでは、図4の各ソフトウェアモジュールによって実行されるように説明する。また、本フローチャートは、HDD204に記憶された図4の各ソフトウェアモジュール内の各プログラムがRAM202に読み出され、CPU201により実行されることにより、実現される。
印刷データは、ホストPC上のアプリケーションとプリンタドライバにより生成され、プリンタへ送信される。印刷データは、PDL(ページ記述言語)データと、ジョブチケットと、から構成される。
PDLは、紙面に描画される中身を表現するものである。また、ジョブチケットは、部数や両面印刷、カラー/モノクロ印刷などの、印刷の設定情報を表現するものである。
抽出された特徴量と代表画像は、ジョブデータ管理部409に保存される。印刷データの解釈、特徴量抽出、RIP処理は同時並列的に実行されるが、詳細については、図9で後述する。
また、S704において、ジョブ制御部401は、印刷データにおける印刷枚数を確認して、ジョブデータ管理部409に保存する。
なお、印刷データにおける印刷枚数は、印刷データの特徴量に紐づけされて、ジョブデータ管理部409において管理される。また、印刷枚数は、後述する印刷枚数カウンタにより管理される値を参照して、決定される。
そして、S705において、データ送信部408は、印刷データの特徴量、印刷枚数、代表画像などの特徴量データを、サーバーに送信する。
図8は、PDLとともに印刷データを構成する、ジョブチケットで指定可能な印刷設定の一覧表である。
印刷設定は、「両面」、「ステイプル」、「カラーモード」、「用紙サイズ」、「ページ集約」の5つからなる。
「ステイプル」は、複数毎の出力用紙をステイプル留めする機能であり、属性値として、1:なし、2:シングル、3:ダブルが指定可能である。
「カラーモード」は、印刷データをカラーで出力するか、モノクロに変換してから出力する機能であり、属性値として、1:自動、2:カラー、3:モノクロが指定可能である。ここで、属性値の1:自動は、印刷データの内容によりPDLインタプリタ203がカラーかモノクロを自動判別するものである。
「ページ集約」は、印刷データ内の連続する複数のページを指定された用紙に縮小し、割り付けて印刷する機能である。属性値として、1:1in1、2:2in1、3:4in1、4:8in1が指定可能である。例えば、2in1の場合は、連続する2ページが1枚の出力用紙の片面に割り付けられる。
図9は、印刷処理の詳細フローチャートであり、図7の印刷基本フローチャートのS702とS703の処理を詳細化したものである。
本フローチャートでは、スレッドA、スレッドB、スレッドCの3つのスレッドが並列に実行される(マルチスレッディング)。
各スレッドは、オペレーティングシステムにより時分割され、その実行権が割り振られる。時分割の単位は十分に小さいため、3つのスレッドは並列動作しているとみなすことができる。
オペレーティングシステムによるマルチスレッディング処理は、一般に広く知られている技術であるため、詳細な説明は省略する。スレッドA、スレッドB、スレッドCは、本印刷データ分類装置の起動時にオペレーティングシステムにより生成される、常駐スレッドである。
次に、S902において、ジョブ制御部401は、印刷データがページ集約印刷を指示されたジョブの印刷データであるか否かを判定する。
ここで、ページ集約印刷とは、N-UP印刷のように、単一のシートに複数のページが配置される印刷方法を指す。
そして、S904において、PDLインタプリタ403は、単一シートに割り付ける論理ページと配置場所を算出する。
次に、S905において、PDLインタプリタ403は、カラーモード設定にしたがい、シートに割り当てられたページのPDLデータを処理し、シートのディスプレイリストを生成する。
この際、PDLインタプリタ403は、算出済みの配置場所にしたがい、各ページのシート内での描画位置を調整する。なお、ディスプレイリストは、シートの描画情報を表す中間データである。
そして、S906に進む。
そして、S903において、PDLインタプリタ403は、カラーモード設定にしたがい、PDLデータを処理して、1ページ分のディスプレイリストを生成する。
そして、S906へ進む。
特徴量抽出処理の詳細については、図11(及び、図17)で後述する。
そして、S908において、PDLインタプリタ403は、全ページの処理が終了したか否かを判定する。
Yesの場合は、本フローの処理を終了する。
Noの場合は、S902へ戻り、残りのページの処理を継続する。
最初に、S909において、レンダラ404は1シート分のディスプレイリストの生成完了を待つ。
スレッドAのS907でディスプレイリストの生成完了が通知されると、スレッドBの処理は、S909からS910に進む。
ここで、生成されるビットマップイメージは、CMYKの各色8ビットの諧調を有する。
また、レンダラ404は、1枚目のみ解像度を低下させた、サムネール画像を生成する。なお、1枚目か否かは、前述の印刷枚数カウンタが判断する。
プリントの依頼は、プリントドライバ406に対してレンダリング終了通知を送信することにより実行される。プリントドライバ406はエンジン同期して処理を実行するために、プリントの依頼は、スレッドCとして、スレッドAとは別スレッドで実行される。
同時に、プリントドライバ406は、出力用紙サイズ、両面、ステイプルの、動作指示コマンドを送信する。また、ビットマップイメージ転送に先立って、ビットマップイメージに対して画像処理を施す。
次に、S914において、プリントドライバ406は、両面の裏面を出力する場合を除いて、印刷枚数カウンタをアップする。
Yesの場合は、図9のフローを終了する。
Noの場合は、S909へ戻り、処理を繰り返す。
ここで、印刷データの論理的なページ数と、出力される用紙の枚数とは、一致しないことに注意すべきである。N-UP印刷においては、論理ページ数よりも出力用紙枚数は少なくなる。両面印刷においても、同様である。
図10は、印刷データ分類装置における印刷データを記述するためのPDLの描画コマンドの一覧表である。
描画コマンドは、DrawPath、DrawFillPath、DrawText、DrawImageの4つから構成される。
DrawFillPathは、同様に、座標配列により構成される点列で囲まれる領域を塗りつぶすためのコマンドであり、追加パラメータとして塗りの色が指定される。
DrawPathとDrawFillPathは、点列による線分を細かく繋げることにより曲線を描画することも可能である。
DrawImageは、ビットマップ形式のピクセルデータ列を描画するためのコマンドであり、追加パラメータとしてサイズ(幅、高さ)と描画位置が指定される。
図11は、特徴量抽出の詳細なフローチャートであり、図9のS906の処理を詳細に示したものである。
次に、S1102において、特徴量抽出部407は、描画コマンドによる描画座標値を四捨五入して概算座標を求める。
同様のテンプレートを使用していても、テンプレートの改変や不注意による変更に伴い、位置が外観から判別不能な程度に変化してしまうことがある。このため、座標値の変化に対する耐性を持たせるために、四捨五入による丸め処理を実行する。
Yesの場合はS1105へ進み、Noの場合はS1104へ進む。
描画識別子では、DrawPathもしくはDrawFillPathによる描画を、位置と点列数により分類し、特徴として扱う。すなわち、異なる描画識別子は異なる特徴として扱われる。
描画識別子は概算座標と点列数の2つのみで定義されるため、異なる描画に対して同一の描画識別子が割り当てられる可能性がある。しかしながら、確率的には非常に限定されるため、ドキュメント単位、ページ単位でみると、描画識別子を特徴として、その集合である特徴量を用いて識別することが十分可能となる。
なお、本実施例では特徴量を特徴の集合として扱う。
Yesの場合はS1106へ進み、Noの場合はS1107へ進む。
描画コマンドがDrawTextであった場合、S1106において、特徴量抽出部407は、描画コマンド、概算座標、文字列長を組み合わせて、描画識別子とする。
なお、S1107が実行されるのは、描画コマンドがDrawPathでも、DrawFillPathでも、DrawTextでもなかった場合であり、すなわち、DrawImageであったときのみである。
カウントは、特徴の強さを表す値として使用される。PDLデータ内に同一の描画識別子が複数存在するということは、多くの場合、複数のページで同一の描画が行われていることを意味する。テンプレートを使用した文書では、各ページで同様のヘッダやフッターなどを使用するケースが多いことから、描画識別子のカウントはテンプレートの特性を考慮したものと言える。別の方法として、描画エリアの大きさにより重みづけを行うことも可能である。
Yesの場合はS1110へ進む。
Noの場合は、S1101に戻り、特徴量抽出処理を繰り返す。
この多次元ベクトルが印刷データの特徴量となる。
図12は、ある印刷データの多次元ベクトルによる特徴量の構成例である。
例えば、次元番号1の描画識別子「DrawPath_100_80_2」は、DrawPathコマンドにより、概算座標(100, 80)に点列数2のパス描画が2つあることを意味する。
次元番号4の描画識別子「DrawText_230_250_8」は、DrawTextコマンドにより、概算座標(230, 250)に文字列長8のテキスト描画が4つあることを意味する。
次元番号5の描画識別子「DrawImage_850_1200_2400_1200」は、DrawImageコマンドにより、概算座標(850, 1200)に幅:2400、高さ:1200のイメージ描画が1つあることを意味する。
なお、図12では、描画識別子の表現形式として文字列を採用しているが、表現形式はいかなる形式でもよい。
図13は、印刷済みデータのクラスタリング処理の詳細なフローチャートであり、図6のS605の処理を詳細に示したものである。
各印刷済みデータは、共通の描画識別子を有する場合もあれば、有しない場合もある。クラスタリングに必要な特徴量の比較を行うためには、共通の特徴空間で実行する必要がある。
ここで、クラスタリング実行部502は、特定の印刷済みデータのみに存在する特徴量識別子を削除する。削除された特徴量識別子が極端に多い印刷済みデータは、クラスタリングの対象外としてもよい。削除された特徴量識別子が極端に多いということは、他の印刷データと類似する描画がほとんどないことを意味するからである。
後述するように、本実施例では、クラスタリングの手法として、既知の手法であるK平均法を採用する。
K平均法では、クラスタ数と初期のクラスタの重心点を予めに決めておく必要がある。キャノピークラスタリングはクラスタ数と初期のクラスタの重心点を適切に決めるための前処理として採用する。なお、キャノピークラスタリングも、同様に既知の手法であるため説明は省略する。
続く、S1305からS1309までの処理により、クラスタリング実行部502はK平均法によるクラスタリングを実行する。
距離の計算手法としては、既知の手法であるユークリッド距離を用いる。ここで、距離の遠近は、特徴量の類似度を表すことに注意すべきである。すなわち、類似する特徴量(特徴点)間の距離は小さく、類似しない特徴量(特徴点)間の距離は大きくなる。
次に、S1306において、クラスタリング実行部502は、各印刷済みデータをその特徴点に最も近い重心点を有するクラスタに割り当てる。
S1307において、クラスタリング実行部502は、クラスタに対する特徴点の割り当てに変化があるか否か判定する。
Yesの場合はS1308に進み、Noの場合はS1309へ進む。
重心点は各クラスタに割り当てられた特徴点の平均値であり、クラスタの特徴を代表する特徴点とみなすことができる。
S1308の処理を終了したら、S1305に戻り処理を継続する。そして、S1308、S1305、S1306の処理により、クラスタへの特徴点への割り当てに変化がなくなるまで、すなわち、割り当てが収束するまで、これらの処理を繰り返す。
そして、S1310において、クラスタリング実行部502は、各クラスタの重心点に最も近い印刷済みデータを調べ、記憶する。
図6のS607におけるクラスタの代表画像には、クラスタの重心点に最も近い印刷済みデータの画像が使われる。
このような孤立点はノイズとなるため、こうしたノイズを除去するために、クラスタの重心から一定距離内にある特徴点(特徴量)のみを、当該クラスタに帰属する印刷済みデータとする方法を採用してもよい。その場合、どのクラスタにも帰属しない印刷済みデータは、その他のデータとして一括りにして扱うことにより、情報の欠落を避けることができる。
また、一般的に、パターン認識は事前の作り込みが必要であり、事後に発生する様々なパターンを後から考慮することができない。このため、特定の書式として認識するパターンを事前に決めてプログラミングしておく必要がある。すなわち、新たなパターンが出現した場合には、再度、プログラミングが必要となる。
また、教師データによる学習も不要であるため、利便性が非常に高い方法と言える。さらに、複数の特徴からなる特徴量の類似性を判別するために、特定の特徴に依存することがなく、様々な書式として認識することができる。すなわち、本実施例のクラスタリングは、入力される様々な印刷データに対して柔軟性の高い分類方式であるといえる。
これに対して、実施例2ではプリンタ単体でクラスタリングとレポート生成を行うシステムを説明する。
これに対して、実施例2では、印刷データの特徴量として、テキスト(印字文字列)の内容を用いる方法について説明する。テキストを使うと、印刷データの内容が意味的に類似するグループを抽出することができる。
ここで、サーバークライアントのシステム構成と特徴量抽出方法とは、依存関係にないことに注意すべきである。すなわち、プリンタ単体の構成においても、実施例1の特徴量抽出方法を採用することができる。
図15は、実施例2におけるプリンタのソフトウェア構成を表すソフトウェアモジュール構成図である。
実施例2では、プリンタがサーバーの機能を兼ねるため、いくつかのモジュールが図4のソフトウェアモジュール構成図に追加される。具体的には、クラスタリング実行部410、レポート生成部411、Webサーバー412が追加される。
これらのモジュールの機能性は、それぞれ、図5におけるサーバーのクラスタリング実行部502、レポート生成部503、Webサーバー504と同等である。
また、プリンタ単体の処理能力はサーバーと比較して劣るため、プリンタ単体の場合では、印刷枚数の集計対象を自機のみに限定する構成とする。すなわち、ネットワーク上の他のプリンタでの印刷は集計対象に含めない。その他は、図4のソフトウェアモジュール構成図と同等であるため、説明は省略する。
図16は、実施例2におけるプリンタにおける基本処理を表すフローチャートである。
最初に、S1601において、ジョブ制御部401は、プリンタイベントが発生するまで待つ。
プリンタイベントには、印刷データの受信通知と、印刷データのクラスタリングと印刷枚数の集計レポートの生成要求と、の2つがある。
S1602でYesの場合は、S1603へ進み、印刷データを受信する。
S1602でNoの場合は、S1608へ進む。
そして、S1607において、ジョブ制御部401は、印刷データの特徴量と、印刷枚数及び代表画像を、ジョブデータ管理部409に保存する。
S1607の処理が終了すると、S1601へ戻る。
そして、S1608において、クラスタリング実行部502は、印刷済みデータのクラスタリングを実行する。
S608の処理が終了すると、S1601へ戻る。
図17は、テキストによる特徴量抽出の詳細なフローチャートであり、図11と同様に、図9のS906の処理を詳細に示したものである。
次に、S1702において、特徴量抽出部407は、描画コマンドがDrawTextであるか否かを判定する。
Yesの場合はS1703へ進み、Noの場合はS1706へ進む。
S1703において、特徴量抽出部407は、描画コマンドから文字列情報を取り出す。
なお、図4で説明したように、DrawTextはパラメータとして描画文字列を有する。
形態素解析は、文書を単語で区切り、辞書を用いて品詞などを判別する処理を指す。ここでは、形態素解析として公知の技術を用いる。
次に、S1705において、特徴量抽出部407は、単語と、各単語の累積出現数と、を特徴として記憶する。
Yesの場合はS1707へ進む。
Noの場合は、S1701に戻り、特徴量抽出処理を繰り返す。
PDLデータのパースがすべて完了すると、S1707において、特徴量抽出部407は、1つの単語を一次元とし、各単語の出現数を各次元の値とする、多次元ベクトルを生成する。
また、クラスタリングの前処理(図9のS1301、S1302)として、公知のTF/IDF法により特徴の重みづけ調整を行うと、さらに望ましい結果が得られる。
なお、実施例1ではクラスタの代表画像をレポートに表示したが、実施例2では、クラスタの特徴を表すメタ情報として、クラスタに特徴的な単語を表示する方法も考えられる。
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。
本発明は上述の実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形(各実施例の有機的な組合せを含む)が可能であり、それらを本発明の範囲から除外するものではない。すなわち、上述した各実施例及びその変形例を組み合わせた構成もすべて本発明に含まれる。
103 サーバー
401 ジョブ制御部
402 データ受信部
403 PDLインタプリタ
404 レンダラ
405 ユーザインタフェース
406 プリントドライバ
407 特徴量抽出部
408 データ送信部
409 ジョブデータ管理部
501 制御部
502 クラスタリング実行部
503 レポート生成部
504 Webサーバー
505 特徴量データ受信部
506 データ管理部
Claims (14)
- システムであって、
印刷データの特徴量を抽出する抽出手段と、
前記印刷データを、前記印刷データの特徴を多次元ベクトルで表現した特徴量に基づいて、複数のクラスタのうちの1つのクラスタに分類する分類手段と、
前記複数のクラスタの各々に属する印刷データの印刷枚数の合計を集計する集計手段と、を有する
ことを特徴とするシステム。 - 前記印刷データが、ページ記述言語(PDL)により記述されたPDLデータと、ジョブチケットと、から構成される
ことを特徴とする請求項1に記載のシステム。 - 前記特徴量が、特徴量識別子のそれぞれを、それぞれの次元とする多次元ベクトルにより表現される
ことを特徴とする請求項1または2に記載のシステム。 - 前記特徴量識別子が、印刷データから取り出される描画識別子である
ことを特徴とする請求項3に記載のシステム。 - 前記描画識別子が、ページ記述言語により記述された印刷データの算座標と点列とから定義される
ことを特徴とする請求項4に記載のシステム。 - 前記特徴量識別子が、印刷データから取り出される単語である
ことを特徴とする請求項3に記載のシステム。 - 前記特徴量識別子のうち、特定の印刷データにのみ存在する特徴量識別子を削除する ことを特徴とする請求項3から6のいずれか1項に記載のシステム。
- 前記分類手段は、
前記印刷データを、特徴量と最も近い重心点を有するクラスタに分類する
ことを特徴とする請求項3から7のいずれか1項に記載のシステム。 - 前記集計手段が集計した前記印刷枚数をレポートとして生成する生成手段をさらに有する
ことを特徴とする請求項1から8のいずれか1項に記載のシステム。 - 前記生成手段は、各クラスタに分類された印刷データの中から代表画像を生成する
ことを特徴とする請求項9に記載のシステム。 - 前記代表画像は、各クラスタに分類された印刷データの中から、クラスタの重心点に最も近い印刷データである
ことを特徴とする請求項10に記載のシステム。 - 前記印刷データに基づく印刷を実行する印刷手段をさらに有することを特徴とする請求項1から11のいずれか1項に記載のシステム。
- 集計方法であって、
印刷データの特徴量を抽出する抽出工程と、
前記印刷データを、前記印刷データの特徴を多次元ベクトルで表現した特徴量に基づいて、複数のクラスタのうちの1つのクラスタに分類する分類工程と、
前記複数のクラスタの各々に属する印刷データの印刷枚数の合計を集計する集計工程と、を有する
ことを特徴とする集計方法。 - 請求項13に記載された集計方法をコンピュータにより実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018091348A JP7129206B2 (ja) | 2018-05-10 | 2018-05-10 | システム、集計方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018091348A JP7129206B2 (ja) | 2018-05-10 | 2018-05-10 | システム、集計方法、及びプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2019195959A JP2019195959A (ja) | 2019-11-14 |
JP2019195959A5 JP2019195959A5 (ja) | 2021-06-17 |
JP7129206B2 true JP7129206B2 (ja) | 2022-09-01 |
Family
ID=68537188
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018091348A Active JP7129206B2 (ja) | 2018-05-10 | 2018-05-10 | システム、集計方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7129206B2 (ja) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001160057A (ja) | 1999-12-03 | 2001-06-12 | Nippon Telegr & Teleph Corp <Ntt> | 画像の階層的分類方法、および画像の分類・検索装置、およびこの方法を実行するプログラムを記録した記録媒体 |
JP2003067174A (ja) | 2001-08-23 | 2003-03-07 | Ricoh Co Ltd | プリント管理システム、プリント管理方法、プログラム、及び記録媒体 |
JP2004310436A (ja) | 2003-04-07 | 2004-11-04 | Fuji Photo Film Co Ltd | ファイル選択支援プログラムおよびファイル選択支援方法 |
JP2007304694A (ja) | 2006-05-09 | 2007-11-22 | Canon Inc | 画像検索装置、画像検索方法、および画像検索プログラム |
JP2008305277A (ja) | 2007-06-08 | 2008-12-18 | Ricoh Co Ltd | 課金管理システム、画像形成装置、課金管理サーバ、画像形成方法、画像形成プログラム |
JP2009151390A (ja) | 2007-12-18 | 2009-07-09 | Fuji Xerox Co Ltd | 情報分析装置、及び情報分析プログラム |
US20100091330A1 (en) | 2008-10-13 | 2010-04-15 | Xerox Corporation | Image summarization by a learning approach |
JP2010218181A (ja) | 2009-03-17 | 2010-09-30 | Yahoo Japan Corp | 画像検索装置 |
JP2010250636A (ja) | 2009-04-17 | 2010-11-04 | Seiko Epson Corp | 画像検索端末装置および画像検索要求方法 |
JP2015202667A (ja) | 2014-04-16 | 2015-11-16 | キヤノン株式会社 | 情報処理装置、その制御方法およびコンピュータプログラム |
JP2017021583A (ja) | 2015-07-10 | 2017-01-26 | キヤノン株式会社 | 管理サーバー、管理サーバーの制御方法、およびプログラム |
JP2017105175A (ja) | 2015-12-07 | 2017-06-15 | ゼロックス コーポレイションXerox Corporation | ページ記述言語文書からの直接文字認識 |
-
2018
- 2018-05-10 JP JP2018091348A patent/JP7129206B2/ja active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001160057A (ja) | 1999-12-03 | 2001-06-12 | Nippon Telegr & Teleph Corp <Ntt> | 画像の階層的分類方法、および画像の分類・検索装置、およびこの方法を実行するプログラムを記録した記録媒体 |
JP2003067174A (ja) | 2001-08-23 | 2003-03-07 | Ricoh Co Ltd | プリント管理システム、プリント管理方法、プログラム、及び記録媒体 |
JP2004310436A (ja) | 2003-04-07 | 2004-11-04 | Fuji Photo Film Co Ltd | ファイル選択支援プログラムおよびファイル選択支援方法 |
JP2007304694A (ja) | 2006-05-09 | 2007-11-22 | Canon Inc | 画像検索装置、画像検索方法、および画像検索プログラム |
JP2008305277A (ja) | 2007-06-08 | 2008-12-18 | Ricoh Co Ltd | 課金管理システム、画像形成装置、課金管理サーバ、画像形成方法、画像形成プログラム |
JP2009151390A (ja) | 2007-12-18 | 2009-07-09 | Fuji Xerox Co Ltd | 情報分析装置、及び情報分析プログラム |
US20100091330A1 (en) | 2008-10-13 | 2010-04-15 | Xerox Corporation | Image summarization by a learning approach |
JP2010218181A (ja) | 2009-03-17 | 2010-09-30 | Yahoo Japan Corp | 画像検索装置 |
JP2010250636A (ja) | 2009-04-17 | 2010-11-04 | Seiko Epson Corp | 画像検索端末装置および画像検索要求方法 |
JP2015202667A (ja) | 2014-04-16 | 2015-11-16 | キヤノン株式会社 | 情報処理装置、その制御方法およびコンピュータプログラム |
JP2017021583A (ja) | 2015-07-10 | 2017-01-26 | キヤノン株式会社 | 管理サーバー、管理サーバーの制御方法、およびプログラム |
JP2017105175A (ja) | 2015-12-07 | 2017-06-15 | ゼロックス コーポレイションXerox Corporation | ページ記述言語文書からの直接文字認識 |
Also Published As
Publication number | Publication date |
---|---|
JP2019195959A (ja) | 2019-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1933240A1 (en) | Document retrieving apparatus, method and program | |
JP2006285612A (ja) | 情報処理装置およびその方法 | |
US9710524B2 (en) | Image processing apparatus, image processing method, and computer-readable storage medium | |
JP2004192248A (ja) | 文書処理装置及び方法 | |
KR101030139B1 (ko) | 정보 처리 장치 및 방법 | |
KR101336379B1 (ko) | 정보 처리 장치, 정보 처리 장치의 제어 방법, 저장 매체 | |
JP4095512B2 (ja) | 文書変換方法及び装置 | |
US8368938B2 (en) | Registering a plurality of tasks with respect to a document for processing | |
US8023161B2 (en) | Systems and methods for providing image data encapsulated in a page description language | |
CN110895454A (zh) | 打印***、信息处理设备、外部设备及其控制方法和介质 | |
JP7395656B2 (ja) | 画像形成装置、制御方法、および、プログラム | |
JP2000305739A (ja) | 印刷システム | |
US8773677B2 (en) | Information processing apparatus, PDL data conversion method, and storage medium | |
JP6270455B2 (ja) | 画像形成装置、画像形成装置の制御方法、およびプログラム | |
US9906679B2 (en) | Image forming device and image forming method | |
JP7129206B2 (ja) | システム、集計方法、及びプログラム | |
JP6358471B2 (ja) | 画像形成装置 | |
US20210110149A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP2015202667A (ja) | 情報処理装置、その制御方法およびコンピュータプログラム | |
US9430446B2 (en) | Information processing apparatus, method and storage medium including a function for establishing exceptions applied to print settings when specified conditions are met | |
JP5896610B2 (ja) | 装置、方法およびプログラム | |
JP5586970B2 (ja) | 情報処理装置および制御方法およびプログラム | |
JP2008242642A (ja) | 画像形成装置 | |
US11656819B2 (en) | Information processing apparatus and printing request for designating documents based on a spoken voice | |
JP2018106612A (ja) | 印刷管理システム、印刷管理システムの制御方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210428 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210428 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220315 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220322 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220523 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220719 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220822 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7129206 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |