JP2022185874A - 情報処理装置、情報処理システム、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理システム、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2022185874A
JP2022185874A JP2021093769A JP2021093769A JP2022185874A JP 2022185874 A JP2022185874 A JP 2022185874A JP 2021093769 A JP2021093769 A JP 2021093769A JP 2021093769 A JP2021093769 A JP 2021093769A JP 2022185874 A JP2022185874 A JP 2022185874A
Authority
JP
Japan
Prior art keywords
information
image data
unit
information processing
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021093769A
Other languages
English (en)
Inventor
康子 橋本
yasuko Hashimoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2021093769A priority Critical patent/JP2022185874A/ja
Publication of JP2022185874A publication Critical patent/JP2022185874A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書の検索において、文書内の画像データから抽出した文字情報と画像情報の両方を用いること。【解決手段】データベースに格納されている電子化された文書を管理する情報処理装置であって、前記文書内の画像データに含まれる文字情報と画像情報の領域を識別する領域識別部と、前記画像データの文字情報の領域から文字列を抽出する文字列抽出部と、前記文字列に含まれる情報を用いて、予め設定された文書の範囲から文章を取得する文章取得部と、出現する頻度に応じて、少なくとも一つ以上の入力単語を前記文章から選択する単語選択部と、予め機械学習により学習したモデルに前記入力単語と前記画像情報を入力することにより、前記画像データを分類した分類タグを出力する分類タグ生成部と、前記分類タグを前記データベースに記憶する情報更新部と、前記分類タグを用いて、関連する画像データを含む前記データベース内の文書を検索する検索部と、を有することを特徴とする。【選択図】図3

Description

本発明は、情報処理装置、情報処理システム、情報処理方法、及びプログラムに関する。
社内文書などを電子化してデータベースとして資産管理する際に、分類タグなどを用いて関係する文書の紐づけを行うことは、データベースの検索や文書の更新履歴などを追跡するトレーサビリティにおいて重要である。さらに、開発における設計書や仕様書などの文書内に含まれるブロック図やフロー図などの画像データを分類した分類タグを生成することは、関連する画像を含む文書の検索にとって有効である。
このような技術に関連する従来技術として、特許文献1には、ログ画像などの画像データからOCR(Optical Character Recognition)により抽出した文字列を文書の検索に用いることにより、検索精度を向上させる技術が開示されている。
しかしながら、従来の技術では、文書の検索において、画像データから抽出した文字情報を用いるのみで、画像データの画像情報は用いていないという問題があった。
本発明の実施形態は、上記課題に鑑み、文書の検索において、文書内の画像データから抽出した文字情報と画像情報の両方を用いることを目的とする。
上述した課題を解決するために、本発明は、データベースに格納されている電子化された文書を管理する情報処理装置であって、前記文書内の画像データに含まれる文字情報と画像情報の領域を識別する領域識別部と、前記画像データの文字情報の領域から文字列を抽出する文字列抽出部と、前記文字列に含まれる情報を用いて、予め設定された文書の範囲から文章を取得する文章取得部と、出現する頻度に応じて、少なくとも一つ以上の入力単語を前記文章から選択する単語選択部と、予め機械学習により学習したモデルに前記入力単語と前記画像情報を入力することにより、前記画像データを分類した分類タグを出力する分類タグ生成部と、前記分類タグを前記データベースに記憶する情報更新部と、前記分類タグを用いて、関連する画像データを含む前記データベース内の文書を検索する検索部と、を有することを特徴とする。
本発明の実施形態によれば、文書の検索において、文書内の画像データから抽出した文字情報と画像情報の両方を用いることができる。
本発明の実施形態に係る情報処理システムの概略図の例を示す図である。 本発明の実施形態に係る情報処理装置および端末装置のハードウェア構成の一例を示す図である。 本発明の実施形態に係る情報処理システムの機能ブロックの構成図の一例を示す図である。 本発明の実施形態に係る文書内画像の分類タグを生成する処理の流れの一例を示す図である。 本発明の実施形態に係る資産管理DB内の文書から文章を抽出する処理について説明する図である。 本発明の実施形態に係る分類タグ生成部の入出力データの一例を説明する図である。 本発明の実施形態に係る分類タグ生成部のネットワークモデルの一例を説明する図である。 本発明の実施形態に係るトレーサビリティ情報の一例を示す図である。 本発明の実施形態に係るトレーサビリティ情報の別の一例を示す図である。 本発明の実施形態に係る文章取得部が取得する文書の範囲を指定する方法を示す図である。 本発明の実施形態に係る共起関係リストを用いた文書内画像の分類タグを生成する処理の流れの一例を示す図である。 本発明の実施形態に係る共起関係リストの生成および利用方法を説明する図である。 本発明の実施形態に係る外部から読込んだ画像に対する分類タグを生成する処理の流れの一例を示す図である。
以下、添付図面を参照しながら、本発明に係る情報処理装置、情報処理システム、情報処理方法、及びプログラムの実施形態を詳細に説明する。
[第1の実施形態]
<システム概要>
図1は、本発明の実施形態に係る情報処理システムの概略図の例を示す図である。情報処理システム4は、端末装置5、画像形成装置6、および情報処理装置2が、通信ネットワーク1に接続する形で構成される。管理者は、端末装置5を操作して情報処理装置2にアクセスして、管理資産DB3に保存されている電子化された文書内の画像データに対する分類タグを生成させ、トレーサビリティ情報を更新するなどの管理を行うことが可能である。利用者は、端末装置5を操作して、分類タグを用いて管理資産DB3内の関連する画像を含む文書を検索することが可能である。また、画像形成装置6のスキャナ機能などを用いて取込んだ画像データを含む文書を資産管理DB3に登録することも可能である。なお、以降の説明では、画像データを単に画像と表現する場合もある。
<ハードウェア構成例>
図2は、本発明の実施形態に係る情報処理装置2と端末装置5のハードウェア構成の一例を示す図である。図2に示されているように、情報処理装置2および端末装置5は、コンピュータによって構築されており、CPU501、ROM502、RAM503、HD504、HDD(Hard Disk Drive)コントローラ505、ディスプレイ506、外部機器接続I/F(Interface)508、ネットワークI/F509、データバス510、キーボード511、ポインティングデバイス512、DVD-RW(Digital Versatile Disk Rewritable)ドライブ514、メディアI/F516を備えている。
これらのうち、CPU501は、情報処理装置2と端末装置5の全体の動作を制御する。ROM502は、IPL等のCPU501の駆動に用いられるプログラムを記憶する。RAM503は、CPU501のワークエリアとして使用される。HD504は、プログラム等の各種データを記憶する。HDDコントローラ505は、CPU501の制御にしたがってHD504に対する各種データの読み出し又は書き込みを制御する。ディスプレイ506は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F508は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F509は、通信ネットワーク1を利用してデータ通信をするためのインターフェースである。データバス510は、図5に示されているCPU501等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
また、キーボード511は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス512は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。DVD-RWドライブ514は、着脱可能な記録媒体の一例としてのDVD-RW513に対する各種データの読み出し又は書き込みを制御する。なお、DVD-RWに限らず、DVD-R等であってもよい。メディアI/F516は、フラッシュメモリ等の記録メディア515に対するデータの読み出し又は書き込み(記憶)を制御する。
<機能について>
図3は、本発明の実施形態に係る情報処理システム4の機能ブロックの構成図の一例を示す図である。図3に示すように、情報処理システム4は、主な機能ブロックを有する装置として、情報処理装置2と端末装置5とを備える。
<情報処理装置の機能>
情報処理装置2は、画像取得部101、領域識別部102、文字列抽出部103、第1解析部104、文章取得部105、第2解析部106、単語選択部107、分類タグ生成部108、情報更新部109、第1通信部110、および検索部111を備える。
画像取得部101は、管理資産DB3に登録されている文書に含まれている画像データのうち、分類タグの情報を有していない画像データを取得し、取得した画像データを領域識別部102に送信する。または、画像形成装置6のスキャン機能でスキャンした画像データやカメラで撮影した画像データを領域識別部102に送信する。
領域識別部102は、画像取得部101から受信した画像データに対して、文字領域と文字以外の領域を識別して分割し、文字領域の情報(画像データ内の文字情報)を文字列抽出部103に送信し、文字以外の領域の情報(画像データ内の画像情報)を分類タグ生成部108に送信する。
文字列抽出部103は、領域識別部102から受信した文字領域の情報から文字列を抽出し、第1解析部104に送信する。この抽出処理は、一般的なOCR(Optical Character Recognition)で行われる処理と同様の処理により実現できる。
第1解析部104は、文字列抽出部103から受信した文字列に対して、形態素解析を実行することにより得た単語と各単語の品詞のリスト(単語リスト)を文章取得部105に送信する。あるいは、受信した文字列に対して、N-gram解析を実行することにより得た単語と各単語の出現頻度のリスト(単語リスト)を文章取得部105に送信する。
文章取得部105は、第1解析部104から受信した単語リストに含まれる単語を含む文章を資産管理DB3の予め設定した範囲から取得し、取得した文章を第2解析部106に送信する。
第2解析部106は、文章取得部105から受信した文章に対して、形態素解析を実行することにより得た単語と各単語の品詞のリストを単語選択部107に送信する。あるいは、受信した文字列を指定した文字列に分割して作成した共起関係リスト221を文章取得部105に送信する。
単語選択部107は、第2解析部106から受信したリストの中から選択した少なくとも1つ以上の単語を入力単語として分類タグ生成部108に送信する。
分類タグ生成部108は、領域識別部102から受信した画像情報と分類タグ生成部108から受信した単語を入力として、予め機械学習(ディープラーニング)により学習したモデルを用いて分類タグを生成し、情報更新部109に出力する。
情報更新部109は、分類タグ生成部108から受信した分類タグを画像取得部101が取得した文書の画像データの分類タグとして記憶することにより、資産管理DB3上に保存されているトレーサビリティ情報を更新する。
第1通信部110は、通信ネットワーク1を介して、端末装置5の第2通信部123とデータの送受信を行う。情報処理装置2から端末装置5へは、文書検索画面の画面情報や文書検索結果などの情報が送信される。
検索部111は、端末装置5を操作する利用者からの要求などに基づいて、分類タグを用いて、資産管理DB3内の関連する画像データを含む文書を検索する。
<端末装置の機能>
端末装置5は、表示制御部121、操作受付部122、第2通信部123を備える。
表示制御部121は、端末装置5のディスプレイに情報処理装置2から受信した文書検索画面などの画面情報や文書検索結果などを表示する。
操作受付部122は、端末装置5の利用者による文書検索に係る入力操作などを受け付ける。
第2通信部123は、通信ネットワーク1を介して、情報処理装置2の第1通信部110とデータの送受信を行う。端末装置5から情報処理装置2へは、操作受付部122が受け付けた利用者による入力操作の情報などが送信される。
<文書内の画像を分類す分類タグを生成する処理>
図4は、本発明の実施形態に係る文書内画像の分類タグを生成する処理の流れの一例を示す図である。以下、情報処理システム4の各機能ブロックが行う処理の全体的な流れについて説明する。各処理の詳細については、以降の図面を用いて説明する。
画像取得ステップS201において、管理者は、端末装置5の操作受付部122から操作を行うことにより、情報処理装置2の管理画面にアクセスする。情報処理装置2の第1通信部110は、管理画面に関する情報を端末装置5の第2通信部123に送信する。端末装置5の表示制御部121は、受信した画面情報を端末装置5のディスプレイに表示する。管理画面において、管理者は、新たに管理資産DB3に登録された文書などの分類タグの情報を有していない文書の画像に分類タグを付与する処理を情報処理装置2に実行させる。画像取得部101は、管理資産DB3に登録されている文書に含まれる画像データのうち、分類タグの情報を有していない画像データを取得し、取得した画像データを領域識別部102に送信する。
領域選別ステップS202において、領域識別部102は、画像取得部101から受信した画像データに対して、文字領域と文字以外の領域に分割し、文字領域の情報(画像データ内の文字情報)を文字列抽出部103に送信し、文字以外の領域の情報(画像データ内の画像情報)を分類タグ生成部108に送信する。
文字列抽出ステップS203において、文字列抽出部103は、領域識別部102から受信した文字領域の情報から文字列を抽出し、第1解析部104に送信する。この抽出処理は、一般的なOCRで行われる処理と同様の処理により実現できる。
第1形態素解析ステップS204において、第1解析部104は、形態素解析用の辞書210に基づいて、受信した文字列を形態素に分解し、分解して得た単語とその単語の品詞のリスト(単語リスト)を文章取得部105に送信する。
文章取得ステップS205において、文章取得部105は、受信した単語リストから予め設定した品詞の単語を選択し、その単語を含む文章を資産管理DB3の予め設定した範囲から取得し、取得した文章を第2解析部106に送信する。ここで、予め設定する品詞は、名詞、動詞、形容詞、副詞などの内容に関係する意味を含む品詞を設定する。また、文章を取得するための資産管理DB3の予め設定する範囲は、例えば、画像を含む段落(または節、セクションなどと呼ばれる範囲)、画像の前後に位置する範囲、画像へのリンクが張られている文章を含む範囲などを指定する。また、領域識別部102が、文字領域を識別できなかった場合、あるいは文字列抽出部103が、文字領域から文字列を抽出できなかった場合、あるいは文章取得部105が、資産管理DB3の予め設定した範囲から文章を取得できなかった場合、資産管理DB3の予め設定した範囲の文章の全てを第2解析部106に送信する。
第2形態素解析ステップS206において、第2解析部106は、形態素解析用の辞書210に基づいて、受信した文章を形態素に分解し、分解して得た単語とその単語の品詞のリスト(単語リスト)を単語選択部107に送信する。
単語選択ステップS207において、単語選択部107は、受信した単語リストから予め定めた品詞の単語で出現率が高い(リストに含まれる数が最も多い)単語を選択して、その単語を分類タグ生成部108に出力する。例えば、出現率が高い上位N個の単語を選択する。
分類タグ生成ステップS208において、分類タグ生成部108は、領域識別部102から受信した画像情報と単語選択部107から受信した単語を入力として、予め機械学習(ディープラーニング)により学習したモデルを用いて分類タグを生成する。生成した分類タグは、情報更新部109に出力される。
トレーサビリティ情報更新ステップS209において、情報更新部109は、受信した分類タグを画像取得ステップS201で取得した文書の画像データの分類タグとして記憶することにより、資産管理DB3に保存されているトレーサビリティ情報を更新する。
以上の処理を資産管理DB3に登録されている文書の全ての画像データに対して実行することにより、情報処理システム4は、同じ分類タグを持つ画像を持つ文書を関連する文書として検索することが可能となる。
図5は、本発明の実施形態に係る資産管理DB3内の文書から文章を抽出する処理について説明する図である。図5に示す資産管理DB3に登録されている文書300には、文章部301と画像部302を有している。図4の画像取得ステップS201において、画像取得部101は、画像データとして画像部302を取得し、領域選別ステップS202において、領域識別部102は、画像部302から文字領域304を選別する。さらに、文字列抽出ステップS203において、文字列抽出部103は、文字領域304内から文字列として"図X ###◎◎◎+++"を抽出し、第1形態素解析ステップS204において、第1解析部104は、抽出した文字列を形態素解析して単語と品詞に分類して単語リスト305を生成する。一方、文章取得ステップS205において、文章取得部105は、文章部301から単語リスト305の予め設定した品詞の単語を含む文章として文章303を取得する。
図6は、本発明の実施形態に係る分類タグ生成部108の入出力データの一例を説明する図である。分類タグ生成部108は、入力データ310である文字列(単語)311と画像データ312に対応する分類タグを出力データ313として出力するように、予め機械学習(ディープラーニング)されている。文字列(単語)311は、単語選択部107で選択されたn個の単語(最大でN個)をWord2Vecなどの公知の技術によりベクトル化したものを用いることが可能である。画像データ312は画素単位の配列(例えば主走査線画素数m、副走査線画素数k)になっており、必要に応じてノイズ除去などの前処理等を行う。1つの画素値の輝度は、例えば8ビット(0~255の値)で表現するモノクロ画像であってもよく、あるいは、RGB(Red、Green、Blue)の3原色を用いたカラー画素であってもよい。入力画像のサイズは、例えば最大で1024x1024(m=1024、k=1024)であり、入力画像が最大サイズよりも小さい場合は、例えば、左上に寄せて余りの画素値を0とする。出力データ313は、画像を分類した結果である分類タグであり、例えば、1つのビットのみ1で残りを0とするOnehot表現とする。このとき、出力ビットの長さは、分類の種類の数であり、例えば、10種類(p=10)とする。
図7は、本発明の実施形態に係る分類タグ生成部のネットワークモデルの一例を説明する図である。ニューラルネットワーク323の入力データである単語321と画像322、および出力データである分類タグ327の詳細については、図6で説明した通りである。画像322は、カラー(RGB)の3種類の画素値が入力される形になっている。ニューラルネットワーク323は、単語用CNN(Convolutional Neural Network、畳み込みニューラルネットワーク)324、画像用CNN325、および出力層326を有している。単語用CNN324と画像用CNN325の最終層では、それぞれα個の要素を持つ1次元のベクトル値が出力され、その2つのベクトルを合成したα×2の配列を持つ入力値が出力層326に入力され、出力層326からの出力が分類タグ327を示す値となる。ここで、αの値は出力値の要素数(=分類タグの種類)よりも大きい値を用いる。入力データは、複数の要素(単語および画像データ)で構成されていることから、ニューラルネットワーク323の学習においては、例えば、マルチモーダル深層学習の手法を用いることが有効である。
図8は、本発明の実施形態に係るトレーサビリティ情報の一例を示す図である。情報更新部109は、分類タグ生成部108から受信した情報に基づいて、資産管理DB3に記憶されているトレーサビリティ情報330を更新する。トレーサビリティ情報330の文書Aに含まれる画像(画像A、画像B、画像C、・・・)、および文書Bに含まれる画像(画像D、画像E、画像F、・・・)において、分類タグが付与されている箇所は1(True)、それ以外の箇所は0(False)となっている。例えば、文書Aの画像Aに対しては、値が1(True)である分類C、分類E、および分類Fの分類タグが付与されている。文書検索時には、トレーサビリティ情報を用いて、例えば、文書Aの画像Cに関連する文書の画像として、分類タグAが付与されている文書Bの画像Eを提示することが可能である。
図9は、本発明の実施形態に係るトレーサビリティ情報の別の一例を示す図である。図8に示したトレーサビリティ情報330との違いは、情報更新部109が、分類タグを更新した日付をさらに記憶することである。トレーサビリティ情報340には、文書Aの画像Aおよび画像Bの分類タグが更新された更新日時として、2020/12/1と2021/1/2の日付が記憶されている。このように分類タグの更新日時を記録することにより、例えば、他のシステムや手作業により文書や画像などが更新された場合に、更新日時を比較することにより、更新された文書や画像を用いて、再度分類タグを生成して更新を行うなどの管理を行うことが可能となる。
図10は、本発明の実施形態に係る文章取得部105が取得する文書の範囲を指定する方法を示す図である。資産管理DB3に、文書A350と文書B352に対するタイトル351と353、および各ページ内の段落や画像の情報が格納されている。これらの文書に対して、さらに文章取得部105が文章を取得する際に予め設定しておく文書取得範囲354を資産管理DB3に格納する。文書取得範囲354には、指定した文書の種類(文書種類)とキーワードを持つ文書に対して、文書内の文章を取得する範囲が設定されている。また、各行において設定された範囲に対して番号が付与されている。ここで、文書種類については、文書A350は仕様書、文書B352はレポートであるとする。文書の種別に関する情報は、文書内にプロパティなどで管理されていてもよく、あるいは、別のデータベースで管理するようにしてもよい。また、キーワードの欄に、文書のタイトルに含まれている文字列を指定することにより、その文字列をタイトルに含む文書のみが設定の対象となる。キーワードを指定しない場合は、範囲を指定しないことを示す値、例えば"none"を設定することで、タイトルにより文書を限定しないことも可能である。例えば、文書A350のタイトル351には"AAA"の文字列が含まれているため、番号355の文章取得範囲(段落A、段落B、…、段落Q)が適用される。一方、文書B352のタイトル353にも文字列"AAA"が含まれるが、文書種類が異なる(レポート)ため番号355は適用されず、キーワードに指定がない番号357の文章取得範囲が適用される。指定する文書内の範囲については、N個の範囲を指定することが可能となっているが、一定数の範囲を指定した後、それ以上指定する範囲が無い場合は、"none"を設定すればよい。
[第2の実施形態]
図11を用いて、本発明の第2の実施形態について説明する。図11は、本発明の実施形態に係る共起関係リストを用いた文書内画像の分類タグを生成する処理の流れの一例を示す図である。ここでは、図4で説明した分類タグを生成する処理との違いのみについて説明する。共起とは、ある単語に対して、別の単語が高い頻度で同じ文章に出現することであり、それらの単語をリスト化したものを共起関係リストと呼ぶ。また、N-gram解析により文字列を分割して生成された後の状態は、単語でなく文字列と呼ぶ方が適切かもしれないが、図4の形態素解析の場合と同様に、文字列を分割した後に生成された状態のものを単語と呼ぶ。
第1N-gram解析ステップS224において、第1解析部104は、文字列抽出部203から受信した文字列を予め設定した文字数の単語に分割し、分割した語とそれらの出現頻度に基づいて作成したリストを文章取得部105に送信する。
文章取得ステップS225において、文章取得部105は、受信した単語を含む文章を資産管理DB3の予め設定した範囲から取得し、取得した文章を第2解析部106に送信する。ここで、受信した単語の内、予め定めた最大数の単語数以内となるように、出現頻度が高い順に選択した単語のみを用いるようにしてもよい。
第2N-gram解析ステップS226において、第2解析部106は、受信した文章を予め設定した文字数の単語に分割し、それらの単語の共起関係を分析することにより共起関係リスト221を作成して単語選択部107に送信する。
単語選択ステップS227において、単語選択部107は、受信した共起関係リスト221から、第1解析部104が作成したリスト内の単語を用いて、共起関係を持つ単語を予め設定した数以下の数だけ選択して、分類タグ生成部108に送信する。
上記に示した処理では、図4の処理と比較して、辞書210を用いた形態素解析に代わって、S224とS226においてN-gram解析を実行することで、辞書210を準備する必要がない。分類タグ生成部108に対しては、入出力するデータに違いはないが、内部処理であるニューラルネットワークを予め学習する際のデータは、それぞれの処理で生成した単語と画像の組み合わせを用いる。
図12は、本発明の実施形態に係る共起関係リストの生成および利用方法の一例を説明する図である。まず、文章取得部105が抽出した文字列がリスト360であるとすると、図11の第2N-gram解析ステップS226において、第2解析部106は、リスト360から例えば3文字の単語を1文字ずつずらしながら生成させたリスト361を生成する。次に、リスト361の単語を1単語ずつずらしながら、例えば3単語毎に区切ることにより、リスト362を生成する。次に、リスト362の真ん中(2番目)の列の単語の先頭文字を順にして行をソートし、さらに、重複して出現する行は統合して、出現頻度を右に記載したリスト363を作成する。リスト363は、図11に示した共起関係リスト221の一例である。従って、第1解析部104が作成したリスト内の単語が、例えば"いろは"である場合、単語選択部107は、共起関係リスト221から、真ん中(2番目)の列の単語が、"いろは"である行の単語である"といろ"、"いろは"、"ろはに"を選択する。ここで、共起関係リスト221に、「"わかよ"、"いろは"、"つねな"、2」の行が含まれていたならば、出現回数が最も多い行の単語である"わかよ"、"いろは"、"つねな"が選択される。また、出現回数が等しいデータが複数ある場合は、選択可能な単語数の上限値内で、最上位の行から優先して選択するようにしてもよい。
[第3の実施形態]
図13を用いて、本発明の第3の実施形態について説明する。図13は、本発明の実施形態に係る外部から読込んだ画像に対する分類タグを生成する処理の流れの一例を示す図である。ここでは、図4で説明した分類タグを生成する処理との違いのみについて説明する。
画像取得ステップS231において、管理者は、端末装置5の操作受付部122から操作を行うことにより、情報処理装置2の管理画面にアクセスする。情報処理装置2の第1通信部110は、管理画面に関する情報を端末装置5の第2通信部123に送信する。端末装置5の表示制御部121は、受信した画面情報を端末装置5のディスプレイに表示する。管理画面において、管理者は、外部装置から取り込んだ画像データを管理資産DB3に登録された文書に追加し、さらにその画像データの分類タグを付与する処理を情報処理装置2に実行させる。画像取得部101は、画像形成装置6のスキャナ機能でスキャンした画像データやカメラで撮影した画像データを取得し、取得した画像を領域識別部102に送信する。
図4の画像取得ステップS201では、管理資産DB3から画像データを取得している点が本実施形態とは異なる。また、本実施形態において、領域識別部102と文字列抽出部103の機能は図4で示した処理と同じであるが、処理を情報処理装置2でなく、画像形成装置6で実行して、出力結果を情報処理装置2に送信するようにしてもよい。これらの処理により、情報処理システム4は、管理資産DB3に登録されていない画像データに対して、分類タグを生成することが可能となる。
以上、本発明を実施するための幾つかの形態について説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
例えば、図3の機能ブロックの構成図の一例は、情報処理装置2および情報処理システム4による処理の理解を容易にするために、主な機能に応じて分割したものである。処理単位の分割の仕方や名称によって本願発明が制限されることはない。情報処理装置2の処理は、処理内容に応じて更に多くの処理単位に分割することもできる。また、1つの処理単位が更に多くの処理を含むように分割することもできる。
また、上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
また、記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。ある実施形態では、情報処理装置2または情報処理システム4は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。また、資産管理DB3は、分散ストレージや分散データベースなどの技術を用いてデータベースを格納するようにしてもよい。
1 通信ネットワーク
2 情報処理装置
3 資産管理DB
4 情報処理システム
5 端末装置
6 画像形成装置
101 画像取得部
102 領域識別部
103 文字列抽出部
104 第1解析部
105 文章取得部
106 第2解析部
107 単語選択部
108 分類タグ生成部
109 情報更新部
110 第1通信部
111 検索部
121 表示制御部
122 操作受付部
123 第2通信部
特開2008―311828号公報

Claims (9)

  1. データベースに格納されている電子化された文書を管理する情報処理装置であって、
    前記文書内の画像データに含まれる文字情報と画像情報の領域を識別する領域識別部と、
    前記画像データの文字情報の領域から文字列を抽出する文字列抽出部と、
    前記文字列に含まれる情報を用いて、予め設定された文書の範囲から文章を取得する文章取得部と、
    出現する頻度に応じて、少なくとも一つ以上の入力単語を前記文章から選択する単語選択部と、
    予め機械学習により学習したモデルに前記入力単語と前記画像情報を入力することにより、前記画像データを分類した分類タグを出力する分類タグ生成部と、
    前記分類タグを前記データベースに記憶する情報更新部と、
    前記分類タグを用いて、関連する画像データを含む前記データベース内の文書を検索する検索部と、
    を有することを特徴とする情報処理装置。
  2. 前記文字列に含まれる単語と前記単語の品詞を含む単語リストを生成する第1解析部をさらに有し、
    前記文章取得部は、前記単語リストに含まれる予め設定した品詞の単語を含む文章を前記データベース内の予め設定された文書の範囲から取得することを特徴とする請求項1に記載の情報処理装置。
  3. 前記文章取得部が取得した文章に対して共起関係を分析することにより共起関係リストを生成する第2解析部をさらに有し、
    前記単語選択部は、前記共起関係リストから、前記単語リストに含まれる予め設定した品詞の単語を用いて、予め定められた数以下の入力単語を選択することを特徴とする請求項2に記載の情報処理装置。
  4. 前記情報更新部は、前記分類タグを記憶する日時を前記分類タグとともに前記データベースに記憶することを特徴とする請求項1または請求項3のいずれか一項に記載の情報処理装置。
  5. 前記文章取得部が文書を取得する範囲を文書の種類ごとに予め設定しておくことを特徴とする請求項4に記載の情報処理装置。
  6. 外部装置から取得した画像データを前記データベースに登録して、前記文書内の画像データとして用いることを特徴とする請求項5に記載の情報処理装置。
  7. データベースに格納されている電子化された文書を管理する情報処理装置を有する情報処理システムであって、
    前記情報処理装置は、
    前記文書内の画像データに含まれる文字情報と画像情報の領域を識別する領域識別部と、
    前記画像データの文字情報の領域から文字列を抽出する文字列抽出部と、
    前記文字列を含む文章を予め設定された文書の範囲から取得する文章取得部と、
    出現する頻度に応じて、少なくとも1つ以上の入力単語を前記文章から選択する単語選択部と、
    予め機械学習により学習したモデルに前記入力単語と前記画像データの画像情報の領域を入力することにより、前記画像データを分類した分類タグを出力する分類タグ生成部と、
    前記分類タグを前記データベースに記憶する情報更新部と、
    端末装置からの要求に応じて、前記分類タグを用いて、関連する画像データを含む前記データベース内の文書を検索する検索部と、
    前記検索の結果に関する画面情報を前記端末装置に送信する第1通信部と、
    を有することを特徴とする情報処理システム。
  8. データベースに格納されている電子化された文書を管理する情報処理装置が行う情報処理方法であって、
    前記文書内の画像データに含まれる文字情報と画像情報の領域を識別するステップと、
    前記画像データの文字情報の領域から文字列を抽出するステップと、
    前記文字列を含む文章を予め設定された文書の範囲から取得するステップと、
    出現する頻度に応じて、少なくとも1つ以上の入力単語を前記文章から選択するステップと、
    予め機械学習により学習したモデルに前記入力単語と前記画像データの画像情報の領域を入力することにより、前記画像データを分類した分類タグを出力するステップと、
    前記分類タグを前記データベースに記憶するステップと、
    前記分類タグを用いて、関連する画像データを含む前記データベース内の文書を検索するステップと、
    を有する情報処理方法。
  9. データベースに格納されている電子化された文書を管理する情報処理装置に、
    前記文書内の画像データに含まれる文字情報と画像情報の領域を識別するステップと、
    前記画像データの文字情報の領域から文字列を抽出するステップと、
    前記文字列を含む文章を予め設定された文書の範囲から取得するステップと、
    出現する頻度に応じて、少なくとも1つ以上の入力単語を前記文章から選択するステップと、
    予め機械学習により学習したモデルに前記入力単語と前記画像データの画像情報の領域を入力することにより、前記画像データを分類した分類タグを出力するステップと、
    前記分類タグを前記データベースに記憶するステップと、
    前記分類タグを用いて、関連する画像データを含む前記データベース内の文書を検索するステップと、
    を実行させるためのプログラム。
JP2021093769A 2021-06-03 2021-06-03 情報処理装置、情報処理システム、情報処理方法、及びプログラム Pending JP2022185874A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021093769A JP2022185874A (ja) 2021-06-03 2021-06-03 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021093769A JP2022185874A (ja) 2021-06-03 2021-06-03 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2022185874A true JP2022185874A (ja) 2022-12-15

Family

ID=84441978

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021093769A Pending JP2022185874A (ja) 2021-06-03 2021-06-03 情報処理装置、情報処理システム、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2022185874A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983199A (zh) * 2023-03-16 2023-04-18 山东天成书业有限公司 一种移动数字出版***及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115983199A (zh) * 2023-03-16 2023-04-18 山东天成书业有限公司 一种移动数字出版***及方法

Similar Documents

Publication Publication Date Title
US9910829B2 (en) Automatic document separation
EP2256655B1 (en) Document checking apparatus, computer-readable recording medium, and document checking method
US8812300B2 (en) Identifying related names
US8532384B2 (en) Method of retrieving information from a digital image
US7502780B2 (en) Information storage and retrieval
US20150066934A1 (en) Automatic classification of segmented portions of web pages
CN102053991B (zh) 用于多语言文档检索的方法及***
US20070143272A1 (en) Method and apparatus for retrieving similar image
WO2007049792A1 (en) Apparatus, method, and storage medium storing program for determining naturalness of array of words
US7197697B1 (en) Apparatus for retrieving information using reference reason of document
US7359896B2 (en) Information retrieving system, information retrieving method, and information retrieving program
KR20210086836A (ko) 텍스트 기반 이미지 검색을 위한 이미지 데이터 처리 방법
JP7493937B2 (ja) 文書における見出しのシーケンスの識別方法、プログラム及びシステム
JP2022185874A (ja) 情報処理装置、情報処理システム、情報処理方法、及びプログラム
JP2011065255A (ja) データ処理装置、データ名生成方法及びコンピュータプログラム
Yurtsever et al. Figure search by text in large scale digital document collections
JP2004110834A (ja) 情報記憶検索システム及び方法
JP2002251412A (ja) 文書検索装置および方法ならびに記憶媒体
WO1997004409A1 (fr) Dispositif de recherche de fichiers
CN113392312A (zh) 信息处理方法、***及电子设备
JP2007272699A (ja) 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム
JP2002251401A (ja) 文書検索装置および方法ならびに記憶媒体
Kumar et al. On-Device Information Extraction from Screenshots in form of tags
KR20020006223A (ko) 자동 색인 로봇 시스템 및 이를 이용한 처리 방법
US20230367797A1 (en) Document processing method, document processing system, information processing device, and graphic user interface

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240227