JP7379987B2 - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP7379987B2
JP7379987B2 JP2019171439A JP2019171439A JP7379987B2 JP 7379987 B2 JP7379987 B2 JP 7379987B2 JP 2019171439 A JP2019171439 A JP 2019171439A JP 2019171439 A JP2019171439 A JP 2019171439A JP 7379987 B2 JP7379987 B2 JP 7379987B2
Authority
JP
Japan
Prior art keywords
document
proper noun
provider
attribute
company
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019171439A
Other languages
English (en)
Other versions
JP2021047792A (ja
Inventor
公則 吉塚
淳一 清水
茂 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2019171439A priority Critical patent/JP7379987B2/ja
Priority to CN202010158614.8A priority patent/CN112541498A/zh
Priority to US16/831,066 priority patent/US11631268B2/en
Publication of JP2021047792A publication Critical patent/JP2021047792A/ja
Application granted granted Critical
Publication of JP7379987B2 publication Critical patent/JP7379987B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/268Lexical context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、情報処理装置及びプログラムに関する。
近年では、帳票をスキャンした読取画像に文字認識処理を実施し、帳票の記載内容を解析することによって請求書や見積書等の帳票の種別を特定する。そして、その特定した帳票の種別に応じた情報、例えば請求書であれば、請求金額や支払期日等の項目値を自動的に抽出している。そして、抽出した情報のデータベース化や抽出した情報を用いて帳票の種別に応じた処理が行われる。
特開2001-202466号公報 特開2013-142955号公報
同じ文書においても自社や自分が文書の提供元となっているか提供先となっているかで、文書に対する処理が異なってくる場合がある。従って、文書から文書の提供元又は提供先を自動的に特定できれば都合よい。
本発明は、文書から抽出された固有名詞が、その文書の提供元か提供先かを特定できるようにすることを目的とする。
本発明に係る情報処理装置は、プロセッサを備え、前記プロセッサは、文書から、当該文書の提供元又は提供先となりうる固有名詞を抽出し、前記文書上において、宛名に付帯させる語が前記固有名詞に付加されている場合、当該固有名詞の属性は提供先と特定し、宛名に付帯させる語が前記固有名詞に付加されている場合であっても、当該宛名に付帯させる語に当該語を取り消す記号が付加されている場合、当該固有名詞の属性は提供元と特定することを特徴とする。
本発明に係る情報処理装置は、プロセッサを備え、前記プロセッサは、文書から、当該文書の提供元又は提供先となりうる固有名詞を抽出し、前記文書上において、前記固有名詞の周辺から得られる情報を参照して当該固有名詞が提供元か提供先かの属性を特定する場合において、印影が前記固有名詞の周辺に存在する場合、当該固有名詞の属性は提供元と特定することを特徴とする。
本発明に係る情報処理装置は、プロセッサを備え、前記プロセッサは、文書から、当該文書の提供元又は提供先となりうる固有名詞を抽出し、前記文書上において、前記固有名詞を表す文字に関する属性情報を参照して当該固有名詞が提供元か提供先かの属性を特定することを特徴とする。
また、前記プロセッサは、前記固有名詞を表す文字に関する属性情報と、前記文書上の少なくとも前記固有名詞の周辺に位置する文字に関する属性情報との異同によって当該固有名詞が提供元か提供先かの属性を特定することを特徴とする。
また、前記プロセッサは、前記固有名詞を表す文字に関する属性情報が前記固有名詞の周辺に位置する文字に関する属性情報と異なる場合、当該固有名詞の属性は提供先と特定することを特徴とする。
また、前記プロセッサは、前記固有名詞を表す文字に関する属性情報が前記文書上の前記固有名詞の周辺の文字に関する属性情報と同じ場合、当該固有名詞の属性は提供元と特定することを特徴とする。
本発明に係るプログラムは、コンピュータに、文書から、当該文書の提供元又は提供先となりうる固有名詞を抽出する機能、前記文書上において、宛名に付帯させる語が前記固有名詞に付加されている場合、当該固有名詞の属性は提供先と特定する機能、宛名に付帯させる語が前記固有名詞に付加されている場合であっても、当該宛名に付帯させる語に当該語を取り消す記号が付加されている場合、当該固有名詞の属性は提供元と特定する機能、抽出した固有名詞と特定した属性とを対応付ける機能、を実現させる。
本発明に係るプログラムは、コンピュータに、文書から、当該文書の提供元又は提供先となりうる固有名詞を抽出する機能、前記文書上において、前記固有名詞の周辺から得られる情報を参照して当該固有名詞が提供元か提供先かの属性を特定する場合において、印影が前記固有名詞の周辺に存在する場合、当該固有名詞の属性は提供元と特定する機能、抽出した固有名詞と特定した属性とを対応付ける機能、を実現させる。
本発明に係るプログラムは、コンピュータに、文書から、当該文書の提供元又は提供先となりうる固有名詞を抽出する機能、前記文書上において、前記固有名詞を表す文字に関する属性情報を参照して当該固有名詞が提供元か提供先かの属性を特定する機能、抽出した固有名詞と特定した属性とを対応付ける機能、を実現させる。
請求項1,7に記載の発明によれば、文書から抽出された固有名詞が、文書の提供元か提供先かを特定することができる。
請求項2,8に記載の発明によれば、固有名詞の属性は提供元と特定することができる。
請求項3,9に記載の発明によれば、固有名詞を表す文字に関する属性情報を参照して当該固有名詞が提供元か提供先かを推定することができる。
請求項に記載の発明によれば、固有名詞とその周辺に位置する文字に関する属性情報を参照して当該固有名詞が提供元か提供先かを推定することができる。
請求項に記載の発明によれば、固有名詞の属性は提供先と特定することができる。
請求項に記載の発明によれば、固有名詞の属性は提供元と特定することができる。
本実施の形態における画像形成装置のブロック構成図である。 本実施の形態における画像形成装置のハードウェア構成図である。 本実施の形態におけるユーザ情報データベースに登録されているユーザ情報のデータ構成の一例を示す図である。 本実施の形態における提供元/提供先判定処理を示すフローチャートである。 本実施の形態において取り扱う帳票の一例を示す図である。 本実施の形態における帳票情報記憶部に保存される帳票情報のデータ構成の一例を示す図である。 本実施の形態において取り扱う帳票の他の一例を示す図である。 本実施の形態において連続して読み取られる帳票の一例を示す図である。
以下、図面に基づいて、本発明の好適な実施の形態について説明する。本実施の形態においては、会社間で授受される帳票を文書の例として説明する。
図1は、本実施の形態における画像形成装置10のブロック構成図である。図2は、本実施の形態における画像形成装置10のハードウェア構成図である。本実施の形態における画像形成装置10は、本発明に係る情報処理装置を搭載し、コピー機能、スキャナ機能等各種機能を搭載した複合機である。図2において、ROM2には、本装置の制御や後述する本実施の形態の特徴的な処理機能を実現するための各種プログラムが格納されており、CPU1は、ROM2に格納されたプログラムにしたがってスキャナ6やプリンタ7等本装置に搭載された各種機構の動作制御を行う。RAM3は、プログラム実行時のワークメモリや電子データ送受信時の通信バッファとして利用される。HDD(Hard Disk Drive)4は、スキャナ6を使用して読み取った電子文書などを格納する。操作パネル5は、ユーザからの指示の受け付け、情報の表示を行う。スキャナ6は、ユーザがセットした原稿を読み取り、電子文書としてHDD4等に蓄積する。プリンタ7は、CPU1で実行される制御プログラムからの指示に従い出力用紙上に画像を印字する。ネットワークインタフェース(IF)8は、ネットワークを接続し、クラウド20等外部装置との間の送受信、またブラウザ経由による本装置へのアクセスなどに利用される。アドレスデータバス9は、CPU1の制御対象となる各種機構と接続してデータの通信を行う。
図1には、画像形成装置10とインターネット等のネットワーク(図示せず)で通信可能に接続されたクラウド20が示されている。本実施の形態における画像形成装置10は、ユーザ認証部11、読取画像取得部12、画像解析部13、判定部14、情報提供部15及び帳票情報記憶部16を有している。なお、本実施の形態において説明に用いない構成要素については図から省略している。
ユーザ認証部11は、画像形成装置10を使用するユーザを認証すると共に当該ユーザが所属する会社を特定する。読取画像取得部12は、スキャナ6により読み取られた帳票の読取画像を取得する。画像解析部13は、読取画像取得部12により取得された読取画像を解析して帳票に記載されている文字列や画像を抽出する。特に本実施の形態の場合、画像として印影を検出し、抽出する。判定部14は、認証されたユーザが所属する会社が処理対象の帳票の提供元か提供先かを判定する。そして、その判定結果を含む帳票情報を帳票情報記憶部16に保存する。情報提供部15は、帳票情報をユーザやクラウド20に提供する。
クラウド20は、クラウド・コンピューティングとも呼ばれ、インターネット経由でコンピューティング、データベース、ストレージ、アプリケーション等のリソースをオンデマンドで提供するサービスの総称とも定義されている。本実施の形態におけるクラウド20は、ユーザ情報データベース21を有しており、画像形成装置10からの要求に応じてユーザ認証を行う。また、会社からの要求に応じて画像形成装置10が読み取った帳票に対する後工程処理を提供する場合もある。
図3は、本実施の形態におけるユーザ情報データベース21に登録されているユーザ情報のデータ構成の一例を示す図である。ユーザ情報には、画像形成装置10のユーザを含み、クラウド20のユーザに関する情報が設定される。具体的には、図3に示すように、ユーザ情報は、各ユーザを識別する識別情報としてのユーザIDに、ユーザ認証に必要なパスワード、当該ユーザのユーザ名及び当該ユーザが所属する会社の会社名が設定される所属会社を対応付けして構成される。図3には、本実施の形態において使用する情報項目のみ示しているが、他の情報を含めてもよい。
画像形成装置10における各構成要素11~15は、画像形成装置10に搭載されたコンピュータと、コンピュータに搭載されたCPU1で動作するプログラムとの協調動作により実現される。また、帳票情報記憶部16は、画像形成装置10に搭載されたHDD4にて実現される。あるいは、RAM3又は外部にある記憶手段をネットワーク経由で利用してもよい。
また、本実施の形態で用いるプログラムは、通信手段により提供することはもちろん、CD-ROMやUSBメモリ等のコンピュータ読み取り可能な記録媒体に格納して提供することも可能である。通信手段や記録媒体から提供されたプログラムはコンピュータにインストールされ、コンピュータのCPUがプログラムを順次実行することで各種処理が実現される。
次に、本実施の形態において自社が帳票の提供元であるか、提供先であるかを判定する処理について図4に示すフローチャートを用いて説明する。
まず、ユーザが画像形成装置10の操作パネル5に表示されている所定の画面から自己のユーザID及びパスワードを入力すると、ユーザ認証部11は、ユーザにより入力されたユーザID及びパスワードをクラウド20へ送信することによってユーザ認証する(ステップ101)。クラウド20は、送られてきた情報に基づきユーザ情報データベース21に登録されている情報と照合することで認証を行う。そして、認証に成功すると、クラウド20は、当該ユーザが所属している会社の社名を返信する。このように、ユーザ認証部11は、ユーザ認証の際に当該ユーザが所属する会社の社名を取得する(ステップ102)。以降の説明においては、ユーザが所属している会社のことを「自社」という。また、ユーザが取得した会社の社名のことを「ユーザの会社名」又は「自社名」という。
ユーザが認証を受けると、続いて帳票をスキャナ6に読み取らせる。これにより、読取画像取得部12は、帳票の読取画像を取得する(ステップ103)。
続いて、画像解析部13は、取得された読取画像を解析して所望の情報を取得する(ステップ104)。所望の情報というのは、具体的には、OCR(Optical Character Recognition)技術を利用して、証票の読取画像から文字列を抽出する。特に、本実施の形態においては、後述する敬称と、帳票の提供元又は提供先となりうる固有名詞を少なくとも抽出する。なお、「文字列」は、文字の集合のことを意味するが、集合の中に1文字のみが含まれる場合もある。
ところで、「固有名詞」とは、同じ種類に属する他のものから区別するために、そのものだけに付けた名を表す語であり、人名・地名・国名・書名・曲名・会社名・団体名などである。本実施の形態でいう「帳票の提供元又は提供先となりうる固有名詞」というのは、この固有名詞の中から人名、会社名、団体名等、帳票の提供元(つまり、帳票の「発行元」)や提供先(つまり、帳票の「宛名」)として指定されうる固有名詞のことを意味する。本実施の形態では、後述するように、帳票の提供元又は提供先となりうる固有名詞として会社名を用いて説明する。
続いて、判定部14は、画像解析部13による帳票の読取画像の解析結果を参照し、帳票から敬称を表す文字列が抽出されたかどうかを確認する。「敬称」は、宛名に付帯させる語である。例えば、「御中」、「様」などの文字列であり、通常、受取手となる会社名や担当者名に付加される情報である。
帳票の読取画像から敬称が抽出されている場合(ステップ105でY)、判定部14は、読取画像から自社名を抽出し、その抽出位置の周辺に敬称が存在する場合(ステップ106でY)、その敬称は、自社名若しくは自社の担当者名に付加されているものと判断する。これにより、判定部14は、自社が帳票の受取手であると判定する(ステップ110)。
なお、自社名は、ステップ102で取得している。ここで、ステップ102で取得した自社名が“ABC株式会社”だとする。会社が株式会社の場合、“株式会社” を“(株)”などと省略して表記する場合がある。本実施の形態においては、既存の技術を利用してこのような表記の揺れがある場合にも対応可能とする。すなわち、本実施の形態における判定部14は、“ABC(株)”も自社名と判断する機能を有している。
図5は、本実施の形態において取り扱う帳票の一例を示す図である。上記と同様にユーザの会社名が“ABC株式会社”だとすると、図5に示す帳票の例では、ユーザの会社名“ABC株式会社”に“御中”という敬称が続いて存在する。また、自社の担当者“山田太郎”に“様”という敬称が続いて存在する。従って、判定部14は、少なくとも一方の情報に基づいて、図5に示す帳票は自社が受取手である帳票であると判定する。
この例のように、通常、受取手には敬称が付加されているので、自社名に敬称が付加されていなければ(ステップ106でN)、判定部14は、その帳票は自社が発行元であると判定する(ステップ111)。
また、読取精度等何らかの理由により帳票の読取画像から敬称が抽出できなかった場合(ステップ105でN)、判定部14は、帳票の読取画像から印影を検出する(ステップ107)。なお、ステップ104において、文字列と共に印影の画像を検出するように処理してもよい。そして、判定部14は、読取画像から抽出された会社名のうち、印影の検出位置の周辺に位置する会社名を特定する(ステップ108)。通常、帳票の発行元となる会社は、帳票上、当該会社名の近くに会社印を押印することを前提としている。帳票には、帳票の提供元と提供先となる会社の会社名が存在するので、印影の検出位置の直近に位置する会社名を抽出する。そして、その特定した会社名が自社名の場合(ステップ109でY)、判定部14は、自社が帳票の発行元と判定する(ステップ111)。一方、特定した会社名が自社名でない場合(ステップ109でN)、判定部14は、自社が帳票の受取手と判定する(ステップ111)。
ここで、ユーザの会社名が“株式会社XYZ”だとする。図5に示す帳票の例では、会社名として“ABC株式会社”及び“株式会社XYZ”が抽出される。なお、帳票の読取画像から抽出された文字列に“株式会社”や“(株)”、あるいは“有限会社”等会社名を表す文字列が含まれていることで、当該文字列が会社名を表す文字列と判別できる。図5に示す帳票の例によると、帳票の読取画像から検出された印影31の直近にユーザの会社名“株式会社XYZ”が存在するので、判定部14は、図5に示す帳票は自社が受取手である帳票であると判定する。なお、既存技術を利用することによって、印影31が株式会社XYZの印影をあることを検証するようにしてもよい。このように処理すれば、帳票の読取画像に複数の印影が含まれている場合にも対応可能である。
以上説明したように、本実施の形態においては、ユーザ認証時にユーザが所属する会社つまり、自社名を特定し、帳票の読取画像における自社名の周辺から得られる情報と前述した敬称又は印影との位置関係によって、自社が帳票の発行元かあるいは受取手かを判別することができる。
ただ、受取手に付けられた敬称に取り消す記号が付けられる場合がある。「取り消す記号」というのは、通常、敬称に重畳させて付加する記号であり、例えば、取消線、二重取消線、塗りつぶしや取消スタンプ等の記号である。もちろん、敬称は、これらの記号が重畳された状態でも、OCR技術によって確認できる必要がある。敬称に取り消す記号が付加されることによって、受取手であった会社は、提供元に切り替わる。従って、判定部14は、敬称に取り消す記号が付けられる場合、敬称が付けられている会社名の会社は帳票の提供元と特定する。
なお、本実施の形態においては、帳票の読取画像からの敬称の抽出を先に実施したが、印影の検出を先に実施するようにしてもよい。また、上記説明では、敬称又は印影を先に抽出して、その近くに自社名があるのかどうかを判定するようにしたが、ステップ101において取得した自社名と帳票の読取画像から抽出した文字列との照合により、帳票の読取画像から自社名の位置を先に特定して、自社名の近傍に敬称があるのか、あるいは印影があるのかを判定し、自社が帳票の発行元かあるいは受取手かを判別するよう処理してもよい。
ところで、以上の説明では、自社が帳票の発行元であるか、それとも受取手であるかを判定し、自社と帳票の授受を行った相手に関しては、特に言及しなかった。ただ、例えば、帳票から抽出した文字列と、クラウド20のユーザ情報データベース21に登録されている会社名とを照合し、自社以外の会社名が帳票の読取画像からただ1つ抽出できていた場合、自社が帳票の発行元であれば、相手の会社は受取手であると判明する。一方、自社が帳票の受取手であれば、相手の会社は発行元であると判明する。
また、上記説明では、敬称や印影など会社名、すなわち帳票の提供元又は提供先となりうる固有名詞の周辺から得られる情報を参照して、帳票の読取画像から帳票の発行元と受取手を特定するようにした。ただ、文書によっては、敬称や印影が発行元や受取手に付加されない種類の文書もある。もちろん、帳票に対しても適用可能であるが、敬称や印影が発行元や受取手に付加されない文書の場合、文書の提供元又は提供先となりうる固有名詞から得られる情報を参照して当該会社名に対応する会社が発行元となるのか、あるいは受取手となるのかを特定するようにしてもよい。
文書の提供元又は提供先となりうる固有名詞から得られる情報というのは、例えば、固有名詞を表す文字に関する属性情報である。文字に関する属性情報というのは、例えば、文字のサイズやフォント、下線等である。ここでも、文書の提供元又は提供先となりうる固有名詞として会社名を例にして説明すると、文書上の会社名を表す文字に関する属性情報と、文書上の少なくとも会社名の周辺に位置する文字に関する属性情報との異同によって当該会社名が提供元か提供先かの属性を特定することは可能である。
例えば、文書の作成者は、提供先となる会社名の文字サイズを、会社名の周辺に位置する文字サイズより相対的に大きくするなど、文字サイズを異ならせる場合が少なくない。例えば、文書を12ポイントで記載する場合、提供先を示す会社名を16ポイントとする。また、文書本文には付けていない下線を、提供先を示す会社名に付ける。このように、会社名を表す文字に関する属性情報が当該会社名の周辺に位置する文字に関する属性情報と異なる場合、判定部14は、当該会社名に対応する会社は提供先と特定する。一方、文書の作成者は、文書の提供元となる会社名の文字サイズを、目立たせるように大きくすることなく、当該会社名の周辺の文字と同等のサイズとする場合が少なくない。このように、会社名を表す文字に関する属性情報が当該会社名の周辺に位置する文字に関する属性情報と同等の場合、判定部14は、当該会社名に対応する会社は提供元と特定する。
また、会社名を表す文字に関する属性情報ではなく、文書上における会社名の位置を参照して当該会社が提供元となるのか、あるいは提供先となるのかを特定するようにしてもよい。例えば、会社名が文書の先頭周辺に位置する場合、判定部14は、当該会社は提供先と特定する。文書の「先頭」というのは、文書が横書きの場合は、文書の紙面の上方側を示し、縦書きの場合、文書の紙面の右辺側を指す。いわゆる文書の書き出し位置近傍周辺のことを意味する。
また、会社名が文書の後尾周辺に位置する場合、判定部14は、当該会社は提供元と特定する。文書の「後尾」というのは、文書が横書きの場合は、文書の紙面の下方側を示し、縦書きの場合、文書の紙面の左辺側を指す。いわゆる文書の書き終わり位置近傍周辺のことを意味する。
本実施の形態においては、以上のようにして、文書上の会社名に対応する会社が提供元となるのか、あるいは提供先となるのかを特定する。
ところが、帳票の読取画像から自社名以外に複数の会社名が抽出された場合、上記方法では、自社と帳票の授受の相手となる会社を自動的に特定することはできない。この場合、例えば、前述した要に、帳票の読取画像からの会社名の抽出場所や文字サイズ等他の情報を参照してもよい。例えば、帳票が横書きの場合、受取手となる会社の会社名は、帳票上、上方に位置し、また、文字サイズが周囲の文字より大きい場合が少なくない。また、発行元の会社名は、帳票上、右辺よりの帳票の右上や右下に位置し、また受取手の文字サイズより小さい場合が少なくない。帳票の形式をこのように推定すれば、自社名以外の会社名が帳票から複数抽出された場合でも、自社の相手となる会社を比較的容易に特定することは可能である。具体的にいうと、自社が帳票の発行元であった場合、帳票の上方付近から抽出された会社名の会社を受取手と推測できる。一方、自社が帳票の受取手であった場合、帳票上、右側付近から抽出され、かつ文字サイズが受取手より相対的に小さい会社名に対応する会社を発行元と推測できる。
なお、判定部14は、帳票の読取画像から抽出された複数の会社名を操作パネル5にリスト表示して、自社と帳票の授受を行った相手の会社をユーザにより選択させるように処理してもよい。
以上説明したように、判定部14は、帳票の発行元と受取手を特定すると、帳票を識別する識別情報(例えば、「帳票ID」)に、当該帳票の帳票種別と、当該帳票の発行元及び受取手の各会社の識別情報(例えば、会社名)とを対応付けして帳票情報を生成し、帳票情報記憶部16に保存する。帳票情報記憶部16に保存される帳票情報のデータ構成例を図6に示す。
以上のようにして、帳票の発行元及び受取手が特定されて帳票情報が生成されると、情報提供部15は、その帳票情報を、例えば帳票を処理する後工程に提供する。提供する方法は特に限定しない。例えば、ファイル形式にてネットワークを介して送信したり、電子メール等の機能を利用して提供したりする。ここでは、クラウド20に帳票情報に提供したとすると、クラウド20は、帳票情報を参照することによって同じ帳票に対して、帳票の提供元又は受取手によって異なる処理を実施することが可能となる。以下、具体例を説明する。
図7は、本実施の形態において取り扱う帳票の他の一例を示す図である。図7には、見積書という帳票種別の帳票が示されている。例えば、クラウド20は、株式会社XYZのために見積番号32を帳票の読取画像から抽出して情報を生成する。また、クラウド20は、ABC株式会社のために見積依頼番号23を帳票の読取画像から抽出して情報を生成する。そして、クラウド20は、各会社用に生成した情報を当該会社に提供する。
本実施の形態によれば、上記のように、同じ帳票から帳票の発行元あるいは受取手によって、帳票に対する後処理を異ならせることができ、その一例として、帳票から抽出する情報を異ならせることができる。具体的には、帳票の発行元の場合と、受取手となる場合によって、帳票に記載されている番号のうち、異なる番号を抽出することができる。また、別の例として、発行元か受取手かによって、異なる格納先に格納することができる。もちろん、番号を抽出したうえで、それぞれの格納先に格納してもよい。
ところで、帳票は、月末などにまとめて処理する場合が少なくない。この場合、帳票をまとめてスキャンして処理する場合がある。前述したように、帳票には、発行元と受取手が記載されているが、スキャンされる複数の帳票は、通常、スキャンした者が発行元か受取手のどちらかである。従って、手元にある複数の帳票を連続してスキャンした場合、各帳票から抽出した会社名が最も多いのが自社と判断できる。このことについて、図8を用いて具体的に説明する。
例えば、月末に帳票をまとめて処理を実施する担当者がABC株式会社に所属のユーザAだとする。この場合、ユーザAは、複数の帳票を画像形成装置10のスキャナ6に連続して読み取らせる。この連続して読み取られる帳票の一例を図8に示す。ここで、ユーザAが取り扱う帳票は、ABC株式会社が発行元あるいは受取手となっている帳票である。すなわち、各帳票には、図8に例示するように発行元としてあるいは受取手として会社名“ABC株式会社”が含まれている。そこで、判定部14は、複数の帳票の読取画像からそれぞれ抽出された会社名のうち最も多い会社名をユーザAの会社名、すなわち自社名と特定する。
換言すると、複数の帳票の読取画像から自社名が特定できるということは、図4に示すステップ101におけるユーザ認証処理で、クラウド20から何らかの理由でユーザAの自社名が特定できなくても、複数の帳票をまとめてスキャナ6に読み取らせることによって自社名を特定することができる。そして、ユーザAに関する情報がユーザ情報データベース21に登録されていなければ、特定できた自社名を当該ユーザの所属会社としてユーザ情報データベース21に登録することができる。
上記実施の形態では、帳票を文書の一例として説明したが、提供元と提供先が記載されている文書、少なくとも自社名が記載されている文書であれば、帳票に限定する必要はない。
また、上記実施の形態においては、本発明に係る情報処理装置が画像形成装置10に搭載されているものとして説明したが、画像形成装置10から帳票の読取画像を取得するよう構成することで、情報処理装置を画像形成装置10とは別の装置として設けてもよい。あるいは、クラウド20で実現するように構成してもよい。
上記実施の形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU:Central Processing Unit等)や、専用のプロセッサ(例えばGPU:Graphics Processing Unit、ASIC:Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス等)を含むものである。
また上記実施の形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施の形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
1 CPU、2 ROM、3 RAM、4 ハードディスクドライブ(HDD)、5 操作パネル、6 スキャナ、7 プリンタ、8 ネットワークインタフェース(IF)、9 アドレスデータバス、10 画像形成装置、11 ユーザ認証部、12 読取画像取得部、13 画像解析部、14 判定部、15 情報提供部、16 帳票情報記憶部、20 クラウド、21 ユーザ情報データベース(DB)。

Claims (9)

  1. プロセッサを備え、
    前記プロセッサは、
    文書から、当該文書の提供元又は提供先となりうる固有名詞を抽出し、
    前記文書上において、宛名に付帯させる語が前記固有名詞に付加されている場合、当該固有名詞の属性は提供先と特定し、
    宛名に付帯させる語が前記固有名詞に付加されている場合であっても、当該宛名に付帯させる語に当該語を取り消す記号が付加されている場合、当該固有名詞の属性は提供元と特定する、
    ことを特徴とする情報処理装置。
  2. プロセッサを備え、
    前記プロセッサは、
    文書から、当該文書の提供元又は提供先となりうる固有名詞を抽出し、
    前記文書上において、前記固有名詞の周辺から得られる情報を参照して当該固有名詞が提供元か提供先かの属性を特定する場合において、印影が前記固有名詞の周辺に存在する場合、当該固有名詞の属性は提供元と特定する、
    ことを特徴とする情報処理装置。
  3. プロセッサを備え、
    前記プロセッサは、
    文書から、当該文書の提供元又は提供先となりうる固有名詞を抽出し、
    前記文書上において、前記固有名詞を表す文字に関する属性情報を参照して当該固有名詞が提供元か提供先かの属性を特定する、
    ことを特徴とする情報処理装置。
  4. 前記プロセッサは、
    前記固有名詞を表す文字に関する属性情報と、前記文書上の少なくとも前記固有名詞の周辺に位置する文字に関する属性情報との異同によって当該固有名詞が提供元か提供先かの属性を特定する、
    ことを特徴とする請求項に記載の情報処理装置。
  5. 前記プロセッサは、
    前記固有名詞を表す文字に関する属性情報が前記固有名詞の周辺に位置する文字に関する属性情報と異なる場合、当該固有名詞の属性は提供先と特定する、
    ことを特徴とする請求項に記載の情報処理装置。
  6. 前記プロセッサは、
    前記固有名詞を表す文字に関する属性情報が前記文書上の前記固有名詞の周辺の文字に関する属性情報と同じ場合、当該固有名詞の属性は提供元と特定する、
    ことを特徴とする請求項に記載の情報処理装置。
  7. コンピュータに、
    文書から、当該文書の提供元又は提供先となりうる固有名詞を抽出する機能、
    前記文書上において、宛名に付帯させる語が前記固有名詞に付加されている場合、当該固有名詞の属性は提供先と特定する機能、
    宛名に付帯させる語が前記固有名詞に付加されている場合であっても、当該宛名に付帯させる語に当該語を取り消す記号が付加されている場合、当該固有名詞の属性は提供元と特定する機能、
    抽出した固有名詞と特定した属性とを対応付ける機能、
    を実現させるためのプログラム。
  8. コンピュータに、
    文書から、当該文書の提供元又は提供先となりうる固有名詞を抽出する機能、
    前記文書上において、前記固有名詞の周辺から得られる情報を参照して当該固有名詞が提供元か提供先かの属性を特定する場合において、印影が前記固有名詞の周辺に存在する場合、当該固有名詞の属性は提供元と特定する機能、
    抽出した固有名詞と特定した属性とを対応付ける機能、
    を実現させるためのプログラム。
  9. コンピュータに、
    文書から、当該文書の提供元又は提供先となりうる固有名詞を抽出する機能、
    前記文書上において、前記固有名詞を表す文字に関する属性情報を参照して当該固有名詞が提供元か提供先かの属性を特定する機能、
    抽出した固有名詞と特定した属性とを対応付ける機能、
    を実現させるためのプログラム。
JP2019171439A 2019-09-20 2019-09-20 情報処理装置及びプログラム Active JP7379987B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019171439A JP7379987B2 (ja) 2019-09-20 2019-09-20 情報処理装置及びプログラム
CN202010158614.8A CN112541498A (zh) 2019-09-20 2020-03-09 信息处理装置以及记录媒体
US16/831,066 US11631268B2 (en) 2019-09-20 2020-03-26 Information processing apparatus and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019171439A JP7379987B2 (ja) 2019-09-20 2019-09-20 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2021047792A JP2021047792A (ja) 2021-03-25
JP7379987B2 true JP7379987B2 (ja) 2023-11-15

Family

ID=74876431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019171439A Active JP7379987B2 (ja) 2019-09-20 2019-09-20 情報処理装置及びプログラム

Country Status (3)

Country Link
US (1) US11631268B2 (ja)
JP (1) JP7379987B2 (ja)
CN (1) CN112541498A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022030150A (ja) * 2020-08-06 2022-02-18 株式会社リコー 情報処理装置、情報処理方法、情報処理プログラム、情報処理システム
JP7426634B1 (ja) 2022-11-30 2024-02-02 株式会社Tokium プログラム、コンピュータおよび情報処理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122661A (ja) 2005-10-31 2007-05-17 Toshiba Corp 文書データ処理装置および文書データ処理プログラム
JP2016192223A (ja) 2016-06-17 2016-11-10 弘明 小野 会計情報読取りシステム及びプログラム
US20170124037A1 (en) 2015-11-03 2017-05-04 International Business Machines Corporation Technique used in text analysis in a safe manner
JP2019023793A (ja) 2017-07-24 2019-02-14 株式会社オービックビジネスコンサルタント 仕訳情報処理装置、仕訳情報処理方法、およびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001051997A (ja) * 1999-08-11 2001-02-23 Sony Corp 文書データ作成装置、文書データ作成方法、及び記録媒体
JP4320491B2 (ja) * 1999-11-18 2009-08-26 ソニー株式会社 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体
JP2001202466A (ja) 2000-01-18 2001-07-27 Hitachi Ltd 帳票種別判別装置
US7478089B2 (en) * 2003-10-29 2009-01-13 Kontera Technologies, Inc. System and method for real-time web page context analysis for the real-time insertion of textual markup objects and dynamic content
JP4569327B2 (ja) * 2005-03-09 2010-10-27 富士ゼロックス株式会社 カラー画像形成装置
US10019708B2 (en) * 2006-08-25 2018-07-10 Amazon Technologies, Inc. Utilizing phrase tokens in transactions
US9449080B1 (en) * 2010-05-18 2016-09-20 Guangsheng Zhang System, methods, and user interface for information searching, tagging, organization, and display
JP5880052B2 (ja) 2012-01-10 2016-03-08 富士ゼロックス株式会社 文書処理装置及びプログラム
US10120844B2 (en) * 2014-10-23 2018-11-06 International Business Machines Corporation Determining the likelihood that an input descriptor and associated text content match a target field using natural language processing techniques in preparation for an extract, transform and load process
US20190056911A1 (en) * 2017-08-18 2019-02-21 International Business Machines Corporation Sorting of Numeric Values Using an Identification of Superlative Adjectives
US11424020B2 (en) * 2017-12-08 2022-08-23 Actual Healthcare Solutions Cloud-based interactive digital medical imaging and patient health information exchange platform

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122661A (ja) 2005-10-31 2007-05-17 Toshiba Corp 文書データ処理装置および文書データ処理プログラム
US20170124037A1 (en) 2015-11-03 2017-05-04 International Business Machines Corporation Technique used in text analysis in a safe manner
JP2016192223A (ja) 2016-06-17 2016-11-10 弘明 小野 会計情報読取りシステム及びプログラム
JP2019023793A (ja) 2017-07-24 2019-02-14 株式会社オービックビジネスコンサルタント 仕訳情報処理装置、仕訳情報処理方法、およびプログラム

Also Published As

Publication number Publication date
CN112541498A (zh) 2021-03-23
US20210089766A1 (en) 2021-03-25
US11631268B2 (en) 2023-04-18
JP2021047792A (ja) 2021-03-25

Similar Documents

Publication Publication Date Title
JP5623079B2 (ja) ハード・コピーの書式からの書式定義の自動発生
JP5387124B2 (ja) コンテンツタイプ検索を行う方法及びシステム
US7769772B2 (en) Mixed media reality brokerage network with layout-independent recognition
US20120314954A1 (en) Embedded form extraction definition to enable automatic workflow configuration
KR20090069300A (ko) 페이퍼 및 전자 문서내의 주석의 캡처 및 디스플레이
JP2007116469A (ja) 媒体処理方法、複写装置、及びデータファイリング装置
US11321558B2 (en) Information processing apparatus and non-transitory computer readable medium
JP7379987B2 (ja) 情報処理装置及びプログラム
JP6694587B2 (ja) 画像読込み装置及びプログラム
JP2007183754A (ja) 名刺情報の管理方法及び名刺情報の管理システム並びに名刺情報読取用フォルダ
JP6262708B2 (ja) 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法
JP7439435B2 (ja) 情報処理装置及びプログラム
US20180330156A1 (en) Detection of caption elements in documents
JP5113238B2 (ja) Faxocr装置およびfaxocrプログラム
JP6190549B1 (ja) 文書処理システム
JP5198130B2 (ja) 可変画像形成ジョブの自動検査
JP7287510B2 (ja) 文書処理のための方法及び装置
US20220201130A1 (en) Information processing device and non-transitory computer readable medium
WO2023062798A1 (ja) 情報処理システム、項目値抽出方法、モデル生成方法及びプログラム
US20170371864A1 (en) System and method for device filtered translation
JP5569367B2 (ja) 画像処理装置、画像処理方法及びプログラム
US11410441B2 (en) Information processing apparatus and non-transitory computer readable medium
JP7484176B2 (ja) 情報処理装置、情報処理システムおよびプログラム
US20230102476A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method
JP4983489B2 (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231016

R150 Certificate of patent or registration of utility model

Ref document number: 7379987

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150