JP7229445B2 - 認識装置及び認識方法 - Google Patents

認識装置及び認識方法 Download PDF

Info

Publication number
JP7229445B2
JP7229445B2 JP2022570897A JP2022570897A JP7229445B2 JP 7229445 B2 JP7229445 B2 JP 7229445B2 JP 2022570897 A JP2022570897 A JP 2022570897A JP 2022570897 A JP2022570897 A JP 2022570897A JP 7229445 B2 JP7229445 B2 JP 7229445B2
Authority
JP
Japan
Prior art keywords
targets
target
regions
image
quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022570897A
Other languages
English (en)
Other versions
JPWO2022137448A5 (ja
JPWO2022137448A1 (ja
Inventor
裕介 伊谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2022137448A1 publication Critical patent/JPWO2022137448A1/ja
Publication of JPWO2022137448A5 publication Critical patent/JPWO2022137448A5/ja
Application granted granted Critical
Publication of JP7229445B2 publication Critical patent/JP7229445B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Description

本開示は、認識装置及び認識方法に関する。
複数の画像データから、重複した画像データを除外することで、印刷するのに最適な画像データを自動的に選択することができる情報処理装置がある。
例えば、特許文献1に記載された情報処理装置は、指定された期間に撮像された複数の画像データを取得する画像取得部と、その複数の画像データを、撮像の時系列順に並べた際の同一性を認識する画像認識部と、その複数の画像データから、特定の除外条件により、重複した画像データ又は適切でない画像データを除外して、出力画像データを選択する出力データ選択部とを備える。出力データ選択部は、画像全体のボケ、又は、テンプレート画像との差分品質を元に、重複した画像データ又は適切でない画像データを除外している。
特開2019-139423号公報
従来の技術では、画像全体から得られるボケを元に出力画像データを選択するため、認識対象は鮮明に撮影できていても、他の部分にボケが生じていると、品質が悪い画像と判断されてしまう場合がある。このような場合には、複数の画像から画像認識を行う際に、認識対象に対して画像認識を行うことができるにもかかわらず、そのような画像データが出力画像データから除外されてしまい、有効な画像認識を行うことができなくなってしまう。
そこで、本開示の一又は複数の態様は、画像認識を確実に行うことができるようにすることを目的とする。
本開示の一態様に係る認識装置は、第一の画像から複数の対象である複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、前記複数の第一の対象領域の品質の評価を行うとともに、前記第一の画像と一部が重複するように撮像された第二の画像から複数の対象である複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、前記複数の第二の対象領域の品質の評価を行う評価部と、前記複数の第一の対象領域の品質の評価の結果に応じて、前記複数の第一の対象を認識するか否かを判断し、前記複数の第一の対象を認識すると判断した場合に、前記複数の第一の対象領域から前記複数の第一の対象を認識するとともに、前記複数の第二の対象領域の品質の評価の結果に応じて、前記複数の第二の対象を認識するか否かを判断し、前記複数の第二の対象を認識すると判断した場合に、前記複数の第二の対象領域から前記複数の第二の対象を認識する認識部と、前記第一の画像から認識された前記複数の第一の対象の内の一つである第一の処理対象と、前記第二の画像から認識された前記複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、前記第一の処理対象と、前記第二の処理対象とが一致すると判断し、前記第一の処理対象が認識された位置と、前記第二の処理対象が認識された位置とが合わさるように、前記複数の第一の対象と、前記複数の第二の対象とを結合する認識結果統合部と、を備えることを特徴とする。
本開示の一態様に係る認識装置は、第一の画像から複数の対象である複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、前記複数の第一の対象領域の各々の品質の良否を評価するとともに、前記第一の画像と一部が重複するように撮像された第二の画像から複数の対象である複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、前記複数の第二の対象領域の各々の品質の良否を評価する評価部と、前記複数の第一の対象領域の内、品質が良いと評価された一又は複数の第一の対象領域から一又は複数の第一の対象を認識し、前記複数の第二の対象領域の内、品質が良いと評価された一又は複数の第二の対象領域から一又は複数の第二の対象を認識する認識部と、前記一又は複数の第一の対象の内の一つである第一の処理対象と、前記一又は複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、前記第一の処理対象と、前記第二の処理対象とが一致すると判断し、前記第一の処理対象が認識された位置と、前記第二の処理対象が認識された位置とが合わさるように、前記一又は複数の第一の対象と、前記一又は複数の第二の対象とを結合する認識結果統合部と、を備えることを特徴とする。
本開示の一態様に係る認識方法は、第一の画像から複数の対象である複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、前記複数の第一の対象領域の品質の評価を行い、前記第一の画像と一部が重複するように撮像された第二の画像から複数の対象である複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、前記複数の第二の対象領域の品質の評価を行い、前記複数の第一の対象領域の品質の評価の結果に応じて、前記複数の第一の対象を認識するか否かを判断し、前記複数の第一の対象を認識すると判断した場合に、前記複数の第一の対象領域から前記複数の第一の対象を認識し、前記複数の第二の対象領域の品質の評価の結果に応じて、前記複数の第二の対象を認識するか否かを判断し、前記複数の第二の対象を認識すると判断した場合に、前記複数の第二の対象領域から前記複数の第二の対象を認識し、前記第一の画像から認識された前記複数の第一の対象の内の一つである第一の処理対象と、前記第二の画像から認識された前記複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、前記第一の処理対象と、前記第二の処理対象とが一致すると判断し、前記第一の処理対象が認識された位置と、前記第二の処理対象が認識された位置とが合わさるように、前記複数の第一の対象と、前記複数の第二の対象とを結合することを特徴とする。
本開示の一態様に係る認識方法は、第一の画像から複数の対象である複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、前記複数の第一の対象領域の各々の品質の良否を評価し、前記第一の画像と一部が重複するように撮像された第二の画像から複数の対象である複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、前記複数の第二の対象領域の各々の品質の良否を評価し、前記複数の第一の対象領域の内、品質が良いと評価された一又は複数の第一の対象領域から一又は複数の第一の対象を認識し、前記複数の第二の対象領域の内、品質が良いと評価された一又は複数の第二の対象領域から一又は複数の第二の対象を認識し、前記一又は複数の第一の対象の内の一つである第一の処理対象と、前記一又は複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、前記第一の処理対象と、前記第二の処理対象とが一致すると判断し、前記第一の処理対象が認識された位置と、前記第二の処理対象が認識された位置とが合わさるように、前記一又は複数の第一の対象と、前記一又は複数の第二の対象とを結合することを特徴とする。
本開示の一又は複数の態様によれば、画像認識を確実に行うことができるようになる。
実施の形態1及び2に係る認識装置の構成を概略的に示すブロック図である。 実施の形態1における評価部の構成を概略的に示すブロック図である。 (A)~(C)は、実施の形態1における認識結果統合部での処理を説明するための概略図である。 認識装置のハードウェア構成の第一の例を示すブロック図である。 認識装置のハードウェア構成の第二の例を示すブロック図である。 実施の形態1に係る認識装置での処理を示すフローチャートである。 実施の形態2における評価部の構成を概略的に示すブロック図である。 (A)~(C)は、実施の形態2における認識結果統合部での処理を説明するための概略図である。 実施の形態2に係る認識装置での処理を示すフローチャートである。
実施の形態1.
図1は、実施の形態1に係る認識装置100の構成を概略的に示すブロック図である。
認識装置100は、画像取得部101と、評価部102と、認識部103と、認識結果統合部104と、出力部105とを備える。
画像取得部101は、画像を取得する。
評価部102は、画像取得部101で取得された画像から文字列を含んでいる領域である文字列領域を特定し、その文字列領域の品質を評価して、その評価結果に応じて、画像の品質を評価する。例えば、評価部102は、複数の文字列の各々に各々が対応する複数の文字列領域を特定し、その複数の対象領域の品質の評価から、画像の品質の良否を評価する。ここで、文字列領域は、文字列を認識する領域である。また、品質は、画質ともいう。
図2は、実施の形態1における評価部102の構成を概略的に示すブロック図である。
評価部102は、文字列位置特定部102aと、文字列品質評価部102bと、品質評価判断部102cとを備える。
文字列位置特定部102aは、画像取得部101で取得された画像における文字列の位置である文字列位置を特定する。文字列の位置の特定は、公知の方法が用いて行われればよい。例えば、下記の文献には、ラインオブジェクト又はスペースに基づいて原稿をいくつかのドメインに分割して、文字列を特定する方法が記載されている。
Y.ITANI, et al.,“Text Line Extraction Method Using Domain-based Actime Contour Model”,2013 12th International Conference on Document Analysis and Recognition, August. 2013
なお、ここでは、文字列位置特定部102aは、画像から複数の文字列を特定し、その複数の文字列の各々が含まれる領域である文字列領域の位置を特定するものとする。このため、文字列位置特定部102aを、文字列領域特定部ともいう。
文字列品質評価部102bは、複数の文字列位置で示される複数の文字列を含んでいる複数の文字列領域の品質を、文字列領域毎に評価する。
例えば、文字列品質評価部102bは、下記の(1)式~(3)式に示されているラプラシアン微分を用いる方法により、文字列領域の品質を評価する。
Figure 0007229445000001
(1)
Figure 0007229445000002
(2)
Figure 0007229445000003
(3)
ここで、例えば、I(x,y)は、座標(x,y)の輝度値を示す。
ラプラシアン微分を用いると、画像のエッジを抽出することができる。ラプラシアン微分は、品質が悪いと値が小さくなり、品質が良いと値が大きくなる性質がある。従って、下記の(4)式で示されるように、領域内の分散値を算出し、算出された分散値を閾値と比較することにより、文字列領域の品質の評価が可能となる。
Figure 0007229445000004
(4)
ここでsは、分散値を、Rは文字列領域の面積を、aveは文字列領域内のラプラシアン微分の平均値を示す。
そして、下記のように、分散値sが閾値THs以下であれば、その文字列領域の品質が悪い(言い換えると、品質が良くない)と判断することができ、分散値sが閾値THsよりも大きければ、その文字列領域の品質が良いと判断することができる。
s≦THs:品質悪
s>THs:品質良
品質評価判断部102cは、文字列領域の品質の評価結果に基づいて、その文字列領域が含まれている画像の品質を判断する。例えば、品質評価判断部102cは、文字列品質評価部102bからの評価結果に基づいて、多数決により画像の品質を判断する。なお、同数の場合には、品質評価判断部102cは、画像の品質が良いと判断すればよい。
図1に戻り、認識部103は、評価部102による評価の結果に応じて、文字列を認識するか否かを判断する。そして、認識部103は、文字列を認識すると判断した場合に、文字列領域から文字列を認識する。
例えば、認識部103は、評価部102により画像の品質が良いと判断された場合に、その画像に含まれている文字列の文字を認識する。認識部103は、公知の方法を用いて文字の認識を行えばよいが、例えば、下記の文献には、文字を認識する方法の一例が記載されている。
T.Hirano, et al., “Structual Character Recognition Using Simulated Annealing”, Information Technology R&D Center, August, 1997
認識結果統合部104は、複数の画像で認識された複数の文字列を比較することで、その複数の画像に記載されている複数の文字列の配置を特定し、必要な文字列を特定された配置に並べることで、必要な文字列を統合する。例えば、認識結果統合部104は、複数の画像に含まれている第一の画像から認識された複数の文字列の内の一つである第一の処理文字列と、複数の画像に含まれている第二の画像から認識された複数の文字列の内の一つである第二の処理文字列とが、予め定められた条件を満たす場合に、その第一の処理文字列と、第二の処理文字列とが一致すると判断する。ここでの予め定められた条件は、第一の処理文字列と、第二の処理文字列とが同一であることである。そして、認識結果統合部104は、第一の処理文字列が認識された位置と、第二の処理文字列が認識された位置とが合わさるように、第一の画像から認識された複数の文字列と、第二の画像から認識された複数の文字列とを結合する。そして、認識結果統合部104は、その統合結果を出力部105に与える。
図3(A)~(C)は、実施の形態1における認識結果統合部104での処理を説明するための概略図である。
まず、前提として、図3(A)に示されているように、評価部102は、複数の画像Im1~Im3の各々から、文字列領域を示す文字列位置を特定する。図3(A)では、画像Im1から文字列領域R11~R14が特定され、画像Im2から文字列領域R21~R24が特定され、画像Im3から文字列領域R31~R33が特定されている。
そして、評価部102は、文字列領域R11~R14、文字列領域R21~R24及び領域31~33の各々において品質を評価して、その評価結果に応じて画像Im1~Im3の各々の品質を評価する。ここでは、文字列領域R11~R14の評価結果に基づいて、画像Im1の品質が評価され、文字列領域R21~R24の評価結果に基づいて、画像Im2の品質が評価され、文字列領域R31~R33の評価結果に基づいて、画像Im3の品質が評価される。ここでは、画像Im1~Im3の全ての品質が良く、認識部103は、これらの全てで文字認識を行ったものとする。
このような場合、認識結果統合部104は、画像Im1~Im3の各々で認識された複数の文字列を比較する。例えば、認識結果統合部104は、図3(B)に示されているように、画像Im1から認識された文字列「ABC」、「CDE」、「EFG」及び「GHI」の各々と、画像Im2から認識された文字列「CDE」、「EFG」、「GHI」及び「IJK」の各々とを比較する。さらに、画像Im2から認識された文字列「CDE」、「EFG」、「GHI」及び「IJK」の各々と、画像Im3から認識された文字列「EFG」、「GHI」及び「IJK」の各々とを比較する。
ここでは、画像Im1から認識された文字列「CDE」、「EFG」及び「GHI」と、画像Im2から認識された文字列「CDE」、「EFG」及び「GHI」が一致し、画像Im2から認識された文字列「EFG」、「GHI」及び「IJK」と、画像Im3から認識された文字列「EFG」、「GHI」及び「IJK」とが一致する。このため、認識結果統合部104は、図3(C)に示されているように、一致している文字列が重複しないように、文字列の配置を特定することで、これらの文字列を統合する。
出力部105は、認識結果統合部104での統合結果を出力する。例えば、出力部105は、統合された文字列を表す画面画像を表示する。
図4は、認識装置100のハードウェア構成の第一の例を示すブロック図である。
認識装置100は、画像取得装置110と、記憶装置111と、処理回路112と、表示装置113とを備える。
画像取得装置110は、スキャナ又はカメラのように、画像を取得する装置である。また、画像取得装置110は、NIC(Network Interface Card)等の通信装置のように、ネットワーク又は他の装置から画像を取得する通信インターフェース又は接続インターフェースであってもよい。
記憶装置111は、認識装置100での処理に必要なデータを記憶する装置である。
処理回路112は、単一回路、複合回路、プログラムで動作するプロセッサ、プログラムで動作する並列プロセッサ、ASIC(Application Specific Integrated Circuit)又はFPGA(Field Programmable Gate Array)等の回路である。
表示装置113は、各種画面画像を表示する装置である。
例えば、図1に示されている画像取得部101は、画像取得装置110により実現することができ、図1に示されている評価部102、認識部103及び認識結果統合部104は、処理回路112で実現することができ、図1に示されている出力部105は、表示装置113により実現することができる。
図5は、認識装置100のハードウェア構成の第二の例を示すブロック図である。
認識装置100は、画像取得装置110と、記憶装置121と、表示装置113と、メモリ124と、プロセッサ125とを備える。
第二の例における画像取得装置110及び表示装置113は、第一の例における画像取得装置110及び表示装置113と同様である。
記憶装置121は、認識装置100での処理に必要なプログラム及びデータを記憶する装置である。
メモリ124は、プロセッサ125が処理を行う際のワークスペースを提供する。
プロセッサ125は、記憶装置121に記憶されているプログラムをメモリ124に読み出して、そのプログラムを実行するCPU(Central Processing Unit)等の演算装置である。
図1に示されている評価部102、認識部103及び認識結果統合部104は、プロセッサ125が記憶装置121に記憶されているプログラムをメモリ124に読み出して、そのプログラムを実行することで実現することができる。
言い換えると、評価部102、認識部103及び認識結果統合部104は、処理回路網により実現することができる。
図6は、実施の形態1に係る認識装置100での処理を示すフローチャートである。
図6のフローチャートは、画像取得部101が画像を取得して、その画像を評価部102に与えることで開始される。
まず、評価部102の文字列位置特定部102aは、与えられた画像から文字列を検出する(S10)。
そして、文字列位置特定部102aは、その画像に文字列があるか否かを判断する(S11)。文字列がある場合(S11でYes)には、処理はステップS12に進み、文字列がない場合(S11でNo)には、処理はステップS17に進む。
ステップS12では、文字列位置特定部102aは、その画像内において、文字列が含まれている位置を特定する。そして、文字列位置特定部102aは、特定した位置を文字列品質評価部102bに通知する。
文字列品質評価部102bは、文字列位置特定部102aからの通知に従って、文字列が含まれている領域である文字列領域の品質を評価する(S13)。ここでは、文字列品質評価部102bは、ラプラシアン微分を用いて、上記の(1)式~(4)式により、文字列領域の品質を評価する。そして、文字列品質評価部102bは、文字列領域の評価結果を品質評価判断部102cに通知する。
そして、品質評価判断部102cは、文字列領域の評価結果に基づいて、その文字列領域が含まれる画像の品質を評価する(S14)。ここでは、品質評価判断部102cは、文字列領域の評価結果の多数決により、画像の品質の良否を評価する。そして、品質評価判断部102cは、画像の品質の評価結果を認識部103に通知する。
認識部103は、画像の品質の評価結果が、画像の品質が良いことを示すか否かを判断する(S15)。画像の品質が良い場合(S15でYes)には、処理はステップS16に進み、画像の品質が良くない場合(S15でNo)には、処理はステップS17に進む。
ステップS16では、認識部103は、画像から文字認識を実行する。文字認識には、公知の方法が用いられる。そして、処理はステップS17に進む。
ステップS17では、評価部102の文字列位置特定部102aは、文字認識を実行すべき画像が未だ残っているか否かを判断する。文字認識を実行すべき画像が未だ残っている場合(S17でYes)には、処理はステップS10に戻り、文字認識を実行すべき画像が残っていない場合(S17でNo)には、処理はステップS18に進む。
ステップS18では、認識結果統合部104は、認識部103で認識された文字列を統合する。統合された結果は、出力部105に与えられ、出力部105により出力される。
以上のように、実施の形態1によれば、まず認識対象となる文字列を検出し、その文字列を含む文字列領域の品質を評価するようにしたことで、全体的には鮮明な画像であっても、フォーカスが文字列にあたっていない画像を適切に棄却することができる。これにより、文字認識結果の精度を向上させることができる。
また、全体的には不鮮明な画像であっても、文字列領域が鮮明な画像については、文字認識の対象とすることができる。これにより、文字認識を行うことのできる画像から確実に文字認識を行うことができる。
また、一般的に文字列の検出よりも、文字認識の方が演算量は多いため、実施の形態1によれば、システムとしての精度を保ちつつ高速化できる効果がある。
実施の形態2.
実施の形態1では、文字列領域毎に品質を評価し、その多数決により一つの画像から文字認識を行うか否かを判断した。実施の形態2では、画像単位ではなく文字列領域単位の結果をそのまま利用して、文字認識を行うか否かを判断する方法について示す。
図1に示されているように、実施の形態2に係る認識装置200は、画像取得部101と、評価部202と、認識部203と、認識結果統合部204と、出力部105とを備える。
実施の形態2に係る認識装置200の画像取得部101及び出力部105は、実施の形態1に係る認識装置100の画像取得部101及び出力部105と同様である。
評価部202は、取得された画像から文字列領域を特定し、特定された文字列領域の品質を評価する。
例えば、評価部202は、複数の文字列の各々に各々が対応する複数の文字列領域を特定し、その複数の文字列領域の各々の品質の良否を評価する。
図7は、実施の形態2における評価部202の構成を概略的に示すブロック図である。
評価部202は、文字列位置特定部102aと、文字列品質評価部102bとを備える。
実施の形態2における文字列位置特定部102a及び文字列品質評価部102bは、実施の形態1における文字列位置特定部102a及び文字列品質評価部102bと同様である。但し、実施の形態2では、文字列品質評価部102bは、文字列領域毎の評価結果を、認識部203に通知する。
図1に戻り、認識部203は、文字列品質評価部102bにより品質が良いと判断された文字列領域毎に、その文字列領域に含まれている文字列の文字を認識する。例えば、認識部203は、複数の文字列領域の内、品質が良いと評価された一又は複数の文字列領域から一又は複数の文字列を認識すると判断して、その一又は複数の文字列領域から一又は複数の文字列を認識する。
実施の形態2においても、認識部203は、公知の方法を用いて文字の認識を行えばよい。認識された文字列は、認識結果統合部204に与えられる。
認識結果統合部204は、複数の文字列領域で認識された複数の文字列を比較することで、その複数の文字列領域に記載されている複数の文字列の配置を特定し、必要な文字列を特定された配置に並べることで、必要な文字列を統合する。そして、認識結果統合部204は、その統合結果を出力部105に与える。
実施の形態2においては、評価部202の評価は、文字列領域単位での評価になるため、認識部203の認識結果には、画像中の文字列で認識結果が得られないものが存在する可能性があり、また、その認識結果には誤認識が含まれる可能性がある。この場合、認識結果統合部204は、一致している文字列の認識結果を元に、複数の画像の認識結果を組み合わせることで文字列の認識結果を統合していくことで、認識結果がない文字列領域又は誤認識された文字列領域があっても、正しく統合していくことが可能となる。
図8(A)~(C)は、実施の形態2における認識結果統合部204での処理を説明するための概略図である。
まず、前提として、図8(A)に示されているように、評価部202は、複数の画像Im4~Im6の各々に含まれている文字列領域の各々の品質を評価して、認識部203は、その評価結果に応じて、文字列領域毎に文字認識を実行する。
図8(A)では、評価部202は、画像Im4に含まれている文字列領域R41~R44を特定し、これらの文字列領域R41~R44の全ての品質を良いと判断する。このため、認識部203は、これらの文字列領域R41~R44の全てから文字を認識し、それぞれの文字列を認識する。
また、評価部202は、画像Im5に含まれている文字列領域R51~R54を特定し、文字列領域R51、文字列領域R53及び文字列領域R54については、品質が良いと判断し、文字列領域R52については、品質が良くないと判断する。このため、認識部203は、文字列領域R51、文字列領域R53及び文字列領域R54について文字認識を実行するが、文字列領域R52については、文字認識を実行しない。
さらに、評価部202は、画像Im6に含まれている文字列領域R61~R63を特定し、これらの文字列領域R61~R63の全ての品質を良いと判断する。このため、認識部203は、これらの文字列領域R61~R63の全てから文字を認識し、それぞれの文字列を認識する。
このような場合、認識結果統合部204は、画像Im4~Im6の各々で認識された複数の文字列を比較する。例えば、認識結果統合部204は、図8(B)に示されているように、画像Im4から認識された文字列「ABC」、「CDE」、「EFG」及び「GHI」の各々と、画像Im5から認識された文字列「CDE」、「GHI」及び「IJK」の各々とを比較する。この場合、認識結果統合部204は、画像Im5では、文字列「EFG」が認識されていないことを特定することができる。
さらに、認識結果統合部204は、画像Im5から認識された文字列「CDE」、「GHI」及び「IJK」の各々と、画像Im6から認識された文字列「EFG」、「GHI」及び「IJK」の各々とを比較する。この場合でも、認識結果統合部204は、画像Im5では、文字列「EFG」が認識されていないことを特定することができる。
ここでは、画像Im4から認識された文字列「CDE」及び「GHI」と、画像Im5から認識された文字列「CDE」及び「GHI」が一致し、画像Im5から認識された文字列「GHI」及び「IJK」と、画像Im6から認識された文字列「EFG」、「GHI」及び「IJK」とが一致する。このため、認識結果統合部104は、図8(C)に示されているように、一致している文字列が重複しないように、文字列の配置を特定することで、これらの文字列を統合する。
図9は、実施の形態2に係る認識装置200での処理を示すフローチャートである。
図9に示されているフローチャートは、画像取得部101が画像を取得して、その画像を評価部202に与えることで開始される。
なお、図9に示されているフローチャートに含まれているステップS10~S13までの処理は、図6に示されているフローチャートに含まれているステップS10~S13までの処理と同様である。但し、図9においては、ステップS13の後は、処理はステップS20に進む。
ステップS20では、認識部203は、未だ品質の量を判断していない一つの文字列領域を選択する。
そして、認識部203は、文字列品質評価部102bによる文字列領域の評価結果に基づいて、選択された文字列領域の品質が良いか否かを判断する。選択された文字列領域の品質が良い場合(S21でYes)には、処理はステップS22に進み、選択された文字列領域の品質が良くない場合(S21でNo)には、処理はステップS22に進む。
ステップS22では、認識部203は、選択された文字列領域から文字認識を実行する。文字認識には、公知の方法が用いられる。そして、処理はステップS23に進む。
ステップS23では、認識部203は、未選択の文字列領域が残っているか否かを判断する。未選択の文字列領域が残っている場合(S23でYes)には、処理はステップS20に戻り、未選択の文字列領域が残っていない場合(S23でNo)には、処理はステップS24に進む。
ステップS24では、評価部202の文字列位置特定部102aは、文字認識を実行すべき画像が未だ残っているか否かを判断する。文字認識を実行すべき画像が未だ残っている場合(S24でYes)には、処理はステップS10に戻り、文字認識を実行すべき画像が残っていない場合(S24でNo)には、処理はステップS25に進む。
ステップS25では、認識結果統合部204は、認識部203で認識された文字列を統合する。この際、品質の不良により文字認識結果がない領域又は誤認識された文字列領域が発生するため、認識結果統合部204は、それらを考慮し、文字認識結果が一致している部分を元に結果を統合する。統合された結果は、出力部105に与えられ、出力部105により出力される。
以上のように、実施の形態2によれば、文字列領域毎の品質の評価結果を元に文字認識を行うため、画像の一部分のみ認識が可能である場合であっても認識結果を得ることができる。
実施の形態1又は2では、認識結果統合部104、204は、文字列が一致した場合に文字列を統合しているが、実施の形態1又は2は、このような例に限定されない。例えば、誤認識を考慮して、認識結果統合部104、204は、文字列の1部分のみが一致している場合でも統合可としてもよい。これにより、誤認識の修正を行うことができる。
この場合、認識結果統合部104、204は、下記の(5)式及び(6)式のように、文字列Aと、文字列Bのレーベンシュタイン距離を計算し、その距離が閾値THL以下である場合に、文字列Aと文字列Bとを統合してもよい。
L(A,B)≦THL: 統合する (5)
L(A,B)>THL: 統合しない (6)
ここで、L(A,B)は、文字列Aと、文字列Bとのレーベンシュタイン距離を表すものとする。
この場合において、文字列Aと、文字列Bとを統合する方法は、どのような方法でもよい。例えば、先に撮像された画像から取得された文字列が優先されてもよく、後に撮像された画像から取得された文字列が優先されてもよい。また、上記(4)式の値が大きい方の文字列領域から認識された文字列が優先されてもよい。
実施の形態1及び2では、認識する対象を文字列としたが、認識する対象は、文字列に限定されない。例えば、認識する対象は、物体等、他の物であってもよい。
このような場合には、評価部102,202は、画像において対象を認識する領域である対象領域を特定し、その対象領域の品質の評価を行う。例えば、評価部102は、複数の対象の各々に各々が対応する複数の対象領域を特定し、複数の対象領域の品質の評価から、画像の品質の良否を評価する。また、評価部202は、複数の対象の各々に各々が対応する複数の対象領域を特定し、複数の対象領域の各々の品質の良否を評価する。
また、認識部103,203は、評価部102,202による評価の結果に応じて、対象を認識するか否かを判断し、対象を認識すると判断した場合に、対象領域から対象を認識する。例えば、認識部103は、画像の品質が良いと判断された場合に、複数の対象を認識すると判断して、複数の対象領域から複数の対象を認識する。また、認識部203は、複数の対象領域の内、品質が良いと評価された一又は複数の対象領域から一又は複数の対象を認識すると判断して、その一又は複数の対象領域から一又は複数の対象を認識する。
具体的には、実施の形態1においては、認識装置100は、以下のような処理を行う。
ここで、画像取得部101が取得する複数の画像の内の二つの画像を、第一の画像及び第二の画像とする。第一の画像と、第二の画像とは、一部が重複するように撮像されているものとする。そして、第一の画像に含まれている複数の対象を複数の第一の対象とし、第二の画像に含まれている複数の対象を複数の第二の対象とする。
評価部102は、第一の画像から複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、その複数の第一の対象領域の品質の評価を行う。また、評価部102は、第二の画像から複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、その複数の第二の対象領域の品質の評価を行う。
認識部103は、複数の第一の対象領域の品質の評価の結果に応じて、複数の第一の対象を認識するか否かを判断し、複数の第一の対象を認識すると判断した場合に、複数の第一の対象領域から複数の第一の対象を認識する。また、認識部103は、複数の第二の対象領域の品質の評価の結果に応じて、複数の第二の対象を認識するか否かを判断し、複数の第二の対象を認識すると判断した場合に、複数の第二の対象領域から複数の第二の対象を認識する。
認識結果統合部104は、第一の画像から認識された複数の第一の対象の内の一つである第一の処理対象と、第二の画像から認識された複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、第一の処理対象と、第二の処理対象とが一致すると判断する。そして、認識結果統合部104は、第一の処理対象が認識された位置と、第二の処理対象が認識された位置とが合わさるように、複数の第一の対象と、複数の第二の対象とを結合する。
また、実施の形態2においては、認識装置200は、以下のような処理を行う。
ここでも、画像取得部101が取得する二つの画像を第一の画像及び第二の画像とする。第一の画像と、第二の画像とは、一部が重複するように撮像されているものとする。そして、第一の画像に含まれている複数の対象を複数の第一の対象とし、第二の画像に含まれている複数の対象を複数の第二の対象とする。
評価部202は、第一の画像から複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、その複数の第一の対象領域の各々の品質の良否を評価する。また、評価部202は、第二の画像から複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、その複数の第二の対象領域の各々の品質の良否を評価する。
認識部203は、複数の第一の対象領域の内、品質が良いと評価された一又は複数の第一の対象領域から一又は複数の第一の対象を認識する。また、認識部203は、複数の第二の対象領域の内、品質が良いと評価された一又は複数の第二の対象領域から一又は複数の第二の対象を認識する。
認識結果統合部204は、認識された一又は複数の第一の対象の内の一つである第一の処理対象と、認識された一又は複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、第一の処理対象と、第二の処理対象とが一致すると判断する。そして、認識結果統合部204は、第一の処理対象が認識された位置と、第二の処理対象が認識された位置とが合わさるように、認識された一又は複数の第一の対象と、認識された一又は複数の第二の対象とを結合する。
上記の条件は、第一の処理対象と、第二の処理対象とが同一であることであってもよく、第一の処理対象と、第二の処理対象とのレーベンシュタイン距離が、予め定められた閾値以下であることであってもよい。
なお、本願発明はその発明の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。
100,200 認識装置、 101 画像取得部、 102,202 評価部、 102a 文字列位置特定部、 102b 文字列品質評価部、 102c 品質評価判断部、 103,203 認識部、 104,204 認識結果統合部、 105 出力部。

Claims (7)

  1. 第一の画像から複数の対象である複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、前記複数の第一の対象領域の品質の評価を行うとともに、前記第一の画像と一部が重複するように撮像された第二の画像から複数の対象である複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、前記複数の第二の対象領域の品質の評価を行う評価部と、
    前記複数の第一の対象領域の品質の評価の結果に応じて、前記複数の第一の対象を認識するか否かを判断し、前記複数の第一の対象を認識すると判断した場合に、前記複数の第一の対象領域から前記複数の第一の対象を認識するとともに、前記複数の第二の対象領域の品質の評価の結果に応じて、前記複数の第二の対象を認識するか否かを判断し、前記複数の第二の対象を認識すると判断した場合に、前記複数の第二の対象領域から前記複数の第二の対象を認識する認識部と、
    前記第一の画像から認識された前記複数の第一の対象の内の一つである第一の処理対象と、前記第二の画像から認識された前記複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、前記第一の処理対象と、前記第二の処理対象とが一致すると判断し、前記第一の処理対象が認識された位置と、前記第二の処理対象が認識された位置とが合わさるように、前記複数の第一の対象と、前記複数の第二の対象とを結合する認識結果統合部と、を備えること
    を特徴とする認識装置。
  2. 第一の画像から複数の対象である複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、前記複数の第一の対象領域の各々の品質の良否を評価するとともに、前記第一の画像と一部が重複するように撮像された第二の画像から複数の対象である複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、前記複数の第二の対象領域の各々の品質の良否を評価する評価部と、
    前記複数の第一の対象領域の内、品質が良いと評価された一又は複数の第一の対象領域から一又は複数の第一の対象を認識し、前記複数の第二の対象領域の内、品質が良いと評価された一又は複数の第二の対象領域から一又は複数の第二の対象を認識する認識部と、
    前記一又は複数の第一の対象の内の一つである第一の処理対象と、前記一又は複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、前記第一の処理対象と、前記第二の処理対象とが一致すると判断し、前記第一の処理対象が認識された位置と、前記第二の処理対象が認識された位置とが合わさるように、前記一又は複数の第一の対象と、前記一又は複数の第二の対象とを結合する認識結果統合部と、を備えること
    を特徴とする認識装置。
  3. 前記条件は、前記第一の処理対象と、前記第二の処理対象とが同一であること
    を特徴とする請求項1又は2に記載の認識装置。
  4. 前記条件は、前記第一の処理対象と、前記第二の処理対象とのレーベンシュタイン距離が、予め定められた閾値以下であること
    を特徴とする請求項1又は2に記載の認識装置。
  5. 前記対象は、文字列であること
    を特徴とする請求項1から4の何れか一項に記載の認識装置。
  6. 第一の画像から複数の対象である複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、
    前記複数の第一の対象領域の品質の評価を行い、
    前記第一の画像と一部が重複するように撮像された第二の画像から複数の対象である複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、
    前記複数の第二の対象領域の品質の評価を行い、
    前記複数の第一の対象領域の品質の評価の結果に応じて、前記複数の第一の対象を認識するか否かを判断し、
    前記複数の第一の対象を認識すると判断した場合に、前記複数の第一の対象領域から前記複数の第一の対象を認識し、
    前記複数の第二の対象領域の品質の評価の結果に応じて、前記複数の第二の対象を認識するか否かを判断し、
    前記複数の第二の対象を認識すると判断した場合に、前記複数の第二の対象領域から前記複数の第二の対象を認識し、
    前記第一の画像から認識された前記複数の第一の対象の内の一つである第一の処理対象と、前記第二の画像から認識された前記複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、前記第一の処理対象と、前記第二の処理対象とが一致すると判断し、前記第一の処理対象が認識された位置と、前記第二の処理対象が認識された位置とが合わさるように、前記複数の第一の対象と、前記複数の第二の対象とを結合すること
    を特徴とする認識方法。
  7. 第一の画像から複数の対象である複数の第一の対象を認識する複数の領域である複数の第一の対象領域を特定し、
    前記複数の第一の対象領域の各々の品質の良否を評価し、
    前記第一の画像と一部が重複するように撮像された第二の画像から複数の対象である複数の第二の対象を認識する複数の領域である複数の第二の対象領域を特定し、
    前記複数の第二の対象領域の各々の品質の良否を評価し、
    前記複数の第一の対象領域の内、品質が良いと評価された一又は複数の第一の対象領域から一又は複数の第一の対象を認識し、
    前記複数の第二の対象領域の内、品質が良いと評価された一又は複数の第二の対象領域から一又は複数の第二の対象を認識し、
    前記一又は複数の第一の対象の内の一つである第一の処理対象と、前記一又は複数の第二の対象の内の一つである第二の処理対象とが、予め定められた条件を満たす場合に、前記第一の処理対象と、前記第二の処理対象とが一致すると判断し、前記第一の処理対象が認識された位置と、前記第二の処理対象が認識された位置とが合わさるように、前記一又は複数の第一の対象と、前記一又は複数の第二の対象とを結合すること
    を特徴とする認識方法。
JP2022570897A 2020-12-24 2020-12-24 認識装置及び認識方法 Active JP7229445B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/048500 WO2022137448A1 (ja) 2020-12-24 2020-12-24 認識装置及び認識方法

Publications (3)

Publication Number Publication Date
JPWO2022137448A1 JPWO2022137448A1 (ja) 2022-06-30
JPWO2022137448A5 JPWO2022137448A5 (ja) 2023-02-03
JP7229445B2 true JP7229445B2 (ja) 2023-02-27

Family

ID=82159288

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022570897A Active JP7229445B2 (ja) 2020-12-24 2020-12-24 認識装置及び認識方法

Country Status (2)

Country Link
JP (1) JP7229445B2 (ja)
WO (1) WO2022137448A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000155806A (ja) 1998-11-19 2000-06-06 Ricoh Co Ltd 文字認識方法、文字認識装置、辞書作成方法、辞書作成装置、文字品質判定方法、及び、記録媒体
JP2006178543A (ja) 2004-12-20 2006-07-06 Canon Marketing Japan Inc 画像処理方法、画像処理装置
JP2007156918A (ja) 2005-12-06 2007-06-21 Sharp Corp 文字認識装置、文字認識方法、文字認識プログラム、および記録媒体

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150059302A (ko) * 2013-11-22 2015-06-01 최재숙 촬상 이미지를 적합화 하여 문자를 인식하는 방법 및 그 방법을 실행하는 정보 처리 기기

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000155806A (ja) 1998-11-19 2000-06-06 Ricoh Co Ltd 文字認識方法、文字認識装置、辞書作成方法、辞書作成装置、文字品質判定方法、及び、記録媒体
JP2006178543A (ja) 2004-12-20 2006-07-06 Canon Marketing Japan Inc 画像処理方法、画像処理装置
JP2007156918A (ja) 2005-12-06 2007-06-21 Sharp Corp 文字認識装置、文字認識方法、文字認識プログラム、および記録媒体

Also Published As

Publication number Publication date
WO2022137448A1 (ja) 2022-06-30
JPWO2022137448A1 (ja) 2022-06-30

Similar Documents

Publication Publication Date Title
JP4772839B2 (ja) 画像識別方法および撮像装置
Fang et al. No-reference quality assessment of contrast-distorted images based on natural scene statistics
US8170294B2 (en) Method of detecting redeye in a digital image
JP6403261B2 (ja) 分類器生成装置、外観検査装置、分類器生成方法、及びプログラム
US8819015B2 (en) Object identification apparatus and method for identifying object
KR101247147B1 (ko) 디지털 영상 획득 장치에서의 얼굴 탐색 및 검출
JP2021524630A (ja) マルチ分解能登録を介したマルチサンプル全体スライド画像処理
WO2020248387A1 (zh) 基于多路摄像的人脸识别方法、装置、终端及存储介质
US20030044178A1 (en) Method for the automatic detection of red-eye defects in photographic image data
CN110956628B (zh) 图片等级分类方法、装置、计算机设备和存储介质
CN101299239B (zh) 文字区域图像的获取方法及装置、文字识别***
CN113962975B (zh) 基于梯度信息对病理玻片数字图像进行质量评估的***
CN111899246A (zh) 玻片数字化信息质量检测方法、装置、设备及介质
CN108961209B (zh) 行人图像质量评价方法、电子设备及计算机可读介质
CN112785572A (zh) 图像质量评估方法、装置以及计算机可读存储介质
WO2018107574A1 (zh) 一种对印防伪特征的检测方法及装置
CN112073713B (zh) 视频漏录测试方法、装置、设备及存储介质
CN106910207B (zh) 用于识别图像局部区域的方法、装置及终端设备
JP7229445B2 (ja) 認識装置及び認識方法
JP2006323779A (ja) 画像処理方法、画像処理装置
JP2002269545A (ja) 顔画像処理方法及び顔画像処理装置
JP2005332382A (ja) 画像処理方法および装置並びにプログラム
JPH11306348A (ja) 対象物検出装置及び対象物検出方法
CN112907206B (zh) 一种基于视频对象识别的业务审核方法、装置及设备
CN111753722B (zh) 一种基于特征点类型的指纹识别方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221206

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221206

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230214

R150 Certificate of patent or registration of utility model

Ref document number: 7229445

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150