JP2022536320A - オブジェクト識別方法と装置、電子機器及び記憶媒体 - Google Patents

オブジェクト識別方法と装置、電子機器及び記憶媒体 Download PDF

Info

Publication number
JP2022536320A
JP2022536320A JP2021572659A JP2021572659A JP2022536320A JP 2022536320 A JP2022536320 A JP 2022536320A JP 2021572659 A JP2021572659 A JP 2021572659A JP 2021572659 A JP2021572659 A JP 2021572659A JP 2022536320 A JP2022536320 A JP 2022536320A
Authority
JP
Japan
Prior art keywords
text
identification
interest
text information
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021572659A
Other languages
English (en)
Other versions
JP7389824B2 (ja
Inventor
ボーハオ フェン
シャオシュエイ チャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2022536320A publication Critical patent/JP2022536320A/ja
Application granted granted Critical
Publication of JP7389824B2 publication Critical patent/JP7389824B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/87Arrangements for image or video recognition or understanding using pattern recognition or machine learning using selection of the recognition techniques, e.g. of a classifier in a multiple classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1916Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

オブジェクト識別方法と装置、電子機器、及び記憶媒体であって、人工知能分野に関する。方法は、識別対象オブジェクトを収集し(S101)、識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得(S102)、予め設定されたテキスト識別モデルに基づいて興味のあるポイントのテキスト情報を識別する(S103)ことを含む。ターゲットテキスト検出モデルによって全量テキスト情報から選別して識別し、興味のあるポイントのテキスト情報を得ることにより、従来技術における全量テキスト情報の識別を回避し、識別の時間を節約し、識別の効率を向上させた。【選択図】図1

Description

本願は、データ処理技術分野に関し、特に人工知能技術分野に関し、具体的にオブジェクト識別方法と装置、電子機器及び記憶媒体に関する。
光学文字識別(Optical Character Recognition、OCR)は主にキャリアに表示された光学文字を識別することによりテキスト出力を生成する。紙の文書のOCR識別を例にとって、紙の文書上の印刷体から得られた光学文字を収集して識別することで、テキスト情報などのデータを得ることができる。例えば、OCR識別方法により、異なるカード、チケット、新聞及び教科書などのOCR識別テンプレートをカスタマイズし、OCR識別テンプレートに基づいて、対応する識別対象オブジェクト(カード、チケット、新聞及び教科書など)を識別する。
従来技術では、OCR識別テンプレートにおけるテキスト検出モデルにより、識別対象オブジェクトの全量テキスト情報(例えば識別対象オブジェクトに対応する画像におけるすべてのテキストなど)を検出し、検出結果を得、OCR識別テンプレートにおけるテキスト識別モデルに基づいて、検出結果を識別する。
しかし、発明者は、本願を実現する過程で、上記従来技術には少なくとも以下の技術的問題が存在することが分かった。テキスト検出モデルは識別対象オブジェクトに対応する全量テキスト情報を識別するので、識別効率が低い。
オブジェクト識別方法と装置、電子機器及び記憶媒体を提供する。
本願の実施例の1つの態様によれば、本願の実施例は、オブジェクト識別方法を提供し、前記方法は、
識別対象オブジェクトを収集することと、
前記識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、前記識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得ることと、
予め設定されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別することと、を含む。
本願の実施例では、ターゲットテキスト検出モデルによって全量テキスト情報から選別して識別し、興味のあるポイントのテキスト情報を得ることにより、従来技術における全量テキスト情報の識別を回避し、識別の時間を節約し、識別の効率を向上させた。
いくつかの実施例では、前記識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、前記識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得る前に、前記方法はさらに、
初期テキスト検出モデルを用いて、収集されたサンプルオブジェクトに対応する検出ブロックを生成することと、
前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定することと、
決定された検出ブロックに基づいて、前記初期テキスト検出モデルをトレーニングし、前記ターゲットテキスト検出モデルを生成することと、を含む。
本願の実施例では、興味のあるポイントのテキスト情報に対応する検出ブロックを決定することにより、決定された検出ブロックに基づいて、初期テキスト検出モデルをトレーニングし、ターゲットテキスト検出モデルを生成し、その結果、全量テキスト情報から選別して識別することにより興味のあるポイントのテキスト情報のターゲットテキスト検出モデルを得ることができ、さらに、識別対象オブジェクトに対する識別の効率を向上させることができる。
別のいくつかの実施例では、前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定することは、
前記興味のあるポイントのテキスト情報に基づいて、前記検出ブロックに対して修正及び/又は削除操作を行うことを含み、前記修正操作は、線分修正、テキスト修正及び四隅点位置修正のうちの少なくとも1つを含む。
別のいくつかの実施例では、前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定した後、前記方法はさらに、
予め設定されたテキスト識別モデルに基づいて、決定された検出ブロックに対応するテキスト情報を識別し、識別結果を得ることと、
前記興味のあるポイントのテキスト情報に対応するキー値ペアに基づいて、前記識別結果におけるキー値ペアを再確認することと、を含み、
及び、決定された検出ブロックに基づいて、前記初期テキスト検出モジュールをトレーニングすることは、
前記識別結果のキー値ペアが前記興味のあるポイントのテキスト情報に対応するキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、前記初期テキスト検出モジュールをトレーニングすることを含む。
本願の実施例では、キー値ペアに基づいて再確認する方法をトレーニングのトリガ条件とすることにより、トレーニングデータの有効性と正確さを確保することができ、トレーニング結果の信頼性を実現し、さらに識別の精度を実現する。
いくつかの実施例では、前記識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、前記識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得った後、前記方法はさらに、
前記興味のあるポイントのテキスト情報に対応するテキストタイプを決定すること、を含み、
及び、予め設定されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別することは、
前記テキストタイプに対応するテキスト識別モデルを選択し、選択されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別することを含む。
本願の実施例では、異なるテキスト識別モデルを選択して異なるテキストタイプの興味のあるポイントのテキスト情報を識別することにより、ターゲットの識別を実現し、それにより、識別の効率を向上させ、また識別の正確さを向上させることができる。
本願の実施例の別の態様によれば、本願の実施例はさらに、オブジェクト識別装置を提供し、前記装置は、
識別対象オブジェクトを収集するための収集モジュールと、
前記識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、前記識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得るための検出モジュールと、
予め設定されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別するための識別モジュールと、を含む。
いくつかの実施例では、前記装置はさらに、
初期テキスト検出モデルを用いて、収集されたサンプルオブジェクトに対応する検出ブロックを生成し、前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定し、決定された検出ブロックに基づいて、前記初期テキスト検出モデルをトレーニングし、前記ターゲットテキスト検出モデルを生成するためのトレーニングモジュールを含む。
いくつかの実施例では、前記トレーニングモジュールは、前記興味のあるポイントのテキスト情報に基づいて、前記検出ブロックに対して修正及び/又は削除操作を行うために用いられ、前記修正操作は、線分修正、テキスト修正及び四隅点位置修正のうちの少なくとも1つを含む。
いくつかの実施例では、前記トレーニングモジュールは、予め設定されたテキスト識別モデルに基づいて、決定された検出ブロックに対応するテキスト情報を識別し、識別結果を得、前記興味のあるポイントのテキスト情報に対応するキー値ペアに基づいて、前記識別結果におけるキー値ペアを再確認すること、及び、前記識別結果のキー値ペアが前記興味のあるポイントのテキスト情報に対応するキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、前記初期テキスト検出モジュールをトレーニングすることのために用いられる。
いくつかの実施例では、前記装置はさらに、
前記興味のあるポイントのテキスト情報に対応するテキストタイプを決定するための決定モジュールを含み、
及び、前記識別モジュールは、前記テキストタイプに対応するテキスト識別モデルを選択し、選択されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別するために用いられる。
本願の別の態様によれば、本願の実施例は電子機器をさらに提供し、前記電子機器は、
少なくとも1つのプロセッサ、及び
前記少なくとも1つのプロセッサと通信可能に接続されるメモリを含み、
前記メモリには前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも1つのプロセッサによって実行されることにより、前記少なくとも1つのプロセッサに、上記のいずれかの実施例に記載の方法を実行させることができる。
本願の別の態様によれば、本願の実施例はさらに、コンピュータ命令を記憶した非一時的なコンピュータで読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに、上記のいずれかの実施例に記載の方法を実行させる。
本願の別の態様によれば、本願の実施例はさらに、プログラムコードを含むコンピュータプログラムを提供し、コンピュータが前記コンピュータプログラムを実行すると、前記プログラムコードは上記のいずれかの実施例に記載の方法を実行させる。
本願の別の態様によれば、本願の実施例はさらに、コンピュータプログラムを含むコンピュータプログラム製品を提供し、前記コンピュータプログラムがプロセッサによって実行されると、上記のいずれかの実施例に記載の方法を実行させる。
本願の実施例は、オブジェクト識別方法と装置、電子機器、及び記憶媒体を提供し、前記方法は、識別対象オブジェクトを収集し、識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより興味のあるポイントのテキスト情報を得、予め設定されたテキスト識別モデルに基づいて興味のあるポイントのテキスト情報を識別することを含み、本願の実施例では、ターゲットテキスト検出モデルによって全量テキスト情報から選別して識別し、興味のあるポイントのテキスト情報を得ることにより、従来の技術における全量テキスト情報の識別を回避し、識別の時間を節約し、識別の効率を向上させた。
理解すべきなものとして、本部分で説明するコンテンツは、本願の実施例の主要又は重要な特徴を特定することを意図するものではなく、本願の範囲を制限するためにも使用されない。本願の他の特徴は、以下の明細書によって容易に理解される。
添付の図面は、本案をよりよく理解するために使用されており、本願を限定するものではない。
本願の実施例のオブジェクト識別方法のフローチャートである。 本願の実施例のターゲットテキスト検出モデルを得る方法のフローチャートである。 本願の別の実施例のターゲットテキスト検出モデルを得る方法のフローチャートである。 本願の別の実施例のオブジェクト識別方法のフローチャートである。 本願の実施例のオブジェクト識別方法の適用シーンの概略図である。 本願の実施例のインターフェース表示の概略図である。 本願の実施例のオブジェクト識別装置の概略図である。 本願の別の実施例のオブジェクト識別装置の概略図である。 本願の別の実施例のオブジェクト識別装置の概略図である。 本願の実施例の電子機器のブロック図である。
以下、添付図面を参照して本願の例示的な実施例を説明するが、本願の実施例の様々な詳細が理解を容易にするために含まれており、単なる例示的なものと考えられるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、本明細書に記載された実施例に様々な変更及び修正を加えることができることを理解するはずである。同様に、明確かつ簡潔にするために、以下の説明において、周知の機能及び構造の説明は省略されている。
上記の背景技術を組み合わせて分かるように、従来技術において、異なるカード、チケット、新聞及び教科書などを効率よく素早く識別するために、通常採用される方法は、OCR識別方法によって対応するOCR識別テンプレートを作成することであり、対応するOCR識別テンプレートを作成する際に、対応するサンプルデータを収集して、サンプルデータをトレーニングし、さらにOCR識別テンプレートを生成する。また、従来技術において、識別の信頼性を確保するために、選択されたサンプルデータの量が大きすぎ、且つトレーニングの過程では、全量テキスト情報の検出と識別が採用されている。
本願の発明者は、創造的な労働をした後、一部のテキスト情報に基づいて識別対象オブジェクトの識別を実現することに想到し、例えば、全量テキスト情報から興味のあるポイントのテキスト情報を選択し、このように、サンプルデータは一定の程度で減少することができ、且つ識別過程において、識別対象オブジェクトのテキスト情報が相対的に減少するため、識別効率は相対的に向上することができ、且つ全量テキスト情報から興味のあるポイントのテキスト情報を選別したので、ノイズ情報を低減し、識別の正確さを向上させることができる。
つまり、従来技術において、識別の正確さと効率を向上させるために、サンプルデータをできるだけ多く追加し、且つサンプルデータにおける全てのテキスト情報をできる限り識別する構想を採用した。しかし、本願の発明者は、サンプルデータをできるだけ減少させ、且つ識別されたテキスト情報をできるだけ減らす構想を採用した。
以下、具体的な実施例で、本願の技術的解決策及び本出願の技術的解決策が上記の技術的問題をどのように解決するかを詳細に説明する。以下のいくつかの具体的な実施例は、互いに結合してもよく、同じ又は類似の概念又はプロセスは、いくつかの実施例では繰り返さない可能性がある。以下、図面を組み合わせて、本願の実施例について説明する。
本願の実施例の1つの態様によれば、本願の実施例は、ブジェクト識別方法を提供する。
図1を参照する。図1は本願の実施例のオブジェクト識別方法のフローチャートである。
図1に示すように、当該方法は、S101~S103を含む。
S101において、識別対象オブジェクトを収集する。
識別対象オブジェクトは、OCR識別テンプレートによって識別できるオブジェクトである。例えば、識別対象オブジェクトは、カード、チケット、新聞及び教科書などを含む。
いくつかの実施例では、画像収集装置により識別対象オブジェクトを収集することができる。画像収集装置は、スキャナやカメラなどを含む。
S102において、識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得る。
当該ステップは、識別対象オブジェクトに対応するOCR識別テンプレートを決定し、COR識別テンプレートにおけるターゲットテキスト検出モデルを決定し、ターゲットテキスト検出モデルに基づいて、識別対象オブジェクトに対応する全量テキスト情報から興味のあるポイントの特徴を選別し、興味のあるポイントの特徴をテキスト検出し、興味のあるポイントのテキスト情報を得ることを具体的に含むことができる。
上記の例に基づいて分かるように、異なる識別対象オブジェクトは異なるOCR識別テンプレートに対応し、且つOCR識別テンプレートは2つの部分から構成され、一部はテキスト検出モデルであり、もう一部はテキスト識別モデルである。テキスト検出モデルは、識別対象オブジェクトを検出し、識別対象オブジェクトのテキスト情報を得るために用いられ、テキスト識別モデルは、テキスト情報を識別し、識別結果を得るために用いられる。
本願の実施例では、識別対象オブジェクトとOCR識別テンプレートとのマッピング関係、例えばマッピングテーブルやインデックス番号などは予め構築されてもよく、識別対象オブジェクトを収集した後、当該マッピング関係に基づいて、識別対象オブジェクトに対応するOCR識別テンプレートを決定する。
ターゲットテキスト検出モデルは、興味のあるポイントのテキスト情報のトレーニングに基づいて得られたものであり、詳細に後述し、ここでは繰り返さない。
全量テキスト情報は、名前の通り全てのテキストの情報であり、即ち、識別対象オブジェクトに対応する全てのテキストの情報である。興味のあるポイントのテキスト情報とは、全量テキスト情報に対する概念であり、テキスト情報の一部を指し、即ち、識別対象オブジェクトに対応する部分のテキストの情報であり、且つ当該部分のテキストの情報は興味のあるポイントに対応し、興味のあるポイントとは、識別対象オブジェクトにおいて注目されるポイントのテキストの情報である。当該興味のあるポイントは、ユーザに基づいて選択されたものであってもよく、例えば、識別対象オブジェクトである名刺を例にとって、興味のあるポイントは、ユーザが需要に基づいて予め選択した会社情報や職位情報などであってもよく、当該興味のあるポイントはまた、予め収集された識別対象オブジェクトに関する調査データに基づいて決定されてもよく、即ち、調査データに基づいて当該名刺が異なる人々によって注目されているポイントを決定し、クラスタリングなどの処理を行った後、興味のあるポイントを決定する。
上記の分析から分かるように、当該ステップにおいて、ターゲットテキスト検出モデルを用いて、識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得、従来技術における全量テキスト情報の識別に比べて、ノイズデータと識別データ量を低減し、識別の効率と信頼性を向上させた。
S103において、予め設定されたテキスト識別モデルに基づいて興味のあるポイントのテキスト情報を識別する。
S102に基づいて分かるように、ターゲットテキスト検出モデルを経た後、出力された興味のあるポイントのテキスト情報は、全量テキスト情報におけるテキスト情報の一部である。よって、当該ステップにおいて、テキスト識別モデルが識別したデータ量も比較的少なく、さらに識別の効率を向上させることができる。
上記の例に基づいて分かるように、ターゲットテキスト検出モデルは、興味のあるポイントのテキスト情報のトレーニングに基づいて得られたものであり、現在、図2を組み合わせて本願の実施例のターゲットテキスト検出モデルを得る方法を詳細に説明する。
図2に示すように、ターゲットテキスト検出モデルを得る方法は、S01~S03を含む。
S01において、初期テキスト検出モデルを用いて、収集されたサンプルオブジェクトに対応する検出ブロックを生成する。
初期テキスト検出モデルは、従来技術におけるテキスト検出モデルであり、神経ネットワークモデルとサンプルデータに基づいてトレーニング生成を行うことができ、ここでは繰り返さない。
検出ブロックは、サンプルオブジェクトの検出領域と検出領域内の情報(例えばテキスト情報など)を特徴づけるために使用される。
S01の前に、前記方法はさらに、サンプルオブジェクトを収集するステップを含む。
いくつかの実施例では、予め設定された画像収集装置によってサンプルオブジェクトを収集してもよく、例えばスキャナとカメラを含み、設定されたアップロードウィンドウも含み、ユーザはアップロードの形でサンプルオブジェクトをアップロードウィンドウを介してアップロードすることができる。
トレーニング過程の信頼性を確保するために、収集されたサンプルオブジェクトを優先的に前処理することができる。
例えば、サンプルオブジェクトに対して本体抽出を行い、即ち、サンプルオブジェクトの本体と背景を分離する。具体的に、モデルによりサンプルオブジェクトの本体部分を抽出し、背景の干渉を除去することができる。本体抽出のモデルは、画像分割モデル、例えば、セマンティック画像分割モデルDeepLabV3+、また例えば、工業用グレード分割モデルライブラリPaddleSegなどを採用することができる。
本体抽出を行った後、本体抽出後のサンプルオブジェクトに対して傾き補正を行うことができる。
例えば、撮影角度などの問題で、サンプルオブジェクトに一定の傾きがある場合があるので、傾きを補正し、具体的にはオープンソースコンピュータ視覚ライブラリOpencvの補正アルゴリズムを採用して、本体抽出後のサンプルオブジェクトの補正を完了することができる。
補正を行った後、補正後のサンプルオブジェクトをズームすることができる。
例えば、ズーム後、異なるサンプルオブジェクトのテキスト位置は接近し、トレーニングが容易になり、トレーニングの信頼性を高め、トレーニング誤差を低減する。具体的には、ズームインは、超解像アルゴリズムSRCNNで実現されてもよく、ズームアウトはオープンソースコンピュータ視覚ライブラリOpencvのズームアウトアルゴリズムで実現されてもよい。
ズームを行った後、ズーム後のサンプルオブジェクトに対して画像強化を行うことができる。
例えば、ズーム後のサンプルオブジェクトのコントラストをより高度にし、識別率を高めるために、ズーム後のサンプルオブジェクトに対して画像強化を行うことができる。具体的には、オープンソースコンピュータ視覚ライブラリOpencvのシャープ化処理を採用して、ズーム後のサンプルオブジェクトのエッジをより明確にすることができる。より具体的には、二次導関数を採用してシャープ化を完了することができ、例えば、Laplacian演算子フィルタリングを用いて、ズーム後のサンプルオブジェクトの重み付きピクセルの重ね合わせを加えて、シャープ化を完了する。
S02において、検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定する。
いくつかの実施例では、当該ステップは具体的に、興味のあるポイントのテキスト情報に基づいて、検出ブロックに対して修正操作及び/又は削除操作を行うことを含み、修正操作は、線分修正、テキスト修正及び四隅点位置修正のうちの少なくとも1つを含む。
上記の例に基づいて分かるように、興味のあるポイントのテキスト情報は、ユーザが選択した興味のあるポイントに対応するテキストの情報であってもよいし、予め設定された興味のあるポイントに対応するテキスト情報であってもよく、且つ予め設定された興味のあるポイントは、調査データに基づいて生成されてもよい。ここでは、興味のあるポイントのテキスト情報はユーザが選択した興味のあるポイントに対応するテキストの情報である例をとって、当該ステップを詳細に説明する。
初期テキスト検出モデルに基づいて検出ブロックを生成する場合、検出ブロックを表示することができ、例えば表示機器によって検出ブロックを表示する。
ユーザは、興味のあるポイントのテキスト情報(即ち、ユーザが興味のある点のテキストの情報)に基づいて、検出ブロックを修正又は削除することができる。
例えば、ある検出ブロック内のテキストに傾斜文字が存在すると、ユーザは、当該傾斜文字を適応的に調整することができ、また例えば、ある検出ブロックの中の文字の一部が検出ブロックを超えている場合、ユーザは、当該検出ブロックの大きさを適応的に調整することができ、具体的には検出ブロックの線分を適応的に調整することができ、又は検出ブロックの四隅点位置を適応的に調整することができ、また例えば、ある検出ブロック内のテキスト情報は非興味のあるポイントの情報テキストであり、即ち、当該検出ブロック内のテキスト情報はユーザが興味のないテキスト情報である場合、ユーザは、当該検出ブロックを削除することができるなど、ここでは一々に列挙しない。
S03において、決定された検出ブロックに基づいて、初期テキスト検出モデルをトレーニングし、ターゲットテキスト検出モデルを生成する。
当該ステップにおいて、決定された検出ブロックに基づいて初期テキスト検出モデルを二次トレーニングし、ターゲットテキスト検出モデルを生成する。
なお、再トレーニングに比較して、二次トレーニングの方法によりターゲットテキスト検出モデルを生成する効率を向上させ、トレーニングコストを節約することができる。
図3を組み合わせて分かるように、いくつかの実施例では、S02の後、当該方法はさらに、S02’~S03’を含む。
S02’において、予め設定されたテキスト識別モデルに基づいて、決定された検出ブロックに対応するテキスト情報を識別し、識別結果を得る。
本願の実施例では、具体的な識別方法は従来技術を参照してもよく、ここでは繰り返さない。
S03’において、興味のあるポイントのテキスト情報に対応するキー値ペアに基づいて、識別結果におけるキー値ペアを再確認する。
興味のあるポイントのテキスト情報に対応するキー値ペアに基づいて、識別結果におけるキー値ペアを再確認することにより、識別結果におけるキー値ペアが興味のあるポイントのテキスト情報に対応するキー値ペアと同じかどうかを判定することができる。即ち、2つのキー値ペアを再確認する過程は、2つのキー値ペアが同じかどうかを判断する過程として理解されることができる。
及び、S03は、識別結果のキー値ペアが興味のあるポイントのテキスト情報に対応するキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、初期テキスト検出モジュールをトレーニングすることを含む。
なお、識別結果のキー値ペアに基づいて、興味のあるポイントのテキスト情報に対応するキー値ペアを再確認し、得られた再確認結果は、識別結果のキー値ペアが興味のあるポイントのテキスト情報に対応するキー値ペアと異なる場合があり、例えば、識別結果のキー値ペアに基づいて分かるように、Aはキー(姓など)であるが、興味のあるポイントのテキスト情報に対応するキー値ペアに基づいて分かるように、Aは値(名前など)である場合、当該識別結果に対応するサンプルデータは異常なサンプルデータである可能性があることを意味し、当該識別結果に対応する検出ブロックを削除することができ、或いは、後続のトレーニングを行うために、当該識別結果に対応する検出ブロックを適応的に修正することができる。
また例えば、識別結果のキー値ペアに基づいて分かるように、Aはキー(姓など)であり、且つ興味のあるポイントのテキスト情報に対応するキー値ペアに基づいて分かるように、Aはキー(姓など)である場合、当該識別結果に対応するサンプルデータは、正常なサンプルデータであることを意味し、当該結果に対応する検出ブロックを後続のトレーニングの入力情報とする。
本願の実施例では、正常なサンプルデータを保ち、正常なサンプルデータに対応する検出ブロックをトレーニングするために、キー値ペアの再確認に基づいて異常なサンプルデータを排除することができ、トレーニング結果の信頼性と正確さを向上させ、即ち、ターゲットテキスト検出モデルの信頼性と正確さを確保し、さらに正確で効果的な識別の技術的効果を実現することができる。
いくつかの実施例では、図4を組み合わせて分かるように、S102の後、当該方法はさらに、S102’を含む。
S102’において、興味のあるポイントのテキスト情報に対応するテキストタイプを決定する。
なお、識別結果の信頼性と正確さを確保して、識別の効率を向上させるために、本願の実施例では、興味のあるポイントのテキスト情報に対応するテキストタイプの決定により、異なる興味のあるポイントのテキスト情報に基づいて、それぞれに対応するテキストタイプを選択することができ、後続に異なるテキストタイプに基づいてテキスト識別モデルを適応的に選択して識別するようにする。
テキストタイプは、文字、手書き及びアルファベットなどを含むが、これらに限られない。
いくつかの実施例では、興味のあるポイントのテキスト情報を分析して、それに対応するテキストタイプを得ることができる。
別のいくつかの実施例では、上記の例を組み合わせて、ユーザとのインタラクションに基づいて興味のあるポイントのテキスト情報を生成することができる。よって、ユーザとのインタラクションに基づいて、興味のあるポイントのテキスト情報に対応するテキストタイプを予め記憶してもよい。
例えば、ユーザとのインタラクションに基づいて、ユーザが検出ブロック内のテキスト情報のために選択したテキストタイプを記憶し、興味のあるポイントのテキスト情報を識別する必要がある場合、記憶されたテキストタイプに対応するテキスト識別モデルを呼び出す。
さらに、S103は、テキストタイプに対応するテキスト識別モデルを選択し、選択されたテキスト識別モデルに基づいて興味のあるポイントのテキスト情報を識別することを含む。
例えば、興味のあるポイントのテキスト情報に対応するテキストタイプが手書きである場合、手書きのテキスト識別モデルに基づいて当該興味のあるポイントのテキスト情報を識別する。
なお、興味のあるポイントのテキスト情報における異なる領域に対応するテキストタイプが異なる場合があり、異なる領域に対して、異なるテキスト識別モデルを選択し、異なるテキスト識別モデルに基づいて異なる領域を識別するようにする。
本願の実施例の解決策及び効果をより深く理解するために、図5(図5は本願の実施例のオブジェクト識別方法の適用シーンの概略図である)を組み合わせて、本願の実施例のオブジェクト識別方法を詳細に説明する。本願の実施例の実行主体はオブジェクト識別装置であり、且つ図5に示すように、オブジェクト識別装置はコンピュータ100を含むことができ、ユーザ200とコンピュータ100とのインタラクションにより、本願の実施例のオブジェクト識別方法を実現する。
本願の実施例は、2つの部分に分けられることができ、1つの部分はトレーニング部分であり、もう1つの部分は識別部分である。
具体的には、トレーニング部分は、OCR識別テンプレートをトレーニングすることを含み、OCR識別テンプレートは、テキスト検出モデルとテキスト識別モデルを含んでもよい。テキスト検出モデルは、識別対象オブジェクトを識別して、識別対象オブジェクトに対応するテキスト情報を得るために用いられる。説明すべきものとして、従来技術において、テキスト検出モデルは、識別対象オブジェクトを識別して、識別対象オブジェクトの全量テキスト情報を得るために用いられる。本願の実施例では、テキスト検出モデルは、識別対象オブジェクトを識別して、識別対象オブジェクトの興味のあるポイントのテキスト情報を得、本願の実施例におけるテキスト検出モデルは、識別により興味のあるポイントのテキスト情報を得ることを実現することができる理由は、以下、トレーニングの原理を組み合わせて詳細に説明する。
トレーニング過程に収集された識別オブジェクトとトレーニングに基づいて得られたOCR識別テンプレートを区別するために識別オブジェクトを識別し、トレーニング過程における識別オブジェクトをサンプルオブジェクトと呼び、識別過程におけるオブジェクトを識別対象オブジェクトと呼び、かつトレーニング過程に基礎となるトレーニングモデルとトレーニングによって得られたモデルの違いを区別するために、モデルの前に区別用の「初期」と「ターゲット」などを追加して限定するなどのことを行う。
図5に示すように、コンピュータ100は、ユーザ200が入力したサンプルオブジェクトを収集する。
いくつかの実施例では、コンピュータ100は、サンプルオブジェクトをアップロードするウィンドウを設定して表示することができ、ユーザ200は、サンプルオブジェクトを当該ウィンドウを介してコンピュータ100に伝送する。
もちろん、別のいくつかの実施例では、図5に示すように、スキャナ300を設けてもよく、スキャナ300はコンピュータ100と通信可能に接続される。ユーザ100は、サンプルオブジェクトをスキャナ300に入れ(図5における配置形態を参照してもよい)、スキャナ300によってサンプルオブジェクトをスキャンし、スキャンしたサンプルオブジェクトをコンピュータ100に伝送する。
コンピュータ100は、予め記憶された初期テキスト検出モデルを呼び出して、初期テキスト検出モデルによりサンプルオブジェクトを識別し、対応する検出ブロックを生成して表示し、図6における6-1(破線枠で検出ブロックを表す)を参照されたい。
ユーザ200は、検出ブロックに対して適応的な操作を実行して、興味のあるポイントのテキスト情報に対応する検出ブロックを生成する。
当該ステップにおいて、ユーザ200とコンピュータ100との間のインタラクションに関連しているので、ユーザが実行する適応的な操作は、需要に基づいて実行される場合があり、即ち、ユーザは、興味のあるポイントを心に設定し、適応的な操作を実行して、興味のあるポイントのテキスト情報に対応する検出ブロックを生成する。
図6における6-1に示すように、ユーザは、検出ブロック「お客様第一、誠実なサービス」を削除し、検出ブロック「電話:150XXXXXXXX」に対して四隅点位置修正を行う。修正後の図は、図6における6-2を参照されたい。
図6における6-2に示すようなデータを二次トレーニングのサンプルデータとして、当該サンプルデータに基づいて初期テキスト検出モデルを二次トレーニングし、ターゲットテキスト検出モデルを生成する。
いくつかの実施例では、トレーニングのサンプルオブジェクトのサンプル量は、必要に応じて設定されてもよく、ユーザインタラクションの形態を採用すれば、比較的少ないサンプル量を採用してもよく、例えば、サンプル量を10に設定すると、コンピュータ100は、ユーザ200が10個のサンプルオブジェクトを適応的な操作を行った後に生成したサンプルデータを二次トレーニングのデータとする。
また、ユーザ200は、興味のあるポイントのテキスト情報に対応する検出ブロックの文字タイプを選択することができ、例えば、検出ブロック「電話:150XXXXXXXX」について、ユーザ200は、コンピュータ100の識別過程において、予め記憶されたデジタルタイプに対応するテキスト識別モデルを呼び出し、当該テキスト識別モデルによって当該検出ブロックを識別するように、デジタルタイプを選択することができ、それにより、識別の効率を向上させる。
反復トレーニングを経て、識別の精度が予め設置された要件に達した場合、ターゲットテキスト検出モデルとテキスト識別モデルを含むOCR識別テンプレートを生成する。
これまで、トレーニング部分は終了する。
識別部分においても、ユーザ200は、上記のように識別対象オブジェクトをコンピュータ100に入力する。
コンピュータ100は、上記の方法でトレーニングして得られたOCR識別テンプレートから、識別対象オブジェクトに対応するOCR識別テンプレートを選択して、当該OCR識別テンプレートに基づいて識別対象オブジェクトを識別するようにする。
具体的には、コンピュータ100は、まずOCR識別テンプレートにおけるターゲットテキスト検出モデルを呼び出して、識別対象オブジェクトを識別し、識別対象オブジェクトに対応する興味のあるポイントのテキスト情報を得る。
なお、トレーニング部分において、興味のあるポイントのテキスト情報に基づいて、初期テキスト検出モデルを二次トレーニングしてターゲットテキスト検出モデルを得るので、ターゲットテキスト検出モデルに基づいて、識別対象オブジェクトと興味のあるポイントのテキスト情報を識別することができる。これにより、識別量を低減し、識別効率を向上させることを実現できる。
興味のあるポイントのテキスト情報を識別した後、興味のあるポイントのテキスト情報を分析し、又はユーザ200が選択したテキストタイプに基づいて、対応するテキスト識別モデルを呼び出し、当該テキスト識別モデルによって当該興味のあるポイントのテキスト情報を識別する。
これまで、識別部分は終了する。
なお、上記の例は、適用シーンを組み合わせて本願の実施例を例示的に説明するだけであり、開示の実施例の範囲を限定するものとして理解されることができない。
本願の実施例の別の態様によれば、本願の実施例はまた、オブジェクト識別装置を提供する。
図7を参照する。図7は本願の実施例のオブジェクト識別装置の概略図である。
図7に示すように、当該装置は、
識別対象オブジェクトを収集するための収集モジュール10と、
前記識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、前記識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得るための検出モジュール20と、
予め設定されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別するための識別モジュール30と、を含む。
いくつかの実施例では、図8を組み合わせて分かるように、当該装置はさらに、
初期テキスト検出モデルを用いて、収集されたサンプルオブジェクトに対応する検出ブロックを生成し、前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定し、決定された検出ブロックに基づいて、前記初期テキスト検出モデルをトレーニングし、前記ターゲットテキスト検出モデルを生成するためのトレーニングモジュール40を含む。
いくつかの実施例では、前記トレーニングモジュール40は、前記興味のあるポイントのテキスト情報に基づいて、前記検出ブロックに対して修正及び/又は削除操作を行うために用いられ、前記修正操作は、線分修正、テキスト修正及び四隅点位置修正のうちの少なくとも1つを含む。
いくつかの実施例では、前記トレーニングモジュール40は、予め設定されたテキスト識別モデルに基づいて、決定された検出ブロックに対応するテキスト情報を識別し、識別結果を得、前記興味のあるポイントのテキスト情報に対応するキー値ペアに基づいて、前記識別結果におけるキー値ペアを再確認すること、及び、前記識別結果のキー値ペアが前記興味のあるポイントのテキスト情報に対応するキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、前記初期テキスト検出モジュールをトレーニングすること、に用いられる。
いくつかの実施例では、図9を組み合わせて分かるように、当該装置はさらに、
前記興味のあるポイントのテキスト情報に対応するテキストタイプを決定するための決定モジュール50、
及び、前記テキストタイプに対応するテキスト識別モデルを選択し、選択されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別するための前記識別モジュール30、を含む。
本願の実施例の別の態様によれば、本願はまた、電子機器と読み取り可能な記憶媒体を提供する。
本願の実施例によれば、本願はまた、電子機器と読み取り可能な記憶媒体を提供する。
図10に示すように、図10は本願の実施例の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを意図している。電子機器は、パーソナルデジタル処理、セルラー電話、スマートフォン、ウェアラブルデバイス及び他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書に示すコンポーネント、それらの接続及び関係、及びそれらの機能は、単なる例であり、本明細書で記載及び/又は要求される本願の実施を制限することを意図したものではない。
図10に示すように、当該電子機器は、1つ又は複数のプロセッサ101と、メモリ102と、高速インターフェース及び低速インターフェースを含む様々なコンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスを使用して相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の形態で取り付けられてもよい。プロセッサは、電子機器内で実行される命令を処理することができ、前記命令は、GUIのグラフィック情報を外部入力/出力装置(例えばインターフェースに結合された表示機器など)に表示するためにメモリ内又はメモリに記憶された命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリと複数のメモリと一緒に使用してもよい。同様に、複数の電子機器を接続することができ、各機器は、一部の必要な操作(例えば、サーバーアレイ、1グループのブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図10では、プロセッサ101を例に取る。
メモリ102は、本願の実施例で提供される非一時的なコンピュータで読み取り可能な記憶媒体である。前記メモリには、少なくとも1つのプロセッサによって実行可能な命令が記憶されることにより、前記少なくとも1つのプロセッサが本願の実施例で提供されるオブジェクト識別方法を実行する。本願の実施例の非一時的なコンピュータで読み取り可能な記憶媒体には、本願の実施例で提供されるオブジェクト識別方法をコンピュータに実行させるためのコンピュータ命令が記憶されている。
メモリ102は、非一時的なコンピュータで読み取り可能な記憶媒体として、本願の実施例で推薦される対応するプログラム命令/モジュールなど、非一時的なソフトウェアプログラム、非一時的なコンピュータで実行可能なプログラム及びモジュールを記憶するために使用できる。プロセッサ101は、メモリ102に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例におけるオブジェクト識別方法を実行する。
メモリ102には、プログラムストレージエリア及びデータストレージエリアを含んでもよく、プログラムストレージエリアには、オペレーティングシステム及び少なくとも1つの機能に必要なアプリケーションプログラムを記憶することができ、データストレージエリアには、電子機器の使用に応じて作成されたデータなどを記憶することができる。なお、メモリ102は、高速ランダムアクセスメモリを含んでもよく、また、少なくとも1つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよい。いくつかの実施例では、メモリ102は、プロセッサ101に対してリモートに設定されたメモリを選択的に含むことができ、これらのリモートメモリは、ネットワークを介して電子機器に接続されてもよい。上記ネットワークの例は、インターネット、企業イントラネット、ローカルエリアネットワーク、ブロックチェーンサービスネットワーク(Block-chain-based Service Network、BSN)、モバイル通信ネットワーク、及びこれらの組み合わせを含むが、これらに限定されない。
電子機器は、さらに、入力装置103と出力装置104を含んでもよい。プロセッサ101、メモリ102、入力装置103及び出力装置104は、バス又は他の形態で接続されてもよいが、図10では、バスで接続されることを例とする。
入力装置103は、入力された数字又は文字情報を受信し、電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置104は、表示機器、補助照明装置(例えば、LED)及び触覚フィードバック(例えば、振動モーター)などを含んでもよい。当該表示機器は、液晶ディスプレイ(LCD)、発光ダイオード(LED)ディスプレイ及びプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施形態では、表示機器はタッチスクリーンであってもよい。
本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせで実施されることができる。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムで実施され、当該1つ又は複数コンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び/又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に送信することができる。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び/又は対象指向プログラミング言語、及び/又はアセンブリ/機械言語を用いてこれらの計算プログラムを実施することができる。本明細書に使用されるように、「機械で読み取り可能な媒体」及び「コンピュータで読み取り可能な媒体」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び/又は装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指し、機械で読み取り可能な信号である機械命令を受信する機械で読み取り可能な媒体を含む。「機械で読み取り可能な信号」という用語は、機械命令及び/又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとのインタラクションを提供するために、ここで説明するシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)、及びキーボード及びポインティングデバイス(例えば、マウス又はトラックボール)を有し、ユーザは、当該キーボード及びポインティングデバイスによってコンピュータに入力を提供できる。他のタイプの装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックが、任意の形態のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、任意の形態(音響入力、音声入力、又は触覚入力を含む)を使用して、ユーザからの入力を受信してもよい。
本明細書で説明するシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェアコンポーネントを含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンドコンポーネントを含むコンピューティングシステム(例えば、グラフィカルユーザインターフェース又はWebブラウザを備えたユーザコンピュータ、ユーザが、当該グラフィカルユーザインターフェース又は当該Webブラウザを通じて本明細書で説明されるシステム及び技術の実施形態とインタラクションすることができる)、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組合せを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信(例えば、通信ネットワーク)を通じて、システムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカエリアルネットワーク(LAN)、ブロックチェーンサービスネットワーク(Block-chain-based Service Network、BSN)、ワイドエリアネットワーク(WAN)及びインターネットを含む。
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアント及びサーバは、一般に、互いに離れており、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行されかつ互いにクライアント-サーバの関係を持つコンピュータプログラムによって、クライアントとサーバ間の関係が生成される。
本願の実施例の別の態様によれば、本願の実施例はまた、プログラムコードを含むコンピュータプログラムを提供し、コンピュータが前記コンピュータプログラムを実行すると、前記プログラムコードは上記のいずれかの実施例に記載の方法を実行させる。
本願の実施例の別の態様によれば、本願の実施例はまた、コンピュータプログラムを含むコンピュータプログラム製品を提供し、前記コンピュータプログラムはプロセッサで実行されると、上記のいずれかの実施例に記載の方法を実行させる。
なお、上記に示される様々な形態のフローを使用して、ステップの順序を並べ替え、追加、又は削除することができる。例えば、本願に記載された各ステップは、本願に開示された技術の解決手段の所望の結果が達成され得る限り、並列、順次、又は異なる順序で実行されてもよく、本明細書に限定されない。
上記の具体的な実施形態は、本願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に基づいて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができることを理解すべきである。本願の精神と原則の範囲内で行われる任意の修正、同等の置換、及び改善などは、いずれも本願の保護範囲に含まれるべきである。
本願は、2020年2月10日に中国特許庁に提出され、出願番号がCN202010085064.1で、出願名称が「オブジェクト識別方法と装置、電子機器及び記憶媒体」である中国特許出願の優先権を主張し、これらの全部内容は、すべて援用により本願に組み込まれる。
別のいくつかの実施例では、前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定した後、前記方法はさらに、
予め設定されたテキスト識別モデルに基づいて、決定された検出ブロックに対応するテキスト情報を識別し、識別結果を得ることと、
前記興味のあるポイントのテキスト情報に対応する第1のキー値ペアに基づいて、前記識別結果における第2のキー値ペアを再確認することと、を含み、
及び、決定された検出ブロックに基づいて、前記初期テキスト検出モデルをトレーニングすることは、
前記識別結果の第2のキー値ペアが前記興味のあるポイントのテキスト情報に対応する第1のキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、前記初期テキスト検出モデルをトレーニングすることを含む。
いくつかの実施例では、前記トレーニングモジュールは、予め設定されたテキスト識別モデルに基づいて、決定された検出ブロックに対応するテキスト情報を識別し、識別結果を得、前記興味のあるポイントのテキスト情報に対応する第1のキー値ペアに基づいて、前記識別結果における第2のキー値ペアを再確認すること、及び、前記識別結果の第2のキー値ペアが前記興味のあるポイントのテキスト情報に対応する第1のキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、前記初期テキスト検出モデルをトレーニングすることのために用いられる。
当該ステップは、識別対象オブジェクトに対応するOCR識別テンプレートを決定し、OCR識別テンプレートにおけるターゲットテキスト検出モデルを決定し、ターゲットテキスト検出モデルに基づいて、識別対象オブジェクトに対応する全量テキスト情報から興味のあるポイントの特徴を選別し、興味のあるポイントの特徴をテキスト検出し、興味のあるポイントのテキスト情報を得ることを具体的に含むことができる。
例えば、ズーム後のサンプルオブジェクトのコントラストをより強くし、識別率を高めるために、ズーム後のサンプルオブジェクトに対して画像強化を行うことができる。具体的には、オープンソースコンピュータ視覚ライブラリOpencvのシャープ化処理を採用して、ズーム後のサンプルオブジェクトのエッジをより明確にすることができる。より具体的には、二次導関数を採用してシャープ化を完了することができ、例えば、Laplacian演算子フィルタリングを用いて、ズーム後のサンプルオブジェクトの重み付きピクセルの重ね合わせを加えて、シャープ化を完了する。
S03’において、興味のあるポイントのテキスト情報に対応する第1のキー値ペアに基づいて、識別結果における第2のキー値ペアを再確認する。
興味のあるポイントのテキスト情報に対応する第1のキー値ペアに基づいて、識別結果における第2のキー値ペアを再確認することにより、識別結果における第2のキー値ペアが興味のあるポイントのテキスト情報に対応する第1のキー値ペアと同じかどうかを判定することができる。即ち、2つのキー値ペアを再確認する過程は、2つのキー値ペアが同じかどうかを判断する過程として理解されることができる。
及び、S03は、識別結果の第2のキー値ペアが興味のあるポイントのテキスト情報に対応する第1のキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、初期テキスト検出モデルをトレーニングすることを含む。
なお、識別結果の第2のキー値ペアに基づいて、興味のあるポイントのテキスト情報に対応する第1のキー値ペアを再確認し、得られた再確認結果は、識別結果の第2のキー値ペアが興味のあるポイントのテキスト情報に対応する第1のキー値ペアと異なる場合があり、例えば、識別結果の第2のキー値ペアに基づいて分かるように、Aはキー(姓など)であるが、興味のあるポイントのテキスト情報に対応する第1のキー値ペアに基づいて分かるように、Aは値(名前など)である場合、当該識別結果に対応するサンプルデータは異常なサンプルデータである可能性があることを意味し、当該識別結果に対応する検出ブロックを削除することができ、或いは、後続のトレーニングを行うために、当該識別結果に対応する検出ブロックを適応的に修正することができる。
また例えば、識別結果の第2のキー値ペアに基づいて分かるように、Aはキー(姓など)であり、且つ興味のあるポイントのテキスト情報に対応する第1のキー値ペアに基づいて分かるように、Aはキー(姓など)である場合、当該識別結果に対応するサンプルデータは、正常なサンプルデータであることを意味し、当該結果に対応する検出ブロックを後続のトレーニングの入力情報とする。
もちろん、別のいくつかの実施例では、図5に示すように、スキャナ300を設けてもよく、スキャナ300はコンピュータ100と通信可能に接続される。ユーザ200は、サンプルオブジェクトをスキャナ300に入れ(図5における配置形態を参照してもよい)、スキャナ300によってサンプルオブジェクトをスキャンし、スキャンしたサンプルオブジェクトをコンピュータ100に伝送する。
なお、トレーニング部分において、興味のあるポイントのテキスト情報に基づいて、初期テキスト検出モデルを二次トレーニングしてターゲットテキスト検出モデルを得るので、ターゲットテキスト検出モデルに基づいて、識別対象オブジェクトに対応する興味のあるポイントのテキスト情報を識別することができる。これにより、識別量を低減し、識別効率を向上させることを実現できる。
いくつかの実施例では、前記トレーニングモジュール40は、予め設定されたテキスト識別モデルに基づいて、決定された検出ブロックに対応するテキスト情報を識別し、識別結果を得、前記興味のあるポイントのテキスト情報に対応する第1のキー値ペアに基づいて、前記識別結果における第2のキー値ペアを再確認すること、及び、前記識別結果の第2のキー値ペアが前記興味のあるポイントのテキスト情報に対応する第1のキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、前記初期テキスト検出モデルをトレーニングすること、に用いられる。
図10に示すように、図10は本願の実施例の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを意図している。電子機器は、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブルデバイス及び他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書に示すコンポーネント、それらの接続及び関係、及びそれらの機能は、単なる例であり、本明細書で記載及び/又は要求される本願の実施を制限することを意図したものではない。
図10に示すように、当該電子機器は、1つ又は複数のプロセッサ101と、メモリ102と、高速インターフェース及び低速インターフェースを含む様々なコンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスを使用して相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の形態で取り付けられてもよい。プロセッサは、電子機器内で実行される命令を処理することができ、前記命令は、GUIのグラフィック情報を外部入力/出力装置(例えばインターフェースに結合された表示機器など)に表示するためにメモリ内又はメモリに記憶された命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び/又は複数のバスを、複数のメモリと一緒に使用してもよい。同様に、複数の電子機器を接続することができ、各機器は、一部の必要な操作(例えば、サーバーアレイ、1グループのブレードサーバ、又はマルチプロセッサシステムとする)を提供することができる。図10では、プロセッサ101を例に取る。

Claims (14)

  1. オブジェクト識別方法であって、前記方法は、
    識別対象オブジェクトを収集することと、
    前記識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、前記識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得ることと、
    予め設定されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別することと、を含む、
    オブジェクト識別方法。
  2. 前記識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、前記識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得る前に、前記方法はさらに、
    初期テキスト検出モデルを用いて、収集されたサンプルオブジェクトに対応する検出ブロックを生成することと、
    前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定することと、
    決定された検出ブロックに基づいて、前記初期テキスト検出モデルをトレーニングし、前記ターゲットテキスト検出モデルを生成することと、を含む、
    請求項1に記載の方法。
  3. 前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定することは、
    前記興味のあるポイントのテキスト情報に基づいて、前記検出ブロックに対して修正及び/又は削除操作を行うことを含み、前記修正操作は、線分修正、テキスト修正及び四隅点位置修正のうちの少なくとも1つを含む、
    請求項2に記載の方法。
  4. 前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定した後、前記方法はさらに、
    予め設定されたテキスト識別モデルに基づいて、決定された検出ブロックに対応するテキスト情報を識別し、識別結果を得ることと、
    前記興味のあるポイントのテキスト情報に対応するキー値ペアに基づいて、前記識別結果におけるキー値ペアを再確認することと、を含み、
    及び、決定された検出ブロックに基づいて、前記初期テキスト検出モジュールをトレーニングすることは、
    前記識別結果のキー値ペアが前記興味のあるポイントのテキスト情報に対応するキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、前記初期テキスト検出モジュールをトレーニングすることを含む、
    請求項2又は請求項3に記載の方法。
  5. 前記識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、前記識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得った後、前記方法はさらに、
    前記興味のあるポイントのテキスト情報に対応するテキストタイプを決定することを含み、
    及び、予め設定されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別することは、
    前記テキストタイプに対応するテキスト識別モデルを選択し、選択されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別することを含む、
    請求項1~4のいずれか1項に記載の方法。
  6. オブジェクト識別装置であって、前記装置は、
    識別対象オブジェクトを収集するための収集モジュールと、
    前記識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、前記識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得るための検出モジュールと、
    予め設定されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別するための識別モジュールと、を含む、
    オブジェクト識別装置。
  7. 前記装置はさらに、
    初期テキスト検出モデルを用いて、収集されたサンプルオブジェクトに対応する検出ブロックを生成し、前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定し、決定された検出ブロックに基づいて、前記初期テキスト検出モデルをトレーニングし、前記ターゲットテキスト検出モデルを生成するためのトレーニングモジュールを含む、
    請求項6に記載の装置。
  8. 前記トレーニングモジュールは、前記興味のあるポイントのテキスト情報に基づいて、前記検出ブロックに対して修正及び/又は削除操作を行うために用いられ、前記修正操作は、線分修正、テキスト修正及び四隅点位置修正のうちの少なくとも1つを含む、
    請求項7に記載の装置。
  9. 前記トレーニングモジュールは、予め設定されたテキスト識別モデルに基づいて、決定された検出ブロックに対応するテキスト情報を識別し、識別結果を得、前記興味のあるポイントのテキスト情報に対応するキー値ペアに基づいて、前記識別結果におけるキー値ペアを再確認すること、及び、前記識別結果のキー値ペアが前記興味のあるポイントのテキスト情報に対応するキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、前記初期テキスト検出モジュールをトレーニングすること、に用いられる、
    請求項7又は請求項8に記載の装置。
  10. 前記装置はさらに、
    前記興味のあるポイントのテキスト情報に対応するテキストタイプを決定するための決定モジュールを含み、
    及び、前記識別モジュールは、前記テキストタイプに対応するテキスト識別モデルを選択し、選択されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別すること、に用いられる
    請求項6~9のいずれか1項に記載の装置。
  11. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサと通信可能に接続されるメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも1つのプロセッサが請求項1~5のいずれか1項に記載の方法を実行できるように、前記少なくとも1つのプロセッサによって実行される、
    電子機器。
  12. コンピュータ命令が記憶されている非一時的なコンピュータで読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項1~5のいずれか1項に記載の方法を実行させるために用いられる、
    非一時的なコンピュータで読み取り可能な記憶媒体。
  13. プログラムコードを含むコンピュータプログラムであって、コンピュータが前記コンピュータプログラムを実行すると、前記プログラムコードは請求項1~5のいずれか1項に記載の方法を実行させる、
    コンピュータプログラム。
  14. コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムはプロセッサで実行されると、請求項1~5のいずれか1項に記載の方法を実現させるコンピュータプログラム製品。
JP2021572659A 2020-02-10 2020-12-11 オブジェクト識別方法と装置、電子機器及び記憶媒体 Active JP7389824B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010085064.1A CN111291742B (zh) 2020-02-10 2020-02-10 对象识别方法和装置、电子设备、存储介质
CN202010085064.1 2020-02-10
PCT/CN2020/135744 WO2021159843A1 (zh) 2020-02-10 2020-12-11 对象识别方法和装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
JP2022536320A true JP2022536320A (ja) 2022-08-15
JP7389824B2 JP7389824B2 (ja) 2023-11-30

Family

ID=71021973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021572659A Active JP7389824B2 (ja) 2020-02-10 2020-12-11 オブジェクト識別方法と装置、電子機器及び記憶媒体

Country Status (6)

Country Link
US (1) US11995905B2 (ja)
EP (1) EP3979129A4 (ja)
JP (1) JP7389824B2 (ja)
KR (1) KR102610456B1 (ja)
CN (1) CN111291742B (ja)
WO (1) WO2021159843A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291742B (zh) * 2020-02-10 2023-08-04 北京百度网讯科技有限公司 对象识别方法和装置、电子设备、存储介质
US11651161B2 (en) * 2020-02-13 2023-05-16 International Business Machines Corporation Automated detection of reasoning in arguments
CN116309494B (zh) * 2023-03-23 2024-01-23 宁波斯年智驾科技有限公司 一种电子地图中兴趣点信息确定方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635627A (zh) * 2018-10-23 2019-04-16 中国平安财产保险股份有限公司 图片信息提取方法、装置、计算机设备及存储介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03231391A (ja) * 1990-02-07 1991-10-15 Sumitomo Electric Ind Ltd 文字認識装置
KR100798477B1 (ko) * 2006-05-23 2008-01-28 주식회사 인프라밸리 차영상과 신경망을 이용한 자동차 번호판 인식 방법
US20120092329A1 (en) * 2010-10-13 2012-04-19 Qualcomm Incorporated Text-based 3d augmented reality
US9501853B2 (en) * 2015-01-09 2016-11-22 Adobe Systems Incorporated Providing in-line previews of a source image for aid in correcting OCR errors
CN107291743B (zh) * 2016-03-31 2020-10-16 北京星选科技有限公司 数据的调用方法和装置
CN107292302B (zh) * 2016-03-31 2021-05-14 阿里巴巴(中国)有限公司 检测图片中兴趣点的方法和***
CN106682698A (zh) 2016-12-29 2017-05-17 成都数联铭品科技有限公司 基于模板匹配的ocr识别方法
CN106682666A (zh) 2016-12-29 2017-05-17 成都数联铭品科技有限公司 用于非常见字体ocr识别的特征模板制备方法
CN107220648B (zh) * 2017-04-11 2018-06-22 平安科技(深圳)有限公司 理赔单据的字符识别方法及服务器
CN109034159B (zh) * 2018-05-28 2021-05-28 北京捷通华声科技股份有限公司 图像信息提取方法和装置
US10949661B2 (en) * 2018-11-21 2021-03-16 Amazon Technologies, Inc. Layout-agnostic complex document processing system
CN109919014B (zh) 2019-01-28 2023-11-03 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN110008944B (zh) 2019-02-20 2024-02-13 平安科技(深圳)有限公司 基于模板匹配的ocr识别方法及装置、存储介质
CN109934227A (zh) * 2019-03-12 2019-06-25 上海兑观信息科技技术有限公司 图像文字识别***和方法
CN110032969B (zh) * 2019-04-11 2021-11-05 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110490181B (zh) 2019-08-14 2022-04-22 北京思图场景数据科技服务有限公司 一种基于ocr识别技术的表单填写审核方法、装置、设备以及计算机存储介质
CN110490246B (zh) * 2019-08-15 2022-05-03 中云信安(深圳)科技有限公司 垃圾类别确定方法、装置、存储介质及电子设备
CN110569850B (zh) * 2019-08-20 2022-07-12 北京旷视科技有限公司 字符识别模板匹配方法、装置和文本识别设备
CN110647829A (zh) * 2019-09-12 2020-01-03 全球能源互联网研究院有限公司 一种票据的文本识别方法及***
US11341605B1 (en) * 2019-09-30 2022-05-24 Amazon Technologies, Inc. Document rectification via homography recovery using machine learning
CN111291742B (zh) * 2020-02-10 2023-08-04 北京百度网讯科技有限公司 对象识别方法和装置、电子设备、存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635627A (zh) * 2018-10-23 2019-04-16 中国平安财产保险股份有限公司 图片信息提取方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YIBIN YE 他: "A unified scheme of text localization and structured data extraction for joint OCR and data mining", 2018 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA), JPN6023022855, 10 December 2018 (2018-12-10), ISSN: 0005077700 *

Also Published As

Publication number Publication date
CN111291742A (zh) 2020-06-16
JP7389824B2 (ja) 2023-11-30
KR20210113620A (ko) 2021-09-16
US11995905B2 (en) 2024-05-28
EP3979129A4 (en) 2023-07-12
WO2021159843A1 (zh) 2021-08-19
KR102610456B1 (ko) 2023-12-06
CN111291742B (zh) 2023-08-04
US20220130160A1 (en) 2022-04-28
EP3979129A1 (en) 2022-04-06

Similar Documents

Publication Publication Date Title
CN110135411B (zh) 名片识别方法和装置
EP3437019B1 (en) Optical character recognition in structured documents
EP3926526A2 (en) Optical character recognition method and apparatus, electronic device and storage medium
JP7389824B2 (ja) オブジェクト識別方法と装置、電子機器及び記憶媒体
US11710215B2 (en) Face super-resolution realization method and apparatus, electronic device and storage medium
US10380237B2 (en) Smart optical input/output (I/O) extension for context-dependent workflows
US10943107B2 (en) Simulating image capture
CN111753717B (zh) 用于提取文本的结构化信息的方法、装置、设备及介质
CN111753744B (zh) 用于票据图像分类的方法、装置、设备及可读存储介质
CN111695518B (zh) 结构化文档信息标注的方法、装置及电子设备
CN112380566A (zh) 用于对文档图像进行脱敏的方法、装置、电子设备及介质
CN112036315A (zh) 字符识别方法、装置、电子设备及存储介质
CN111523292B (zh) 用于获取图像信息的方法和装置
CN111767859A (zh) 图像校正的方法、装置、电子设备及计算机可读存储介质
CN111552829A (zh) 用于分析图像素材的方法和装置
CN111966432B (zh) 验证码处理方法、装置、电子设备以及存储介质
WO2015160988A1 (en) Smart optical input/output (i/o) extension for context-dependent workflows
CN112101368B (zh) 一种字符图像处理方法、装置、设备和介质
CN112988011B (zh) 取词翻译方法和装置
CN114241471B (zh) 视频文本识别方法、装置、电子设备及可读存储介质
JP7315639B2 (ja) 紙のデータのデジタル化方法及び装置、電子機器、記憶媒体
CN116884023A (zh) 图像识别方法、装置、电子设备及存储介质
CN117830666A (zh) 一种图像匹配方法、装置、设备及介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211207

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230821

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231117

R150 Certificate of patent or registration of utility model

Ref document number: 7389824

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150