JP2022536320A

JP2022536320A - オブジェクト識別方法と装置、電子機器及び記憶媒体

Info

Publication number: JP2022536320A
Application number: JP2021572659A
Authority: JP
Inventors: ボーハオフェン; シャオシュエイチャン
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-02-10
Filing date: 2020-12-11
Publication date: 2022-08-15
Anticipated expiration: 2040-12-11
Also published as: CN111291742A; JP7389824B2; KR20210113620A; US11995905B2; EP3979129A4; WO2021159843A1; KR102610456B1; CN111291742B; US20220130160A1; EP3979129A1

Abstract

オブジェクト識別方法と装置、電子機器、及び記憶媒体であって、人工知能分野に関する。方法は、識別対象オブジェクトを収集し（Ｓ１０１）、識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得（Ｓ１０２）、予め設定されたテキスト識別モデルに基づいて興味のあるポイントのテキスト情報を識別する（Ｓ１０３）ことを含む。ターゲットテキスト検出モデルによって全量テキスト情報から選別して識別し、興味のあるポイントのテキスト情報を得ることにより、従来技術における全量テキスト情報の識別を回避し、識別の時間を節約し、識別の効率を向上させた。【選択図】図１

Description

本願は、データ処理技術分野に関し、特に人工知能技術分野に関し、具体的にオブジェクト識別方法と装置、電子機器及び記憶媒体に関する。

光学文字識別（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ、ＯＣＲ）は主にキャリアに表示された光学文字を識別することによりテキスト出力を生成する。紙の文書のＯＣＲ識別を例にとって、紙の文書上の印刷体から得られた光学文字を収集して識別することで、テキスト情報などのデータを得ることができる。例えば、ＯＣＲ識別方法により、異なるカード、チケット、新聞及び教科書などのＯＣＲ識別テンプレートをカスタマイズし、ＯＣＲ識別テンプレートに基づいて、対応する識別対象オブジェクト（カード、チケット、新聞及び教科書など）を識別する。

従来技術では、ＯＣＲ識別テンプレートにおけるテキスト検出モデルにより、識別対象オブジェクトの全量テキスト情報（例えば識別対象オブジェクトに対応する画像におけるすべてのテキストなど）を検出し、検出結果を得、ＯＣＲ識別テンプレートにおけるテキスト識別モデルに基づいて、検出結果を識別する。

しかし、発明者は、本願を実現する過程で、上記従来技術には少なくとも以下の技術的問題が存在することが分かった。テキスト検出モデルは識別対象オブジェクトに対応する全量テキスト情報を識別するので、識別効率が低い。

オブジェクト識別方法と装置、電子機器及び記憶媒体を提供する。

本願の実施例の１つの態様によれば、本願の実施例は、オブジェクト識別方法を提供し、前記方法は、
識別対象オブジェクトを収集することと、
前記識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、前記識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得ることと、
予め設定されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別することと、を含む。

本願の実施例では、ターゲットテキスト検出モデルによって全量テキスト情報から選別して識別し、興味のあるポイントのテキスト情報を得ることにより、従来技術における全量テキスト情報の識別を回避し、識別の時間を節約し、識別の効率を向上させた。

いくつかの実施例では、前記識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、前記識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得る前に、前記方法はさらに、
初期テキスト検出モデルを用いて、収集されたサンプルオブジェクトに対応する検出ブロックを生成することと、
前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定することと、
決定された検出ブロックに基づいて、前記初期テキスト検出モデルをトレーニングし、前記ターゲットテキスト検出モデルを生成することと、を含む。

本願の実施例では、興味のあるポイントのテキスト情報に対応する検出ブロックを決定することにより、決定された検出ブロックに基づいて、初期テキスト検出モデルをトレーニングし、ターゲットテキスト検出モデルを生成し、その結果、全量テキスト情報から選別して識別することにより興味のあるポイントのテキスト情報のターゲットテキスト検出モデルを得ることができ、さらに、識別対象オブジェクトに対する識別の効率を向上させることができる。

別のいくつかの実施例では、前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定することは、
前記興味のあるポイントのテキスト情報に基づいて、前記検出ブロックに対して修正及び／又は削除操作を行うことを含み、前記修正操作は、線分修正、テキスト修正及び四隅点位置修正のうちの少なくとも１つを含む。

別のいくつかの実施例では、前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定した後、前記方法はさらに、
予め設定されたテキスト識別モデルに基づいて、決定された検出ブロックに対応するテキスト情報を識別し、識別結果を得ることと、
前記興味のあるポイントのテキスト情報に対応するキー値ペアに基づいて、前記識別結果におけるキー値ペアを再確認することと、を含み、
及び、決定された検出ブロックに基づいて、前記初期テキスト検出モジュールをトレーニングすることは、
前記識別結果のキー値ペアが前記興味のあるポイントのテキスト情報に対応するキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、前記初期テキスト検出モジュールをトレーニングすることを含む。

本願の実施例では、キー値ペアに基づいて再確認する方法をトレーニングのトリガ条件とすることにより、トレーニングデータの有効性と正確さを確保することができ、トレーニング結果の信頼性を実現し、さらに識別の精度を実現する。

いくつかの実施例では、前記識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、前記識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得った後、前記方法はさらに、
前記興味のあるポイントのテキスト情報に対応するテキストタイプを決定すること、を含み、
及び、予め設定されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別することは、
前記テキストタイプに対応するテキスト識別モデルを選択し、選択されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別することを含む。

本願の実施例では、異なるテキスト識別モデルを選択して異なるテキストタイプの興味のあるポイントのテキスト情報を識別することにより、ターゲットの識別を実現し、それにより、識別の効率を向上させ、また識別の正確さを向上させることができる。

本願の実施例の別の態様によれば、本願の実施例はさらに、オブジェクト識別装置を提供し、前記装置は、
識別対象オブジェクトを収集するための収集モジュールと、
前記識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、前記識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得るための検出モジュールと、
予め設定されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別するための識別モジュールと、を含む。

いくつかの実施例では、前記装置はさらに、
初期テキスト検出モデルを用いて、収集されたサンプルオブジェクトに対応する検出ブロックを生成し、前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定し、決定された検出ブロックに基づいて、前記初期テキスト検出モデルをトレーニングし、前記ターゲットテキスト検出モデルを生成するためのトレーニングモジュールを含む。

いくつかの実施例では、前記トレーニングモジュールは、前記興味のあるポイントのテキスト情報に基づいて、前記検出ブロックに対して修正及び／又は削除操作を行うために用いられ、前記修正操作は、線分修正、テキスト修正及び四隅点位置修正のうちの少なくとも１つを含む。

いくつかの実施例では、前記トレーニングモジュールは、予め設定されたテキスト識別モデルに基づいて、決定された検出ブロックに対応するテキスト情報を識別し、識別結果を得、前記興味のあるポイントのテキスト情報に対応するキー値ペアに基づいて、前記識別結果におけるキー値ペアを再確認すること、及び、前記識別結果のキー値ペアが前記興味のあるポイントのテキスト情報に対応するキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、前記初期テキスト検出モジュールをトレーニングすることのために用いられる。

いくつかの実施例では、前記装置はさらに、
前記興味のあるポイントのテキスト情報に対応するテキストタイプを決定するための決定モジュールを含み、
及び、前記識別モジュールは、前記テキストタイプに対応するテキスト識別モデルを選択し、選択されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別するために用いられる。

本願の別の態様によれば、本願の実施例は電子機器をさらに提供し、前記電子機器は、
少なくとも１つのプロセッサ、及び
前記少なくとも１つのプロセッサと通信可能に接続されるメモリを含み、
前記メモリには前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令が前記少なくとも１つのプロセッサによって実行されることにより、前記少なくとも１つのプロセッサに、上記のいずれかの実施例に記載の方法を実行させることができる。

本願の別の態様によれば、本願の実施例はさらに、コンピュータ命令を記憶した非一時的なコンピュータで読み取り可能な記憶媒体を提供し、前記コンピュータ命令は、前記コンピュータに、上記のいずれかの実施例に記載の方法を実行させる。

本願の別の態様によれば、本願の実施例はさらに、プログラムコードを含むコンピュータプログラムを提供し、コンピュータが前記コンピュータプログラムを実行すると、前記プログラムコードは上記のいずれかの実施例に記載の方法を実行させる。

本願の別の態様によれば、本願の実施例はさらに、コンピュータプログラムを含むコンピュータプログラム製品を提供し、前記コンピュータプログラムがプロセッサによって実行されると、上記のいずれかの実施例に記載の方法を実行させる。

本願の実施例は、オブジェクト識別方法と装置、電子機器、及び記憶媒体を提供し、前記方法は、識別対象オブジェクトを収集し、識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより興味のあるポイントのテキスト情報を得、予め設定されたテキスト識別モデルに基づいて興味のあるポイントのテキスト情報を識別することを含み、本願の実施例では、ターゲットテキスト検出モデルによって全量テキスト情報から選別して識別し、興味のあるポイントのテキスト情報を得ることにより、従来の技術における全量テキスト情報の識別を回避し、識別の時間を節約し、識別の効率を向上させた。

理解すべきなものとして、本部分で説明するコンテンツは、本願の実施例の主要又は重要な特徴を特定することを意図するものではなく、本願の範囲を制限するためにも使用されない。本願の他の特徴は、以下の明細書によって容易に理解される。

添付の図面は、本案をよりよく理解するために使用されており、本願を限定するものではない。
本願の実施例のオブジェクト識別方法のフローチャートである。本願の実施例のターゲットテキスト検出モデルを得る方法のフローチャートである。本願の別の実施例のターゲットテキスト検出モデルを得る方法のフローチャートである。本願の別の実施例のオブジェクト識別方法のフローチャートである。本願の実施例のオブジェクト識別方法の適用シーンの概略図である。本願の実施例のインターフェース表示の概略図である。本願の実施例のオブジェクト識別装置の概略図である。本願の別の実施例のオブジェクト識別装置の概略図である。本願の別の実施例のオブジェクト識別装置の概略図である。本願の実施例の電子機器のブロック図である。

以下、添付図面を参照して本願の例示的な実施例を説明するが、本願の実施例の様々な詳細が理解を容易にするために含まれており、単なる例示的なものと考えられるべきである。したがって、当業者は、本願の範囲及び精神から逸脱することなく、本明細書に記載された実施例に様々な変更及び修正を加えることができることを理解するはずである。同様に、明確かつ簡潔にするために、以下の説明において、周知の機能及び構造の説明は省略されている。

上記の背景技術を組み合わせて分かるように、従来技術において、異なるカード、チケット、新聞及び教科書などを効率よく素早く識別するために、通常採用される方法は、ＯＣＲ識別方法によって対応するＯＣＲ識別テンプレートを作成することであり、対応するＯＣＲ識別テンプレートを作成する際に、対応するサンプルデータを収集して、サンプルデータをトレーニングし、さらにＯＣＲ識別テンプレートを生成する。また、従来技術において、識別の信頼性を確保するために、選択されたサンプルデータの量が大きすぎ、且つトレーニングの過程では、全量テキスト情報の検出と識別が採用されている。

本願の発明者は、創造的な労働をした後、一部のテキスト情報に基づいて識別対象オブジェクトの識別を実現することに想到し、例えば、全量テキスト情報から興味のあるポイントのテキスト情報を選択し、このように、サンプルデータは一定の程度で減少することができ、且つ識別過程において、識別対象オブジェクトのテキスト情報が相対的に減少するため、識別効率は相対的に向上することができ、且つ全量テキスト情報から興味のあるポイントのテキスト情報を選別したので、ノイズ情報を低減し、識別の正確さを向上させることができる。

つまり、従来技術において、識別の正確さと効率を向上させるために、サンプルデータをできるだけ多く追加し、且つサンプルデータにおける全てのテキスト情報をできる限り識別する構想を採用した。しかし、本願の発明者は、サンプルデータをできるだけ減少させ、且つ識別されたテキスト情報をできるだけ減らす構想を採用した。

以下、具体的な実施例で、本願の技術的解決策及び本出願の技術的解決策が上記の技術的問題をどのように解決するかを詳細に説明する。以下のいくつかの具体的な実施例は、互いに結合してもよく、同じ又は類似の概念又はプロセスは、いくつかの実施例では繰り返さない可能性がある。以下、図面を組み合わせて、本願の実施例について説明する。

本願の実施例の１つの態様によれば、本願の実施例は、ブジェクト識別方法を提供する。

図１を参照する。図１は本願の実施例のオブジェクト識別方法のフローチャートである。

図１に示すように、当該方法は、Ｓ１０１～Ｓ１０３を含む。

Ｓ１０１において、識別対象オブジェクトを収集する。

識別対象オブジェクトは、ＯＣＲ識別テンプレートによって識別できるオブジェクトである。例えば、識別対象オブジェクトは、カード、チケット、新聞及び教科書などを含む。

いくつかの実施例では、画像収集装置により識別対象オブジェクトを収集することができる。画像収集装置は、スキャナやカメラなどを含む。

Ｓ１０２において、識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得る。

当該ステップは、識別対象オブジェクトに対応するＯＣＲ識別テンプレートを決定し、ＣＯＲ識別テンプレートにおけるターゲットテキスト検出モデルを決定し、ターゲットテキスト検出モデルに基づいて、識別対象オブジェクトに対応する全量テキスト情報から興味のあるポイントの特徴を選別し、興味のあるポイントの特徴をテキスト検出し、興味のあるポイントのテキスト情報を得ることを具体的に含むことができる。

上記の例に基づいて分かるように、異なる識別対象オブジェクトは異なるＯＣＲ識別テンプレートに対応し、且つＯＣＲ識別テンプレートは２つの部分から構成され、一部はテキスト検出モデルであり、もう一部はテキスト識別モデルである。テキスト検出モデルは、識別対象オブジェクトを検出し、識別対象オブジェクトのテキスト情報を得るために用いられ、テキスト識別モデルは、テキスト情報を識別し、識別結果を得るために用いられる。

本願の実施例では、識別対象オブジェクトとＯＣＲ識別テンプレートとのマッピング関係、例えばマッピングテーブルやインデックス番号などは予め構築されてもよく、識別対象オブジェクトを収集した後、当該マッピング関係に基づいて、識別対象オブジェクトに対応するＯＣＲ識別テンプレートを決定する。

ターゲットテキスト検出モデルは、興味のあるポイントのテキスト情報のトレーニングに基づいて得られたものであり、詳細に後述し、ここでは繰り返さない。

全量テキスト情報は、名前の通り全てのテキストの情報であり、即ち、識別対象オブジェクトに対応する全てのテキストの情報である。興味のあるポイントのテキスト情報とは、全量テキスト情報に対する概念であり、テキスト情報の一部を指し、即ち、識別対象オブジェクトに対応する部分のテキストの情報であり、且つ当該部分のテキストの情報は興味のあるポイントに対応し、興味のあるポイントとは、識別対象オブジェクトにおいて注目されるポイントのテキストの情報である。当該興味のあるポイントは、ユーザに基づいて選択されたものであってもよく、例えば、識別対象オブジェクトである名刺を例にとって、興味のあるポイントは、ユーザが需要に基づいて予め選択した会社情報や職位情報などであってもよく、当該興味のあるポイントはまた、予め収集された識別対象オブジェクトに関する調査データに基づいて決定されてもよく、即ち、調査データに基づいて当該名刺が異なる人々によって注目されているポイントを決定し、クラスタリングなどの処理を行った後、興味のあるポイントを決定する。

上記の分析から分かるように、当該ステップにおいて、ターゲットテキスト検出モデルを用いて、識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得、従来技術における全量テキスト情報の識別に比べて、ノイズデータと識別データ量を低減し、識別の効率と信頼性を向上させた。

Ｓ１０３において、予め設定されたテキスト識別モデルに基づいて興味のあるポイントのテキスト情報を識別する。

Ｓ１０２に基づいて分かるように、ターゲットテキスト検出モデルを経た後、出力された興味のあるポイントのテキスト情報は、全量テキスト情報におけるテキスト情報の一部である。よって、当該ステップにおいて、テキスト識別モデルが識別したデータ量も比較的少なく、さらに識別の効率を向上させることができる。

上記の例に基づいて分かるように、ターゲットテキスト検出モデルは、興味のあるポイントのテキスト情報のトレーニングに基づいて得られたものであり、現在、図２を組み合わせて本願の実施例のターゲットテキスト検出モデルを得る方法を詳細に説明する。

図２に示すように、ターゲットテキスト検出モデルを得る方法は、Ｓ０１～Ｓ０３を含む。

Ｓ０１において、初期テキスト検出モデルを用いて、収集されたサンプルオブジェクトに対応する検出ブロックを生成する。

初期テキスト検出モデルは、従来技術におけるテキスト検出モデルであり、神経ネットワークモデルとサンプルデータに基づいてトレーニング生成を行うことができ、ここでは繰り返さない。

検出ブロックは、サンプルオブジェクトの検出領域と検出領域内の情報（例えばテキスト情報など）を特徴づけるために使用される。

Ｓ０１の前に、前記方法はさらに、サンプルオブジェクトを収集するステップを含む。

いくつかの実施例では、予め設定された画像収集装置によってサンプルオブジェクトを収集してもよく、例えばスキャナとカメラを含み、設定されたアップロードウィンドウも含み、ユーザはアップロードの形でサンプルオブジェクトをアップロードウィンドウを介してアップロードすることができる。

トレーニング過程の信頼性を確保するために、収集されたサンプルオブジェクトを優先的に前処理することができる。

例えば、サンプルオブジェクトに対して本体抽出を行い、即ち、サンプルオブジェクトの本体と背景を分離する。具体的に、モデルによりサンプルオブジェクトの本体部分を抽出し、背景の干渉を除去することができる。本体抽出のモデルは、画像分割モデル、例えば、セマンティック画像分割モデルＤｅｅｐＬａｂＶ３＋、また例えば、工業用グレード分割モデルライブラリＰａｄｄｌｅＳｅｇなどを採用することができる。

本体抽出を行った後、本体抽出後のサンプルオブジェクトに対して傾き補正を行うことができる。

例えば、撮影角度などの問題で、サンプルオブジェクトに一定の傾きがある場合があるので、傾きを補正し、具体的にはオープンソースコンピュータ視覚ライブラリＯｐｅｎｃｖの補正アルゴリズムを採用して、本体抽出後のサンプルオブジェクトの補正を完了することができる。

補正を行った後、補正後のサンプルオブジェクトをズームすることができる。

例えば、ズーム後、異なるサンプルオブジェクトのテキスト位置は接近し、トレーニングが容易になり、トレーニングの信頼性を高め、トレーニング誤差を低減する。具体的には、ズームインは、超解像アルゴリズムＳＲＣＮＮで実現されてもよく、ズームアウトはオープンソースコンピュータ視覚ライブラリＯｐｅｎｃｖのズームアウトアルゴリズムで実現されてもよい。

ズームを行った後、ズーム後のサンプルオブジェクトに対して画像強化を行うことができる。

例えば、ズーム後のサンプルオブジェクトのコントラストをより高度にし、識別率を高めるために、ズーム後のサンプルオブジェクトに対して画像強化を行うことができる。具体的には、オープンソースコンピュータ視覚ライブラリＯｐｅｎｃｖのシャープ化処理を採用して、ズーム後のサンプルオブジェクトのエッジをより明確にすることができる。より具体的には、二次導関数を採用してシャープ化を完了することができ、例えば、Ｌａｐｌａｃｉａｎ演算子フィルタリングを用いて、ズーム後のサンプルオブジェクトの重み付きピクセルの重ね合わせを加えて、シャープ化を完了する。

Ｓ０２において、検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定する。

いくつかの実施例では、当該ステップは具体的に、興味のあるポイントのテキスト情報に基づいて、検出ブロックに対して修正操作及び／又は削除操作を行うことを含み、修正操作は、線分修正、テキスト修正及び四隅点位置修正のうちの少なくとも１つを含む。

上記の例に基づいて分かるように、興味のあるポイントのテキスト情報は、ユーザが選択した興味のあるポイントに対応するテキストの情報であってもよいし、予め設定された興味のあるポイントに対応するテキスト情報であってもよく、且つ予め設定された興味のあるポイントは、調査データに基づいて生成されてもよい。ここでは、興味のあるポイントのテキスト情報はユーザが選択した興味のあるポイントに対応するテキストの情報である例をとって、当該ステップを詳細に説明する。

初期テキスト検出モデルに基づいて検出ブロックを生成する場合、検出ブロックを表示することができ、例えば表示機器によって検出ブロックを表示する。

ユーザは、興味のあるポイントのテキスト情報（即ち、ユーザが興味のある点のテキストの情報）に基づいて、検出ブロックを修正又は削除することができる。

例えば、ある検出ブロック内のテキストに傾斜文字が存在すると、ユーザは、当該傾斜文字を適応的に調整することができ、また例えば、ある検出ブロックの中の文字の一部が検出ブロックを超えている場合、ユーザは、当該検出ブロックの大きさを適応的に調整することができ、具体的には検出ブロックの線分を適応的に調整することができ、又は検出ブロックの四隅点位置を適応的に調整することができ、また例えば、ある検出ブロック内のテキスト情報は非興味のあるポイントの情報テキストであり、即ち、当該検出ブロック内のテキスト情報はユーザが興味のないテキスト情報である場合、ユーザは、当該検出ブロックを削除することができるなど、ここでは一々に列挙しない。

Ｓ０３において、決定された検出ブロックに基づいて、初期テキスト検出モデルをトレーニングし、ターゲットテキスト検出モデルを生成する。

当該ステップにおいて、決定された検出ブロックに基づいて初期テキスト検出モデルを二次トレーニングし、ターゲットテキスト検出モデルを生成する。

なお、再トレーニングに比較して、二次トレーニングの方法によりターゲットテキスト検出モデルを生成する効率を向上させ、トレーニングコストを節約することができる。

図３を組み合わせて分かるように、いくつかの実施例では、Ｓ０２の後、当該方法はさらに、Ｓ０２’～Ｓ０３’を含む。

Ｓ０２’において、予め設定されたテキスト識別モデルに基づいて、決定された検出ブロックに対応するテキスト情報を識別し、識別結果を得る。

本願の実施例では、具体的な識別方法は従来技術を参照してもよく、ここでは繰り返さない。

Ｓ０３’において、興味のあるポイントのテキスト情報に対応するキー値ペアに基づいて、識別結果におけるキー値ペアを再確認する。

興味のあるポイントのテキスト情報に対応するキー値ペアに基づいて、識別結果におけるキー値ペアを再確認することにより、識別結果におけるキー値ペアが興味のあるポイントのテキスト情報に対応するキー値ペアと同じかどうかを判定することができる。即ち、２つのキー値ペアを再確認する過程は、２つのキー値ペアが同じかどうかを判断する過程として理解されることができる。

及び、Ｓ０３は、識別結果のキー値ペアが興味のあるポイントのテキスト情報に対応するキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、初期テキスト検出モジュールをトレーニングすることを含む。

なお、識別結果のキー値ペアに基づいて、興味のあるポイントのテキスト情報に対応するキー値ペアを再確認し、得られた再確認結果は、識別結果のキー値ペアが興味のあるポイントのテキスト情報に対応するキー値ペアと異なる場合があり、例えば、識別結果のキー値ペアに基づいて分かるように、Ａはキー（姓など）であるが、興味のあるポイントのテキスト情報に対応するキー値ペアに基づいて分かるように、Ａは値（名前など）である場合、当該識別結果に対応するサンプルデータは異常なサンプルデータである可能性があることを意味し、当該識別結果に対応する検出ブロックを削除することができ、或いは、後続のトレーニングを行うために、当該識別結果に対応する検出ブロックを適応的に修正することができる。

また例えば、識別結果のキー値ペアに基づいて分かるように、Ａはキー（姓など）であり、且つ興味のあるポイントのテキスト情報に対応するキー値ペアに基づいて分かるように、Ａはキー（姓など）である場合、当該識別結果に対応するサンプルデータは、正常なサンプルデータであることを意味し、当該結果に対応する検出ブロックを後続のトレーニングの入力情報とする。

本願の実施例では、正常なサンプルデータを保ち、正常なサンプルデータに対応する検出ブロックをトレーニングするために、キー値ペアの再確認に基づいて異常なサンプルデータを排除することができ、トレーニング結果の信頼性と正確さを向上させ、即ち、ターゲットテキスト検出モデルの信頼性と正確さを確保し、さらに正確で効果的な識別の技術的効果を実現することができる。

いくつかの実施例では、図４を組み合わせて分かるように、Ｓ１０２の後、当該方法はさらに、Ｓ１０２’を含む。

Ｓ１０２’において、興味のあるポイントのテキスト情報に対応するテキストタイプを決定する。

なお、識別結果の信頼性と正確さを確保して、識別の効率を向上させるために、本願の実施例では、興味のあるポイントのテキスト情報に対応するテキストタイプの決定により、異なる興味のあるポイントのテキスト情報に基づいて、それぞれに対応するテキストタイプを選択することができ、後続に異なるテキストタイプに基づいてテキスト識別モデルを適応的に選択して識別するようにする。

テキストタイプは、文字、手書き及びアルファベットなどを含むが、これらに限られない。

いくつかの実施例では、興味のあるポイントのテキスト情報を分析して、それに対応するテキストタイプを得ることができる。

別のいくつかの実施例では、上記の例を組み合わせて、ユーザとのインタラクションに基づいて興味のあるポイントのテキスト情報を生成することができる。よって、ユーザとのインタラクションに基づいて、興味のあるポイントのテキスト情報に対応するテキストタイプを予め記憶してもよい。

例えば、ユーザとのインタラクションに基づいて、ユーザが検出ブロック内のテキスト情報のために選択したテキストタイプを記憶し、興味のあるポイントのテキスト情報を識別する必要がある場合、記憶されたテキストタイプに対応するテキスト識別モデルを呼び出す。

さらに、Ｓ１０３は、テキストタイプに対応するテキスト識別モデルを選択し、選択されたテキスト識別モデルに基づいて興味のあるポイントのテキスト情報を識別することを含む。

例えば、興味のあるポイントのテキスト情報に対応するテキストタイプが手書きである場合、手書きのテキスト識別モデルに基づいて当該興味のあるポイントのテキスト情報を識別する。

なお、興味のあるポイントのテキスト情報における異なる領域に対応するテキストタイプが異なる場合があり、異なる領域に対して、異なるテキスト識別モデルを選択し、異なるテキスト識別モデルに基づいて異なる領域を識別するようにする。

本願の実施例の解決策及び効果をより深く理解するために、図５（図５は本願の実施例のオブジェクト識別方法の適用シーンの概略図である）を組み合わせて、本願の実施例のオブジェクト識別方法を詳細に説明する。本願の実施例の実行主体はオブジェクト識別装置であり、且つ図５に示すように、オブジェクト識別装置はコンピュータ１００を含むことができ、ユーザ２００とコンピュータ１００とのインタラクションにより、本願の実施例のオブジェクト識別方法を実現する。

本願の実施例は、２つの部分に分けられることができ、１つの部分はトレーニング部分であり、もう１つの部分は識別部分である。

具体的には、トレーニング部分は、ＯＣＲ識別テンプレートをトレーニングすることを含み、ＯＣＲ識別テンプレートは、テキスト検出モデルとテキスト識別モデルを含んでもよい。テキスト検出モデルは、識別対象オブジェクトを識別して、識別対象オブジェクトに対応するテキスト情報を得るために用いられる。説明すべきものとして、従来技術において、テキスト検出モデルは、識別対象オブジェクトを識別して、識別対象オブジェクトの全量テキスト情報を得るために用いられる。本願の実施例では、テキスト検出モデルは、識別対象オブジェクトを識別して、識別対象オブジェクトの興味のあるポイントのテキスト情報を得、本願の実施例におけるテキスト検出モデルは、識別により興味のあるポイントのテキスト情報を得ることを実現することができる理由は、以下、トレーニングの原理を組み合わせて詳細に説明する。

トレーニング過程に収集された識別オブジェクトとトレーニングに基づいて得られたＯＣＲ識別テンプレートを区別するために識別オブジェクトを識別し、トレーニング過程における識別オブジェクトをサンプルオブジェクトと呼び、識別過程におけるオブジェクトを識別対象オブジェクトと呼び、かつトレーニング過程に基礎となるトレーニングモデルとトレーニングによって得られたモデルの違いを区別するために、モデルの前に区別用の「初期」と「ターゲット」などを追加して限定するなどのことを行う。

図５に示すように、コンピュータ１００は、ユーザ２００が入力したサンプルオブジェクトを収集する。

いくつかの実施例では、コンピュータ１００は、サンプルオブジェクトをアップロードするウィンドウを設定して表示することができ、ユーザ２００は、サンプルオブジェクトを当該ウィンドウを介してコンピュータ１００に伝送する。

もちろん、別のいくつかの実施例では、図５に示すように、スキャナ３００を設けてもよく、スキャナ３００はコンピュータ１００と通信可能に接続される。ユーザ１００は、サンプルオブジェクトをスキャナ３００に入れ（図５における配置形態を参照してもよい）、スキャナ３００によってサンプルオブジェクトをスキャンし、スキャンしたサンプルオブジェクトをコンピュータ１００に伝送する。

コンピュータ１００は、予め記憶された初期テキスト検出モデルを呼び出して、初期テキスト検出モデルによりサンプルオブジェクトを識別し、対応する検出ブロックを生成して表示し、図６における６－１（破線枠で検出ブロックを表す）を参照されたい。

ユーザ２００は、検出ブロックに対して適応的な操作を実行して、興味のあるポイントのテキスト情報に対応する検出ブロックを生成する。

当該ステップにおいて、ユーザ２００とコンピュータ１００との間のインタラクションに関連しているので、ユーザが実行する適応的な操作は、需要に基づいて実行される場合があり、即ち、ユーザは、興味のあるポイントを心に設定し、適応的な操作を実行して、興味のあるポイントのテキスト情報に対応する検出ブロックを生成する。

図６における６－１に示すように、ユーザは、検出ブロック「お客様第一、誠実なサービス」を削除し、検出ブロック「電話：１５０ＸＸＸＸＸＸＸＸ」に対して四隅点位置修正を行う。修正後の図は、図６における６－２を参照されたい。

図６における６－２に示すようなデータを二次トレーニングのサンプルデータとして、当該サンプルデータに基づいて初期テキスト検出モデルを二次トレーニングし、ターゲットテキスト検出モデルを生成する。

いくつかの実施例では、トレーニングのサンプルオブジェクトのサンプル量は、必要に応じて設定されてもよく、ユーザインタラクションの形態を採用すれば、比較的少ないサンプル量を採用してもよく、例えば、サンプル量を１０に設定すると、コンピュータ１００は、ユーザ２００が１０個のサンプルオブジェクトを適応的な操作を行った後に生成したサンプルデータを二次トレーニングのデータとする。

また、ユーザ２００は、興味のあるポイントのテキスト情報に対応する検出ブロックの文字タイプを選択することができ、例えば、検出ブロック「電話：１５０ＸＸＸＸＸＸＸＸ」について、ユーザ２００は、コンピュータ１００の識別過程において、予め記憶されたデジタルタイプに対応するテキスト識別モデルを呼び出し、当該テキスト識別モデルによって当該検出ブロックを識別するように、デジタルタイプを選択することができ、それにより、識別の効率を向上させる。

反復トレーニングを経て、識別の精度が予め設置された要件に達した場合、ターゲットテキスト検出モデルとテキスト識別モデルを含むＯＣＲ識別テンプレートを生成する。

これまで、トレーニング部分は終了する。

識別部分においても、ユーザ２００は、上記のように識別対象オブジェクトをコンピュータ１００に入力する。

コンピュータ１００は、上記の方法でトレーニングして得られたＯＣＲ識別テンプレートから、識別対象オブジェクトに対応するＯＣＲ識別テンプレートを選択して、当該ＯＣＲ識別テンプレートに基づいて識別対象オブジェクトを識別するようにする。

具体的には、コンピュータ１００は、まずＯＣＲ識別テンプレートにおけるターゲットテキスト検出モデルを呼び出して、識別対象オブジェクトを識別し、識別対象オブジェクトに対応する興味のあるポイントのテキスト情報を得る。

なお、トレーニング部分において、興味のあるポイントのテキスト情報に基づいて、初期テキスト検出モデルを二次トレーニングしてターゲットテキスト検出モデルを得るので、ターゲットテキスト検出モデルに基づいて、識別対象オブジェクトと興味のあるポイントのテキスト情報を識別することができる。これにより、識別量を低減し、識別効率を向上させることを実現できる。

興味のあるポイントのテキスト情報を識別した後、興味のあるポイントのテキスト情報を分析し、又はユーザ２００が選択したテキストタイプに基づいて、対応するテキスト識別モデルを呼び出し、当該テキスト識別モデルによって当該興味のあるポイントのテキスト情報を識別する。

これまで、識別部分は終了する。

なお、上記の例は、適用シーンを組み合わせて本願の実施例を例示的に説明するだけであり、開示の実施例の範囲を限定するものとして理解されることができない。

本願の実施例の別の態様によれば、本願の実施例はまた、オブジェクト識別装置を提供する。

図７を参照する。図７は本願の実施例のオブジェクト識別装置の概略図である。

図７に示すように、当該装置は、
識別対象オブジェクトを収集するための収集モジュール１０と、
前記識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、前記識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得るための検出モジュール２０と、
予め設定されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別するための識別モジュール３０と、を含む。

いくつかの実施例では、図８を組み合わせて分かるように、当該装置はさらに、
初期テキスト検出モデルを用いて、収集されたサンプルオブジェクトに対応する検出ブロックを生成し、前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定し、決定された検出ブロックに基づいて、前記初期テキスト検出モデルをトレーニングし、前記ターゲットテキスト検出モデルを生成するためのトレーニングモジュール４０を含む。

いくつかの実施例では、前記トレーニングモジュール４０は、前記興味のあるポイントのテキスト情報に基づいて、前記検出ブロックに対して修正及び/又は削除操作を行うために用いられ、前記修正操作は、線分修正、テキスト修正及び四隅点位置修正のうちの少なくとも１つを含む。

いくつかの実施例では、前記トレーニングモジュール４０は、予め設定されたテキスト識別モデルに基づいて、決定された検出ブロックに対応するテキスト情報を識別し、識別結果を得、前記興味のあるポイントのテキスト情報に対応するキー値ペアに基づいて、前記識別結果におけるキー値ペアを再確認すること、及び、前記識別結果のキー値ペアが前記興味のあるポイントのテキスト情報に対応するキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、前記初期テキスト検出モジュールをトレーニングすること、に用いられる。

いくつかの実施例では、図９を組み合わせて分かるように、当該装置はさらに、
前記興味のあるポイントのテキスト情報に対応するテキストタイプを決定するための決定モジュール５０、
及び、前記テキストタイプに対応するテキスト識別モデルを選択し、選択されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別するための前記識別モジュール３０、を含む。

本願の実施例の別の態様によれば、本願はまた、電子機器と読み取り可能な記憶媒体を提供する。

本願の実施例によれば、本願はまた、電子機器と読み取り可能な記憶媒体を提供する。

図１０に示すように、図１０は本願の実施例の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを意図している。電子機器は、パーソナルデジタル処理、セルラー電話、スマートフォン、ウェアラブルデバイス及び他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書に示すコンポーネント、それらの接続及び関係、及びそれらの機能は、単なる例であり、本明細書で記載及び／又は要求される本願の実施を制限することを意図したものではない。

図１０に示すように、当該電子機器は、１つ又は複数のプロセッサ１０１と、メモリ１０２と、高速インターフェース及び低速インターフェースを含む様々なコンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスを使用して相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の形態で取り付けられてもよい。プロセッサは、電子機器内で実行される命令を処理することができ、前記命令は、ＧＵＩのグラフィック情報を外部入力／出力装置（例えばインターフェースに結合された表示機器など）に表示するためにメモリ内又はメモリに記憶された命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを、複数のメモリと複数のメモリと一緒に使用してもよい。同様に、複数の電子機器を接続することができ、各機器は、一部の必要な操作（例えば、サーバーアレイ、１グループのブレードサーバ、又はマルチプロセッサシステムとする）を提供することができる。図１０では、プロセッサ１０１を例に取る。

メモリ１０２は、本願の実施例で提供される非一時的なコンピュータで読み取り可能な記憶媒体である。前記メモリには、少なくとも１つのプロセッサによって実行可能な命令が記憶されることにより、前記少なくとも１つのプロセッサが本願の実施例で提供されるオブジェクト識別方法を実行する。本願の実施例の非一時的なコンピュータで読み取り可能な記憶媒体には、本願の実施例で提供されるオブジェクト識別方法をコンピュータに実行させるためのコンピュータ命令が記憶されている。

メモリ１０２は、非一時的なコンピュータで読み取り可能な記憶媒体として、本願の実施例で推薦される対応するプログラム命令/モジュールなど、非一時的なソフトウェアプログラム、非一時的なコンピュータで実行可能なプログラム及びモジュールを記憶するために使用できる。プロセッサ１０１は、メモリ１０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することにより、サーバの様々な機能アプリケーション及びデータ処理を実行し、即ち、上記方法の実施例におけるオブジェクト識別方法を実行する。

メモリ１０２には、プログラムストレージエリア及びデータストレージエリアを含んでもよく、プログラムストレージエリアには、オペレーティングシステム及び少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データストレージエリアには、電子機器の使用に応じて作成されたデータなどを記憶することができる。なお、メモリ１０２は、高速ランダムアクセスメモリを含んでもよく、また、少なくとも１つの磁気ディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスなどの非一時的なメモリを含んでもよい。いくつかの実施例では、メモリ１０２は、プロセッサ１０１に対してリモートに設定されたメモリを選択的に含むことができ、これらのリモートメモリは、ネットワークを介して電子機器に接続されてもよい。上記ネットワークの例は、インターネット、企業イントラネット、ローカルエリアネットワーク、ブロックチェーンサービスネットワーク(Ｂｌｏｃｋ－ｃｈａｉｎ－ｂａｓｅｄＳｅｒｖｉｃｅＮｅｔｗｏｒｋ、ＢＳＮ)、モバイル通信ネットワーク、及びこれらの組み合わせを含むが、これらに限定されない。

電子機器は、さらに、入力装置１０３と出力装置１０４を含んでもよい。プロセッサ１０１、メモリ１０２、入力装置１０３及び出力装置１０４は、バス又は他の形態で接続されてもよいが、図１０では、バスで接続されることを例とする。

入力装置１０３は、入力された数字又は文字情報を受信し、電子機器のユーザ設定及び機能制御に関連するキー信号入力を生成することができ、例えばタッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置１０４は、表示機器、補助照明装置（例えば、ＬＥＤ）及び触覚フィードバック（例えば、振動モーター）などを含んでもよい。当該表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ及びプラズマディスプレイを含んでもよいが、これらに限定されない。いくつかの実施形態では、表示機器はタッチスクリーンであってもよい。

本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実施されることができる。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムで実施され、当該１つ又は複数コンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステム上で実行及び／又は解釈されることができ、当該プログラマブルプロセッサは、専用又は汎用プログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令を当該ストレージシステム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に送信することができる。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び／又は対象指向プログラミング言語、及び／又はアセンブリ／機械言語を用いてこれらの計算プログラムを実施することができる。本明細書に使用されるように、「機械で読み取り可能な媒体」及び「コンピュータで読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械で読み取り可能な信号である機械命令を受信する機械で読み取り可能な媒体を含む。「機械で読み取り可能な信号」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、ここで説明するシステム及び技術をコンピュータ上で実施することができ、当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）、及びキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）を有し、ユーザは、当該キーボード及びポインティングデバイスによってコンピュータに入力を提供できる。他のタイプの装置も、ユーザとのインタラクションを提供することができ、例えば、ユーザに提供されるフィードバックが、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力、音声入力、又は触覚入力を含む）を使用して、ユーザからの入力を受信してもよい。

本明細書で説明するシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインターフェース又はＷｅｂブラウザを備えたユーザコンピュータ、ユーザが、当該グラフィカルユーザインターフェース又は当該Ｗｅｂブラウザを通じて本明細書で説明されるシステム及び技術の実施形態とインタラクションすることができる）、又はこのようなバックエンドコンポーネント、ミドルウェアコンポーネント、又はフロントエンドコンポーネントの任意の組合せを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）を通じて、システムのコンポーネントを相互に接続することができる。通信ネットワークの例は、ローカエリアルネットワーク（ＬＡＮ）、ブロックチェーンサービスネットワーク(Ｂｌｏｃｋ－ｃｈａｉｎ－ｂａｓｅｄＳｅｒｖｉｃｅＮｅｔｗｏｒｋ、ＢＳＮ)、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを含む。

コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアント及びサーバは、一般に、互いに離れており、通常、通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行されかつ互いにクライアント－サーバの関係を持つコンピュータプログラムによって、クライアントとサーバ間の関係が生成される。

本願の実施例の別の態様によれば、本願の実施例はまた、プログラムコードを含むコンピュータプログラムを提供し、コンピュータが前記コンピュータプログラムを実行すると、前記プログラムコードは上記のいずれかの実施例に記載の方法を実行させる。

本願の実施例の別の態様によれば、本願の実施例はまた、コンピュータプログラムを含むコンピュータプログラム製品を提供し、前記コンピュータプログラムはプロセッサで実行されると、上記のいずれかの実施例に記載の方法を実行させる。

なお、上記に示される様々な形態のフローを使用して、ステップの順序を並べ替え、追加、又は削除することができる。例えば、本願に記載された各ステップは、本願に開示された技術の解決手段の所望の結果が達成され得る限り、並列、順次、又は異なる順序で実行されてもよく、本明細書に限定されない。

上記の具体的な実施形態は、本願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に基づいて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができることを理解すべきである。本願の精神と原則の範囲内で行われる任意の修正、同等の置換、及び改善などは、いずれも本願の保護範囲に含まれるべきである。

本願は、２０２０年２月１０日に中国特許庁に提出され、出願番号がＣＮ２０２０１００８５０６４．１で、出願名称が「オブジェクト識別方法と装置、電子機器及び記憶媒体」である中国特許出願の優先権を主張し、これらの全部内容は、すべて援用により本願に組み込まれる。

別のいくつかの実施例では、前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定した後、前記方法はさらに、
予め設定されたテキスト識別モデルに基づいて、決定された検出ブロックに対応するテキスト情報を識別し、識別結果を得ることと、
前記興味のあるポイントのテキスト情報に対応する第１のキー値ペアに基づいて、前記識別結果における第２のキー値ペアを再確認することと、を含み、
及び、決定された検出ブロックに基づいて、前記初期テキスト検出モデルをトレーニングすることは、
前記識別結果の第２のキー値ペアが前記興味のあるポイントのテキスト情報に対応する第１のキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、前記初期テキスト検出モデルをトレーニングすることを含む。

いくつかの実施例では、前記トレーニングモジュールは、予め設定されたテキスト識別モデルに基づいて、決定された検出ブロックに対応するテキスト情報を識別し、識別結果を得、前記興味のあるポイントのテキスト情報に対応する第１のキー値ペアに基づいて、前記識別結果における第２のキー値ペアを再確認すること、及び、前記識別結果の第２のキー値ペアが前記興味のあるポイントのテキスト情報に対応する第１のキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、前記初期テキスト検出モデルをトレーニングすることのために用いられる。

当該ステップは、識別対象オブジェクトに対応するＯＣＲ識別テンプレートを決定し、ＯＣＲ識別テンプレートにおけるターゲットテキスト検出モデルを決定し、ターゲットテキスト検出モデルに基づいて、識別対象オブジェクトに対応する全量テキスト情報から興味のあるポイントの特徴を選別し、興味のあるポイントの特徴をテキスト検出し、興味のあるポイントのテキスト情報を得ることを具体的に含むことができる。

例えば、ズーム後のサンプルオブジェクトのコントラストをより強くし、識別率を高めるために、ズーム後のサンプルオブジェクトに対して画像強化を行うことができる。具体的には、オープンソースコンピュータ視覚ライブラリＯｐｅｎｃｖのシャープ化処理を採用して、ズーム後のサンプルオブジェクトのエッジをより明確にすることができる。より具体的には、二次導関数を採用してシャープ化を完了することができ、例えば、Ｌａｐｌａｃｉａｎ演算子フィルタリングを用いて、ズーム後のサンプルオブジェクトの重み付きピクセルの重ね合わせを加えて、シャープ化を完了する。

Ｓ０３’において、興味のあるポイントのテキスト情報に対応する第１のキー値ペアに基づいて、識別結果における第２のキー値ペアを再確認する。

興味のあるポイントのテキスト情報に対応する第１のキー値ペアに基づいて、識別結果における第２のキー値ペアを再確認することにより、識別結果における第２のキー値ペアが興味のあるポイントのテキスト情報に対応する第１のキー値ペアと同じかどうかを判定することができる。即ち、２つのキー値ペアを再確認する過程は、２つのキー値ペアが同じかどうかを判断する過程として理解されることができる。

及び、Ｓ０３は、識別結果の第２のキー値ペアが興味のあるポイントのテキスト情報に対応する第１のキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、初期テキスト検出モデルをトレーニングすることを含む。

なお、識別結果の第２のキー値ペアに基づいて、興味のあるポイントのテキスト情報に対応する第１のキー値ペアを再確認し、得られた再確認結果は、識別結果の第２のキー値ペアが興味のあるポイントのテキスト情報に対応する第１のキー値ペアと異なる場合があり、例えば、識別結果の第２のキー値ペアに基づいて分かるように、Ａはキー（姓など）であるが、興味のあるポイントのテキスト情報に対応する第１のキー値ペアに基づいて分かるように、Ａは値（名前など）である場合、当該識別結果に対応するサンプルデータは異常なサンプルデータである可能性があることを意味し、当該識別結果に対応する検出ブロックを削除することができ、或いは、後続のトレーニングを行うために、当該識別結果に対応する検出ブロックを適応的に修正することができる。

また例えば、識別結果の第２のキー値ペアに基づいて分かるように、Ａはキー（姓など）であり、且つ興味のあるポイントのテキスト情報に対応する第１のキー値ペアに基づいて分かるように、Ａはキー（姓など）である場合、当該識別結果に対応するサンプルデータは、正常なサンプルデータであることを意味し、当該結果に対応する検出ブロックを後続のトレーニングの入力情報とする。

もちろん、別のいくつかの実施例では、図５に示すように、スキャナ３００を設けてもよく、スキャナ３００はコンピュータ１００と通信可能に接続される。ユーザ２００は、サンプルオブジェクトをスキャナ３００に入れ（図５における配置形態を参照してもよい）、スキャナ３００によってサンプルオブジェクトをスキャンし、スキャンしたサンプルオブジェクトをコンピュータ１００に伝送する。

なお、トレーニング部分において、興味のあるポイントのテキスト情報に基づいて、初期テキスト検出モデルを二次トレーニングしてターゲットテキスト検出モデルを得るので、ターゲットテキスト検出モデルに基づいて、識別対象オブジェクトに対応する興味のあるポイントのテキスト情報を識別することができる。これにより、識別量を低減し、識別効率を向上させることを実現できる。

いくつかの実施例では、前記トレーニングモジュール４０は、予め設定されたテキスト識別モデルに基づいて、決定された検出ブロックに対応するテキスト情報を識別し、識別結果を得、前記興味のあるポイントのテキスト情報に対応する第１のキー値ペアに基づいて、前記識別結果における第２のキー値ペアを再確認すること、及び、前記識別結果の第２のキー値ペアが前記興味のあるポイントのテキスト情報に対応する第１のキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、前記初期テキスト検出モデルをトレーニングすること、に用いられる。

図１０に示すように、図１０は本願の実施例の電子機器のブロック図である。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを意図している。電子機器は、パーソナルデジタルアシスタント、セルラー電話、スマートフォン、ウェアラブルデバイス及び他の類似のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書に示すコンポーネント、それらの接続及び関係、及びそれらの機能は、単なる例であり、本明細書で記載及び／又は要求される本願の実施を制限することを意図したものではない。

図１０に示すように、当該電子機器は、１つ又は複数のプロセッサ１０１と、メモリ１０２と、高速インターフェース及び低速インターフェースを含む様々なコンポーネントを接続するためのインターフェースと、を含む。各コンポーネントは、異なるバスを使用して相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の形態で取り付けられてもよい。プロセッサは、電子機器内で実行される命令を処理することができ、前記命令は、ＧＵＩのグラフィック情報を外部入力／出力装置（例えばインターフェースに結合された表示機器など）に表示するためにメモリ内又はメモリに記憶された命令を含む。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを、複数のメモリと一緒に使用してもよい。同様に、複数の電子機器を接続することができ、各機器は、一部の必要な操作（例えば、サーバーアレイ、１グループのブレードサーバ、又はマルチプロセッサシステムとする）を提供することができる。図１０では、プロセッサ１０１を例に取る。

Claims

オブジェクト識別方法であって、前記方法は、
識別対象オブジェクトを収集することと、
前記識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、前記識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得ることと、
予め設定されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別することと、を含む、
オブジェクト識別方法。
前記識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、前記識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得る前に、前記方法はさらに、
初期テキスト検出モデルを用いて、収集されたサンプルオブジェクトに対応する検出ブロックを生成することと、
前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定することと、
決定された検出ブロックに基づいて、前記初期テキスト検出モデルをトレーニングし、前記ターゲットテキスト検出モデルを生成することと、を含む、
請求項１に記載の方法。
前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定することは、
前記興味のあるポイントのテキスト情報に基づいて、前記検出ブロックに対して修正及び/又は削除操作を行うことを含み、前記修正操作は、線分修正、テキスト修正及び四隅点位置修正のうちの少なくとも１つを含む、
請求項２に記載の方法。
前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定した後、前記方法はさらに、
予め設定されたテキスト識別モデルに基づいて、決定された検出ブロックに対応するテキスト情報を識別し、識別結果を得ることと、
前記興味のあるポイントのテキスト情報に対応するキー値ペアに基づいて、前記識別結果におけるキー値ペアを再確認することと、を含み、
及び、決定された検出ブロックに基づいて、前記初期テキスト検出モジュールをトレーニングすることは、
前記識別結果のキー値ペアが前記興味のあるポイントのテキスト情報に対応するキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、前記初期テキスト検出モジュールをトレーニングすることを含む、
請求項２又は請求項３に記載の方法。
前記識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、前記識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得った後、前記方法はさらに、
前記興味のあるポイントのテキスト情報に対応するテキストタイプを決定することを含み、
及び、予め設定されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別することは、
前記テキストタイプに対応するテキスト識別モデルを選択し、選択されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別することを含む、
請求項１～４のいずれか１項に記載の方法。
オブジェクト識別装置であって、前記装置は、
識別対象オブジェクトを収集するための収集モジュールと、
前記識別対象オブジェクトに対応するターゲットテキスト検出モデルに基づいて、前記識別対象オブジェクトに対応する全量テキスト情報から選別して識別することにより、興味のあるポイントのテキスト情報を得るための検出モジュールと、
予め設定されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別するための識別モジュールと、を含む、
オブジェクト識別装置。
前記装置はさらに、
初期テキスト検出モデルを用いて、収集されたサンプルオブジェクトに対応する検出ブロックを生成し、前記検出ブロックに基づいて、予め設定された興味のあるポイントのテキスト情報に対応する検出ブロックを決定し、決定された検出ブロックに基づいて、前記初期テキスト検出モデルをトレーニングし、前記ターゲットテキスト検出モデルを生成するためのトレーニングモジュールを含む、
請求項６に記載の装置。
前記トレーニングモジュールは、前記興味のあるポイントのテキスト情報に基づいて、前記検出ブロックに対して修正及び/又は削除操作を行うために用いられ、前記修正操作は、線分修正、テキスト修正及び四隅点位置修正のうちの少なくとも１つを含む、
請求項７に記載の装置。
前記トレーニングモジュールは、予め設定されたテキスト識別モデルに基づいて、決定された検出ブロックに対応するテキスト情報を識別し、識別結果を得、前記興味のあるポイントのテキスト情報に対応するキー値ペアに基づいて、前記識別結果におけるキー値ペアを再確認すること、及び、前記識別結果のキー値ペアが前記興味のあるポイントのテキスト情報に対応するキー値ペアと同じであることに応答して、決定された検出ブロックに基づいて、前記初期テキスト検出モジュールをトレーニングすること、に用いられる、
請求項７又は請求項８に記載の装置。
前記装置はさらに、
前記興味のあるポイントのテキスト情報に対応するテキストタイプを決定するための決定モジュールを含み、
及び、前記識別モジュールは、前記テキストタイプに対応するテキスト識別モデルを選択し、選択されたテキスト識別モデルに基づいて前記興味のあるポイントのテキスト情報を識別すること、に用いられる
請求項６～９のいずれか１項に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信可能に接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能な命令が記憶され、前記命令は、前記少なくとも１つのプロセッサが請求項１～５のいずれか１項に記載の方法を実行できるように、前記少なくとも１つのプロセッサによって実行される、
電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータで読み取り可能な記憶媒体であって、前記コンピュータ命令は、前記コンピュータに請求項１～５のいずれか１項に記載の方法を実行させるために用いられる、
非一時的なコンピュータで読み取り可能な記憶媒体。
プログラムコードを含むコンピュータプログラムであって、コンピュータが前記コンピュータプログラムを実行すると、前記プログラムコードは請求項１～５のいずれか１項に記載の方法を実行させる、
コンピュータプログラム。
コンピュータプログラムを含むコンピュータプログラム製品であって、前記コンピュータプログラムはプロセッサで実行されると、請求項１～５のいずれか１項に記載の方法を実現させるコンピュータプログラム製品。