JP2023541532A - テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム - Google Patents
テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム Download PDFInfo
- Publication number
- JP2023541532A JP2023541532A JP2023509854A JP2023509854A JP2023541532A JP 2023541532 A JP2023541532 A JP 2023541532A JP 2023509854 A JP2023509854 A JP 2023509854A JP 2023509854 A JP2023509854 A JP 2023509854A JP 2023541532 A JP2023541532 A JP 2023541532A
- Authority
- JP
- Japan
- Prior art keywords
- text
- feature
- submodel
- detection model
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 184
- 238000000034 method Methods 0.000 title claims abstract description 97
- 238000012549 training Methods 0.000 title claims abstract description 63
- 238000004590 computer program Methods 0.000 title claims description 15
- 239000013598 vector Substances 0.000 claims abstract description 127
- 238000012545 processing Methods 0.000 claims abstract description 100
- 238000000605 extraction Methods 0.000 claims abstract description 67
- 230000009466 transformation Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000004927 fusion Effects 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本開示は、テキスト検出モデルのトレーニング方法及びテキストを検出する方法を提供し、人工知能分野に関し、具体的にはコンピュータ視覚及びディープラーニングの分野に関し、画像処理及び画像認識などのシーンに応用することができる。トレーニング方法は、実際位置情報及び実際種類を指示するラベルを有するサンプル画像をテキスト検出モデルのテキスト特徴抽出サブモデルに入力して、サンプル画像におけるテキストのテキスト特徴を取得することと、所定テキストベクトルをテキスト検出モデルのテキスト符号化サブモデルに入力して、テキスト参照特徴を取得することと、テキスト特徴及びテキスト参照特徴をテキスト検出モデルの復号化サブモデルに入力して、テキストシーケンスベクトルを取得することと、テキストシーケンスベクトルをテキスト検出モデルの出力サブモデルに入力して、予測位置情報及び予測種類を取得することと、予測種類、実際種類、予測位置情報、及び実際位置情報に基づいて、テキスト検出モデルをトレーニングすることと、を含む。
Description
本願は、2021年8月13日に提出された出願番号が202110934294.5である中国特許出願の優先権を要求し、その全ての内容は引用により本願に組み込まれる。
本開示は、人工知能技術分野に関し、具体的にはコンピュータ視覚及びディープラーニングの分野に関し、グラフィック処理及び画像認識等のシーンに応用することができる。
コンピュータ技術及びネットワーク技術の発展に伴い、ディープラーニング技術は多くの分野で広く応用される。例えば、ディープラーニング技術を用いて画像中のテキストを検出することにより、画像におけるテキストの位置を特定することができる。視覚主体目標であるテキストは、その字体、大きさ、色、方向などが多様化の特徴を呈し、ディープラーニング技術の特徴モデリング能力に対して高い要求を提出する。
これに基づいて、本開示は、テキスト検出効果を向上させ、様々なシーンに適用可能なテキスト検出モデルのトレーニング方法、テキスト検出モデルを用いてテキストを検出する方法、装置、機器及び記憶媒体を提供する。
本開示の一態様によれば、テキスト検出モデルのトレーニング方法を提供し、テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含み、当該トレーニング方法は、テキストを含むサンプル画像をテキスト特徴抽出サブモデルに入力して、サンプル画像におけるテキストの第一テキスト特徴を取得することであって、当該サンプル画像はサンプル画像に含まれるテキストの実際位置情報及び実際位置情報に対する実際種類を指示するラベルを有することと、所定テキストベクトルをテキスト符号化サブモデルに入力して、第一テキスト参照特徴を取得することと、第一テキスト特徴及び第一テキスト参照特徴を復号化サブモデルに入力して、第一テキストシーケンスベクトルを取得することと、第一テキストシーケンスベクトルを出力サブモデルに入力して、サンプル画像に含まれるテキストの予測位置情報及び予測位置情報に対する予測種類を取得することと、予測種類、実際種類、予測位置情報、及び実際位置情報に基づいて、テキスト検出モデルをトレーニングすることと、を含む。
本開示の他の態様によれば、テキスト検出モデルを用いてテキストを検出する方法を提供し、テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含み、当該テキストを検出する方法は、テキストを含む検出対象画像をテキスト特徴抽出サブモデルに入力して、検出対象画像におけるテキストの第二テキスト特徴を取得することと、所定テキストベクトルをテキスト符号化サブモデルに入力して、第二テキスト参照特徴を取得することと、第二テキスト特徴及び第二テキスト参照特徴を復号化サブモデルに入力して、第二テキストシーケンスベクトルを取得することと、第二テキストシーケンスベクトルを出力サブモデルに入力して、検出対象画像に含まれるテキストの位置を取得することと、を含み、ここで、テキスト検出モデルは、前記した特徴抽出モデルのトレーニング方法を用いる。
本開示の別の態様によれば、テキスト検出モデルのトレーニング装置を提供し、テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含み、トレーニング装置は、テキストを含むサンプル画像をテキスト特徴抽出サブモデルに入力して、サンプル画像におけるテキストの第一テキスト特徴を取得するものであって、当該サンプル画像は前記サンプル画像に含まれるテキストの実際位置情報及び実際位置情報に対する実際種類を指示するラベルを有する第一テキスト特徴取得モジュールと、所定テキストベクトルをテキスト符号化サブモデルに入力して、第一テキスト参照特徴を取得する第一参照特徴取得モジュールと、第一テキスト特徴及び第一テキスト参照特徴を復号化サブモデルに入力して、第一テキストシーケンスベクトルを取得する第一シーケンスベクトル取得モジュールと、第一テキストシーケンスベクトルを出力サブモデルに入力して、サンプル画像に含まれるテキストの予測位置情報及び予測位置情報に対する予測種類を取得する第一テキスト情報特定モジュールと、予測種類、実際種類、予測位置情報、及び実際位置情報に基づいて、テキスト検出モデルをトレーニングするモデルトレーニングモジュールと、を含む。
本開示の他の態様によれば、テキスト検出モデルを用いてテキストを検出する装置を提供し、テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含み、当該テキストを検出する装置は、テキストを含む検出対象画像をテキスト特徴抽出サブモデルに入力して、検出対象画像におけるテキストの第二テキスト特徴を取得する第二テキスト特徴取得モジュールと、所定テキストベクトルをテキスト符号化サブモデルに入力して、第二テキスト参照特徴を取得する第二参照特徴取得モジュールと、第二テキスト特徴及び第二テキスト参照特徴を復号化サブモデルに入力して、第二テキストシーケンスベクトルを取得する第二シーケンスベクトル取得モジュールと、第二テキストシーケンスベクトルを出力サブモデルに入力して、検出対象画像に含まれるテキストの位置を取得する第二テキスト情報特定モジュールと、を含み、ここで、テキスト検出モデルは前記したテキスト検出モデルのトレーニング装置を用いてトレーニングされたものである。
本開示の別の態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されたメモリと、を含み、メモリには、少なくとも一つのプロセッサにより実行可能な命令が記憶され、命令は、少なくとも一つのプロセッサが本開示の提供するテキスト検出モデルのトレーニング方法及び/又はテキスト検出モデルを用いてテキストを検出する方法を実行することができるように、少なくとも一つのプロセッサにより実行される。
本開示の別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、コンピュータ命令は、コンピュータに本開示の提供するテキスト検出モデルのトレーニング方法及び/又はテキスト検出モデルを用いてテキストを検出する方法を実行させる。
本開示の別の態様によれば、コンピュータプログラム製品を提供し、プロセッサにより実行される時に本開示の提供するテキスト検出モデルのトレーニング方法及び/又はテキスト検出モデルを用いてテキストを検出する方法を実現するコンピュータプログラムを含む。
理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。
図面は、本技術案をよりよく理解するために用いられ、本開示を限定するものではない。
以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが単に例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。
本開示は、テキスト検出モデルのトレーニング方法を提供し、ここで、当該テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル及び出力サブモデルを含む。当該トレーニング方法は、テキスト特徴取得段階、参照特徴取得段階、シーケンスベクトル取得段階、テキスト情報特定段階、及びモデルトレーニング段階を含む。テキスト特徴取得段階において、テキストを含むサンプル画像をテキスト特徴抽出サブモデルに入力して、サンプル画像におけるテキストの第一テキスト特徴を取得する。ここで、当該サンプル画像は、サンプル画像に含まれるテキストの実際位置情報及び実際位置情報に対する実際種類を指示するラベルを有する。参照特徴取得段階において、所定テキストベクトルをテキスト符号化サブモデルに入力して、第一テキスト参照特徴を取得する。シーケンスベクトル取得段階において、第一テキスト特徴及び第一テキスト参照特徴を復号化サブモデルに入力して、第一テキストシーケンスベクトルを取得する。テキスト情報特定段階において、第一テキストシーケンスベクトルを出力サブモデルに入力して、サンプル画像に含まれるテキストの予測位置情報及び予測位置情報に対する予測種類を取得する。モデルトレーニング段階において、予測種類、実際種類、予測位置情報、及び実際位置情報に基づいて、テキスト検出モデルをトレーニングする。
以下に図1を参照して本開示の提供する方法及び装置の応用シーンを説明する。
図1は、本開示の実施例に係るテキスト検出モデルのトレーニング方法及びテキスト検出モデルを用いてテキストを検出する方法、装置の応用シーンの概略図である。
図1は、本開示の実施例に係るテキスト検出モデルのトレーニング方法及びテキスト検出モデルを用いてテキストを検出する方法、装置の応用シーンの概略図である。
図1に示すように、当該実施例の応用シーン100は電子機器110を含むことができ、当該電子機器110は、処理機能を有する様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップ型携帯コンピュータ、デスクトップコンピュータ、及びサーバ等を含むが、それらに限定されない。当該電子機器110は、例えば入力された画像120に対してテキスト検出を行って、検出されたテキストの画像120における位置、すなわちテキスト位置130を取得することができる。
本開示の実施例によれば、テキストの画像120における位置は、例えばテキストの境界枠の位置により表すことができる。当該電子機器110による画像中のテキストに対する検出は、文字認識又はシーン理解等のタスクのプリステップとすることができる。例えば、当該画像におけるテキストに対する検出は、証明書認識、帳票認識などの業務シーンに応用することができる。テキストを予め検出することにより、後続のタスクの実行効率を向上させ、各応用シーンの生産性を向上させることができる。
本開示の実施例によれば、電子機器110は、例えば、目標検出又は目標分割の思想を用いてテキスト検出を行うことができる。目標検出は、境界枠を回帰することによりテキストを位置決めする。目標検出の一般的なアルゴリズムは、高効率でかつ正確なシーンテキスト検出アルゴリズム(Efficient and Accuracy Scene Text、EAST)、プリセレクトフレームネットワークへの接続によるテキスト検出アルゴリズム(Detecting Text in Natural Image with Connectionist Text Proposal Network、CTPN)などを含み、これらのアルゴリズムは、例えばフォントが大きく変化する又はシーン干渉が深刻であるシーンという複雑な自然シーンに対して、検出効果がよくない。目標分割は、全畳み込みネットワークを用いて画像に対して画素境界別の分類予測を行い、それにより画像をテキスト領域と非テキスト領域に分割し、次に後続の処理により画素レベルの出力を境界枠形式に変換する。ここで、目標分割の思想を用いてテキスト検出を行うアルゴリズムは、例えばマスクに基づく領域畳み込みニューラルネットワーク(Mask-RCNN)をバックボーンネットワークとして使用して分割図を生成することができる。当該目標分割の思想を用いてテキスト検出を行い、一般的な水平方向のテキストの検出で高い精度を取得することができるが、複雑な後処理ステップによって対応する境界枠を生成する必要があり、多くの計算リソース及び時間を消費する。さらに、テキスト重畳による境界枠重畳という状況に対して、当該目標分割の思想を用いてテキスト検出を行う効果がよくない。
これに基づいて、一実施例において、電子機器110は、後に説明するテキスト検出モデルのトレーニング方法でトレーニングして得られたテキスト検出モデル150を用いて画像120にテキスト検出を行うことができる。例えば、当該テキスト検出モデル150は、例えばサーバ140によりトレーニングして取得することができる。電子機器110は、ネットワークを介してサーバ140と通信接続され、サーバ140にモデル取得要求を送信することができる。それに応じて、サーバ140は、当該要求に応答してトレーニングされたテキスト検出モデル150を電子装置110に送信することができる。
一実施例において、電子機器110は、さらに、入力された画像120をサーバ140に送信し、サーバ140により、トレーニングされたテキスト検出モデル150に基づいて、当該画像120に対してテキスト検出を行うことができる。
説明すべきこととして、本開示の提供するテキスト検出モデルのトレーニング方法は、一般的にサーバ140によって実行されてもよく、サーバ140と通信接続された他のサーバによって実行されてもよい。それに応じて、本開示の提供するテキスト検出モデルのトレーニング装置は、サーバ140に設置されてもよく、サーバ140と通信接続された他のサーバに設置されてもよい。本開示の提供するテキスト検出モデルを用いてテキストを検出する方法は、一般的に電子装置110により実行されてもよく、サーバ140により実行されてもよい。それに応じて、本開示の提供するテキスト検出モデルを用いてテキストを検出する装置は、電子機器110に設置されてもよく、サーバ140に設置されてもよい。
理解すべきこととして、図1における電子機器110及びサーバ140の数及びタイプは、単に模式的なものである。必要に応じて、任意の数及びタイプの電子機器110及びサーバ140を有することができる。
以下、図1を参照し、以下の図2~図6により、本開示の提供するテキスト検出モデルのトレーニング方法を詳細に説明する。
図2は、本開示の実施例に係るテキスト検出モデルのトレーニング方法のフローチャートである。
図2に示すように、当該実施例のテキスト検出モデルのトレーニング方法は、操作S210~操作S250を含むことができる。ここで、テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含む。
操作S210において、テキストを含むサンプル画像をテキスト特徴抽出サブモデルに入力して、サンプル画像におけるテキストの第一テキスト特徴を取得する。
本開示の実施例によれば、当該テキスト特徴抽出サブモデルは、例えば残差ネットワーク又はセルフアテンションネットワークを用いてテキストのサンプル画像を処理して、当該サンプル画像におけるテキストのテキスト特徴を取得することができる。
一実施例において、当該特徴抽出サブモデルは、例えば画像特徴抽出ネットワーク及びシーケンス符号化ネットワークを含むことができる。ここで、画像特徴抽出ネットワークは、畳み込みニューラルネットワーク(例えばResNetネットワーク)を用いてもよく、アテンションメカニズムに基づくTransformerネットワークのエンコーダを用いてもよい。シーケンス符号化ネットワークは、回帰型ニューラルネットワークを用いてもよく、Transformerネットワークにおけるエンコーダを用いてもよい。操作S210において、まずサンプル画像を画像特徴抽出ネットワークに入力して、サンプル画像の画像特徴を取得することができる。次に当該画像特徴を一次元ベクトルに変換した後にシーケンス符号化ネットワークに入力して、当該第一テキスト特徴を取得する。
例示的に、画像特徴抽出ネットワークがTransformerネットワークのエンコーダを採用する場合、当該実施例は、まずサンプル画像を一次元画素ベクトルに展開し、当該一次元画素ベクトルを画像特徴抽出モデルの入力とすることができる。当該画像特徴抽出ネットワークの出力はシーケンス符号化ネットワークの入力とし、当該シーケンス符号化ネットワークを介して画像の全体的特徴からテキストの特徴情報を得る。当該シーケンス符号化モデルにより、例えば得られた第一テキスト特徴がテキストのコンテキスト情報を示すことができるようにすることもできる。
理解できることとして、サンプル画像は、ラベルを有すべきであり、当該ラベルは、サンプル画像に含まれるテキストの実際位置情報及び実際位置情報に対する実際種類を指示する。例えば、当該ラベルは、テキストを囲む境界枠の、サンプル画像に基づいて確立された座標系における座標位置で表すことができる。当該ラベルによって指示される実際位置情報に対する実際種類は、テキストを囲む境界枠の実際種類であってもよく、当該実際種類は、テキストを有する種類である。このように、当該ラベルは、さらに、実際位置情報に対する実際確率を指示することができ、実際種類がテキストを有する種類であれば、テキストを有する実際確率は1である。
操作S220において、所定テキストベクトルをテキスト符号化サブモデルに入力して、第一テキスト参照特徴を取得する。
本開示の実施例によれば、当該テキスト符号化サブモデルは、例えば全結合層構造であってもよく、所定テキストベクトルに対する処理により、第一テキスト特徴の次元と同じである第一テキスト参照特徴を取得する。ここで、所定テキストベクトルは、実際需要に応じて設定することができ、例えば、画像におけるテキストの長さが最長でも通常25であるように設定すれば、当該所定テキストベクトルは25個の成分を有するベクトルであってもよく、当該25個の成分の値はそれぞれ1、2、3、・・・、25である。
理解できることとして、当該テキスト符号化サブモデルが第一テキスト参照特徴を得る方法は、学習位置符号化を用いて位置コードを得る方法と類似し、当該テキスト符号化サブモデルにより、テキストにおける各文字に対して一つの独立したベクトルを習得することができる。
操作S230において、第一テキスト特徴及び第一テキスト参照特徴を復号化サブモデルに入力して、第一テキストシーケンスベクトルを取得する。
本開示の実施例によれば、復号化サブモデルは、Transformerモデルのデコーダを採用することができる。第一テキスト参照特徴を、当該復号化サブモデルに入力する参照特徴(例えばobject query)として、第一テキスト特徴を当該復号化サブモデルに入力するキー特徴(即ちKey)及び値特徴(即ちValue)とすることができる。当該復号化サブモデルを介して処理された後、第一テキストシーケンスベクトルが得られる。
本開示の実施例によれば、当該第一テキストシーケンスベクトルは、少なくとも一つのテキストベクトルを含むことができ、各テキストベクトルは、サンプル画像中の一つのテキストを示す。例えば、サンプル画像に2行のテキストが含まれる場合、当該第一テキストシーケンスベクトルは、少なくとも2つのテキストベクトルを含むべきである。
操作S240において、第一テキストシーケンスベクトルを出力サブモデルに入力して、サンプル画像に含まれるテキストの予測位置情報及び予測位置情報に対する予測種類を取得する。
本開示の実施例によれば、出力サブモデルは、例えば2つのネットワーク分岐を有し、一つのネットワーク分岐は、テキストの予測位置を回帰することに用いられ、もう一つのネットワーク分岐は、当該予測位置を分類して、予測種類を取得することに用いられる。ここで、分類結果は、予測確率で表すことができ、それにより当該予測位置がテキストを有する確率を表し、テキストを有する確率が確率閾値より大きければ、予測種類がテキストを有する種類であると特定することができ、そうでなければ予測種類がテキストを有しない種類であると特定する。
本開示の実施例によれば、当該2つのネットワーク分岐は、例えばそれぞれフィードフォワードネットワークで構成することができる。ここで、テキストの予測位置を回帰するネットワーク分岐の入力は、当該第一テキストシーケンスベクトルであり、出力は、予測されたテキストの境界枠位置である。分類を行うネットワーク分岐の入力は、当該第一テキストシーケンスベクトルであり、出力は、目標種類の確率であり、当該目標種類は、テキストを有する種類である。
操作S250において、予測種類、実際種類、予測位置情報及び実際位置情報に基づいて、テキスト検出モデルをトレーニングする。
本開示の実施例によれば、予測位置情報と予測種類とを取得した後、予測位置情報とラベルで指示された実際位置情報とを比較することにより、位置決め損失を取得することができる。予測種類とラベルで指示された実際種類とを比較することにより、分類損失を取得する。ここで、位置決め損失は、例えばヒンジ損失(Hinge Loss)関数、ソフトマックス損失(Softmax Loss)関数などで表すことができる。位置決め損失は、例えば、二乗損失関数(L1損失ともいう)、平均二乗損失関数(L2損失ともいう)などで表すことができる。ここで、分類損失は、例えば予測確率と実際確率との差によって特定することができる。
この実施例は、位置決め損失と分類損失との加重和をテキスト検出モデルの損失とすることができる。ここで、加重和を計算する時に採用される重みは、実際需要に応じて設定することができ、本開示はこれを限定しない。テキスト検出モデルの損失を取得した後、逆伝播等のアルゴリズムを用いてテキスト検出モデルをトレーニングすることができる。
本開示の実施例は、テキスト検出モデルにテキスト符号化サブモデルが設置され、目標検出モデルをトレーニングする過程において、当該テキスト符号化サブモデルを異なるテキスト実例情報に注目させることができ、復号化サブモデルにより正確な参照情報を提供し、それによりテキスト検出モデルはより強い特徴モデリング能力を有し、自然シーンで多様な変化を有するテキストに対する検出精度を向上させ、画像におけるテキストに対する検出漏れ又は検出誤りの確率を低下させる。
図3は、本開示の実施例に係るテキスト検出モデルの構造概略図である。
本開示の実施例によれば、図3に示すように、当該実施例のテキスト検出モデル300は、画像特徴抽出ネットワーク310、第一位置符号化サブモデル330、シーケンス符号化ネットワーク340、テキスト符号化サブモデル350、復号化サブモデル360、及び出力サブモデル370を含むことができる。ここで、画像特徴抽出ネットワーク310及び第一位置符号化サブモデル330はテキスト特徴抽出サブモデルを構成する。
本開示の実施例によれば、図3に示すように、当該実施例のテキスト検出モデル300は、画像特徴抽出ネットワーク310、第一位置符号化サブモデル330、シーケンス符号化ネットワーク340、テキスト符号化サブモデル350、復号化サブモデル360、及び出力サブモデル370を含むことができる。ここで、画像特徴抽出ネットワーク310及び第一位置符号化サブモデル330はテキスト特徴抽出サブモデルを構成する。
本開示の実施例は、サンプル画像中のテキストを検出する時、まずサンプル画像301を画像特徴抽出ネットワーク310に入力して、サンプル画像の画像特徴を取得することができる。ここで、当該画像特徴抽出ネットワーク310は、画像分割モデル、画像検出モデルなどにおけるバックボーン(Backbone)ネットワークを採用することができ、例えば前述のResNetネットワーク又はTransformerネットワークのエンコーダなどであってもよい。その後に所定位置ベクトル302を第一位置符号化サブモデル330に入力して、位置符号化特徴を得る。ここで、第一位置符号化サブモデル330は前述のテキスト符号化サブモデルと類似してもよく、一つの全結合層であってもよい。所定位置ベクトル302は、前述の所定テキストベクトルと類似する。当該所定位置ベクトル302は、実際需要に応じて設定することができる。一実施例において、当該所定位置ベクトル302は、所定テキストベクトル305と等長であってもよく、不等長であってもよく、本開示はこれを限定しない。その後、融合ネットワーク320により画像特徴と位置符号化特徴とを融合することができる。当該融合ネットワーク320は、具体的には位置符号化特徴と画像特徴とを加算することができる。加算して得られた特徴をシーケンス符号化ネットワーク340に入力して、第一テキスト特徴304を取得する。ここで、シーケンス符号化ネットワーク340は、Transformerモデルのエンコーダを採用することができ、このように、シーケンス符号化ネットワーク340に入力する前に、さらに加算して得られた特徴を一次元ベクトル303に変換し、当該一次元ベクトル303をシーケンス符号化ネットワーク340の入力とする必要がある。
同時に、所定テキストベクトル305をテキスト符号化サブモデル350に入力して、テキスト符号化サブモデル350により第一テキスト参照特徴306を出力することができる。シーケンス符号化ネットワーク340から出力された第一テキスト特徴304と第一テキスト参照特徴306とを同時に復号化サブモデル360の出力とし、当該復号化サブモデル360を介して第一テキストシーケンスベクトル307を出力する。ここで、復号化サブモデル360はTransformerモデルのデコーダを採用することができる。
当該復号化サブモデル360から出力された第一テキストシーケンスベクトル307は、出力サブモデル370に入力された後、出力サブモデル370によりテキストの境界枠の位置及び境界枠の種類確率を出力することができる。当該境界枠の、サンプル画像に基づいて構築された座標系における位置をテキストの予測位置情報とし、境界枠の種類確率における、テキストを有することを指示する確率を、予測位置でテキストを有する予測確率とし、当該予測確率に基づいて、予測種類を得ることができる。当該出力サブモデル370の出力に基づいて、図3に示すような少なくとも一つの境界枠308を取得することができ、境界枠がテキストを有する確率が確率閾値より小さい場合、当該境界枠をNull枠、即ちテキストを有しない枠とし、そうでなければ当該境界枠をText枠、即ちテキストを有する枠とする。ここで、確率閾値は、実際需要に応じて設定することができ、本開示はこれを限定しない。
当該実施例は、画像特徴抽出ネットワーク及びシーケンス符号化ネットワークによりテキスト特徴抽出サブモデルを構成し、かつ画像特徴をシーケンス符号化ネットワークに入力する前に、画像特徴に位置特徴を追加することにより、得られたテキスト特徴のテキストコンテキスト情報に対する表現能力を向上させ、検出されたテキストの正確性を向上させることができる。当該第一位置符号化サブモデルを設置することにより、シーケンス符号化ネットワークがTransformerアーキテクチャを採用することができ、回帰型ニューラルネットワークアーキテクチャに比べて、計算効率を向上させ、長いテキストに対する表現能力を向上させることができる。
本開示の実施例によれば、当該実施例のテキスト検出モデルは、例えばシーケンス符号化ネットワークと融合ネットワークとの間に畳み込み層を設置してもよく、当該畳み込み層の大きさは、例えば1×1であってもよく、それにより融合されたベクトルに対して次元削減を行い、シーケンス符号化ネットワークの計算量を低減する。これは、テキスト検出のタスクにおいて、特徴の分解能に対する要求が低いため、ある程度で分解能を犠牲にすることによりモデルの計算量を低減することができる。
図4は、本開示の実施例に係る画像特徴抽出ネットワークの構造概略図である。
本開示の実施例によれば、当該実施例400において、前記画像特徴抽出ネットワークは、特徴変換ユニット410と、順に接続された複数の特徴処理ユニットと、順に接続された複数の特徴処理ユニット421~424とを含むことができる。各特徴処理ユニットは、Transformerアーキテクチャのデコーダ構成を採用することができる。
本開示の実施例によれば、当該実施例400において、前記画像特徴抽出ネットワークは、特徴変換ユニット410と、順に接続された複数の特徴処理ユニットと、順に接続された複数の特徴処理ユニット421~424とを含むことができる。各特徴処理ユニットは、Transformerアーキテクチャのデコーダ構成を採用することができる。
ここで、特徴変換ユニット410は、埋め込み層であってもよく、サンプル画像401に基づいてサンプル画像を表す一次元ベクトルを取得するために用いられる。当該特徴変換ユニットにより、画像中の文字をTokenとし、かつベクトル中の要素で表すことができる。一実施例において、当該特徴変換ユニット410は、例えば画像中の画素マトリクスを展開して一定の大きさの一次元ベクトルに変換するために用いられる。当該一次元ベクトルは、複数の特徴処理ユニットのうちの1番目の特徴処理ユニット421に入力され、順に接続された複数の特徴処理ユニットを介して順に処理された後、サンプル画像の画像特徴を得ることができる。具体的には、一次元ベクトルは、当該1番目の特徴処理ユニット421により処理された後に、一つの特徴マップを出力することができる。当該特徴マップは、2番目の特徴処理ユニット422に入力され、当該2番目の特徴処理ユニット422から出力された特徴マップは、3番目の特徴処理ユニットに入力され、このように類推し、複数の特徴処理ユニットのうちの最後の特徴処理ユニット424から出力された特徴マップは、サンプル画像の画像特徴である。即ち、複数の特徴処理ユニットのうちの1番目の特徴処理ユニット421以外のi番目の特徴処理ユニットに対して、i-1番目の特徴処理ユニットから出力された特徴マップをi番目の特徴処理ユニットに入力し、i番目の特徴処理ユニットに対する特徴マップを出力し、ここで、i>=2であり、最後に接続順序に応じて、複数の特徴処理ユニットのうちの最後に位置する特徴処理ユニットから出力された特徴マップを、サンプル画像の画像特徴とする。
当該実施例から分かるように、画像特徴抽出ネットワークは、階層化の設計を採用し、複数の特徴抽出段階を含むことができ、各特徴処理ユニットは、一つの特徴抽出段階に対応する。当該実施例において、接続順序に応じて、複数の特徴処理ユニットから出力された特徴マップの分解能が順に低下することができ、それによりCNNと類似し、層ごとに受容野を拡大する。
理解できることとして、図4に示すように、1番目の特徴処理ユニット421以外の他の特徴処理ユニットにおいて、Token融合層(Token Merging)及びTransformerアーキテクチャにおける符号化ブロック(すなわちTransformer Block)を含むことができる。Token融合層は、特徴をダウンサンプリングするために用いられる。符号化ブロックは、特徴を符号化するために用いられる。1番目の特徴処理ユニット421におけるToken融合層に対応する構造は、前述の特徴変換ユニット410であってもよく、それによりサンプル画像を処理した後に1番目の特徴処理ユニットにおける符号化ブロックの入力を得て、すなわち前述の一次元特徴を得る。
理解できることとして、各特徴処理ユニットは、少なくとも一つのToken融合層及び符号化ブロックで構成された基本要素を含み、複数の基本要素を含む場合、当該複数の基本要素は順に接続される。説明すべきものとして、1番目の特徴処理ユニットが複数の基本要素で構成される場合、当該1番目の特徴処理ユニットにおける最前に位置する1番目の基本要素におけるToken融合層を前記特徴変換ユニット410とし、当該1番目の基本要素以外の他の基本要素におけるToken融合層が他の特徴処理ユニットにおけるToken融合層と類似する。例えば、一実施例において、複数の特徴処理ユニットは4つであり、当該4つの特徴処理ユニットは、接続順序に応じて順に2つの基本要素、2つの基本要素、6つの基本要素、及び2つの基本要素を含み、本開示はこれを限定しない。
一実施例において、複数の特徴処理ユニットは、Transformerアーキテクチャのエンコーダ構造を採用するため、当該実施例は、1番目の特徴処理ユニットに入力する一次元ベクトルを取得する前に、まずサンプル画像に位置符号化を行うことができる。具体的には、当該実施例が採用したテキスト検出モデルは、さらに第二位置符号化サブモデルを含むことができる。当該第二位置符号化サブモデルを用いてサンプル画像に位置符号化を行って、サンプル画像の位置図を取得することができる。ここで、サンプル画像に位置符号化を行う場合、学習位置符号化の方法を用いてもよく、絶対位置符号化方法を用いて位置図を取得してもよい。当該絶対位置符号化方法は、三角関数符号化方法を含むことができ、本開示はこれを限定しない。このようにして、位置符号化を取得した後、当該実施例は、サンプル画像と位置図とを画素ごとに加算し、次に当該加算して得られたデータを特徴変換ユニットに入力し、それによりサンプル画像を表す一次元ベクトルを取得することができる。ここで、具体的にはサンプル画像を表す画素行列と位置図を表す画素行列を加算し、サンプル画像と位置図との間の画素ごとの加算を実現することができる。
CNNを採用する技術案と比較して、当該技術案は、Transformerアーキテクチャのエンコーダ構造を画像特徴抽出ネットワークとして採用し、かつ位置情報を融合することにより、得られた画像特徴が画像の長距離のコンテキスト情報をよりよく表現することができ、モデルの学習能力及び予測効果を向上させやすい。
図5は、本開示の実施例に係る特徴処理ユニットの構造概略図である。
本開示の実施例によれば、図5に示すように、複数の特徴処理ユニットのうちの各特徴処理ユニット500は、順に接続された偶数個の符号化層を含み、偶数個の符号化層に対して、奇数番目の符号化層510の移動ウィンドウ(shifted window)は、偶数番目の符号化層520の移動ウィンドウより小さい。当該実施例は、複数の特徴処理ユニットのうちの1番目の特徴処理ユニットを用いて1番目の特徴処理ユニットに対する特徴マップを得る場合、一次元ベクトルを1番目の特徴処理ユニットに含まれる偶数個の符号化層のうちの1番目の符号化層に入力し、当該順に接続された偶数個の符号化層を介して順に処理し、1番目の特徴処理ユニットに対する特徴マップを得る。具体的には、まず一次元ベクトルを1番目の特徴処理ユニットに含まれる偶数個の符号化層のうちの1番目の符号化層に入力して、1番目の符号化層に対する特徴マップを出力することができる。1つの特徴処理ユニットに含まれる偶数個の符号化層のうちの1番目の符号化層以外のj番目の符号化層に対して、j-1番目の符号化層から出力された特徴マップをj番目の符号化層に入力して、j番目の符号化層に対する特徴マップを出力し、ここで、j>=2である。最後に接続順序に応じて、1番目の特徴処理ユニットに含まれる偶数個の符号化層のうちの最後に位置する符号化層から出力された特徴マップを、1番目の特徴処理ユニットに対する特徴マップとする。
本開示の実施例によれば、図5に示すように、複数の特徴処理ユニットのうちの各特徴処理ユニット500は、順に接続された偶数個の符号化層を含み、偶数個の符号化層に対して、奇数番目の符号化層510の移動ウィンドウ(shifted window)は、偶数番目の符号化層520の移動ウィンドウより小さい。当該実施例は、複数の特徴処理ユニットのうちの1番目の特徴処理ユニットを用いて1番目の特徴処理ユニットに対する特徴マップを得る場合、一次元ベクトルを1番目の特徴処理ユニットに含まれる偶数個の符号化層のうちの1番目の符号化層に入力し、当該順に接続された偶数個の符号化層を介して順に処理し、1番目の特徴処理ユニットに対する特徴マップを得る。具体的には、まず一次元ベクトルを1番目の特徴処理ユニットに含まれる偶数個の符号化層のうちの1番目の符号化層に入力して、1番目の符号化層に対する特徴マップを出力することができる。1つの特徴処理ユニットに含まれる偶数個の符号化層のうちの1番目の符号化層以外のj番目の符号化層に対して、j-1番目の符号化層から出力された特徴マップをj番目の符号化層に入力して、j番目の符号化層に対する特徴マップを出力し、ここで、j>=2である。最後に接続順序に応じて、1番目の特徴処理ユニットに含まれる偶数個の符号化層のうちの最後に位置する符号化層から出力された特徴マップを、1番目の特徴処理ユニットに対する特徴マップとする。
図5に示すように、当該特徴処理ユニット500は、関連技術におけるTransformerアーキテクチャのエンコーダ構造と類似し、各符号化層は、アテンション層及びフィードフォワード層を含み、かつアテンション層及びフィードフォワード層にはいずれも線形化処理層が設置される。奇数番目の符号化層に対して、アテンション層は、第一移動ウィンドウが設置された第一アテンションを用いて、入力された特徴ベクトルをブロック化し、かつアテンションの計算を当該各特徴ベクトルブロックの内部に集中する。アテンション層が並列計算することができるため、ブロック化された複数の特徴ベクトルブロックに対して並列計算を行うことができ、入力された特徴ベクトル全体を計算することに比べて、計算量を大幅に低減することができる。偶数番目の符号化層に対して、アテンション層は、第二移動ウィンドウが設置された第二アテンションを採用し、当該第二移動ウィンドウは第一移動ウィンドウより大きい。当該第二移動ウィンドウは、例えば特徴ベクトル全体であってもよく、かつ偶数番目の符号化層の入力が奇数番目の符号化層の出力であるため、当該偶数番目の符号化層は、奇数番目の符号化層から出力された特徴シーケンスのうちの各シーケンスを一つの基本ユニットとして、特徴シーケンス中の特徴の間にアテンションの計算を行うことができ、それにより第一移動ウィンドウにより分割された複数の特徴ベクトルブロックの間の情報のやり取りを保証する。当該2つのアテンション層を設置し、かつ2つの大きさの異なる移動ウィンドウを設置することにより、画像特徴抽出モデルの特徴抽出能力を向上させることができる。
理解できることとして、本開示の実施例における特徴処理ユニットは、実質的に、スライド窓メカニズムのTransformerアーキテクチャのエンコーダ構造を採用する。1番目の特徴処理ユニット以外のi番目の特徴処理ユニットに対して、入力された特徴マップは、当該i番目の特徴処理ユニットにおける順に接続された偶数個の符号化層を介して順に処理され、最後に位置する符号化層により当該i番目の特徴処理ユニットに対する特徴マップを出力する。
図6は、本開示の実施例に係るテキスト検出モデルの損失を特定する原理概略図である。
本開示の実施例によれば、当該実施例600において、予測位置情報は、例えば4つの予測位置点で表すことができ、実際位置情報は、4つの実際位置点で表すことができる。ここで、4つの予測位置点は、予測境界枠の左上頂点、右上頂点、右下頂点、及び左下頂点であってもよい。4つの実際位置点は、実際境界枠の左上頂点、右上頂点、右下頂点、及び左下頂点であってもよい。関連技術において境界枠の中心点、長さ及び幅で位置を表す技術案と比較して、境界枠が矩形以外の他の形状であることを許容することができる。すなわち、当該実施例は、関連技術における矩形枠形式を4点枠形式に変換することができ、それにより当該テキスト検出モデルが複雑なシーンでのテキスト検出タスクを実行することにさらに適合することができる。
当該実施例において、テキスト検出モデルの損失を特定する時、得られた予測確率610とラベルで指示される実際確率630とに基づいて、テキスト検出モデルの分類損失650を特定し、かつ得られた予測位置情報620とラベルで指示される実際位置情報640とに基づいて、テキスト検出モデルの位置決め損失660を特定することができる。最後に分類損失650及び位置決め損失660とに基づいて、テキスト検出モデルの損失、すなわちモデル損失670を取得し、それにより当該モデル損失670に基づいてテキスト検出モデルをトレーニングする。
本開示の実施例によれば、当該実施例における位置決め損失660は、例えば第一サブ位置決め損失651と第二位置決め損失652の加重和で表すことができる。ここで、第一サブ位置決め損失651は、4つの実際位置点のそれぞれと4つの予測位置点との間の距離に基づいて計算することができる。第二位置決め損失652は、4つの実際位置点で囲まれた領域と4つの予測位置点で囲まれた領域との間のIoU(Intersection over union)に基づいて計算することができる。第一サブ位置決め損失651と第二位置決め損失652との加重和を計算する時に採用される重みは、実際需要に応じて設定することができ、本開示はこれを限定しない。
例示的には、第一サブ位置決め損失651は、前述のL1損失又はL2損失などで表すことができ、第二サブ位置決め損失652は、IoUで表すことができる。又は、当該第二サブ位置決め損失652は、IoUに正相関する任意の損失関数を用いて表すことができ、本開示はこれを限定しない。
本開示の実施例は、第二サブ位置決め損失を設置することにより、得られた位置決め損失が4つの位置点で示される予測境界枠と実際境界枠との間の差をよりよく反映することができ、得られた位置決め損失の精度を向上させる。
前述のテキスト検出モデルのトレーニング方法に基づいて、本開示は、さらにトレーニングされたテキスト検出モデルを用いてテキストを検出する方法を提供し、以下に図7を参照して当該方法を詳細に説明する。
図7は、本開示の実施例に係るテキスト検出モデルを用いてテキストを検出する方法のフローチャートである。
図7に示すように、当該実施例の方法700は、操作S710~操作S740を含むことができる。ここで、テキスト検出モデルは、前述のテキスト検出モデルのトレーニング方法を用いてトレーニングされたものである。当該テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含むことができる。
操作S710において、テキストを含む検出対象画像をテキスト特徴抽出サブモデルに入力して、検出対象画像におけるテキストの第二テキスト特徴を取得する。理解できることとして、当該第二テキスト特徴は、第一テキスト特徴の取得方法と類似し、ここで説明を省略する。
操作S720において、所定テキストベクトルをテキスト符号化サブモデルに入力して、第二テキスト参照特徴を取得する。理解できることとして、当該第二テキスト参照特徴は、第一テキスト参照特徴の取得方法と類似し、ここで説明を省略する。
操作S730において、第二テキスト特徴及び第二テキスト参照特徴を復号化サブモデルに入力して、第二テキストシーケンスベクトルを取得する。理解できることとして、当該第二テキストシーケンスベクトルは、第一テキストシーケンスベクトルの取得方法と類似し、ここで説明を省略する。
操作S740において、第二テキストシーケンスベクトルを出力サブモデルに入力し、検出対象画像に含まれるテキストの位置を取得する。
理解できることとして、本開示の実施例において、出力サブモデルの出力は、前述の予測位置情報及び予測確率を含むことができる。この実施例では、予測確率が確率閾値よりも大きい予測位置情報を示す座標位置を、検出画像に含まれるテキストの位置としてもよい。
前述のテキスト検出モデルのトレーニング方法に基づいて、本開示は、さらにテキスト検出モデルのトレーニング装置を提供する。以下、図8を参照してこの装置を詳細に説明する。
図8は、本開示の実施例に係るテキスト検出モデルのトレーニング装置の構成ブロック図である。
図8に示すように、当該実施例の装置800は、第一テキスト特徴取得モジュール810、第一参照特徴取得モジュール820、第一シーケンスベクトル取得モジュール830、第一テキスト情報特定モジュール840、及びモデルトレーニングモジュール850を含むことができる。ここで、テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含む。
第一テキスト特徴取得モジュール810は、テキストを含むサンプル画像をテキスト特徴抽出サブモデルに入力して、サンプル画像におけるテキストの第一テキスト特徴を取得するために用いられる。ここで、サンプル画像は、サンプル画像に含まれるテキストの実際位置情報及び実際位置情報に対する実際種類を指示するラベルを有する。一実施例において、当該第一テキスト特徴取得モジュール810は、前述の操作S210を実行するために用いられ、ここで説明を省略する。
第一参照特徴取得モジュール820は、所定テキストベクトルをテキスト符号化サブモデルに入力して、第一テキスト参照特徴を取得するために用いられる。一実施例において、当該第一参照特徴取得モジュール820は、前述の操作S220を実行するために用いられ、ここで説明を省略する。
第一シーケンスベクトル取得モジュール830は、第一テキスト特徴及び第一テキスト参照特徴を復号化サブモデルに入力して、第一テキストシーケンスベクトルを取得するために用いられる。一実施例において、当該第一シーケンスベクトル取得モジュール830は、前述の操作S230を実行するために用いられ、ここで説明を省略する。
第一テキスト情報特定モジュール840は、第一テキストシーケンスベクトルを出力サブモデルに入力して、サンプル画像に含まれるテキストの予測位置情報及び予測位置情報に対する予測種類を取得するために用いられる。一実施例において、当該第一テキスト情報特定モジュール840は、前述の操作S240を実行するために用いられ、ここで説明を省略する。
モデルトレーニングモジュール850は、予測種類、実際種類、予測位置情報、及び実際位置情報に基づいて、テキスト検出モデルをトレーニングするために用いられる。一実施例において、当該モデルトレーニングモジュール850は、前述の操作S250を実行するために用いられ、ここで説明を省略する。
本開示の実施例によれば、テキスト特徴抽出サブモデルは、画像特徴抽出ネットワーク及びシーケンス符号化ネットワークを含む。テキスト検出モデルは、さらに、第一位置符号化サブモデルを含む。第一テキスト特徴取得モジュール810は、画像特徴取得サブモジュール、位置特徴取得サブモジュール、テキスト特徴取得サブモジュールを含む。画像特徴取得サブモジュールは、サンプル画像を画像特徴抽出ネットワークに入力して、サンプル画像の画像特徴を取得するために用いられる。位置特徴取得サブモジュールは、所定位置ベクトルを第一位置符号化サブモデルに入力して、位置符号化特徴を取得するために用いられる。テキスト特徴取得サブモジュールは、位置符号化特徴と画像特徴とを加算した後にシーケンス符号化ネットワークに入力して、第一テキスト特徴を取得するために用いられる。
本開示の実施例によれば、画像特徴抽出ネットワークは、特徴変換ユニットと、順に接続された複数の特徴処理ユニットとを含む。画像特徴取得サブモジュールは、一次元ベクトル取得ユニットと特徴マップ取得ユニットとを含む。一次元ベクトル取得ユニットは、サンプル画像に基づいて、特徴変換ユニットを用いてサンプル画像を表す一次元ベクトルを取得するために用いられる。特徴取得ユニットは、一次元ベクトルを複数の特徴処理ユニットのうちの1番目の特徴処理ユニットに入力し、複数の特徴処理ユニットを介して順に処理して、サンプル画像の画像特徴を取得するために用いられる。ここで、接続順序に応じて、複数の特徴処理ユニットから出力された特徴マップの分解能が順に低下する。
本開示の実施例によれば、複数の特徴処理ユニットのうちの各特徴処理ユニットは、順に接続された偶数個の符号化層を含む。偶数個の符号化層について、奇数番目の符号化層の移動ウィンドウが、偶数番目の符号化層の移動ウィンドウより小さい。特徴取得ユニットは、一次元ベクトルを1番目の特徴処理ユニットに含まれる偶数個の符号化層のうちの1番目の符号化層に入力し、偶数個の符号化層を介して順に処理して、1番目の特徴処理ユニットに対する特徴マップを取得する方式により、1番目の特徴処理ユニットに対する特徴マップを得るために用いられる。
本開示の実施例によれば、テキスト検出モデルは、さらに、第二位置符号化サブモデルを含む。一次元ベクトル取得ユニットは、サンプル画像に基づいて、第二位置符号化サブモデルを用いてサンプル画像の位置図を取得し、サンプル画像と位置図とを画素ごとに加算した後に特徴変換ユニットに入力して、サンプル画像を表す一次元ベクトルを取得するために用いられる。
本開示の実施例によれば、モデルトレーニングモジュール850は、分類損失特定サブモジュール、位置決め損失特定サブモジュール、及びモデルトレーニングサブモジュールを含む。分類損失特定サブモジュールは、予測種類及び実際種類に基づいて、テキスト検出モデルの分類損失を特定するために用いられる。位置決め損失特定サブモジュールは、予測位置情報及び実際位置情報に基づいて、テキスト検出モデルの位置決め損失を特定するために用いられる。モデルトレーニングサブモジュールは、分類損失及び位置決め損失に基づいて、テキスト検出モデルをトレーニングするために用いられる。
本開示の実施例によれば、実際位置情報は、4つの実際位置点で示され、予測位置情報は、4つの予測位置点で示される。位置決め損失特定サブモジュールは、第一特定ユニットと、第二特定ユニットと、第三特定ユニットとを含む。第一特定ユニットは、4つの実際位置点のそれぞれと4つの予測位置点との間の距離に基づいて、第一サブ位置決め損失を特定するために用いられる。第二特定ユニットは、4つの実際位置点で囲まれた領域と4つの予測位置点で囲まれた領域との間のIoUに基づいて、第二サブ位置決め損失を特定するために用いられる。第三特定ユニットは、第一サブ位置決め損失と第二サブ位置決め損失との加重和をテキスト検出モデルの位置決め損失とするために用いられる。
前述のテキスト検出モデルを用いてテキストを検出する方法に基づいて、本開示は、さらに、テキスト検出モデルを用いてテキストを検出する装置を提供する。以下、図9を参照してこの装置を詳細に説明する。
図9は、本開示の実施例に係るテキスト検出モデルを用いてテキストを検出する装置の構造ブロック図である。
図9に示すように、当該実施例の装置1000は、第二テキスト特徴取得モジュール910、第二参照特徴取得モジュール920、第二シーケンスベクトル取得モジュール930、及び第二テキスト情報特定モジュール940を含むことができる。ここで、テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含む。このテキスト検出モデルは、前述のテキスト検出モデルのトレーニング装置を用いてトレーニングされたものであってもよい。
第二テキスト特徴取得モジュール910は、テキストを含む検出対象画像を前記テキスト特徴抽出サブモデルに入力して、前記検出対象画像におけるテキストの第二テキスト特徴を取得するために用いられる。一実施例において、当該第二テキスト特徴取得モジュール910は、前述の操作S710を実行するために用いられ、ここで説明を省略する。
第二参照特徴取得モジュール920は、所定テキストベクトルを前記テキスト符号化サブモデルに入力して、第二テキスト参照特徴を取得するために用いられる。一実施例において、当該第二参照特徴取得モジュール920は前述の操作S720を実行するために用いられ、ここで説明を省略する。
第二シーケンスベクトル取得モジュール930は、前記第二テキスト特徴及び前記第二テキスト参照特徴を前記復号化サブモデルに入力して、第二テキストシーケンスベクトルを取得するために用いられる。一実施例において、当該第二シーケンスベクトル取得モジュール930は前述の操作S730を実行するために用いられ、ここで説明を省略する。
第二テキスト情報特定モジュール940は、前記第二テキストシーケンスベクトルを前記出力サブモデルに入力して、前記検出対象画像に含まれるテキストの位置を取得するために用いられる。一実施例において、当該第二テキスト情報特定モジュール940は前述の操作S740を実行するために用いられ、ここで説明を省略する。
本開示の技術案において、係られたユーザ個人情報の収集、記憶、使用、加工、伝送、提供、開示及び応用等の処理は、いずれも関連法規や法規の規定に合致しており、必要なセキュリティ対策を取っており、かつ公序良俗に反するものではない。
本開示の技術案において、ユーザの個人情報を取得するか又は収集する前に、いずれもユーザの許可又は同意を取得している。本開示の実施例によれば、本開示は、さらに電子機器、可読記憶媒体及びコンピュータプログラム製品を提供する。
図10は、本開示の実施例のテキスト検出モデルのトレーニング方法及び/又はテキスト検出モデルを用いてテキストを検出する方法を実施できる例示的な電子機器1000の概略ブロック図を示す。電子機器は、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータという様々な形式のデジタルコンピュータを表すことを意図する。電子機器は、さらに、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置という様々な形式の移動装置を表してもよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
図10に示すように、機器1000は、計算ユニット1001を含み、それはリードオンリーメモリ(ROM)1002に記憶されたコンピュータプログラム又は記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。RAM1003には、さらに機器1000の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット1001、ROM1002、およびRAM1003は、バス1004を介して相互に接続されている。バス1004には、入出力(I/O)インタフェース1005も接続されている。
機器1000における複数の部品は、I/Oインタフェース1005に接続され、例えばキーボード、マウス等の入力ユニット1006と、例えば様々な種別のディスプレイ、スピーカ等の出力ユニット1007と、例えば磁気ディスク、光ディスク等の記憶ユニット1008と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット1009とを含む。通信ユニット1009は、機器1000がインターネット等のコンピュータネットワーク及び/又は各種の電気通信網を介して他の機器と情報/データをやり取りすることを可能にする。
計算ユニット1001は、処理及び計算能力を有する各種の汎用及び/又は専用の処理モジュールであってもよい。計算ユニット1001の幾つかの例としては、中央処理装置(CPU)、GPU(Graphics Processing Unit)、各種専用の人工知能(AI)演算チップ、各種機械学習モデルアルゴリズムをランニングする計算ユニット、DSP(Digital Signal Processor)、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算ユニット1001は、例えばテキスト検出モデルのトレーニング方法及び/又はテキスト検出モデルを用いてテキストを検出する方法のような前記記載された各方法と処理を実行する。例えば、いくつかの実施例において、テキスト検出モデルのトレーニング方法及び/又はテキスト検出モデルを用いてテキストを検出する方法は、例えば記憶ユニット1008のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ROM1002及び/又は通信ユニット1009を介して機器1000にロード及び/又はインストールされてもよい。コンピュータプログラムがRAM1003にロードされて計算ユニット1001により実行される場合、前記記載されたテキスト検出モデルのトレーニング方法及び/又はテキスト検出モデルを用いてテキストを検出する方法の1つ又は複数のステップを実行することができる。代替的に、別の実施例において、計算ユニット1001は、他の任意の適切な方式により(例えば、ファームウェアを介して)テキスト検出モデルのトレーニング方法及び/又はテキスト検出モデルを用いてテキストを検出する方法を実行するように構成されてもよい。
本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、特定用途向け標準製品(ASSP)、システムオンチップ(SOC)、コンプレックスプログラマブルロジックデバイス(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、1つ又は複数のコンピュータプログラムにおいて実施され、当該1つ又は複数のコンピュータプログラムは、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行され及び/又は解釈されることが可能であり、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも1つの入力装置、及び少なくとも1つの出力装置からデータ及び命令を受信し、かつデータ及び命令を当該記憶システム、当該少なくとも1つの入力装置、及び当該少なくとも1つの出力装置に伝送することができることを含んでもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能/操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は機器、又は前記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、コンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は前記内容の任意の適切な組み合わせを含む。
ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、当該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種別の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力又は触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが当該グラフィカルユーザインタフェース又は当該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムで実施されることが可能である。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、局所エリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
コンピュータシステムは、クライアント及びサーバを含んでよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。その中で、サーバーは、クラウドサーバーであってもよく、クラウドコンピューティングサーバー又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのホスト製品である。従来の物理ホストおよびVPSサービス(「Virtual Private Server」、または「VPS」と略称する)に存在する管理が困難であり、業務の拡張性が弱いという欠点を解決する。サーバーは、分散システムのサーバー、またはブロックチェーンと組み合わせたサーバーであってよい。
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順に実行されたり、又は異なる順序で実行されてもよく、本開示に開示された技術案の所望の結果を実現することができれば、本明細書はここで限定されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。
これに基づいて、本開示は、テキスト検出効果を向上させ、様々なシーンに適用可能なテキスト検出モデルのトレーニング方法及び装置、テキスト検出モデルを用いてテキストを検出する方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。
本開示の他の態様によれば、テキスト検出モデルを用いてテキストを検出する方法を提供し、テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含み、当該テキストを検出する方法は、テキストを含む検出対象画像をテキスト特徴抽出サブモデルに入力して、検出対象画像におけるテキストの第二テキスト特徴を取得することと、所定テキストベクトルをテキスト符号化サブモデルに入力して、第二テキスト参照特徴を取得することと、第二テキスト特徴及び第二テキスト参照特徴を復号化サブモデルに入力して、第二テキストシーケンスベクトルを取得することと、第二テキストシーケンスベクトルを出力サブモデルに入力して、検出対象画像に含まれるテキストの位置を取得することと、を含み、ここで、テキスト検出モデルは、前記したテキスト検出モデルのトレーニング方法を用いてトレーニングされたものである。
本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサにより実行される時に本開示の提供するテキスト検出モデルのトレーニング方法及び/又はテキスト検出モデルを用いてテキストを検出する方法を実現する。
本開示の技術案において、ユーザの個人情報を取得するか又は収集する前に、いずれもユーザの許可又は同意を取得している。本開示の実施例によれば、本開示は、さらに電子機器、可読記憶媒体及びコンピュータプログラムを提供する。
Claims (19)
- テキスト検出モデルのトレーニング方法であって、
前記テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含み、前記方法は、
テキストを含むサンプル画像を前記テキスト特徴抽出サブモデルに入力して、前記サンプル画像におけるテキストの第一テキスト特徴を取得することであって、前記サンプル画像は前記サンプル画像に含まれるテキストの実際位置情報及び前記実際位置情報に対する実際種類を指示するラベルを有することと、
所定テキストベクトルを前記テキスト符号化サブモデルに入力して、第一テキスト参照特徴を取得することと、
前記第一テキスト特徴及び前記第一テキスト参照特徴を前記復号化サブモデルに入力して、第一テキストシーケンスベクトルを取得することと、
前記第一テキストシーケンスベクトルを前記出力サブモデルに入力して、前記サンプル画像に含まれるテキストの予測位置情報及び前記予測位置情報に対する予測種類を取得することと、
前記予測種類、前記実際種類、前記予測位置情報、及び前記実際位置情報に基づいて、前記テキスト検出モデルをトレーニングすることと、を含む
テキスト検出モデルのトレーニング方法。 - 前記テキスト特徴抽出サブモデルは、画像特徴抽出ネットワーク及びシーケンス符号化ネットワークを含み、前記テキスト検出モデルは、第一位置符号化サブモデルをさらに含み、前記サンプル画像におけるテキストの第一テキスト特徴を取得することは、
前記サンプル画像を前記画像特徴抽出ネットワークに入力して、前記サンプル画像の画像特徴を取得することと、
所定位置ベクトルを前記第一位置符号化サブモデルに入力して、位置符号化特徴を取得することと、
前記位置符号化特徴と前記画像特徴とを加算した後に前記シーケンス符号化ネットワークに入力して、前記第一テキスト特徴を取得することと、を含む
請求項1に記載の方法。 - 前記画像特徴抽出ネットワークは、特徴変換ユニットと、順に接続された複数の特徴処理ユニットとを含み、前記サンプル画像の画像特徴を取得することは、
前記サンプル画像に基づいて、前記特徴変換ユニットを用いて前記サンプル画像を表す一次元ベクトルを取得することと、
前記一次元ベクトルを前記複数の特徴処理ユニットのうちの1番目の特徴処理ユニットに入力し、前記複数の特徴処理ユニットを介して順に処理して、前記サンプル画像の画像特徴を取得することと、を含み、
ここで、接続順序に応じて、前記複数の特徴処理ユニットから出力された特徴マップの分解能が順に低下する
請求項2に記載の方法。 - 前記複数の特徴処理ユニットのうちの各特徴処理ユニットは、順に接続された偶数個の符号化層を含み、前記偶数個の符号化層について、奇数番目の符号化層の移動ウィンドウが偶数番目の符号化層の移動ウィンドウより小さく、前記複数の特徴処理ユニットのうちの1番目の特徴処理ユニットを用いて前記1番目の特徴処理ユニットに対する特徴マップを取得することは、
前記一次元ベクトルを前記1番目の特徴処理ユニットに含まれる偶数個の符号化層のうちの1番目の符号化層に入力し、前記偶数個の符号化層を介して順に処理し、前記1番目の特徴処理ユニットに対する特徴マップを取得することを含む
請求項3に記載の方法。 - 前記テキスト検出モデルは、第二位置符号化サブモデルをさらに含み、前記特徴変換ユニットを用いて前記サンプル画像を表す一次元ベクトルを取得することは、
前記サンプル画像に基づいて、前記第二位置符号化サブモデルを用いて前記サンプル画像の位置図を取得することと、
前記サンプル画像と前記位置図とを画素ごとに加算した後に前記特徴変換ユニットに入力して、前記サンプル画像を表す一次元ベクトルを取得することと、を含む
請求項3に記載の方法。 - 前記テキスト検出モデルをトレーニングすることは、
前記予測種類及び前記実際種類に基づいて、前記テキスト検出モデルの分類損失を特定することと、
前記予測位置情報及び前記実際位置情報に基づいて、前記テキスト検出モデルの位置決め損失を特定することと、
前記分類損失及び前記位置決め損失に基づいて、前記テキスト検出モデルをトレーニングすることと、を含む
請求項1に記載の方法。 - 前記実際位置情報は4つの実際位置点で示され、前記予測位置情報は4つの予測位置点で示され、前記テキスト検出モデルの位置決め損失を特定することは、
前記4つの実際位置点のそれぞれと前記4つの予測位置点との間の距離に基づいて、第一サブ位置決め損失を特定することと、
前記4つの実際位置点で囲まれた領域と前記4つの予測位置点で囲まれた領域との間のIoUに基づいて、第二サブ位置決め損失を特定することと、
前記第一サブ位置決め損失と前記第二サブ位置決め損失との加重和を前記テキスト検出モデルの位置決め損失とすることと、を含む
請求項6に記載の方法。 - テキスト検出モデルを用いてテキストを検出する方法であって、
前記テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含み、前記方法は、
テキストを含む検出対象画像を前記テキスト特徴抽出サブモデルに入力して、前記検出対象画像におけるテキストの第二テキスト特徴を取得することと、
所定テキストベクトルを前記テキスト符号化サブモデルに入力して、第二テキスト参照特徴を取得することと、
前記第二テキスト特徴及び前記第二テキスト参照特徴を前記復号化サブモデルに入力して、第二テキストシーケンスベクトルを取得することと、
前記第二テキストシーケンスベクトルを前記出力サブモデルに入力して、前記検出対象画像に含まれるテキストの位置を取得することと、を含み、
ここで、前記テキスト検出モデルは、請求項1~7のいずれか一項に記載の方法を用いてトレーニングされたものである
テキスト検出モデルを用いてテキストを検出する方法。 - テキスト検出モデルのトレーニング装置であって、
前記テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含み、前記装置は、
テキストを含むサンプル画像を前記テキスト特徴抽出サブモデルに入力して、前記サンプル画像におけるテキストの第一テキスト特徴を取得するものであって、前記サンプル画像は前記サンプル画像に含まれるテキストの実際位置情報及び前記実際位置情報に対する実際種類を指示するラベルを有する第一テキスト特徴取得モジュールと、
所定テキストベクトルを前記テキスト符号化サブモデルに入力して、第一テキスト参照特徴を取得する第一参照特徴取得モジュールと、
前記第一テキスト特徴及び前記第一テキスト参照特徴を前記復号化サブモデルに入力して、第一テキストシーケンスベクトルを取得する第一シーケンスベクトル取得モジュールと、
前記第一テキストシーケンスベクトルを前記出力サブモデルに入力して、前記サンプル画像に含まれるテキストの予測位置情報及び前記予測位置情報に対する予測種類を取得する第一テキスト情報特定モジュールと、
前記予測種類、前記実際種類、前記予測位置情報、及び前記実際位置情報に基づいて、前記テキスト検出モデルをトレーニングするモデルトレーニングモジュールと、を含む
テキスト検出モデルのトレーニング装置。 - 前記テキスト特徴抽出サブモデルは、画像特徴抽出ネットワーク及びシーケンス符号化ネットワークを含み、前記テキスト検出モデルは、第一位置符号化サブモデルをさらに含み、前記第一テキスト特徴取得モジュールは、
前記サンプル画像を前記画像特徴抽出ネットワークに入力して、前記サンプル画像の画像特徴を取得する画像特徴取得サブモジュールと、
所定位置ベクトルを前記第一位置符号化サブモデルに入力して、位置符号化特徴を取得する位置特徴取得サブモジュールと、
前記位置符号化特徴と前記画像特徴とを加算した後に前記シーケンス符号化ネットワークに入力して、前記第一テキスト特徴を取得するテキスト特徴取得サブモジュールと、を含む
請求項9に記載の装置。 - 前記画像特徴抽出ネットワークは、特徴変換ユニットと、順に接続された複数の特徴処理ユニットとを含み、前記画像特徴取得サブモジュールは、
前記サンプル画像に基づいて、前記特徴変換ユニットを用いて前記サンプル画像を表す一次元ベクトルを取得する一次元ベクトル取得ユニットと、
前記一次元ベクトルを前記複数の特徴処理ユニットのうちの1番目の特徴処理ユニットに入力し、前記複数の特徴処理ユニットを介して順に処理し、前記サンプル画像の画像特徴を取得する特徴取得ユニットと、を含み、
ここで、接続順序に応じて、前記複数の特徴処理ユニットから出力された特徴マップの分解能が順に低下する
請求項10に記載の装置。 - 前記複数の特徴処理ユニットのうちの各特徴処理ユニットは、順に接続された偶数個の符号化層を含み、前記偶数個の符号化層について、奇数番目の符号化層の移動ウィンドウが偶数番目の符号化層の移動ウィンドウより小さく、前記特徴取得ユニットは、
前記一次元ベクトルを前記1番目の特徴処理ユニットに含まれる偶数個の符号化層のうちの1番目の符号化層に入力し、前記偶数個の符号化層を介して順に処理して、前記1番目の特徴処理ユニットに対する特徴マップを取得する方式により、前記1番目の特徴処理ユニットに対する特徴マップを取得する
請求項11に記載の装置。 - 前記テキスト検出モデルは、第二位置符号化サブモデルをさらに含み、前記一次元ベクトル取得ユニットは、
前記サンプル画像に基づいて、前記第二位置符号化サブモデルを用いて前記サンプル画像の位置図を取得し、
前記サンプル画像と前記位置図とを画素ごとに加算した後に前記特徴変換ユニットに入力して、前記サンプル画像を表す一次元ベクトルを取得する
請求項12に記載の装置。 - 前記モデルトレーニングモジュールは、
前記予測種類及び前記実際種類に基づいて、前記テキスト検出モデルの分類損失を特定する分類損失特定サブモジュールと、
前記予測位置情報及び前記実際位置情報に基づいて、前記テキスト検出モデルの位置決め損失を特定する位置決め損失特定サブモジュールと、
前記分類損失及び前記位置決め損失に基づいて、前記テキスト検出モデルをトレーニングするモデルトレーニングサブモジュールと、を含む
請求項9に記載の装置。 - 前記実際位置情報は4つの実際位置点で示され、前記予測位置情報は4つの予測位置点で示され、前記測位損失特定サブモジュールは、
前記4つの実際位置点のそれぞれと前記4つの予測位置点との間の距離に基づいて、第一サブ位置決め損失を特定する第一特定ユニットと、
前記4つの実際位置点で囲まれた領域と前記4つの予測位置点で囲まれた領域との間のIoUに基づいて、第二サブ位置決め損失を特定する第二特定ユニットと、
前記第一サブ位置決め損失と前記第二サブ位置決め損失との加重和を前記テキスト検出モデルの位置決め損失とする第三特定ユニットと、を含む
請求項14に記載の装置。 - テキスト検出モデルを用いてテキストを検出する装置であって、
前記テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含み、前記装置は、
テキストを含む検出対象画像を前記テキスト特徴抽出サブモデルに入力して、前記検出対象画像におけるテキストの第二テキスト特徴を取得する第二テキスト特徴取得モジュールと、
所定テキストベクトルを前記テキスト符号化サブモデルに入力して、第二テキスト参照特徴を取得する第二参照特徴取得モジュールと、
前記第二テキスト特徴及び前記第二テキスト参照特徴を前記復号化サブモデルに入力して、第二テキストシーケンスベクトルを取得する第二シーケンスベクトル取得モジュールと、
前記第二テキストシーケンスベクトルを前記出力サブモデルに入力して、前記検出対象画像に含まれるテキストの位置を取得する第二テキスト情報特定モジュールと、を含み、
ここで、前記テキスト検出モデルは請求項9~15のいずれか一項に記載の装置を用いてトレーニングされたものである
テキスト検出モデルを用いてテキストを検出する装置。 - 電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリには、前記少なくとも一つのプロセッサにより実行可能な命令が記憶され、
前記命令は、前記少なくとも一つのプロセッサが請求項1~8のいずれか一項に記載の方法を実行することができるように、前記少なくとも一つのプロセッサにより実行される
電子機器。 - コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項1~8のいずれか一項に記載の方法を実行させる
非一時的なコンピュータ可読記憶媒体。 - プロセッサにより実行される時に請求項1~8のいずれか一項に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110934294.5A CN113657390B (zh) | 2021-08-13 | 2021-08-13 | 文本检测模型的训练方法和检测文本方法、装置和设备 |
CN202110934294.5 | 2021-08-13 | ||
PCT/CN2022/088393 WO2023015941A1 (zh) | 2021-08-13 | 2022-04-22 | 文本检测模型的训练方法和检测文本方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023541532A true JP2023541532A (ja) | 2023-10-03 |
Family
ID=78480299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023509854A Pending JP2023541532A (ja) | 2021-08-13 | 2022-04-22 | テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2023541532A (ja) |
CN (1) | CN113657390B (ja) |
WO (1) | WO2023015941A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657390B (zh) * | 2021-08-13 | 2022-08-12 | 北京百度网讯科技有限公司 | 文本检测模型的训练方法和检测文本方法、装置和设备 |
CN114332868A (zh) * | 2021-12-30 | 2022-04-12 | 电子科技大学 | 一种自然场景下的水平文本检测方法 |
CN114495101A (zh) * | 2022-01-12 | 2022-05-13 | 北京百度网讯科技有限公司 | 文本检测方法、文本检测网络的训练方法及装置 |
CN114495102A (zh) * | 2022-01-12 | 2022-05-13 | 北京百度网讯科技有限公司 | 文本识别方法、文本识别网络的训练方法及装置 |
CN114139729B (zh) * | 2022-01-29 | 2022-05-10 | 北京易真学思教育科技有限公司 | 机器学习模型训练方法和装置、文本识别方法和装置 |
CN114821622B (zh) * | 2022-03-10 | 2023-07-21 | 北京百度网讯科技有限公司 | 文本抽取方法、文本抽取模型训练方法、装置及设备 |
CN115035538B (zh) * | 2022-03-22 | 2023-04-07 | 北京百度网讯科技有限公司 | 文本识别模型的训练方法、文本识别方法及装置 |
CN114724133B (zh) * | 2022-04-18 | 2024-02-02 | 北京百度网讯科技有限公司 | 文字检测和模型训练方法、装置、设备及存储介质 |
CN115578735B (zh) * | 2022-09-29 | 2023-09-15 | 北京百度网讯科技有限公司 | 文本检测方法和文本检测模型的训练方法、装置 |
CN115546488B (zh) * | 2022-11-07 | 2023-05-19 | 北京百度网讯科技有限公司 | 信息分割方法、信息提取方法和信息分割模型的训练方法 |
CN116050465B (zh) * | 2023-02-09 | 2024-03-19 | 北京百度网讯科技有限公司 | 文本理解模型的训练方法和文本理解方法、装置 |
CN116468907B (zh) * | 2023-03-31 | 2024-01-30 | 阿里巴巴(中国)有限公司 | 图像处理、图像分类和图像检测的方法及设备 |
CN116385789B (zh) * | 2023-04-07 | 2024-01-23 | 北京百度网讯科技有限公司 | 图像处理方法、训练方法、装置、电子设备及存储介质 |
CN116611491A (zh) * | 2023-04-23 | 2023-08-18 | 北京百度网讯科技有限公司 | 目标检测模型的训练方法、装置、电子设备和存储介质 |
CN117197737B (zh) * | 2023-09-08 | 2024-05-28 | 数字广东网络建设有限公司 | 一种土地用途的检测方法、装置、设备及存储介质 |
CN117275005A (zh) * | 2023-09-21 | 2023-12-22 | 北京百度网讯科技有限公司 | 文本检测、文本检测模型优化、数据标注的方法、装置 |
CN117173731B (zh) * | 2023-11-02 | 2024-02-27 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、图像处理的方法以及相关装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147806B (zh) * | 2018-10-08 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 图像描述模型的训练方法、装置及存储介质 |
CN110517293A (zh) * | 2019-08-29 | 2019-11-29 | 京东方科技集团股份有限公司 | 目标跟踪方法、装置、***和计算机可读存储介质 |
CN112016543A (zh) * | 2020-07-24 | 2020-12-01 | 华为技术有限公司 | 一种文本识别网络、神经网络训练的方法以及相关设备 |
CN112652393B (zh) * | 2020-12-31 | 2021-09-07 | 山东大学齐鲁医院 | 基于深度学习的ercp质控方法、***、存储介质及设备 |
CN112614128B (zh) * | 2020-12-31 | 2021-09-07 | 山东大学齐鲁医院 | 一种基于机器学习的内镜下辅助活检的***及方法 |
CN113033534B (zh) * | 2021-03-10 | 2023-07-25 | 北京百度网讯科技有限公司 | 建立票据类型识别模型与识别票据类型的方法、装置 |
CN113111871B (zh) * | 2021-04-21 | 2024-04-19 | 北京金山数字娱乐科技有限公司 | 文本识别模型的训练方法及装置、文本识别方法及装置 |
CN113065614B (zh) * | 2021-06-01 | 2021-08-31 | 北京百度网讯科技有限公司 | 分类模型的训练方法和对目标对象进行分类的方法 |
CN113657390B (zh) * | 2021-08-13 | 2022-08-12 | 北京百度网讯科技有限公司 | 文本检测模型的训练方法和检测文本方法、装置和设备 |
-
2021
- 2021-08-13 CN CN202110934294.5A patent/CN113657390B/zh active Active
-
2022
- 2022-04-22 WO PCT/CN2022/088393 patent/WO2023015941A1/zh unknown
- 2022-04-22 JP JP2023509854A patent/JP2023541532A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
CN113657390A (zh) | 2021-11-16 |
CN113657390B (zh) | 2022-08-12 |
WO2023015941A1 (zh) | 2023-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023541532A (ja) | テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
CN113313022B (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN112949415B (zh) | 图像处理方法、装置、设备和介质 | |
JP2023541119A (ja) | 文字認識モデルのトレーニング方法、文字認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN112966522A (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
JP7425147B2 (ja) | 画像処理方法、テキスト認識方法及び装置 | |
KR20220122566A (ko) | 텍스트 인식 모델의 트레이닝 방법, 텍스트 인식 방법 및 장치 | |
US11861919B2 (en) | Text recognition method and device, and electronic device | |
CN115880536B (zh) | 数据处理方法、训练方法、目标对象检测方法及装置 | |
CN114863437B (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN113901909B (zh) | 基于视频的目标检测方法、装置、电子设备和存储介质 | |
JP7384943B2 (ja) | 文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体 | |
CN114429637B (zh) | 一种文档分类方法、装置、设备及存储介质 | |
CN115578735B (zh) | 文本检测方法和文本检测模型的训练方法、装置 | |
CN113591566A (zh) | 图像识别模型的训练方法、装置、电子设备和存储介质 | |
CN115546488B (zh) | 信息分割方法、信息提取方法和信息分割模型的训练方法 | |
EP4123595A2 (en) | Method and apparatus of rectifying text image, training method and apparatus, electronic device, and medium | |
CN113887615A (zh) | 图像处理方法、装置、设备和介质 | |
CN114863182A (zh) | 图像分类方法、图像分类模型的训练方法及装置 | |
CN112966140B (zh) | 字段识别方法、装置、电子设备、存储介质和程序产品 | |
EP4174789A1 (en) | Method and apparatus of processing image, and storage medium | |
EP4123605A2 (en) | Method of transferring image, and method and apparatus of training image transfer model | |
CN114661904A (zh) | 文档处理模型的训练方法、装置、设备、存储介质及程序 | |
CN113887414A (zh) | 目标检测方法、装置、电子设备和存储介质 | |
CN114220163A (zh) | 人体姿态估计方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230210 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231024 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240521 |