JP2023541532A

JP2023541532A - テキスト検出モデルのトレーニング方法及び装置、テキスト検出方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム

Info

Publication number: JP2023541532A
Application number: JP2023509854A
Authority: JP
Inventors: 曉強張; 夏孟欽; 成全章; ▲クン▼ 姚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-13
Filing date: 2022-04-22
Publication date: 2023-10-03
Also published as: CN113657390A; CN113657390B; WO2023015941A1

Abstract

本開示は、テキスト検出モデルのトレーニング方法及びテキストを検出する方法を提供し、人工知能分野に関し、具体的にはコンピュータ視覚及びディープラーニングの分野に関し、画像処理及び画像認識などのシーンに応用することができる。トレーニング方法は、実際位置情報及び実際種類を指示するラベルを有するサンプル画像をテキスト検出モデルのテキスト特徴抽出サブモデルに入力して、サンプル画像におけるテキストのテキスト特徴を取得することと、所定テキストベクトルをテキスト検出モデルのテキスト符号化サブモデルに入力して、テキスト参照特徴を取得することと、テキスト特徴及びテキスト参照特徴をテキスト検出モデルの復号化サブモデルに入力して、テキストシーケンスベクトルを取得することと、テキストシーケンスベクトルをテキスト検出モデルの出力サブモデルに入力して、予測位置情報及び予測種類を取得することと、予測種類、実際種類、予測位置情報、及び実際位置情報に基づいて、テキスト検出モデルをトレーニングすることと、を含む。

Description

本願は、２０２１年８月１３日に提出された出願番号が２０２１１０９３４２９４．５である中国特許出願の優先権を要求し、その全ての内容は引用により本願に組み込まれる。

本開示は、人工知能技術分野に関し、具体的にはコンピュータ視覚及びディープラーニングの分野に関し、グラフィック処理及び画像認識等のシーンに応用することができる。

コンピュータ技術及びネットワーク技術の発展に伴い、ディープラーニング技術は多くの分野で広く応用される。例えば、ディープラーニング技術を用いて画像中のテキストを検出することにより、画像におけるテキストの位置を特定することができる。視覚主体目標であるテキストは、その字体、大きさ、色、方向などが多様化の特徴を呈し、ディープラーニング技術の特徴モデリング能力に対して高い要求を提出する。

これに基づいて、本開示は、テキスト検出効果を向上させ、様々なシーンに適用可能なテキスト検出モデルのトレーニング方法、テキスト検出モデルを用いてテキストを検出する方法、装置、機器及び記憶媒体を提供する。

本開示の一態様によれば、テキスト検出モデルのトレーニング方法を提供し、テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含み、当該トレーニング方法は、テキストを含むサンプル画像をテキスト特徴抽出サブモデルに入力して、サンプル画像におけるテキストの第一テキスト特徴を取得することであって、当該サンプル画像はサンプル画像に含まれるテキストの実際位置情報及び実際位置情報に対する実際種類を指示するラベルを有することと、所定テキストベクトルをテキスト符号化サブモデルに入力して、第一テキスト参照特徴を取得することと、第一テキスト特徴及び第一テキスト参照特徴を復号化サブモデルに入力して、第一テキストシーケンスベクトルを取得することと、第一テキストシーケンスベクトルを出力サブモデルに入力して、サンプル画像に含まれるテキストの予測位置情報及び予測位置情報に対する予測種類を取得することと、予測種類、実際種類、予測位置情報、及び実際位置情報に基づいて、テキスト検出モデルをトレーニングすることと、を含む。

本開示の他の態様によれば、テキスト検出モデルを用いてテキストを検出する方法を提供し、テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含み、当該テキストを検出する方法は、テキストを含む検出対象画像をテキスト特徴抽出サブモデルに入力して、検出対象画像におけるテキストの第二テキスト特徴を取得することと、所定テキストベクトルをテキスト符号化サブモデルに入力して、第二テキスト参照特徴を取得することと、第二テキスト特徴及び第二テキスト参照特徴を復号化サブモデルに入力して、第二テキストシーケンスベクトルを取得することと、第二テキストシーケンスベクトルを出力サブモデルに入力して、検出対象画像に含まれるテキストの位置を取得することと、を含み、ここで、テキスト検出モデルは、前記した特徴抽出モデルのトレーニング方法を用いる。

本開示の別の態様によれば、テキスト検出モデルのトレーニング装置を提供し、テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含み、トレーニング装置は、テキストを含むサンプル画像をテキスト特徴抽出サブモデルに入力して、サンプル画像におけるテキストの第一テキスト特徴を取得するものであって、当該サンプル画像は前記サンプル画像に含まれるテキストの実際位置情報及び実際位置情報に対する実際種類を指示するラベルを有する第一テキスト特徴取得モジュールと、所定テキストベクトルをテキスト符号化サブモデルに入力して、第一テキスト参照特徴を取得する第一参照特徴取得モジュールと、第一テキスト特徴及び第一テキスト参照特徴を復号化サブモデルに入力して、第一テキストシーケンスベクトルを取得する第一シーケンスベクトル取得モジュールと、第一テキストシーケンスベクトルを出力サブモデルに入力して、サンプル画像に含まれるテキストの予測位置情報及び予測位置情報に対する予測種類を取得する第一テキスト情報特定モジュールと、予測種類、実際種類、予測位置情報、及び実際位置情報に基づいて、テキスト検出モデルをトレーニングするモデルトレーニングモジュールと、を含む。

本開示の他の態様によれば、テキスト検出モデルを用いてテキストを検出する装置を提供し、テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含み、当該テキストを検出する装置は、テキストを含む検出対象画像をテキスト特徴抽出サブモデルに入力して、検出対象画像におけるテキストの第二テキスト特徴を取得する第二テキスト特徴取得モジュールと、所定テキストベクトルをテキスト符号化サブモデルに入力して、第二テキスト参照特徴を取得する第二参照特徴取得モジュールと、第二テキスト特徴及び第二テキスト参照特徴を復号化サブモデルに入力して、第二テキストシーケンスベクトルを取得する第二シーケンスベクトル取得モジュールと、第二テキストシーケンスベクトルを出力サブモデルに入力して、検出対象画像に含まれるテキストの位置を取得する第二テキスト情報特定モジュールと、を含み、ここで、テキスト検出モデルは前記したテキスト検出モデルのトレーニング装置を用いてトレーニングされたものである。

本開示の別の態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されたメモリと、を含み、メモリには、少なくとも一つのプロセッサにより実行可能な命令が記憶され、命令は、少なくとも一つのプロセッサが本開示の提供するテキスト検出モデルのトレーニング方法及び／又はテキスト検出モデルを用いてテキストを検出する方法を実行することができるように、少なくとも一つのプロセッサにより実行される。

本開示の別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、コンピュータ命令は、コンピュータに本開示の提供するテキスト検出モデルのトレーニング方法及び／又はテキスト検出モデルを用いてテキストを検出する方法を実行させる。

本開示の別の態様によれば、コンピュータプログラム製品を提供し、プロセッサにより実行される時に本開示の提供するテキスト検出モデルのトレーニング方法及び／又はテキスト検出モデルを用いてテキストを検出する方法を実現するコンピュータプログラムを含む。

理解されるべきこととして、本部分に記載された内容は、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。

図面は、本技術案をよりよく理解するために用いられ、本開示を限定するものではない。

図１は、本開示の実施例に係るテキスト検出モデルのトレーニング方法及びテキスト検出モデルを用いてテキストを検出する方法、装置の応用シーンの概略図である。図２は、本開示の実施例に係るテキスト検出モデルのトレーニング方法のフローチャートである。図３は、本開示の実施例に係るテキスト検出モデルの構造概略図である。図４は、本開示の実施例に係る画像特徴抽出ネットワークの構造概略図である。図５は、本開示の実施例に係る特徴処理ユニットの構造概略図である。図６は、本開示の実施例に係るテキスト検出モデルの損失を特定する原理概略図である。図７は、本開示の実施例に係るテキスト検出モデルを用いてテキストを検出する方法のフローチャートである。図８は、本開示の実施例に係るテキスト検出モデルのトレーニング装置の構造ブロック図である。図９は、本開示の実施例に係るテキスト検出モデルを用いてテキストを検出する装置の構造ブロック図である。図１０は、本開示の実施例に係るテキスト検出モデルのトレーニング方法及び／又はテキスト検出モデルを用いてテキストを検出する方法を実施するための電子機器のブロック図である。

以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細は含まれ、それらが単に例示的なものであると考えられるべきである。したがって、当業者であれば、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはないと分るべきである。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。

本開示は、テキスト検出モデルのトレーニング方法を提供し、ここで、当該テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル及び出力サブモデルを含む。当該トレーニング方法は、テキスト特徴取得段階、参照特徴取得段階、シーケンスベクトル取得段階、テキスト情報特定段階、及びモデルトレーニング段階を含む。テキスト特徴取得段階において、テキストを含むサンプル画像をテキスト特徴抽出サブモデルに入力して、サンプル画像におけるテキストの第一テキスト特徴を取得する。ここで、当該サンプル画像は、サンプル画像に含まれるテキストの実際位置情報及び実際位置情報に対する実際種類を指示するラベルを有する。参照特徴取得段階において、所定テキストベクトルをテキスト符号化サブモデルに入力して、第一テキスト参照特徴を取得する。シーケンスベクトル取得段階において、第一テキスト特徴及び第一テキスト参照特徴を復号化サブモデルに入力して、第一テキストシーケンスベクトルを取得する。テキスト情報特定段階において、第一テキストシーケンスベクトルを出力サブモデルに入力して、サンプル画像に含まれるテキストの予測位置情報及び予測位置情報に対する予測種類を取得する。モデルトレーニング段階において、予測種類、実際種類、予測位置情報、及び実際位置情報に基づいて、テキスト検出モデルをトレーニングする。

以下に図１を参照して本開示の提供する方法及び装置の応用シーンを説明する。
図１は、本開示の実施例に係るテキスト検出モデルのトレーニング方法及びテキスト検出モデルを用いてテキストを検出する方法、装置の応用シーンの概略図である。

図１に示すように、当該実施例の応用シーン１００は電子機器１１０を含むことができ、当該電子機器１１０は、処理機能を有する様々な電子機器であってもよく、スマートフォン、タブレットコンピュータ、ラップトップ型携帯コンピュータ、デスクトップコンピュータ、及びサーバ等を含むが、それらに限定されない。当該電子機器１１０は、例えば入力された画像１２０に対してテキスト検出を行って、検出されたテキストの画像１２０における位置、すなわちテキスト位置１３０を取得することができる。

本開示の実施例によれば、テキストの画像１２０における位置は、例えばテキストの境界枠の位置により表すことができる。当該電子機器１１０による画像中のテキストに対する検出は、文字認識又はシーン理解等のタスクのプリステップとすることができる。例えば、当該画像におけるテキストに対する検出は、証明書認識、帳票認識などの業務シーンに応用することができる。テキストを予め検出することにより、後続のタスクの実行効率を向上させ、各応用シーンの生産性を向上させることができる。

本開示の実施例によれば、電子機器１１０は、例えば、目標検出又は目標分割の思想を用いてテキスト検出を行うことができる。目標検出は、境界枠を回帰することによりテキストを位置決めする。目標検出の一般的なアルゴリズムは、高効率でかつ正確なシーンテキスト検出アルゴリズム（ＥｆｆｉｃｉｅｎｔａｎｄＡｃｃｕｒａｃｙＳｃｅｎｅＴｅｘｔ、ＥＡＳＴ）、プリセレクトフレームネットワークへの接続によるテキスト検出アルゴリズム（ＤｅｔｅｃｔｉｎｇＴｅｘｔｉｎＮａｔｕｒａｌＩｍａｇｅｗｉｔｈＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｘｔＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ、ＣＴＰＮ）などを含み、これらのアルゴリズムは、例えばフォントが大きく変化する又はシーン干渉が深刻であるシーンという複雑な自然シーンに対して、検出効果がよくない。目標分割は、全畳み込みネットワークを用いて画像に対して画素境界別の分類予測を行い、それにより画像をテキスト領域と非テキスト領域に分割し、次に後続の処理により画素レベルの出力を境界枠形式に変換する。ここで、目標分割の思想を用いてテキスト検出を行うアルゴリズムは、例えばマスクに基づく領域畳み込みニューラルネットワーク（Ｍａｓｋ－ＲＣＮＮ）をバックボーンネットワークとして使用して分割図を生成することができる。当該目標分割の思想を用いてテキスト検出を行い、一般的な水平方向のテキストの検出で高い精度を取得することができるが、複雑な後処理ステップによって対応する境界枠を生成する必要があり、多くの計算リソース及び時間を消費する。さらに、テキスト重畳による境界枠重畳という状況に対して、当該目標分割の思想を用いてテキスト検出を行う効果がよくない。

これに基づいて、一実施例において、電子機器１１０は、後に説明するテキスト検出モデルのトレーニング方法でトレーニングして得られたテキスト検出モデル１５０を用いて画像１２０にテキスト検出を行うことができる。例えば、当該テキスト検出モデル１５０は、例えばサーバ１４０によりトレーニングして取得することができる。電子機器１１０は、ネットワークを介してサーバ１４０と通信接続され、サーバ１４０にモデル取得要求を送信することができる。それに応じて、サーバ１４０は、当該要求に応答してトレーニングされたテキスト検出モデル１５０を電子装置１１０に送信することができる。

一実施例において、電子機器１１０は、さらに、入力された画像１２０をサーバ１４０に送信し、サーバ１４０により、トレーニングされたテキスト検出モデル１５０に基づいて、当該画像１２０に対してテキスト検出を行うことができる。

説明すべきこととして、本開示の提供するテキスト検出モデルのトレーニング方法は、一般的にサーバ１４０によって実行されてもよく、サーバ１４０と通信接続された他のサーバによって実行されてもよい。それに応じて、本開示の提供するテキスト検出モデルのトレーニング装置は、サーバ１４０に設置されてもよく、サーバ１４０と通信接続された他のサーバに設置されてもよい。本開示の提供するテキスト検出モデルを用いてテキストを検出する方法は、一般的に電子装置１１０により実行されてもよく、サーバ１４０により実行されてもよい。それに応じて、本開示の提供するテキスト検出モデルを用いてテキストを検出する装置は、電子機器１１０に設置されてもよく、サーバ１４０に設置されてもよい。

理解すべきこととして、図１における電子機器１１０及びサーバ１４０の数及びタイプは、単に模式的なものである。必要に応じて、任意の数及びタイプの電子機器１１０及びサーバ１４０を有することができる。

以下、図１を参照し、以下の図２～図６により、本開示の提供するテキスト検出モデルのトレーニング方法を詳細に説明する。

図２は、本開示の実施例に係るテキスト検出モデルのトレーニング方法のフローチャートである。

図２に示すように、当該実施例のテキスト検出モデルのトレーニング方法は、操作Ｓ２１０～操作Ｓ２５０を含むことができる。ここで、テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含む。

操作Ｓ２１０において、テキストを含むサンプル画像をテキスト特徴抽出サブモデルに入力して、サンプル画像におけるテキストの第一テキスト特徴を取得する。

本開示の実施例によれば、当該テキスト特徴抽出サブモデルは、例えば残差ネットワーク又はセルフアテンションネットワークを用いてテキストのサンプル画像を処理して、当該サンプル画像におけるテキストのテキスト特徴を取得することができる。

一実施例において、当該特徴抽出サブモデルは、例えば画像特徴抽出ネットワーク及びシーケンス符号化ネットワークを含むことができる。ここで、画像特徴抽出ネットワークは、畳み込みニューラルネットワーク（例えばＲｅｓＮｅｔネットワーク）を用いてもよく、アテンションメカニズムに基づくＴｒａｎｓｆｏｒｍｅｒネットワークのエンコーダを用いてもよい。シーケンス符号化ネットワークは、回帰型ニューラルネットワークを用いてもよく、Ｔｒａｎｓｆｏｒｍｅｒネットワークにおけるエンコーダを用いてもよい。操作Ｓ２１０において、まずサンプル画像を画像特徴抽出ネットワークに入力して、サンプル画像の画像特徴を取得することができる。次に当該画像特徴を一次元ベクトルに変換した後にシーケンス符号化ネットワークに入力して、当該第一テキスト特徴を取得する。

例示的に、画像特徴抽出ネットワークがＴｒａｎｓｆｏｒｍｅｒネットワークのエンコーダを採用する場合、当該実施例は、まずサンプル画像を一次元画素ベクトルに展開し、当該一次元画素ベクトルを画像特徴抽出モデルの入力とすることができる。当該画像特徴抽出ネットワークの出力はシーケンス符号化ネットワークの入力とし、当該シーケンス符号化ネットワークを介して画像の全体的特徴からテキストの特徴情報を得る。当該シーケンス符号化モデルにより、例えば得られた第一テキスト特徴がテキストのコンテキスト情報を示すことができるようにすることもできる。

理解できることとして、サンプル画像は、ラベルを有すべきであり、当該ラベルは、サンプル画像に含まれるテキストの実際位置情報及び実際位置情報に対する実際種類を指示する。例えば、当該ラベルは、テキストを囲む境界枠の、サンプル画像に基づいて確立された座標系における座標位置で表すことができる。当該ラベルによって指示される実際位置情報に対する実際種類は、テキストを囲む境界枠の実際種類であってもよく、当該実際種類は、テキストを有する種類である。このように、当該ラベルは、さらに、実際位置情報に対する実際確率を指示することができ、実際種類がテキストを有する種類であれば、テキストを有する実際確率は１である。

操作Ｓ２２０において、所定テキストベクトルをテキスト符号化サブモデルに入力して、第一テキスト参照特徴を取得する。

本開示の実施例によれば、当該テキスト符号化サブモデルは、例えば全結合層構造であってもよく、所定テキストベクトルに対する処理により、第一テキスト特徴の次元と同じである第一テキスト参照特徴を取得する。ここで、所定テキストベクトルは、実際需要に応じて設定することができ、例えば、画像におけるテキストの長さが最長でも通常２５であるように設定すれば、当該所定テキストベクトルは２５個の成分を有するベクトルであってもよく、当該２５個の成分の値はそれぞれ１、２、３、・・・、２５である。

理解できることとして、当該テキスト符号化サブモデルが第一テキスト参照特徴を得る方法は、学習位置符号化を用いて位置コードを得る方法と類似し、当該テキスト符号化サブモデルにより、テキストにおける各文字に対して一つの独立したベクトルを習得することができる。

操作Ｓ２３０において、第一テキスト特徴及び第一テキスト参照特徴を復号化サブモデルに入力して、第一テキストシーケンスベクトルを取得する。

本開示の実施例によれば、復号化サブモデルは、Ｔｒａｎｓｆｏｒｍｅｒモデルのデコーダを採用することができる。第一テキスト参照特徴を、当該復号化サブモデルに入力する参照特徴（例えばｏｂｊｅｃｔｑｕｅｒｙ）として、第一テキスト特徴を当該復号化サブモデルに入力するキー特徴（即ちＫｅｙ）及び値特徴（即ちＶａｌｕｅ）とすることができる。当該復号化サブモデルを介して処理された後、第一テキストシーケンスベクトルが得られる。

本開示の実施例によれば、当該第一テキストシーケンスベクトルは、少なくとも一つのテキストベクトルを含むことができ、各テキストベクトルは、サンプル画像中の一つのテキストを示す。例えば、サンプル画像に２行のテキストが含まれる場合、当該第一テキストシーケンスベクトルは、少なくとも２つのテキストベクトルを含むべきである。

操作Ｓ２４０において、第一テキストシーケンスベクトルを出力サブモデルに入力して、サンプル画像に含まれるテキストの予測位置情報及び予測位置情報に対する予測種類を取得する。

本開示の実施例によれば、出力サブモデルは、例えば２つのネットワーク分岐を有し、一つのネットワーク分岐は、テキストの予測位置を回帰することに用いられ、もう一つのネットワーク分岐は、当該予測位置を分類して、予測種類を取得することに用いられる。ここで、分類結果は、予測確率で表すことができ、それにより当該予測位置がテキストを有する確率を表し、テキストを有する確率が確率閾値より大きければ、予測種類がテキストを有する種類であると特定することができ、そうでなければ予測種類がテキストを有しない種類であると特定する。

本開示の実施例によれば、当該２つのネットワーク分岐は、例えばそれぞれフィードフォワードネットワークで構成することができる。ここで、テキストの予測位置を回帰するネットワーク分岐の入力は、当該第一テキストシーケンスベクトルであり、出力は、予測されたテキストの境界枠位置である。分類を行うネットワーク分岐の入力は、当該第一テキストシーケンスベクトルであり、出力は、目標種類の確率であり、当該目標種類は、テキストを有する種類である。

操作Ｓ２５０において、予測種類、実際種類、予測位置情報及び実際位置情報に基づいて、テキスト検出モデルをトレーニングする。

本開示の実施例によれば、予測位置情報と予測種類とを取得した後、予測位置情報とラベルで指示された実際位置情報とを比較することにより、位置決め損失を取得することができる。予測種類とラベルで指示された実際種類とを比較することにより、分類損失を取得する。ここで、位置決め損失は、例えばヒンジ損失（ＨｉｎｇｅＬｏｓｓ）関数、ソフトマックス損失（ＳｏｆｔｍａｘＬｏｓｓ）関数などで表すことができる。位置決め損失は、例えば、二乗損失関数（Ｌ１損失ともいう）、平均二乗損失関数（Ｌ２損失ともいう）などで表すことができる。ここで、分類損失は、例えば予測確率と実際確率との差によって特定することができる。

この実施例は、位置決め損失と分類損失との加重和をテキスト検出モデルの損失とすることができる。ここで、加重和を計算する時に採用される重みは、実際需要に応じて設定することができ、本開示はこれを限定しない。テキスト検出モデルの損失を取得した後、逆伝播等のアルゴリズムを用いてテキスト検出モデルをトレーニングすることができる。

本開示の実施例は、テキスト検出モデルにテキスト符号化サブモデルが設置され、目標検出モデルをトレーニングする過程において、当該テキスト符号化サブモデルを異なるテキスト実例情報に注目させることができ、復号化サブモデルにより正確な参照情報を提供し、それによりテキスト検出モデルはより強い特徴モデリング能力を有し、自然シーンで多様な変化を有するテキストに対する検出精度を向上させ、画像におけるテキストに対する検出漏れ又は検出誤りの確率を低下させる。

図３は、本開示の実施例に係るテキスト検出モデルの構造概略図である。
本開示の実施例によれば、図３に示すように、当該実施例のテキスト検出モデル３００は、画像特徴抽出ネットワーク３１０、第一位置符号化サブモデル３３０、シーケンス符号化ネットワーク３４０、テキスト符号化サブモデル３５０、復号化サブモデル３６０、及び出力サブモデル３７０を含むことができる。ここで、画像特徴抽出ネットワーク３１０及び第一位置符号化サブモデル３３０はテキスト特徴抽出サブモデルを構成する。

本開示の実施例は、サンプル画像中のテキストを検出する時、まずサンプル画像３０１を画像特徴抽出ネットワーク３１０に入力して、サンプル画像の画像特徴を取得することができる。ここで、当該画像特徴抽出ネットワーク３１０は、画像分割モデル、画像検出モデルなどにおけるバックボーン（Ｂａｃｋｂｏｎｅ）ネットワークを採用することができ、例えば前述のＲｅｓＮｅｔネットワーク又はＴｒａｎｓｆｏｒｍｅｒネットワークのエンコーダなどであってもよい。その後に所定位置ベクトル３０２を第一位置符号化サブモデル３３０に入力して、位置符号化特徴を得る。ここで、第一位置符号化サブモデル３３０は前述のテキスト符号化サブモデルと類似してもよく、一つの全結合層であってもよい。所定位置ベクトル３０２は、前述の所定テキストベクトルと類似する。当該所定位置ベクトル３０２は、実際需要に応じて設定することができる。一実施例において、当該所定位置ベクトル３０２は、所定テキストベクトル３０５と等長であってもよく、不等長であってもよく、本開示はこれを限定しない。その後、融合ネットワーク３２０により画像特徴と位置符号化特徴とを融合することができる。当該融合ネットワーク３２０は、具体的には位置符号化特徴と画像特徴とを加算することができる。加算して得られた特徴をシーケンス符号化ネットワーク３４０に入力して、第一テキスト特徴３０４を取得する。ここで、シーケンス符号化ネットワーク３４０は、Ｔｒａｎｓｆｏｒｍｅｒモデルのエンコーダを採用することができ、このように、シーケンス符号化ネットワーク３４０に入力する前に、さらに加算して得られた特徴を一次元ベクトル３０３に変換し、当該一次元ベクトル３０３をシーケンス符号化ネットワーク３４０の入力とする必要がある。

同時に、所定テキストベクトル３０５をテキスト符号化サブモデル３５０に入力して、テキスト符号化サブモデル３５０により第一テキスト参照特徴３０６を出力することができる。シーケンス符号化ネットワーク３４０から出力された第一テキスト特徴３０４と第一テキスト参照特徴３０６とを同時に復号化サブモデル３６０の出力とし、当該復号化サブモデル３６０を介して第一テキストシーケンスベクトル３０７を出力する。ここで、復号化サブモデル３６０はＴｒａｎｓｆｏｒｍｅｒモデルのデコーダを採用することができる。

当該復号化サブモデル３６０から出力された第一テキストシーケンスベクトル３０７は、出力サブモデル３７０に入力された後、出力サブモデル３７０によりテキストの境界枠の位置及び境界枠の種類確率を出力することができる。当該境界枠の、サンプル画像に基づいて構築された座標系における位置をテキストの予測位置情報とし、境界枠の種類確率における、テキストを有することを指示する確率を、予測位置でテキストを有する予測確率とし、当該予測確率に基づいて、予測種類を得ることができる。当該出力サブモデル３７０の出力に基づいて、図３に示すような少なくとも一つの境界枠３０８を取得することができ、境界枠がテキストを有する確率が確率閾値より小さい場合、当該境界枠をＮｕｌｌ枠、即ちテキストを有しない枠とし、そうでなければ当該境界枠をＴｅｘｔ枠、即ちテキストを有する枠とする。ここで、確率閾値は、実際需要に応じて設定することができ、本開示はこれを限定しない。

当該実施例は、画像特徴抽出ネットワーク及びシーケンス符号化ネットワークによりテキスト特徴抽出サブモデルを構成し、かつ画像特徴をシーケンス符号化ネットワークに入力する前に、画像特徴に位置特徴を追加することにより、得られたテキスト特徴のテキストコンテキスト情報に対する表現能力を向上させ、検出されたテキストの正確性を向上させることができる。当該第一位置符号化サブモデルを設置することにより、シーケンス符号化ネットワークがＴｒａｎｓｆｏｒｍｅｒアーキテクチャを採用することができ、回帰型ニューラルネットワークアーキテクチャに比べて、計算効率を向上させ、長いテキストに対する表現能力を向上させることができる。

本開示の実施例によれば、当該実施例のテキスト検出モデルは、例えばシーケンス符号化ネットワークと融合ネットワークとの間に畳み込み層を設置してもよく、当該畳み込み層の大きさは、例えば１×１であってもよく、それにより融合されたベクトルに対して次元削減を行い、シーケンス符号化ネットワークの計算量を低減する。これは、テキスト検出のタスクにおいて、特徴の分解能に対する要求が低いため、ある程度で分解能を犠牲にすることによりモデルの計算量を低減することができる。

図４は、本開示の実施例に係る画像特徴抽出ネットワークの構造概略図である。
本開示の実施例によれば、当該実施例４００において、前記画像特徴抽出ネットワークは、特徴変換ユニット４１０と、順に接続された複数の特徴処理ユニットと、順に接続された複数の特徴処理ユニット４２１～４２４とを含むことができる。各特徴処理ユニットは、Ｔｒａｎｓｆｏｒｍｅｒアーキテクチャのデコーダ構成を採用することができる。

ここで、特徴変換ユニット４１０は、埋め込み層であってもよく、サンプル画像４０１に基づいてサンプル画像を表す一次元ベクトルを取得するために用いられる。当該特徴変換ユニットにより、画像中の文字をＴｏｋｅｎとし、かつベクトル中の要素で表すことができる。一実施例において、当該特徴変換ユニット４１０は、例えば画像中の画素マトリクスを展開して一定の大きさの一次元ベクトルに変換するために用いられる。当該一次元ベクトルは、複数の特徴処理ユニットのうちの１番目の特徴処理ユニット４２１に入力され、順に接続された複数の特徴処理ユニットを介して順に処理された後、サンプル画像の画像特徴を得ることができる。具体的には、一次元ベクトルは、当該１番目の特徴処理ユニット４２１により処理された後に、一つの特徴マップを出力することができる。当該特徴マップは、２番目の特徴処理ユニット４２２に入力され、当該２番目の特徴処理ユニット４２２から出力された特徴マップは、３番目の特徴処理ユニットに入力され、このように類推し、複数の特徴処理ユニットのうちの最後の特徴処理ユニット４２４から出力された特徴マップは、サンプル画像の画像特徴である。即ち、複数の特徴処理ユニットのうちの１番目の特徴処理ユニット４２１以外のｉ番目の特徴処理ユニットに対して、ｉ－１番目の特徴処理ユニットから出力された特徴マップをｉ番目の特徴処理ユニットに入力し、ｉ番目の特徴処理ユニットに対する特徴マップを出力し、ここで、ｉ＞＝２であり、最後に接続順序に応じて、複数の特徴処理ユニットのうちの最後に位置する特徴処理ユニットから出力された特徴マップを、サンプル画像の画像特徴とする。

当該実施例から分かるように、画像特徴抽出ネットワークは、階層化の設計を採用し、複数の特徴抽出段階を含むことができ、各特徴処理ユニットは、一つの特徴抽出段階に対応する。当該実施例において、接続順序に応じて、複数の特徴処理ユニットから出力された特徴マップの分解能が順に低下することができ、それによりＣＮＮと類似し、層ごとに受容野を拡大する。

理解できることとして、図４に示すように、１番目の特徴処理ユニット４２１以外の他の特徴処理ユニットにおいて、Ｔｏｋｅｎ融合層（ＴｏｋｅｎＭｅｒｇｉｎｇ）及びＴｒａｎｓｆｏｒｍｅｒアーキテクチャにおける符号化ブロック（すなわちＴｒａｎｓｆｏｒｍｅｒＢｌｏｃｋ）を含むことができる。Ｔｏｋｅｎ融合層は、特徴をダウンサンプリングするために用いられる。符号化ブロックは、特徴を符号化するために用いられる。１番目の特徴処理ユニット４２１におけるＴｏｋｅｎ融合層に対応する構造は、前述の特徴変換ユニット４１０であってもよく、それによりサンプル画像を処理した後に１番目の特徴処理ユニットにおける符号化ブロックの入力を得て、すなわち前述の一次元特徴を得る。

理解できることとして、各特徴処理ユニットは、少なくとも一つのＴｏｋｅｎ融合層及び符号化ブロックで構成された基本要素を含み、複数の基本要素を含む場合、当該複数の基本要素は順に接続される。説明すべきものとして、１番目の特徴処理ユニットが複数の基本要素で構成される場合、当該１番目の特徴処理ユニットにおける最前に位置する１番目の基本要素におけるＴｏｋｅｎ融合層を前記特徴変換ユニット４１０とし、当該１番目の基本要素以外の他の基本要素におけるＴｏｋｅｎ融合層が他の特徴処理ユニットにおけるＴｏｋｅｎ融合層と類似する。例えば、一実施例において、複数の特徴処理ユニットは４つであり、当該４つの特徴処理ユニットは、接続順序に応じて順に２つの基本要素、２つの基本要素、６つの基本要素、及び２つの基本要素を含み、本開示はこれを限定しない。

一実施例において、複数の特徴処理ユニットは、Ｔｒａｎｓｆｏｒｍｅｒアーキテクチャのエンコーダ構造を採用するため、当該実施例は、１番目の特徴処理ユニットに入力する一次元ベクトルを取得する前に、まずサンプル画像に位置符号化を行うことができる。具体的には、当該実施例が採用したテキスト検出モデルは、さらに第二位置符号化サブモデルを含むことができる。当該第二位置符号化サブモデルを用いてサンプル画像に位置符号化を行って、サンプル画像の位置図を取得することができる。ここで、サンプル画像に位置符号化を行う場合、学習位置符号化の方法を用いてもよく、絶対位置符号化方法を用いて位置図を取得してもよい。当該絶対位置符号化方法は、三角関数符号化方法を含むことができ、本開示はこれを限定しない。このようにして、位置符号化を取得した後、当該実施例は、サンプル画像と位置図とを画素ごとに加算し、次に当該加算して得られたデータを特徴変換ユニットに入力し、それによりサンプル画像を表す一次元ベクトルを取得することができる。ここで、具体的にはサンプル画像を表す画素行列と位置図を表す画素行列を加算し、サンプル画像と位置図との間の画素ごとの加算を実現することができる。

ＣＮＮを採用する技術案と比較して、当該技術案は、Ｔｒａｎｓｆｏｒｍｅｒアーキテクチャのエンコーダ構造を画像特徴抽出ネットワークとして採用し、かつ位置情報を融合することにより、得られた画像特徴が画像の長距離のコンテキスト情報をよりよく表現することができ、モデルの学習能力及び予測効果を向上させやすい。

図５は、本開示の実施例に係る特徴処理ユニットの構造概略図である。
本開示の実施例によれば、図５に示すように、複数の特徴処理ユニットのうちの各特徴処理ユニット５００は、順に接続された偶数個の符号化層を含み、偶数個の符号化層に対して、奇数番目の符号化層５１０の移動ウィンドウ（ｓｈｉｆｔｅｄｗｉｎｄｏｗ）は、偶数番目の符号化層５２０の移動ウィンドウより小さい。当該実施例は、複数の特徴処理ユニットのうちの１番目の特徴処理ユニットを用いて１番目の特徴処理ユニットに対する特徴マップを得る場合、一次元ベクトルを１番目の特徴処理ユニットに含まれる偶数個の符号化層のうちの１番目の符号化層に入力し、当該順に接続された偶数個の符号化層を介して順に処理し、１番目の特徴処理ユニットに対する特徴マップを得る。具体的には、まず一次元ベクトルを１番目の特徴処理ユニットに含まれる偶数個の符号化層のうちの１番目の符号化層に入力して、１番目の符号化層に対する特徴マップを出力することができる。１つの特徴処理ユニットに含まれる偶数個の符号化層のうちの１番目の符号化層以外のｊ番目の符号化層に対して、ｊ－１番目の符号化層から出力された特徴マップをｊ番目の符号化層に入力して、ｊ番目の符号化層に対する特徴マップを出力し、ここで、ｊ＞＝２である。最後に接続順序に応じて、１番目の特徴処理ユニットに含まれる偶数個の符号化層のうちの最後に位置する符号化層から出力された特徴マップを、１番目の特徴処理ユニットに対する特徴マップとする。

図５に示すように、当該特徴処理ユニット５００は、関連技術におけるＴｒａｎｓｆｏｒｍｅｒアーキテクチャのエンコーダ構造と類似し、各符号化層は、アテンション層及びフィードフォワード層を含み、かつアテンション層及びフィードフォワード層にはいずれも線形化処理層が設置される。奇数番目の符号化層に対して、アテンション層は、第一移動ウィンドウが設置された第一アテンションを用いて、入力された特徴ベクトルをブロック化し、かつアテンションの計算を当該各特徴ベクトルブロックの内部に集中する。アテンション層が並列計算することができるため、ブロック化された複数の特徴ベクトルブロックに対して並列計算を行うことができ、入力された特徴ベクトル全体を計算することに比べて、計算量を大幅に低減することができる。偶数番目の符号化層に対して、アテンション層は、第二移動ウィンドウが設置された第二アテンションを採用し、当該第二移動ウィンドウは第一移動ウィンドウより大きい。当該第二移動ウィンドウは、例えば特徴ベクトル全体であってもよく、かつ偶数番目の符号化層の入力が奇数番目の符号化層の出力であるため、当該偶数番目の符号化層は、奇数番目の符号化層から出力された特徴シーケンスのうちの各シーケンスを一つの基本ユニットとして、特徴シーケンス中の特徴の間にアテンションの計算を行うことができ、それにより第一移動ウィンドウにより分割された複数の特徴ベクトルブロックの間の情報のやり取りを保証する。当該２つのアテンション層を設置し、かつ２つの大きさの異なる移動ウィンドウを設置することにより、画像特徴抽出モデルの特徴抽出能力を向上させることができる。

理解できることとして、本開示の実施例における特徴処理ユニットは、実質的に、スライド窓メカニズムのＴｒａｎｓｆｏｒｍｅｒアーキテクチャのエンコーダ構造を採用する。１番目の特徴処理ユニット以外のｉ番目の特徴処理ユニットに対して、入力された特徴マップは、当該ｉ番目の特徴処理ユニットにおける順に接続された偶数個の符号化層を介して順に処理され、最後に位置する符号化層により当該ｉ番目の特徴処理ユニットに対する特徴マップを出力する。

図６は、本開示の実施例に係るテキスト検出モデルの損失を特定する原理概略図である。

本開示の実施例によれば、当該実施例６００において、予測位置情報は、例えば４つの予測位置点で表すことができ、実際位置情報は、４つの実際位置点で表すことができる。ここで、４つの予測位置点は、予測境界枠の左上頂点、右上頂点、右下頂点、及び左下頂点であってもよい。４つの実際位置点は、実際境界枠の左上頂点、右上頂点、右下頂点、及び左下頂点であってもよい。関連技術において境界枠の中心点、長さ及び幅で位置を表す技術案と比較して、境界枠が矩形以外の他の形状であることを許容することができる。すなわち、当該実施例は、関連技術における矩形枠形式を４点枠形式に変換することができ、それにより当該テキスト検出モデルが複雑なシーンでのテキスト検出タスクを実行することにさらに適合することができる。

当該実施例において、テキスト検出モデルの損失を特定する時、得られた予測確率６１０とラベルで指示される実際確率６３０とに基づいて、テキスト検出モデルの分類損失６５０を特定し、かつ得られた予測位置情報６２０とラベルで指示される実際位置情報６４０とに基づいて、テキスト検出モデルの位置決め損失６６０を特定することができる。最後に分類損失６５０及び位置決め損失６６０とに基づいて、テキスト検出モデルの損失、すなわちモデル損失６７０を取得し、それにより当該モデル損失６７０に基づいてテキスト検出モデルをトレーニングする。

本開示の実施例によれば、当該実施例における位置決め損失６６０は、例えば第一サブ位置決め損失６５１と第二位置決め損失６５２の加重和で表すことができる。ここで、第一サブ位置決め損失６５１は、４つの実際位置点のそれぞれと４つの予測位置点との間の距離に基づいて計算することができる。第二位置決め損失６５２は、４つの実際位置点で囲まれた領域と４つの予測位置点で囲まれた領域との間のＩｏＵ（Ｉｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒｕｎｉｏｎ）に基づいて計算することができる。第一サブ位置決め損失６５１と第二位置決め損失６５２との加重和を計算する時に採用される重みは、実際需要に応じて設定することができ、本開示はこれを限定しない。

例示的には、第一サブ位置決め損失６５１は、前述のＬ１損失又はＬ２損失などで表すことができ、第二サブ位置決め損失６５２は、ＩｏＵで表すことができる。又は、当該第二サブ位置決め損失６５２は、ＩｏＵに正相関する任意の損失関数を用いて表すことができ、本開示はこれを限定しない。

本開示の実施例は、第二サブ位置決め損失を設置することにより、得られた位置決め損失が４つの位置点で示される予測境界枠と実際境界枠との間の差をよりよく反映することができ、得られた位置決め損失の精度を向上させる。

前述のテキスト検出モデルのトレーニング方法に基づいて、本開示は、さらにトレーニングされたテキスト検出モデルを用いてテキストを検出する方法を提供し、以下に図７を参照して当該方法を詳細に説明する。

図７は、本開示の実施例に係るテキスト検出モデルを用いてテキストを検出する方法のフローチャートである。

図７に示すように、当該実施例の方法７００は、操作Ｓ７１０～操作Ｓ７４０を含むことができる。ここで、テキスト検出モデルは、前述のテキスト検出モデルのトレーニング方法を用いてトレーニングされたものである。当該テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含むことができる。

操作Ｓ７１０において、テキストを含む検出対象画像をテキスト特徴抽出サブモデルに入力して、検出対象画像におけるテキストの第二テキスト特徴を取得する。理解できることとして、当該第二テキスト特徴は、第一テキスト特徴の取得方法と類似し、ここで説明を省略する。

操作Ｓ７２０において、所定テキストベクトルをテキスト符号化サブモデルに入力して、第二テキスト参照特徴を取得する。理解できることとして、当該第二テキスト参照特徴は、第一テキスト参照特徴の取得方法と類似し、ここで説明を省略する。

操作Ｓ７３０において、第二テキスト特徴及び第二テキスト参照特徴を復号化サブモデルに入力して、第二テキストシーケンスベクトルを取得する。理解できることとして、当該第二テキストシーケンスベクトルは、第一テキストシーケンスベクトルの取得方法と類似し、ここで説明を省略する。

操作Ｓ７４０において、第二テキストシーケンスベクトルを出力サブモデルに入力し、検出対象画像に含まれるテキストの位置を取得する。

理解できることとして、本開示の実施例において、出力サブモデルの出力は、前述の予測位置情報及び予測確率を含むことができる。この実施例では、予測確率が確率閾値よりも大きい予測位置情報を示す座標位置を、検出画像に含まれるテキストの位置としてもよい。

前述のテキスト検出モデルのトレーニング方法に基づいて、本開示は、さらにテキスト検出モデルのトレーニング装置を提供する。以下、図８を参照してこの装置を詳細に説明する。

図８は、本開示の実施例に係るテキスト検出モデルのトレーニング装置の構成ブロック図である。

図８に示すように、当該実施例の装置８００は、第一テキスト特徴取得モジュール８１０、第一参照特徴取得モジュール８２０、第一シーケンスベクトル取得モジュール８３０、第一テキスト情報特定モジュール８４０、及びモデルトレーニングモジュール８５０を含むことができる。ここで、テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含む。

第一テキスト特徴取得モジュール８１０は、テキストを含むサンプル画像をテキスト特徴抽出サブモデルに入力して、サンプル画像におけるテキストの第一テキスト特徴を取得するために用いられる。ここで、サンプル画像は、サンプル画像に含まれるテキストの実際位置情報及び実際位置情報に対する実際種類を指示するラベルを有する。一実施例において、当該第一テキスト特徴取得モジュール８１０は、前述の操作Ｓ２１０を実行するために用いられ、ここで説明を省略する。

第一参照特徴取得モジュール８２０は、所定テキストベクトルをテキスト符号化サブモデルに入力して、第一テキスト参照特徴を取得するために用いられる。一実施例において、当該第一参照特徴取得モジュール８２０は、前述の操作Ｓ２２０を実行するために用いられ、ここで説明を省略する。

第一シーケンスベクトル取得モジュール８３０は、第一テキスト特徴及び第一テキスト参照特徴を復号化サブモデルに入力して、第一テキストシーケンスベクトルを取得するために用いられる。一実施例において、当該第一シーケンスベクトル取得モジュール８３０は、前述の操作Ｓ２３０を実行するために用いられ、ここで説明を省略する。

第一テキスト情報特定モジュール８４０は、第一テキストシーケンスベクトルを出力サブモデルに入力して、サンプル画像に含まれるテキストの予測位置情報及び予測位置情報に対する予測種類を取得するために用いられる。一実施例において、当該第一テキスト情報特定モジュール８４０は、前述の操作Ｓ２４０を実行するために用いられ、ここで説明を省略する。

モデルトレーニングモジュール８５０は、予測種類、実際種類、予測位置情報、及び実際位置情報に基づいて、テキスト検出モデルをトレーニングするために用いられる。一実施例において、当該モデルトレーニングモジュール８５０は、前述の操作Ｓ２５０を実行するために用いられ、ここで説明を省略する。

本開示の実施例によれば、テキスト特徴抽出サブモデルは、画像特徴抽出ネットワーク及びシーケンス符号化ネットワークを含む。テキスト検出モデルは、さらに、第一位置符号化サブモデルを含む。第一テキスト特徴取得モジュール８１０は、画像特徴取得サブモジュール、位置特徴取得サブモジュール、テキスト特徴取得サブモジュールを含む。画像特徴取得サブモジュールは、サンプル画像を画像特徴抽出ネットワークに入力して、サンプル画像の画像特徴を取得するために用いられる。位置特徴取得サブモジュールは、所定位置ベクトルを第一位置符号化サブモデルに入力して、位置符号化特徴を取得するために用いられる。テキスト特徴取得サブモジュールは、位置符号化特徴と画像特徴とを加算した後にシーケンス符号化ネットワークに入力して、第一テキスト特徴を取得するために用いられる。

本開示の実施例によれば、画像特徴抽出ネットワークは、特徴変換ユニットと、順に接続された複数の特徴処理ユニットとを含む。画像特徴取得サブモジュールは、一次元ベクトル取得ユニットと特徴マップ取得ユニットとを含む。一次元ベクトル取得ユニットは、サンプル画像に基づいて、特徴変換ユニットを用いてサンプル画像を表す一次元ベクトルを取得するために用いられる。特徴取得ユニットは、一次元ベクトルを複数の特徴処理ユニットのうちの１番目の特徴処理ユニットに入力し、複数の特徴処理ユニットを介して順に処理して、サンプル画像の画像特徴を取得するために用いられる。ここで、接続順序に応じて、複数の特徴処理ユニットから出力された特徴マップの分解能が順に低下する。

本開示の実施例によれば、複数の特徴処理ユニットのうちの各特徴処理ユニットは、順に接続された偶数個の符号化層を含む。偶数個の符号化層について、奇数番目の符号化層の移動ウィンドウが、偶数番目の符号化層の移動ウィンドウより小さい。特徴取得ユニットは、一次元ベクトルを１番目の特徴処理ユニットに含まれる偶数個の符号化層のうちの１番目の符号化層に入力し、偶数個の符号化層を介して順に処理して、１番目の特徴処理ユニットに対する特徴マップを取得する方式により、１番目の特徴処理ユニットに対する特徴マップを得るために用いられる。

本開示の実施例によれば、テキスト検出モデルは、さらに、第二位置符号化サブモデルを含む。一次元ベクトル取得ユニットは、サンプル画像に基づいて、第二位置符号化サブモデルを用いてサンプル画像の位置図を取得し、サンプル画像と位置図とを画素ごとに加算した後に特徴変換ユニットに入力して、サンプル画像を表す一次元ベクトルを取得するために用いられる。

本開示の実施例によれば、モデルトレーニングモジュール８５０は、分類損失特定サブモジュール、位置決め損失特定サブモジュール、及びモデルトレーニングサブモジュールを含む。分類損失特定サブモジュールは、予測種類及び実際種類に基づいて、テキスト検出モデルの分類損失を特定するために用いられる。位置決め損失特定サブモジュールは、予測位置情報及び実際位置情報に基づいて、テキスト検出モデルの位置決め損失を特定するために用いられる。モデルトレーニングサブモジュールは、分類損失及び位置決め損失に基づいて、テキスト検出モデルをトレーニングするために用いられる。

本開示の実施例によれば、実際位置情報は、４つの実際位置点で示され、予測位置情報は、４つの予測位置点で示される。位置決め損失特定サブモジュールは、第一特定ユニットと、第二特定ユニットと、第三特定ユニットとを含む。第一特定ユニットは、４つの実際位置点のそれぞれと４つの予測位置点との間の距離に基づいて、第一サブ位置決め損失を特定するために用いられる。第二特定ユニットは、４つの実際位置点で囲まれた領域と４つの予測位置点で囲まれた領域との間のＩｏＵに基づいて、第二サブ位置決め損失を特定するために用いられる。第三特定ユニットは、第一サブ位置決め損失と第二サブ位置決め損失との加重和をテキスト検出モデルの位置決め損失とするために用いられる。

前述のテキスト検出モデルを用いてテキストを検出する方法に基づいて、本開示は、さらに、テキスト検出モデルを用いてテキストを検出する装置を提供する。以下、図９を参照してこの装置を詳細に説明する。

図９は、本開示の実施例に係るテキスト検出モデルを用いてテキストを検出する装置の構造ブロック図である。

図９に示すように、当該実施例の装置１０００は、第二テキスト特徴取得モジュール９１０、第二参照特徴取得モジュール９２０、第二シーケンスベクトル取得モジュール９３０、及び第二テキスト情報特定モジュール９４０を含むことができる。ここで、テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含む。このテキスト検出モデルは、前述のテキスト検出モデルのトレーニング装置を用いてトレーニングされたものであってもよい。

第二テキスト特徴取得モジュール９１０は、テキストを含む検出対象画像を前記テキスト特徴抽出サブモデルに入力して、前記検出対象画像におけるテキストの第二テキスト特徴を取得するために用いられる。一実施例において、当該第二テキスト特徴取得モジュール９１０は、前述の操作Ｓ７１０を実行するために用いられ、ここで説明を省略する。

第二参照特徴取得モジュール９２０は、所定テキストベクトルを前記テキスト符号化サブモデルに入力して、第二テキスト参照特徴を取得するために用いられる。一実施例において、当該第二参照特徴取得モジュール９２０は前述の操作Ｓ７２０を実行するために用いられ、ここで説明を省略する。

第二シーケンスベクトル取得モジュール９３０は、前記第二テキスト特徴及び前記第二テキスト参照特徴を前記復号化サブモデルに入力して、第二テキストシーケンスベクトルを取得するために用いられる。一実施例において、当該第二シーケンスベクトル取得モジュール９３０は前述の操作Ｓ７３０を実行するために用いられ、ここで説明を省略する。

第二テキスト情報特定モジュール９４０は、前記第二テキストシーケンスベクトルを前記出力サブモデルに入力して、前記検出対象画像に含まれるテキストの位置を取得するために用いられる。一実施例において、当該第二テキスト情報特定モジュール９４０は前述の操作Ｓ７４０を実行するために用いられ、ここで説明を省略する。

本開示の技術案において、係られたユーザ個人情報の収集、記憶、使用、加工、伝送、提供、開示及び応用等の処理は、いずれも関連法規や法規の規定に合致しており、必要なセキュリティ対策を取っており、かつ公序良俗に反するものではない。

本開示の技術案において、ユーザの個人情報を取得するか又は収集する前に、いずれもユーザの許可又は同意を取得している。本開示の実施例によれば、本開示は、さらに電子機器、可読記憶媒体及びコンピュータプログラム製品を提供する。

図１０は、本開示の実施例のテキスト検出モデルのトレーニング方法及び／又はテキスト検出モデルを用いてテキストを検出する方法を実施できる例示的な電子機器１０００の概略ブロック図を示す。電子機器は、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータという様々な形式のデジタルコンピュータを表すことを意図する。電子機器は、さらに、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置という様々な形式の移動装置を表してもよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び／又は要求された本開示の実現を限定するものではない。

図１０に示すように、機器１０００は、計算ユニット１００１を含み、それはリードオンリーメモリ（ＲＯＭ）１００２に記憶されたコンピュータプログラム又は記憶ユニット１００８からランダムアクセスメモリ（ＲＡＭ）１００３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行することができる。ＲＡＭ１００３には、さらに機器１０００の操作に必要な様々なプログラム及びデータを記憶することができる。計算ユニット１００１、ＲＯＭ１００２、およびＲＡＭ１００３は、バス１００４を介して相互に接続されている。バス１００４には、入出力（Ｉ／Ｏ）インタフェース１００５も接続されている。

機器１０００における複数の部品は、Ｉ／Ｏインタフェース１００５に接続され、例えばキーボード、マウス等の入力ユニット１００６と、例えば様々な種別のディスプレイ、スピーカ等の出力ユニット１００７と、例えば磁気ディスク、光ディスク等の記憶ユニット１００８と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信ユニット１００９とを含む。通信ユニット１００９は、機器１０００がインターネット等のコンピュータネットワーク及び／又は各種の電気通信網を介して他の機器と情報／データをやり取りすることを可能にする。

計算ユニット１００１は、処理及び計算能力を有する各種の汎用及び／又は専用の処理モジュールであってもよい。計算ユニット１００１の幾つかの例としては、中央処理装置（ＣＰＵ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、各種専用の人工知能（ＡＩ）演算チップ、各種機械学習モデルアルゴリズムをランニングする計算ユニット、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算ユニット１００１は、例えばテキスト検出モデルのトレーニング方法及び／又はテキスト検出モデルを用いてテキストを検出する方法のような前記記載された各方法と処理を実行する。例えば、いくつかの実施例において、テキスト検出モデルのトレーニング方法及び／又はテキスト検出モデルを用いてテキストを検出する方法は、例えば記憶ユニット１００８のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ１００２及び／又は通信ユニット１００９を介して機器１０００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ１００３にロードされて計算ユニット１００１により実行される場合、前記記載されたテキスト検出モデルのトレーニング方法及び／又はテキスト検出モデルを用いてテキストを検出する方法の１つ又は複数のステップを実行することができる。代替的に、別の実施例において、計算ユニット１００１は、他の任意の適切な方式により（例えば、ファームウェアを介して）テキスト検出モデルのトレーニング方法及び／又はテキスト検出モデルを用いてテキストを検出する方法を実行するように構成されてもよい。

本明細書で説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムにおいて実施され、当該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行され及び／又は解釈されることが可能であり、当該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、かつデータ及び命令を当該記憶システム、当該少なくとも１つの入力装置、及び当該少なくとも１つの出力装置に伝送することができることを含んでもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び／又はブロック図に規定された機能／操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。

本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は機器、又は前記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、１つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は前記内容の任意の適切な組み合わせを含む。

ユーザとのインタラクションを提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、当該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを備え、ユーザは、当該キーボード及び当該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種別の装置は、さらにユーザとのインタラクションを提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、かついかなる形式（音声入力、語音入力又は触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが当該グラフィカルユーザインタフェース又は当該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムで実施されることが可能である。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、局所エリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを例示的に含む。

コンピュータシステムは、クライアント及びサーバを含んでよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント－サーバの関係を有するコンピュータプログラムによって生成される。その中で、サーバーは、クラウドサーバーであってもよく、クラウドコンピューティングサーバー又はクラウドホストとも呼ばれ、クラウドコンピューティングサービスシステムのホスト製品である。従来の物理ホストおよびＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、または「ＶＰＳ」と略称する）に存在する管理が困難であり、業務の拡張性が弱いという欠点を解決する。サーバーは、分散システムのサーバー、またはブロックチェーンと組み合わせたサーバーであってよい。

理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各操作は、並列に実行されたり、順に実行されたり、又は異なる順序で実行されてもよく、本開示に開示された技術案の所望の結果を実現することができれば、本明細書はここで限定されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

これに基づいて、本開示は、テキスト検出効果を向上させ、様々なシーンに適用可能なテキスト検出モデルのトレーニング方法及び装置、テキスト検出モデルを用いてテキストを検出する方法及び装置、電子機器、記憶媒体並びにコンピュータプログラムを提供する。

本開示の他の態様によれば、テキスト検出モデルを用いてテキストを検出する方法を提供し、テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含み、当該テキストを検出する方法は、テキストを含む検出対象画像をテキスト特徴抽出サブモデルに入力して、検出対象画像におけるテキストの第二テキスト特徴を取得することと、所定テキストベクトルをテキスト符号化サブモデルに入力して、第二テキスト参照特徴を取得することと、第二テキスト特徴及び第二テキスト参照特徴を復号化サブモデルに入力して、第二テキストシーケンスベクトルを取得することと、第二テキストシーケンスベクトルを出力サブモデルに入力して、検出対象画像に含まれるテキストの位置を取得することと、を含み、ここで、テキスト検出モデルは、前記したテキスト検出モデルのトレーニング方法を用いてトレーニングされたものである。

本開示の別の態様によれば、コンピュータプログラムを提供し、前記コンピュータプログラムはプロセッサにより実行される時に本開示の提供するテキスト検出モデルのトレーニング方法及び／又はテキスト検出モデルを用いてテキストを検出する方法を実現する。

本開示の技術案において、ユーザの個人情報を取得するか又は収集する前に、いずれもユーザの許可又は同意を取得している。本開示の実施例によれば、本開示は、さらに電子機器、可読記憶媒体及びコンピュータプログラムを提供する。

Claims

テキスト検出モデルのトレーニング方法であって、
前記テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含み、前記方法は、
テキストを含むサンプル画像を前記テキスト特徴抽出サブモデルに入力して、前記サンプル画像におけるテキストの第一テキスト特徴を取得することであって、前記サンプル画像は前記サンプル画像に含まれるテキストの実際位置情報及び前記実際位置情報に対する実際種類を指示するラベルを有することと、
所定テキストベクトルを前記テキスト符号化サブモデルに入力して、第一テキスト参照特徴を取得することと、
前記第一テキスト特徴及び前記第一テキスト参照特徴を前記復号化サブモデルに入力して、第一テキストシーケンスベクトルを取得することと、
前記第一テキストシーケンスベクトルを前記出力サブモデルに入力して、前記サンプル画像に含まれるテキストの予測位置情報及び前記予測位置情報に対する予測種類を取得することと、
前記予測種類、前記実際種類、前記予測位置情報、及び前記実際位置情報に基づいて、前記テキスト検出モデルをトレーニングすることと、を含む
テキスト検出モデルのトレーニング方法。
前記テキスト特徴抽出サブモデルは、画像特徴抽出ネットワーク及びシーケンス符号化ネットワークを含み、前記テキスト検出モデルは、第一位置符号化サブモデルをさらに含み、前記サンプル画像におけるテキストの第一テキスト特徴を取得することは、
前記サンプル画像を前記画像特徴抽出ネットワークに入力して、前記サンプル画像の画像特徴を取得することと、
所定位置ベクトルを前記第一位置符号化サブモデルに入力して、位置符号化特徴を取得することと、
前記位置符号化特徴と前記画像特徴とを加算した後に前記シーケンス符号化ネットワークに入力して、前記第一テキスト特徴を取得することと、を含む
請求項１に記載の方法。
前記画像特徴抽出ネットワークは、特徴変換ユニットと、順に接続された複数の特徴処理ユニットとを含み、前記サンプル画像の画像特徴を取得することは、
前記サンプル画像に基づいて、前記特徴変換ユニットを用いて前記サンプル画像を表す一次元ベクトルを取得することと、
前記一次元ベクトルを前記複数の特徴処理ユニットのうちの１番目の特徴処理ユニットに入力し、前記複数の特徴処理ユニットを介して順に処理して、前記サンプル画像の画像特徴を取得することと、を含み、
ここで、接続順序に応じて、前記複数の特徴処理ユニットから出力された特徴マップの分解能が順に低下する
請求項２に記載の方法。
前記複数の特徴処理ユニットのうちの各特徴処理ユニットは、順に接続された偶数個の符号化層を含み、前記偶数個の符号化層について、奇数番目の符号化層の移動ウィンドウが偶数番目の符号化層の移動ウィンドウより小さく、前記複数の特徴処理ユニットのうちの１番目の特徴処理ユニットを用いて前記１番目の特徴処理ユニットに対する特徴マップを取得することは、
前記一次元ベクトルを前記１番目の特徴処理ユニットに含まれる偶数個の符号化層のうちの１番目の符号化層に入力し、前記偶数個の符号化層を介して順に処理し、前記１番目の特徴処理ユニットに対する特徴マップを取得することを含む
請求項３に記載の方法。
前記テキスト検出モデルは、第二位置符号化サブモデルをさらに含み、前記特徴変換ユニットを用いて前記サンプル画像を表す一次元ベクトルを取得することは、
前記サンプル画像に基づいて、前記第二位置符号化サブモデルを用いて前記サンプル画像の位置図を取得することと、
前記サンプル画像と前記位置図とを画素ごとに加算した後に前記特徴変換ユニットに入力して、前記サンプル画像を表す一次元ベクトルを取得することと、を含む
請求項３に記載の方法。
前記テキスト検出モデルをトレーニングすることは、
前記予測種類及び前記実際種類に基づいて、前記テキスト検出モデルの分類損失を特定することと、
前記予測位置情報及び前記実際位置情報に基づいて、前記テキスト検出モデルの位置決め損失を特定することと、
前記分類損失及び前記位置決め損失に基づいて、前記テキスト検出モデルをトレーニングすることと、を含む
請求項１に記載の方法。
前記実際位置情報は４つの実際位置点で示され、前記予測位置情報は４つの予測位置点で示され、前記テキスト検出モデルの位置決め損失を特定することは、
前記４つの実際位置点のそれぞれと前記４つの予測位置点との間の距離に基づいて、第一サブ位置決め損失を特定することと、
前記４つの実際位置点で囲まれた領域と前記４つの予測位置点で囲まれた領域との間のＩｏＵに基づいて、第二サブ位置決め損失を特定することと、
前記第一サブ位置決め損失と前記第二サブ位置決め損失との加重和を前記テキスト検出モデルの位置決め損失とすることと、を含む
請求項６に記載の方法。
テキスト検出モデルを用いてテキストを検出する方法であって、
前記テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含み、前記方法は、
テキストを含む検出対象画像を前記テキスト特徴抽出サブモデルに入力して、前記検出対象画像におけるテキストの第二テキスト特徴を取得することと、
所定テキストベクトルを前記テキスト符号化サブモデルに入力して、第二テキスト参照特徴を取得することと、
前記第二テキスト特徴及び前記第二テキスト参照特徴を前記復号化サブモデルに入力して、第二テキストシーケンスベクトルを取得することと、
前記第二テキストシーケンスベクトルを前記出力サブモデルに入力して、前記検出対象画像に含まれるテキストの位置を取得することと、を含み、
ここで、前記テキスト検出モデルは、請求項１～７のいずれか一項に記載の方法を用いてトレーニングされたものである
テキスト検出モデルを用いてテキストを検出する方法。
テキスト検出モデルのトレーニング装置であって、
前記テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含み、前記装置は、
テキストを含むサンプル画像を前記テキスト特徴抽出サブモデルに入力して、前記サンプル画像におけるテキストの第一テキスト特徴を取得するものであって、前記サンプル画像は前記サンプル画像に含まれるテキストの実際位置情報及び前記実際位置情報に対する実際種類を指示するラベルを有する第一テキスト特徴取得モジュールと、
所定テキストベクトルを前記テキスト符号化サブモデルに入力して、第一テキスト参照特徴を取得する第一参照特徴取得モジュールと、
前記第一テキスト特徴及び前記第一テキスト参照特徴を前記復号化サブモデルに入力して、第一テキストシーケンスベクトルを取得する第一シーケンスベクトル取得モジュールと、
前記第一テキストシーケンスベクトルを前記出力サブモデルに入力して、前記サンプル画像に含まれるテキストの予測位置情報及び前記予測位置情報に対する予測種類を取得する第一テキスト情報特定モジュールと、
前記予測種類、前記実際種類、前記予測位置情報、及び前記実際位置情報に基づいて、前記テキスト検出モデルをトレーニングするモデルトレーニングモジュールと、を含む
テキスト検出モデルのトレーニング装置。
前記テキスト特徴抽出サブモデルは、画像特徴抽出ネットワーク及びシーケンス符号化ネットワークを含み、前記テキスト検出モデルは、第一位置符号化サブモデルをさらに含み、前記第一テキスト特徴取得モジュールは、
前記サンプル画像を前記画像特徴抽出ネットワークに入力して、前記サンプル画像の画像特徴を取得する画像特徴取得サブモジュールと、
所定位置ベクトルを前記第一位置符号化サブモデルに入力して、位置符号化特徴を取得する位置特徴取得サブモジュールと、
前記位置符号化特徴と前記画像特徴とを加算した後に前記シーケンス符号化ネットワークに入力して、前記第一テキスト特徴を取得するテキスト特徴取得サブモジュールと、を含む
請求項９に記載の装置。
前記画像特徴抽出ネットワークは、特徴変換ユニットと、順に接続された複数の特徴処理ユニットとを含み、前記画像特徴取得サブモジュールは、
前記サンプル画像に基づいて、前記特徴変換ユニットを用いて前記サンプル画像を表す一次元ベクトルを取得する一次元ベクトル取得ユニットと、
前記一次元ベクトルを前記複数の特徴処理ユニットのうちの１番目の特徴処理ユニットに入力し、前記複数の特徴処理ユニットを介して順に処理し、前記サンプル画像の画像特徴を取得する特徴取得ユニットと、を含み、
ここで、接続順序に応じて、前記複数の特徴処理ユニットから出力された特徴マップの分解能が順に低下する
請求項１０に記載の装置。
前記複数の特徴処理ユニットのうちの各特徴処理ユニットは、順に接続された偶数個の符号化層を含み、前記偶数個の符号化層について、奇数番目の符号化層の移動ウィンドウが偶数番目の符号化層の移動ウィンドウより小さく、前記特徴取得ユニットは、
前記一次元ベクトルを前記１番目の特徴処理ユニットに含まれる偶数個の符号化層のうちの１番目の符号化層に入力し、前記偶数個の符号化層を介して順に処理して、前記１番目の特徴処理ユニットに対する特徴マップを取得する方式により、前記１番目の特徴処理ユニットに対する特徴マップを取得する
請求項１１に記載の装置。
前記テキスト検出モデルは、第二位置符号化サブモデルをさらに含み、前記一次元ベクトル取得ユニットは、
前記サンプル画像に基づいて、前記第二位置符号化サブモデルを用いて前記サンプル画像の位置図を取得し、
前記サンプル画像と前記位置図とを画素ごとに加算した後に前記特徴変換ユニットに入力して、前記サンプル画像を表す一次元ベクトルを取得する
請求項１２に記載の装置。
前記モデルトレーニングモジュールは、
前記予測種類及び前記実際種類に基づいて、前記テキスト検出モデルの分類損失を特定する分類損失特定サブモジュールと、
前記予測位置情報及び前記実際位置情報に基づいて、前記テキスト検出モデルの位置決め損失を特定する位置決め損失特定サブモジュールと、
前記分類損失及び前記位置決め損失に基づいて、前記テキスト検出モデルをトレーニングするモデルトレーニングサブモジュールと、を含む
請求項９に記載の装置。
前記実際位置情報は４つの実際位置点で示され、前記予測位置情報は４つの予測位置点で示され、前記測位損失特定サブモジュールは、
前記４つの実際位置点のそれぞれと前記４つの予測位置点との間の距離に基づいて、第一サブ位置決め損失を特定する第一特定ユニットと、
前記４つの実際位置点で囲まれた領域と前記４つの予測位置点で囲まれた領域との間のＩｏＵに基づいて、第二サブ位置決め損失を特定する第二特定ユニットと、
前記第一サブ位置決め損失と前記第二サブ位置決め損失との加重和を前記テキスト検出モデルの位置決め損失とする第三特定ユニットと、を含む
請求項１４に記載の装置。
テキスト検出モデルを用いてテキストを検出する装置であって、
前記テキスト検出モデルは、テキスト特徴抽出サブモデル、テキスト符号化サブモデル、復号化サブモデル、及び出力サブモデルを含み、前記装置は、
テキストを含む検出対象画像を前記テキスト特徴抽出サブモデルに入力して、前記検出対象画像におけるテキストの第二テキスト特徴を取得する第二テキスト特徴取得モジュールと、
所定テキストベクトルを前記テキスト符号化サブモデルに入力して、第二テキスト参照特徴を取得する第二参照特徴取得モジュールと、
前記第二テキスト特徴及び前記第二テキスト参照特徴を前記復号化サブモデルに入力して、第二テキストシーケンスベクトルを取得する第二シーケンスベクトル取得モジュールと、
前記第二テキストシーケンスベクトルを前記出力サブモデルに入力して、前記検出対象画像に含まれるテキストの位置を取得する第二テキスト情報特定モジュールと、を含み、
ここで、前記テキスト検出モデルは請求項９～１５のいずれか一項に記載の装置を用いてトレーニングされたものである
テキスト検出モデルを用いてテキストを検出する装置。
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリと、を含み、
前記メモリには、前記少なくとも一つのプロセッサにより実行可能な命令が記憶され、
前記命令は、前記少なくとも一つのプロセッサが請求項１～８のいずれか一項に記載の方法を実行することができるように、前記少なくとも一つのプロセッサにより実行される
電子機器。
コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項１～８のいずれか一項に記載の方法を実行させる
非一時的なコンピュータ可読記憶媒体。
プロセッサにより実行される時に請求項１～８のいずれか一項に記載の方法を実現するコンピュータプログラムを含むコンピュータプログラム製品。