JP2022533065A

JP2022533065A - 文字認識方法及び装置、電子機器並びに記憶媒体

Info

Publication number: JP2022533065A
Application number: JP2021567034A
Authority: JP
Inventors: シアオユーユエ; ジャンフイクアン; チェンハオリン; ホンビンスン; ウェイジャン
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2020-04-16
Filing date: 2021-03-19
Publication date: 2022-07-21
Also published as: CN111539410A; TW202141352A; WO2021208666A1; CN111539410B; KR20220011783A

Abstract

本発明は、文字認識方法及び装置、電子機器並びに記憶媒体に関し、ここで、前記文字認識方法は、認識対象となる目標画像を取得することと、決定された位置ベクトル及び前記目標画像の第１画像特徴に基づいて、前記目標画像の文字特徴を取得することであって、前記位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものであることと、前記文字特徴に基づいて前記目標画像内の文字を認識して、前記目標画像の文字認識結果を取得することと、を含む。本発明の実施例は、文字認識の精度を向上させることができる。【選択図】図１

Description

［関連出願への相互参照］
本願は、２０２０年０４月１６日に中国特許局に提出された、出願番号が２０２０１０３０１３４０．３である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照として本願に組み込まれる。
［技術分野］
本発明は、電子技術分野に関し、特に、文字認識方法及び装置、電子機器並びに記憶媒体に関する。

電子技術の発展に伴い、ますます多くの作業を電子機器で遂行したり、電子機器の支援により遂行したりすることができ、これは、人々に便利をもたらす。例えば、コンピュータを用いて文字を自動的に認識することにより、手動処理の効率を改善することができる。

現在、文字認識では、ドキュメントの解析など、規則な文字を認識することができる。文字認識は、不規則な文字を認識することもでき、例えば、交通標識や店の看板など、自然のシーンで不規則な文字を認識することができる。ただし、視角の変化や光照の変化などの要因により、不規則な文字を正確に認識することは困難である。

本発明は、文字認識のための技術的解決策を提案する。

本発明の１つの態様によれば、文字認識方法を提供し、前記文字認識方法は、認識対象となる目標画像を取得することと、決定された位置ベクトル及び前記目標画像の第１画像特徴に基づいて、前記目標画像の文字特徴を取得することであって、前記位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものであることと、前記文字特徴に基づいて前記目標画像内の文字を認識して、前記目標画像の文字認識結果を取得することと、を含む。

１つの可能な実施形態において、前記決定された位置ベクトル及び前記目標画像の第１画像特徴に基づいて、前記目標画像の文字特徴を取得することは、前記目標画像の第１画像特徴を符号化して、前記第１画像特徴の符号化結果を取得することと、前記第１画像特徴の符号化結果に従って、前記目標画像の第２画像特徴を決定することと、決定された位置ベクトル、前記第１画像特徴及び前記第２画像特徴に基づいて、前記目標画像の文字特徴を取得することと、を含む。ここで、第２画像特徴がより強い位置特徴を持つため、それに対応する取得された目標画像の文字特徴もより強い位置特徴を持ち、それにより、文字特徴に基づいて取得された文字認識結果はより正確であり、文字認識結果へのセマンティックの影響を更に軽減する。

１つの可能な実施形態において、前記目標画像の第１画像特徴を符号化して、前記第１画像特徴の符号化結果を取得することは、前記第１画像特徴の複数の第１次元特徴ベクトルに対して少なくとも１レベルの第１符号化処理を順次に実行して、前記第１画像特徴の符号化結果を取得することを含む。第１画像特徴の複数の第１次元特徴ベクトルに対して、１レベル又は複数レベルの第１符号化処理を順次に実行することにより、第１画像特徴に含まれる位置特徴を強調することができ、取得された第１画像特徴の符号化結果は、文字間のより明白な位置特徴を持つことができる。

１つの可能な実施形態において、前記第１画像特徴の複数の第１次元特徴ベクトルに対して少なくとも１レベルの第１符号化処理を順次に実行して、前記第１画像特徴の符号化結果を取得することは、前記少なくとも１レベルの第１符号化処理における１レベルの第１符号化処理について、Ｎ（Ｎは、正の整数である）個の第１符号化ノードを用いて前記第１符号化ノードの入力情報に対して順次符号化を行い、Ｎ個の第１符号化ノードの出力結果を取得することであって、１＜ｉ≦Ｎである場合、ｉ（ｉは、正の整数である）番目の第１符号化ノードの入力情報は、ｉ－１番目の第１符号化ノードの出力結果を含むことと、前記Ｎ個の第１符号化ノードの出力結果に従って、前記第１画像特徴の符号化結果を取得することと、を含む。このようにして、１番目の第１符号化ノードの入力情報を最後の第１符号化ノードへ転送することができるため、第１符号化ノードの入力情報を長期間記憶することができ、取得された出力結果をより正確にすることができる。

１つの可能な実施形態において、前記第１符号化ノードの入力情報は、前記第１画像特徴の第１次元特徴ベクトル又は前レベルの第１符号化処理の出力結果を更に含む。このようにして、１レベルの第１符号化処理において、第１符号化ノードを介して、第１画像特徴の第１次元特徴ベクトル又は前レベルの第１符号化処理の出力結果を最後の第１符号化ノードへ転送することができるため、１レベルの第１符号化処理出力結果をより正確にすることができる。

１つの可能な実施形態において、前記決定された位置ベクトル、前記第１画像特徴及び前記第２画像特徴に基づいて、前記目標画像の文字特徴を取得することは、前記位置ベクトル及び前記第２画像特徴に従って、アテンション重みを決定することと、前記アテンション重みを用いて前記第１画像特徴に対して特徴加重を実行することにより、前記目標画像の文字特徴を取得することと、を含む。このように、アテンション重みを用いて、第１画像特徴内の注意すべき特徴を強調できるため、アテンション重みを用いて第１画像特徴に対して特徴加重を実行することにより取得された文字特徴は、第１画像特徴のより重要な特徴部分をより正確に反映できる。

１つの可能な実施形態において、前記文字認識方法は、少なくとも１つの第１プリセット情報を含むプリセット情報シーケンスを取得することと、前記少なくとも１つの第１プリセット情報に対して少なくとも１レベルの第２符号化処理を順次に行い、前記位置ベクトルを取得することと、を更に含む。ニューラルネットワークを用いて少なくとも１つの第１プリセット情報に対して第２符号化処理を行うプロセスでは、少なくとも１つの第１プリセット情報を順次に符号化するため、生成された位置ベクトルは、少なくとも１つの第１プリセット情報の順序に関連し、それによって、位置ベクトルは、文字間の位置特徴を表すことができる。

１つの可能な実施形態において、前記少なくとも１つの第１プリセット情報に対して少なくとも１レベルの第２符号化処理を順次に行い、前記位置ベクトルを取得することは、前記少なくとも１レベルの第２符号化処理における１レベルの第２符号化処理について、Ｍ（Ｍは、正の整数である）個の第２符号化ノードを用いて前記第２符号化ノードの入力情報に対して順次符号化を行い、Ｍ個の第２符号化ノードの出力結果を取得することであって、１＜ｊ≦Ｍである場合、ｊ（ｊは、正の整数である）番目の第２符号化ノードの入力情報は、ｊ－１番目の第２符号化ノードの出力結果を含むことと、前記Ｍ個の第２符号化ノードの出力結果に従って、前記位置ベクトルを取得することと、を含む。このようにして、１番目の第２符号化ノードの入力情報を最後の第２符号化ノードへ転送することができるため、第２符号化ノードの入力情報を長期間記憶することができ、取得された位置ベクトルをより正確にすることができる。

１つの可能な実施形態において、前記第２符号化ノードの入力情報は、前記第１プリセット情報又は前レベルの第２符号化処理の出力結果を更に含む。このようにして、１レベルの第２符号化処理において、第２符号化ノードを介して、第１プリセット情報又は前レベルの第２符号化処理の出力結果を最後の第１符号化ノードへ転送することができるため、１レベルの第１符号化処理出力結果をより正確にすることができる。

１つの可能な実施形態において、前記文字特徴に基づいて前記目標画像内の文字を認識して、前記目標画像の文字認識結果を取得することは、前記目標画像のセマンティック特徴を抽出することと、前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、前記目標画像の文字認識結果を取得することと、を含む。このように、目標画像の文字認識結果を取得するプロセスにおいて、セマンティック特徴と文字特徴とを組み合わせることにより、文字認識結果の精度を向上させることができる。

１つの可能な実施形態において、前記目標画像のセマンティック特徴を抽出することは、取得された第２プリセット情報に基づいて、少なくとも１つのタイムステップにおける前記目標画像のセマンティック特徴を順次に決定することを含み、前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、前記目標画像の文字認識結果を取得することは、少なくとも１つのタイムステップにおける前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、少なくとも１つのタイムステップにおける前記目標画像の文字認識結果を取得することを含む。ここで、目標画像に複数の文字が存在するある場合、文字の位置（文字特徴）及びセマンティック（セマンティック特徴）に従って文字認識結果を順次に取得できるため、文字認識結果の精度を向上させることができる。

１つの可能な実施形態において、前記取得された第２プリセット情報に基づいて、少なくとも１つのタイムステップにおける前記目標画像のセマンティック特徴を順次に決定することは、前記第２プリセット情報に対して少なくとも１レベルの第３符号化処理を行い、前記少なくとも１つのタイムステップのうちの１番目のタイムステップのセマンティック特徴を取得することと、ｋ－１（ｋは、１より大きい整数である）番目のタイムステップにおける前記目標画像の文字認識結果に対して少なくとも１レベルの第３符号化処理を行い、ｋ番目のタイムステップにおける前記目標画像のセマンティック特徴を取得することと、を含む。このようにして、前の順番の第３符号化ノードの入力情報を後の順番の第３符号化ノードへ転送することができ、これにより、第３符号化ノードの入力情報を長期間記憶することができ、取得されたセマンティック特徴をより正確にすることができる。

本発明の１つの態様によれば、文字認識装置を提供し、前記文字認識装置は、
認識対象となる目標画像を取得するように構成される取得部と、
決定された位置ベクトル及び前記目標画像の第１画像特徴に基づいて、前記目標画像の文字特徴を取得するように構成される決定部であって、前記位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものである、決定部と、
前記文字特徴に基づいて前記目標画像内の文字を認識して、前記目標画像の文字認識結果を取得するように構成される認識部と、を備える。

１つの可能な実施形態において、前記決定部は更に、前記目標画像の第１画像特徴を符号化して、前記第１画像特徴の符号化結果を取得し、前記第１画像特徴の符号化結果に従って、前記目標画像の第２画像特徴を決定し、決定された位置ベクトル、前記第１画像特徴及び前記第２画像特徴に基づいて、前記目標画像の文字特徴を取得するように構成される。

１つの可能な実施形態において、前記決定部は更に、前記第１画像特徴の複数の第１次元特徴ベクトルに対して少なくとも１レベルの第１符号化処理を順次に実行して、前記第１画像特徴の符号化結果を取得するように構成される。

１つの可能な実施形態において、前記決定部は更に、前記少なくとも１レベルの第１符号化処理における１レベルの第１符号化処理について、Ｎ（Ｎは、正の整数である）個の第１符号化ノードを用いて前記第１符号化ノードの入力情報に対して順次符号化を行い、Ｎ個の第１符号化ノードの出力結果を取得し、ここで、１＜ｉ≦Ｎである場合、ｉ（ｉは、正の整数である）番目の第１符号化ノードの入力情報は、ｉ－１番目の第１符号化ノードの出力結果を含み、前記Ｎ個の第１符号化ノードの出力結果に従って、前記第１画像特徴の符号化結果を取得するように構成される。

１つの可能な実施形態において、前記第１符号化ノードの入力情報は、前記第１画像特徴の第１次元特徴ベクトル又は前レベルの第１符号化処理の出力結果を更に含む。

１つの可能な実施形態において、前記決定部は更に、前記位置ベクトル及び前記第２画像特徴に従って、アテンション重みを決定し、前記アテンション重みを用いて前記第１画像特徴に対して特徴加重を実行することにより、前記目標画像の文字特徴を取得するように構成される。

１つの可能な実施形態において、前記文字認識装置は更に、少なくとも１つの第１プリセット情報を含むプリセット情報シーケンスを取得し、前記少なくとも１つの第１プリセット情報に対して少なくとも１レベルの第２符号化処理を順次に行い、前記位置ベクトルを取得するように構成される符号化部を備える。

１つの可能な実施形態において、前記符号化部は更に、前記少なくとも１レベルの第２符号化処理における１レベルの第２符号化処理について、Ｍ（Ｍは、正の整数である）個の第２符号化ノードを用いて前記第２符号化ノードの入力情報に対して順次符号化を行い、Ｍ個の第２符号化ノードの出力結果を取得し、ここで、１＜ｊ≦Ｍである場合、ｊ（ｊは、正の整数である）番目の第２符号化ノードの入力情報は、ｊ－１番目の第２符号化ノードの出力結果を含み、前記Ｍ個の第２符号化ノードの出力結果に従って、前記位置ベクトルを取得するように構成される。

１つの可能な実施形態において、前記第２符号化ノードの入力情報は、前記第１プリセット情報又は前レベルの第２符号化処理の出力結果を更に含む。

１つの可能な実施形態において、前記認識部は更に、前記目標画像のセマンティック特徴を抽出し、前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、前記目標画像の文字認識結果を取得するように構成される。

１つの可能な実施形態において、前記認識部は更に、取得された第２プリセット情報に基づいて、少なくとも１つのタイムステップにおける前記目標画像のセマンティック特徴を順次に決定し、少なくとも１つのタイムステップにおける前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、少なくとも１つのタイムステップにおける前記目標画像の文字認識結果を取得するように構成される。

１つの可能な実施形態において、前記認識部は更に、前記第２プリセット情報に対して少なくとも１レベルの第３符号化処理を行い、前記少なくとも１つのタイムステップのうちの１番目のタイムステップのセマンティック特徴を取得し、ｋ－１（ｋは、１より大きい整数である）番目のタイムステップにおける前記目標画像の文字認識結果に対して少なくとも１レベルの第３符号化処理を行い、ｋ番目のタイムステップにおける前記目標画像のセマンティック特徴を取得するように構成される。

本発明の１つの態様によれば、電子機器を提供し、前記電子機器は、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
ここで、前記プロセッサは、前記メモリに記憶されている命令を呼び出して実行することにより、上記の文字認識方法を実行するように構成される。

本発明の１つの態様によれば、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行されるときに、上記の文字認識方法を実現する。

本発明の１つの態様によれば、コンピュータ可読コードを含むコンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、上記の文字認識方法を実行させる。

本発明の実施例では、認識対象となる目標画像を取得し、次に、決定された位置ベクトル及び目標画像の第１画像特徴に基づいて、目標画像の文字特徴を取得し、その後、文字特徴に基づいて目標画像内の文字を認識して、目標画像の文字認識結果を取得することができる。ここで、位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものであり、文字間の位置特徴を表すことができるため、文字認識プロセスにおいて、文字認識結果への文字間の位置特徴の影響を高め、文字認識の精度を向上させることができ、例えば、不規則な文字や非セマンティック文字の場合、より良い認識効果を得ることができる。

上記した一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本開示を限定するものではないことを理解されたい。

以下、図面を参照した例示的な実施例に対する詳細な説明によれば、本開示の他の特徴および態様は明らかになる。

ここでの図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本発明に準拠する実施例を示し、明細書とともに本発明の技術的解決策を説明するために使用される。
本発明の実施例に係る文字認識方法のフローチャートである。本発明の実施例に係る、目標画像の第２画像特徴を決定する一例を示すブロック図である。本発明の実施例に係る、ニューラルネットワークを用いて文字認識結果を取得する一例を示すブロック図である。本発明の実施例に係る文字認識装置の一例のブロック図である。本発明の実施例に係る文字認識装置の一例のブロック図である。本発明の実施例に係る電子機器の一例のブロック図である。

以下、本発明のさまざまな例示的な実施例、特徴及び態様を、図面を参照して詳細に説明する。図面における同じ参照番号は、同じまたは類似の機能の要素を表示する。実施例の様々な態様を図面に示したが、特に明記しない限り、縮尺通りに図面を描く必要がない。

明細書における「例示的」という専門の記載は、「例、実施例または説明として使用される」ことを意味する。ここで、「例示的」として記載される任意の実施例は、他の実施例より適切であるかまたは優れると解釈される必要はない。

本明細書における「及び／又は」という用語は、単に関連対象の関連関係を表し、３種類の関係が存在し得ることを示し、例えば、Ａ及び／又はＢは、Ａが独立で存在する場合、ＡとＢが同時に存在する場合、Ｂが独立で存在する場合のような３つの場合を表す。更に、本明細書における「少なくとも１つ」という用語は、複数のうちの１つ又は複数のうちの少なくとも２つの任意の組み合わせを示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、Ｂ及びＣで構成された集合から選択された任意の１つ又は複数の要素を含むことを示す。

更に、本開示をよりよく説明するために、以下の実施形態において、多数の詳細が記載されている。当業者は、幾つかの詳細が記載されなくても本開示が実施できることを理解されたい。いくつかの実施例において、本開示の要旨を強調するために、当業者に周知の方法、手段、要素及び回路について詳細に説明しない。

本発明の実施例に係る文字認識の解決策によれば、認識対象となる目標画像を取得した後、決定された位置ベクトル及び目標画像の第１画像特徴に基づいて、目標画像の文字特徴を取得し、次に、文字特徴に基づいて目標画像内の文字を認識して、目標画像の文字認識結果を取得することができる。ここで、位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものであり、文字の位置特徴を表すことができるため、文字認識プロセスで、文字間の位置特徴を強調することができ、これにより、取得された文字認識結果をより正確にすることができる。

関連技術では、通常、文字間のセマンティック特徴を用いて文字シーケンスを認識するが、一部の文字シーケンス内の文字間の意味的関連性が低い。例えば、ライセンスプレート番号や部屋番号などの文字シーケンスの文字間の意味的関連性が低いため、セマンティック特徴による文字シーケンスの認識効果が悪い。本発明の実施例に係る文字認識の解決策は、文字認識への文字の位置特徴の影響を高め、文字認識プロセスのセマンティック特徴への依存性を低減し、意味的関連性が低い文字の認識や不規則な文字の認識に対して、より優れた認識効果を得ることができる。

本発明の実施例に係る技術的解決策は、画像内の文字認識、画像からテキストへの変換などの適用シナリオの拡張に適用することができ、本発明の実施例は、これらに対して特に限定しない。例えば、交通標識の不規則な文字に対して文字認識を行い、交通標識が表す交通指示を判断することにより、ユーザに便利をもたらすことができる。

図１は、本発明の実施例に係る文字認識方法のフローチャートを示す。当該文字認識方法は、端末機器、サーバ又は他のタイプの電子機器によって実行されることができ、ここで、端末機器は、ユーザ機器（ＵＥ：ＵｓｅｒＥｑｕｉｐｍｅｎｔ）、モバイル機器、ユーザ端末、端末、セルラー電話、コードレス電話、携帯情報端末（ＰＤＡ：ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。いくつかの可能な実施形態において、当該文字認識方法は、プロセッサが、メモリに記憶されているコンピュータ可読命令を呼び出して実することにより実現することができる。以下では、電子機器が実行主体であることを例として、本発明の実施例の文字認識方法について説明する。

ステップＳ１１において、認識対象となる目標画像を取得する。

本発明の実施例において、電子機器は、画像収集機能を有することができ、認識対象となる目標画像を収集することができる。又は、電子機器は、他の機器から、認識対象となる目標画像を取得してもよく、例えば、電子機器は、撮影機器や監視機器などの機器から、認識対象となる目標画像を取得することができる。認識対象となる目標画像は、文字認識待ちの画像であってもよい。目標画像には文字が含まれてもよく、文字は、１つの文字であってもよいし、文字列であってもよい。目標画像内の文字は、規則な文字（例えば、標準フォントで書かれたテキストなど）であってもよい。規則な文字は、すっきりとした配置、均一な大きさ、変形なし、遮蔽なしなどの特点を持つことができる。いくつかの実施形態において、目標画像内の文字は、不規則な文字（例えば、店の看板や広告の表紙上の芸術的なテキストなど）であってもよい。不規則な文字は、すっきりとしない配置、不均一な大きさ、変形あり、遮蔽ありなどの特点を持つことができる。

ステップＳ１２において、決定された位置ベクトル及び前記目標画像の第１画像特徴に基づいて、前記目標画像の文字特徴を取得し、ここで、前記位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものである。

本発明の実施例において、プリセット情報シーケンスの文字の位置特徴に基づいて、文字の位置特徴を表すための位置ベクトルを決定することができ、例えば、特定の長さのプリセット情報シーケンスを取得した後、プリセット情報シーケンス内の文字の位置特徴を抽出することができる。位置ベクトルは、文字の所在位置に関連付けられ、例えば、文字シーケンスにおける、認識対象となる文字の位置が３番目の文字位置である場合、位置ベクトルは、当該文字シーケンスでの、認識対象となる文字の位置、すなわち、３番目の文字位置を表すことができる。位置ベクトルと文字セマンティックとの間の相関性を減らすために、プリセット情報シーケンス内の文字は同じであってもよい。いくつかの実施形態において、プリセット情報シーケンス内の各文字を、セマンティックのない情報に設定することもできるため、位置ベクトルと文字セマンティックとの間の相関性を更に低減することができる。位置ベクトルは、文字セマンティックとの相関性が低いため、異なる目標画像の場合、位置ベクトルは、同じであっても、異なっていてもよい。

目標画像の第１画像特徴は、目標画像に対して画像抽出を実行することにより取得されたものであってもよく、例えば、ニューラルネットワークを用いて目標画像に対して少なくとも一回の畳み込み操作を実行して、目標画像の第１画像特徴を取得することができる。決定された位置ベクトル及び目標画像の第１画像特徴に従って、目標画像の文字特徴を決定することができ、例えば、決定された位置ベクトルと目標画像の第１画像特徴とを融合して、目標画像の文字特徴を取得することができる。ここで、文字特徴は、位置ベクトル及び第１画像特徴に基づいて取得されたものであるため、文字特徴への文字のセマンティックの影響が低い。

ステップＳ１３において、前記文字特徴に基づいて前記目標画像内の文字を認識して、前記目標画像の文字認識結果を取得する。

本発明の実施例において、ニューラルネットワークを用いて文字特徴を処理することができ、例えば、文字特徴に対して活性化操作を実行するか、又は、文字特徴をニューラルネットワークの全結合層に出力して全結合操作を実行して、目標画像の文字認識結果を取得することができる。文字認識結果は、目標画像内の文字の認識結果であり得る。目標画像が１つの文字を含む場合、文字認識結果は、１つの文字であり得る。目標画像が文字シーケンスを含む場合、文字認識結果は、１つの文字シーケンスであり得、文字認識結果の各文字の順序は、目標画像内の対応する文字の順序と同じである。

文字特徴によって取得される文字認識結果は、文字のセマンティックの影響を受けにくいため、文字間の意味的関連性が低い文字シーケンスの場合でも、より優れた認識効果を得ることができ、例えば、ライセンスプレート番号内の、意味的関連性のない文字シーケンスに対して文字認識を実行することができる。

上記のステップＳ１２において、決定された位置ベクトル及び目標画像の第１画像特徴に基づいて、目標画像の文字特徴を取得することができ、それによって、文字特徴へのセマンティックの影響を低減する。以下、目標画像の文字特徴を取得する実施形態を提供する。

１つの可能な実施形態において、目標画像の第１画像特徴を符号化して、第１画像特徴の符号化結果を取得した後、第１画像特徴の符号化結果に従って、目標画像の第２画像特徴を決定し、決定された位置ベクトル、第１画像特徴及び第２画像特徴に基づいて、目標画像の文字特徴を取得することができる。

この実施形態では、ニューラルネットワークを用いて目標画像の第１画像特徴を符号化することができ、例えば、第１画像特徴に対して行ごと又は列ごとに符号化することができ、それによって、第１画像特徴に含まれる位置特徴を強調することができる。その後、第１画像特徴を符号化することにより取得された符号化結果に従って、目標画像の第２画像特徴を取得することができ、例えば、第１画像特徴と符号化結果とを融合して、目標画像の第２画像特徴を取得し、第２画像特徴は、第１画像特徴よりも強い位置特徴を持つ。その後、決定された位置ベクトル、第１画像特徴及び第２画像特徴に基づいて、目標画像の文字特徴を取得することができ、例えば、決定された位置ベクトル、第１画像特徴及び第２画像特徴を融合して目標画像の文字特徴を取得し、第２画像特徴はより強い位置特徴を持つため、取得された目標画像の文字特徴もより強い位置特徴を持ち、それにより、文字特徴に基づいて取得された文字認識結果がより正確であり、文字認識結果へのセマンティックの影響を更に軽減する。

上記の実施形態では、目標画像の第１画像特徴を符号化することにより、第１画像特徴に含まれる位置特徴を強調することができる。以下では、１つの例を介して、第１画像特徴の符号化結果を取得するプロセスについて説明する。

一例において、第１画像特徴の複数の第１次元特徴ベクトルに対して少なくとも１レベルの第１符号化処理を順次に実行して、第１画像特徴の符号化結果を取得することができる。

この例において、第１画像特徴は、複数の第１次元特徴ベクトルを含み得る。第１画像特徴は、複数の次元における特徴を含み得、例えば、第１画像特徴は、長さ、幅、深さなどの複数の次元を含み得る。異なる次元での特徴次元数は異なってもよい。第１次元特徴ベクトルは、１つの次元上の第１画像特徴の特徴であってもよく、例えば、第１次元特徴ベクトルは、長さ次元又は幅次元上の特徴であってもよい。第１符号化処理は、第１画像特徴への符号化であってもよく、それに対応して、ニューラルネットワークは、少なくとも１つの第１符号化層を含み得、第１符号化層に対応する符号化処理は、第１符号化処理であってもよい。ここで、ニューラルネットワークを用いて複数の第１次元特徴ベクトルに対して１レベル又は複数レベルの第１符号化処理を行い、複数の第１次元特徴ベクトルの処理結果を取得することができ、１つの第１次元特徴ベクトルは、１つの処理結果に対応することができ、その後、複数の第１次元特徴の複数の処理結果を合併して、第１画像特徴の符号化結果を形成することができる。第１画像特徴の複数の第１次元特徴ベクトルに対して、１レベル又は複数レベルの第１符号化処理を順次に実行することにより、第１画像特徴に含まれる位置特徴を強調することができ、取得された第１画像特徴の符号化結果は、文字間のより明白な位置特徴を持つことができる。

この例において、少なくとも１レベルの第１符号化処理における１レベルの第１符号化処理について、Ｎ（Ｎは、正の整数である）個の第１符号化ノードを用いて前記第１符号化ノードの入力情報に対して順次符号化を行い、Ｎ個の第１符号化ノードの出力結果を取得することができ、１＜ｉ≦Ｎである場合、ｉ（ｉは、正の整数である）番目の第１符号化ノードの入力情報は、ｉ－１番目の第１符号化ノードの出力結果を含む。Ｎ個の第１符号化ノードの出力結果に従って、第１画像特徴の符号化結果を取得する。

この例において、ニューラルネットワークを用いて第１画像特徴に対して少なくとも１レベルの第１符号化処理を実行することにより、第１画像特徴の符号化結果を取得することができる。ニューラルネットワークは、少なくとも１レベルの第１符号化層を含み得、第１符号化層は、第１符号化処理を実行することができ、各レベルの第１符号化処理は、複数の符号化ノードによって実現される。第１符号化処理が複数レベルの処理である場合、各レベルの第１符号化処理に係る動作は同じであってもよい。少なくとも１レベルの第１符号化処理における１レベルの第１符号化処理について、Ｎ個の第１符号化ノードを用いて当該レベルの第１符号化処理の入力情報を符号化することができ、１つの第１符号化ノードは、１つの入力情報に対応することができ、異なる第１符号化ノードの入力情報は異なっていてもよい。それに対応して、１つの第１符号化ノードにより、１つの出力結果を取得することができる。第１レベルの第１符号化処理の第１符号化ノードの入力情報は、第１画像特徴の第１次元特徴ベクトルであってもよい。第１レベルの第１符号化処理における第１符号化ノードの出力結果は、第２レベルの第１符号化処理における、同じ順番を有する第１符号化ノードの入力情報として使用されることができ、最後のレベルの第１符号化処理まで同様である。最後のレベルの第１符号化処理における第１符号化ノードの出力結果は、上記の第１次元特徴ベクトルの処理結果であってもよい。１レベルの第１符号化処理は、Ｎ個の第１符号化ノードを含み得、１＜ｉ≦Ｎである場合、すなわち、第１符号化ノードが、現在のレベルの第１符号化処理における１番目の第１符号化ノード以外の第１符号化ノードである場合、第１符号化ノードの入力情報は、当該レベルの第１符号化処理における前の第１符号化ノードの出力結果を更に含み得、それによって、１番目の第１符号化ノードの入力情報を最後の第１符号化ノードへ転送することができるため、第１符号化ノードの入力情報を長期間記憶することができ、取得された出力結果をより正確にすることができる。

図２は、本発明の実施例に係る、目標画像の第２画像特徴を決定する一例を示すブロック図を示す。この例において、ニューラルネットワーク（例えば、長・短期記憶（ＬＳＴＭ：ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ）ネットワークなど）を用いて目標画像の第１画像特徴Ｆを符号化することができる。ニューラルネットワークは、２つの第１符号化層を含み得、各第１符号化層は、複数の第１符号化ノード（図２の符号化ノードに対応する）を含み得る。ここで、目標画像の第１画像特徴Ｆをニューラルネットワークの第１符号化層に入力し、第１符号化層の複数の第１符号化ノードを用いて第１画像特徴Ｆの複数の第１次元特徴ベクトル（幅次元の特徴ベクトル）をそれぞれ符号化して、各第１符号化ノードの出力結果を取得することができる。ここで、１番目の第１符号化ノードの入力情報は、１番目の第１次元特徴ベクトルであり、２番目の第１符号化ノードの入力情報は、１番目の第１符号化ノードの出力結果及び２番目の第１次元特徴ベクトルであり、これによって類推すれば、最後の第１符号化ノードの出力結果を取得することができる。複数の第１符号化点の出力結果を２番目の第１符号化層に入力し、２番目の第１符号化層の処理は、１番目の第１符号化層の処理と同様であり、ここでは繰り返して説明しない。最終的には、第１画像特徴の符号化結果Ｆ^２を取得することができる。その後、第１画像特徴Ｆ及び第１画像特徴の符号化結果Ｆ^２に対して特徴融合（特上の加算や合併などであってもよい）を実行して、目標画像の第２画像特徴

を取得することができる。

ここで、２層のＬＳＴＭを使用して目標画像の第１画像特徴Ｆを符号化することを例にとると、次の式により、第１画像特徴Ｆによって第２画像特徴

を取得することができる。

式（１）

式（２）

式（３）

ここで、

は、位置（ｉ，ｊ）における第１画像特徴Ｆの特徴ベクトル（第１次元特徴ベクトル）であり得、

は、位置（ｉ，ｊ）における１番目の第１符号化層の出力結果Ｆ¹の特徴ベクトルを表すことができ、

は、位置（ｉ，ｊ－１）における出力結果Ｆ¹の特徴ベクトルを表すことができ、

は、位置（ｉ，ｊ）における符号化結果Ｆ^２の特徴ベクトルを表すことができ、

は、位置（ｉ，ｊ－１）における符号化結果Ｆ^２の特徴ベクトルを表すことができ、

は、取得された第２画像特徴を表すことができ、

は、ベクトルの加算演算を表すことができる。ここで、ｉ及びｊは、自然数である。

上記の実施形態において、決定された位置ベクトル、第１画像特徴及び第２画像特徴に基づいて、目標画像の文字特徴を取得することができる。以下では、１つの例を介して、目標画像の文字特徴を取得するプロセスについて説明する。

一例において、決定された位置ベクトル及び第２画像特徴に従って、アテンション重みを決定し、次に、アテンション重みを用いて第１画像特徴に対して特徴加重を行い、目標画像の文字特徴を取得することができる。

一例において、位置ベクトルと第２画像特徴は両方とも顕著な位置特徴を含むため、位置ベクトル及び第２画像特徴に従ってアテンション重みを決定することができ、例えば、位置ベクトルと第２画像特徴との間の相関性を決定し、当該相関性に従って、アテンション重みを決定することができる。位置ベクトルと第２画像特徴との間の相関性は、位置ベクトルと第２画像特徴との内積によって得ることができる。決定されたアテンション重みを用いて、第１画像特徴に対して特徴加重を行うことができ、例えば、アテンション重みと第１画像特徴とを乗算してその合計を求めることにより、目標画像の文字特徴を取得することができる。アテンション重みを用いて、第１画像特徴内の注意すべき特徴を強調できるため、アテンション重みを用いて第１画像特徴に対して特徴加重を実行することにより、取得された文字特徴は、第１画像特徴のより重要な特徴部分をより正確に反映できる。

この例において、アテンション重みは、以下の式（４）により決定できる。

式（４）

ここで、

は、アテンション重みを表し、

は、活性化関数を表し、

は、位置ベクトル

の転置を表し、

は、特徴位置（ｉ，ｊ）における第２画像特徴

の特徴ベクトルを表す。上記の式（４）を使用して、位置ベクトル及び第２画像に従って、特徴アテンション重みを決定することができる。

この例において、文字特徴は、以下の式（５）により決定できる。

式（５）

ここで、

は、文字特徴を表し、

は、アテンション重みを表し、

は、特徴位置（ｉ，ｊ）における第１画像特徴Fの特徴ベクトルを表す。上記の式（５）を使用して、アテンション重み及び第１画像特徴に基づいて文字特徴を取得することができる。

上記の実施形態において、決定された位置ベクトル及び第２画像特徴に従って、アテンション重みを決定することができる。位置ベクトルは、文字の位置特徴、すなわち、文字間の相対位置を表すことがきる。以下では、１つの実施形態を介して、位置ベクトルを決定するプロセスについて説明する。

１つの可能な実施形態において、少なくとも１つの第１プリセット情報を含むプリセット情報シーケンスを取得した後、少なくとも１つの第１プリセット情報に対して少なくとも１レベルの第２符号化処理を順次に行い、位置ベクトルを取得することができる。

この実施形態では、プリセット情報シーケンスは、１つ又は複数の第１プリセット情報を含み得る。第１プリセット情報は、実際の場合に応じて設定された情報であってもよく、特定の意味を有しないものであってもよい。例えば、第１プリセット情報は、カウント命令であってもよい。ニューラルネットワークを用いて、少なくとも１つの第１プリセット情報に対して、１レベル又は複数レベルの第２符号化処理を順次に行い、位置ベクトルを取得することができる。少なくとも１つの第１プリセット情報は同じでありかつ特定の意味を持たないため、少なくとも１つの第１プリセット情報間の意味的関連性低く、これにより、少なくとも１つの第１プリセット情報に対して１レベル又は複数レベルの第２符号化処理を行うことによって取得された位置ベクトルは、意味的関連性が低い。また、ニューラルネットワークを用いて少なくとも１つの第１プリセット情報に対して第２符号化処理を行うプロセスでは、少なくとも１つの第１プリセット情報を順次に符号化するため、生成された位置ベクトルは、少なくとも１つの第１プリセット情報の順序に関連しており（すなわち、少なくとも１つの第１プリセット情報間の位置に関連していると理解できる）、それによって、位置ベクトルは、文字間の位置特徴を表すことができる。

本実施形態の一例において、少なくとも１レベルの第２符号化処理における１レベルの第２符号化処理について、Ｍ個の第２符号化ノードを用いて、第２符号化ノードの入力情報を順次に符号化して、Ｍ個の第２符号化ノードの出力結果を取得することができる。１＜ｊ≦Ｍ（Ｍ及びｊは、正の整数である）である場合、ｊ番目の第２符号化ノードの入力情報は、ｊ－１番目の第２符号化ノードの出力結果を含む。Ｍ個の第２符号化ノードの出力結果に従って、位置ベクトルを取得する。

この例では、ニューラルネットワークを用いて、少なくとも１つの第１プリセット情報に対して、１レベル又は複数レベルの第２符号化処理を順次に行い、位置ベクトルを取得することができる。第２符号化処理が複数レベルの処理である場合、各レベルの第２符号化処理に係る動作は同じであってもよい。少なくとも１レベルの第２符号化処理における１レベルの第２符号化処理について、Ｍ個の第２符号化ノードを用いて当該レベルの第２符号化処理の入力情報を符号化することができ、１つの第２符号化ノードは、１つの入力情報に対応することができ、異なる第２符号化ノードの入力情報は異なっていてもよい。それに対応して、１つの第２符号化ノードにより、１つの出力結果を取得することができる。第１レベルの第２符号化処理の１つの第２符号化ノードの入力情報は、１つの第１プリセット情報であってもよい。第１レベルの第２符号化処理における第２符号化ノードの出力結果は、第２レベルの第２符号化処理における、同じ順番を有する第２符号化ノードの入力情報として使用されることができ、最後のレベルの第２符号化処理まで同様である。最後のレベルの第２符号化処理における最後の第２符号化ノードの出力結果は、位置ベクトルとして使用されることができ、又は、最後のレベルの第２符号化処理における最後の第２符号化ノードの出力結果に対して畳み込み処理やプーリング処理などの更なる処理を行い、位置ベクトルを取得することができる。１レベルの第２符号化処理は、Ｍ個の第２符号化ノードを含み得、１＜ｊ≦Ｍである場合、すなわち、第２符号化ノードが、現在のレベルの第２符号化処理における１番目の第２符号化ノード以外の第２符号化ノードである場合、第２符号化ノードの入力情報は、当該レベルの第２符号化処理における前の第２符号化ノードの出力結果を更に含み得、それによって、１番目の第２符号化ノードの入力情報を最後の第２符号化ノードへ転送することができるため、第２符号化ノードの入力情報を長期間記憶することができ、取得された位置ベクトルをより正確にすることができる。

ここで、第１プリセット情報が定数「＜ｎｅｘｔ＞」であり、第２符号化処理が２層のＬＳＴＭであることを例にとると、以下の式（６）及び式（７）により位置ベクトル

を決定することができる。

式（６）

式（７）

ここで、

は、第１レベルの第２符号化処理におけるｔ番目の第２符号化ノードの出力結果を表すことができ、

は、第１レベルの第２符号化処理におけるｔ－１番目の第２符号化ノードの出力結果を表すことができ、

は、第２レベルの第２符号化処理におけるｔ番目の第２符号化ノードの出力結果（すなわち、位置ベクトル）を表すことができ、

は、第２レベルの第２符号化処理におけるｔ－１番目の第２符号化ノードの出力結果を表すことができる。ここで、ｔは自然数である。

留意されたいこととして、少なくとも１つの第１プリセット情報によって位置ベクトルを取得するプロセスは、図２に示されたニューラルネットワークによって実現でき、ここで、位置ベクトルは、複数の第２符号化ノードの出力結果によって形成されたものではなく、第２レベルの第２符号化処理における最後の第２符号化ノードの出力結果であり得る。

上記のステップＳ１３において、文字特徴に基づいて目標画像内の文字を認識して、目標画像の文字認識結果を取得することができる。文字認識結果の精度を向上させるために、目標画像内の文字を認識するプロセスで、目標画像内の文字のセマンティック特徴を考慮することもできる。以下では、１つの実施形態を介して、目標画像の文字認識結果を取得するプロセスについて説明する。

１つの可能な実施形態において、目標画像のセマンティック特徴を抽出した後、目標画像のセマンティック特徴及び文字特徴に基づいて、目標画像の文字認識結果を取得することができる。

この実施形態では、目標画像のセマンティック特徴を抽出することができ、例えば、いくつかのシナリオにおけるセマンティック抽出モデルを用いて目標画像のセマンティック特徴を抽出し、その後、目標画像のセマンティック特徴と文字特徴とを融合して、融合結果を取得することができる。例えば、セマンティック特徴と文字特徴とを繋ぎ合わせるか、又は、セマンティック特徴と文字特徴とを繋ぎ合わせた後、更に特徴加重を行い、融合結果を取得することができる。ここで、特徴加重の重みは、事前設定されてもよいし、セマンティック特徴及び文字特徴に従って計算されてもよい。その後、当該融合結果に従って目標画像の文字認識結果を取得することができ、例えば、融合結果に対して少なくとも一回の畳み込み操作、全結合操作などを行い、目標画像の文字認識結果を取得することができる。このように、目標画像の文字認識結果を取得するプロセスにおいて、セマンティック特徴と文字特徴とを組み合わせることにより、文字認識結果の精度を向上させることができる。

例えば、セマンティック特徴は、

で表すことができ、文字特徴は、

で表すことができ、以下の式（８）及び式（９）により、セマンティック特徴と文字特徴との融合結果を取得することができる。

式（８）

式（９）

ここで、

は、融合結果を表すことができ、ｗ_ｔは、セマンティック特徴

及び文字特徴

に対して特徴加重を行うための重みを表すことができ、

は、第１マッピング行列を表すことができ、ここで、第１マッピング行列を用いてセマンティック特徴

と文字特徴

を二次元ベクトル空間にマッピングすることができ、

は、第１バイアス項を表すことができる。

融合結果

を取得した後、以下の式（１０）により、目標画像の文字認識結果を取得することができる。

式（１０）

ここで、

は、文字認識結果を表すことができ、Ｗは、第２マッピング行列を表すことができ、ここで、第２マッピング行列を用いて融合結果

に対して線形変換を行うことができ、ｂは、第２バイアス項であり得る。

本実施形態の一例において、取得された第２プリセット情報に基づいて、少なくとも１つのタイムステップにおける目標画像のセマンティック特徴を順次に決定し、その後、目標画像在少なくとも１つのタイムステップのセマンティック特徴及び文字特徴に基づいて、少なくとも１つのタイムステップにおける目標画像の文字認識結果を取得することができる。

この例では、取得された第２プリセット情報は、実際の場合に応じて選択でき、第２プリセット情報は、特定の意味を有しないものであってもよい。例えば、第２プリセット情報は、開始命令であってもよい。タイムステップのステップ幅は、実際の必要に応じて設定できる。タイムステップ毎に、１つのセマンティック特徴を決定することができ、異なるタイムステップによって取得されたセマンティック特徴は異なっていてもよい。ここで、ニューラルネットワークを用いて第２プリセット情報を符号化して、少なくとも１つのタイムステップのセマンティック特徴を順次に取得し、その後、少なくとも１つのタイムステップにおける目標画像のセマンティック特徴及び少なくとも１つのタイムステップにおける目標画像の文字特徴に従って、少なくとも１つのタイムステップにおける目標画像の文字認識結果を取得することができる。１つのタイムステップのセマンティック特徴及び同じタイムステップの文字特徴は、１つのタイムステップの文字認識結果に対応することができ、つまり、目標画像に複数の文字が存在する場合、文字の位置（文字特徴）及びセマンティック（セマンティック特徴）に従って文字認識結果を順次に取得できるため、文字認識結果の精度を向上させることができる。

この例では、第２プリセット情報に対して少なくとも１レベルの第３符号化処理を行い、少なくとも１つのタイムステップのうちの１番目のタイムステップのセマンティック特徴を取得し、次に、ｋ－１番目のタイムステップにおける目標画像の文字認識結果に対して少なくとも１レベルの第３符号化処理を行い、ｋ番目のタイムステップにおける目標画像のセマンティック特徴を取得することができる。ここで、ｋは、１より大きい整数である。

この例では、第２プリセット情報を、ニューラルネットワークの少なくとも１レベルの第３符号化処理の入力情報として使用することができる。各レベルの第３符号化処理は、複数の第３符号化ノードを含み得、各第３符号化ノードは、１つのタイムステップの入力情報に対応することができる。異なる第３符号化ノードの入力情報は異なっていてもよい。それに対応して、１つの第３符号化ノードにより、１つの出力結果を取得することができる。第１レベルの第３符号化処理における１番目の第３符号化ノードの入力情報は、第２プリセット情報であってもよい。第１レベルの第３符号化処理における第３符号化ノードの出力結果は、第２レベルの第３符号化処理における、同じ順番を有する第３符号化ノードの入力情報として使用されることができ、最後のレベルの第２符号化処理まで同様である。このようにして、第２プリセット情報に対して少なくとも１レベルの第３符号化処理を行い、最後のレベルの第３符号化処理の１番目の第３符号化ノードの出力結果を取得することができ、当該出力結果は、少なくとも１つのタイムステップのうちの１番目のタイムステップのセマンティック特徴であってもよい。更に、１番目のタイムステップのセマンティック特徴及び同じタイムステップの文字特徴に従って、１番目のタイムステップの文字認識結果を取得することができる。第１レベルの第３処理の２番目の第３符号化ノードの入力情報は、１番目のタイムステップの文字認識結果であってもよい。その後、１番目のタイムステップの文字認識結果に対して少なくとも１レベルの第３符号化処理を行い、２番目のタイムステップのセマンティック特徴を取得することができる。更に、２番目のタイムステップのセマンティック特徴及び同じタイムステップの文字特徴に従って、２番目のタイムステップの文字認識結果を取得することができる。最後のレベルの第３符号化処理まで同様である。最後のレベルの第３符号化処理において、最後の第３符号化ノードの出力結果は、最後のタイムステップのセマンティック特徴であってもよい。つまり、ｋ－１番目のタイムステップにおける目標画像の文字認識結果に対して少なくとも１レベルの第３符号化処理を行い、ｋ番目のタイムステップにおける目標画像のセマンティック特徴を取得することができる。ｋが１より大きい整数である場合、すなわち、第３符号化ノードが、現在のレベルの第３符号化処理における１番目の第３符号化ノード以外の第３符号化ノードである場合、第３符号化ノードの入力情報は、当該レベルの第３符号化処理における前の第３符号化ノードの出力結果を更に含み得、それによって、前の順番の第３符号化ノードの入力情報を後の順番の第３符号化ノードへ転送することができ、それにより、第３符号化ノードの入力情報を長期間記憶することができ、取得されたセマンティック特徴をより正確にすることができる。

留意されたいこととして、第２プリセット情報によりセマンティック特徴を決定するプロセスは、図２に示されたニューラルネットワークによって実現でき、ここで、ｋ番目のタイムステップのセマンティック特徴は、第２レベルの第３符号化処理のｋ番目の第３符号化ノードの出力結果であってもよい。

本発明の実施例では、ニューラルネットワークを用いて目標画像の文字認識結果を取得することができる。以下では、１つ例を介して、ニューラルネットワークを用いて目標画像の文字認識結果を取得するプロセスについて説明する。

図３は、本発明の実施例に係る、ニューラルネットワークを用いて文字認識結果を取得する一例を示すブロック図である。この例では、ニューラルネットワークは、エンコーダ及びデコーダを含み得る。先ず、目標画像をニューラルネットワークのエンコーダに入力し、エンコーダを用いて目標画像の画像特徴を抽出することにより、目標画像の第１画像特徴Ｆを取得することができる。ここで、３１層の残差ニューラルネットワーク（ＲｅｓＮｅｔ：ＲｅｓｉｄｕａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）のネットワークアーキテクチャを用いて目標画像に対して画像特徴抽出を実行することができる。エンコーダは、位置情報強調モジュールを含み得、位置情報強調モジュールを用いて第１画像特徴の位置情報を強調して、目標画像の第２画像特徴

を取得することができ、位置情報強調モジュールのネットワークアーキテクチャは、図２に示すとおりであり得る。その後、第２画像特徴

をデコーダのアテンションモジュールに入力し、アテンションモジュールを用いて第２画像特徴

と位置ベクトル

とに対して行列乗算及び活性化操作を行い、アテンション重みを取得し、次に、アテンション重みを用いて第１画像特徴Ｆに対して特徴加重を行い（すなわち、アテンション重みと第１画像特徴とに対して行列乗算を行う）、目標画像の文字特徴を受信することができる。デコーダは更に、動的融合モジュールを備え、動的融合モジュールを用いて、文字特徴とセマンティック特徴とを融合することができ、その後、融合結果を全結合層に入力して、文字認識結果を取得することができる。

ここで、デコーダは更に、位置符号化モジュールを備え、複数の定数「＜ｎｅｘｔ＞」（第１プリセット情報）を位置符号化モジュールに順次に入力することができ、つまり、各タイムステップに１つの定数「＜ｎｅｘｔ＞」を入力することができる。位置符号化モジュールは、２つの符号化層（第１符号化処理に対応する）を含み得、入力された「＜ｎｅｘｔ＞」を符号化して、ｔ番目のタイムステップの位置ベクトル

を取得することができる。ここで、位置符号化モジュールは、２つの符号化層を含み得る。デコーダは更に、セマンティックモジュールを備え、１番目のタイムステップの入力情報として１つの特殊トークン「＜ｓｔａｒｔ＞」（第２プリセット情報）をセマンティックモジュールに入力して、セマンティックモジュールによって出力された１番目のタイムステップのセマンティック特徴を取得することができる。その後、１番目のタイムステップの文字認識結果

を、セマンティックモジュールの２番目のタイムステップの入力情報として使用でき、セマンティックモジュールによって出力された２番目のタイムステップのセマンティック特徴を取得し、以下同様に、ｔ番目のタイムステップにおけるセマンティックモジュールによって出力されたセマンティック特徴

を取得することができる。セマンティックモジュールは、２層の符号化層を含み得る。位置符号化モジュール及びセマンティックモジュールのネットワークアーキテクチャは、図２のネットワークアーキテクチャと同様であってもよく、ここでは繰り返して説明しない。

例示的に、エンコーダは、位置情報強調モジュールを備え、デコーダは、位置符号化モジュール、アテンションモジュール、セマンティックモジュール、及び動的融合モジュールを備える。ここで、位置情報強調モジュールは、２層のＬＳＴＭ（図２を参照）を含み、２層のＬＳＴＭを使用して、目標画像の第１画像特徴を左から右への順に符号化して、第１画像特徴の符号化結果を取得し、第１画像特徴の符号化結果を第１画像特徴に加算して、目標画像の第２特徴の符号化結果を取得し、これによって、第２画像特徴を決定し、位置情報強調モジュールの出力として第２画像特徴を出力する。位置符号化モジュールは、２層のＬＳＴＭを含み、位置符号化モジュールの各入力は、１つの特定の入力であるため、当該位置符号化モジュールは、本質的には、文字長カウンタである。位置符号化モジュールを用いて少なくとも１つのプリセット情報に対して２レベルの第２符号化処理を行い、位置ベクトルを取得し、位置ベクトル及び第２画像特徴をアテンションモジュールに入力し、アテンションモジュールによって第２画像特徴と位置ベクトルとに対して行列乗算及び活性化操作を行い、アテンション重みを取得する。次に、アテンション重みに従って、第１画像特徴の加重平均値を取り、目標画像の文字特徴を取得する。第２プリセット情報をセマンティックモジュールに入力して、目標画像のセマンティック特徴を取得し、動的融合モジュールを用いて、セマンティック特徴及び文字特徴に対して重み予測を行い、セマンティック特徴と文字特徴の加重平均値を、融合結果出力として出力し、融合結果を予測モジュールに入力し、予測モジュールによって文字分類を行い、文字認識結果を取得することができる。

本発明の実施例による文字符号化解決策によれば、文字間の位置情報を強調し、文字認識結果のセマンティックへの依存性を低減し、それによって、文字認識の精度を向上させる。本発明に係る文字符号化解決策は、より複雑な文字認識シナリオ（例えば、不規則な文字の認識や非セマンティック文字の認識など）に適用でき、画像認識などのシナリオ（例えば、画像審査や画像分析など）にも適用できる。

本発明で述べた上述の各方法の実施例は、原理および論理に違反することなく、互いに組み合わせて、組み合わされた実施例を形成することができ、紙数に限りがあるので、本発明を繰り返して説明しないことを理解されたい。

さらに、本発明はまた、文字認識装置、電子機器、コンピュータ可読記憶媒体、プログラムを提供し、これらはすべて、本発明による文字認識方法のいずれかを実現するために使用でき、対応する技術的解決策と説明については、方法の実施例の対応する説明を参照することができ、ここでは繰り返して説明しない。

当業者なら自明であるが、上記の具体的な実施形態における方法において、記載された各ステップの順序は、実施プロセスを限定する厳密な実行順序を意味するのではなく、各ステップの具体的な実行順序は、その機能と可能な内部ロジックによって決定する必要がある。

図４は、本開示の実施例に係る文字認識装置のブロック図を示し、図４に示されたように、前記文字認識装置は、
認識対象となる目標画像を取得するように構成される取得部４１と、
決定された位置ベクトル及び前記目標画像の第１画像特徴に基づいて、前記目標画像の文字特徴を取得するように構成される決定部４２であって、前記位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものである、決定部４２と、
前記文字特徴に基づいて前記目標画像内の文字を認識して、前記目標画像の文字認識結果を取得するように構成される認識部４３と、を備える。

１つの可能な実施形態において、前記決定部４２は更に、前記目標画像の第１画像特徴を符号化して、前記第１画像特徴の符号化結果を取得し、前記第１画像特徴の符号化結果に従って、前記目標画像の第２画像特徴を決定し、決定された位置ベクトル、前記第１画像特徴及び前記第２画像特徴に基づいて、前記目標画像の文字特徴を取得するように構成される。

１つの可能な実施形態において、前記決定部４２は更に、前記第１画像特徴の複数の第１次元特徴ベクトルに対して少なくとも１レベルの第１符号化処理を順次に実行して、前記第１画像特徴の符号化結果を取得するように構成される。

１つの可能な実施形態において、前記決定部４２は更に、前記少なくとも１レベルの第１符号化処理における１レベルの第１符号化処理について、Ｎ（Ｎは、正の整数である）個の第１符号化ノードを用いて前記第１符号化ノードの入力情報に対して符号化を順次に行い、Ｎ個の第１符号化ノードの出力結果を取得し、ここで、１＜ｉ≦Ｎである場合、ｉ（ｉは、正の整数である）番目の第１符号化ノードの入力情報は、ｉ－１番目の第１符号化ノードの出力結果を含み、前記Ｎ個の第１符号化ノードの出力結果に従って、前記第１画像特徴の符号化結果を取得するように構成される。

１つの可能な実施形態において、前記決定部４２は更に、前記位置ベクトル及び前記第２画像特徴に従って、アテンション重みを決定し、前記アテンション重みを用いて前記第１画像特徴に対して特徴加重を実行することにより、前記目標画像の文字特徴を取得するように構成される。

１つの可能な実施形態において、前記文字認識装置は更に、
少なくとも１つの第１プリセット情報を含むプリセット情報シーケンスを取得し、前記少なくとも１つの第１プリセット情報に対して少なくとも１レベルの第２符号化処理を順次に行い、前記位置ベクトルを取得するように構成される符号化部を備える。

１つの可能な実施形態において、前記符号化部は更に、前記少なくとも１レベルの第２符号化処理における１レベルの第２符号化処理について、Ｍ（Ｍは、正の整数である）個の第２符号化ノードを用いて前記第２符号化ノードの入力情報に対して符号化を順次に行い、Ｍ個の第２符号化ノードの出力結果を取得し、ここで、１＜ｊ≦Ｍである場合、ｊ（ｊは、正の整数である）番目の第２符号化ノードの入力情報は、ｊ－１番目の第２符号化ノードの出力結果を含み、前記Ｍ個の第２符号化ノードの出力結果に従って、前記位置ベクトルを取得するように構成される。

１つの可能な実施形態において、前記認識部４３は更に、前記目標画像のセマンティック特徴を抽出し、前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、前記目標画像の文字認識結果を取得するように構成される。

１つの可能な実施形態において、前記認識部４３は更に、取得された第２プリセット情報に基づいて、少なくとも１つのタイムステップにおける前記目標画像のセマンティック特徴を順次に決定し、少なくとも１つのタイムステップにおける前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、少なくとも１つのタイムステップにおける前記目標画像の文字認識結果を取得するように構成される。

１つの可能な実施形態において、前記認識部４３は更に、前記第２プリセット情報に対して少なくとも１レベルの第３符号化処理を行い、前記少なくとも１つのタイムステップのうちの１番目のタイムステップのセマンティック特徴を取得し、ｋ－１（ｋは、１より大きい整数である）番目のタイムステップにおける前記目標画像の文字認識結果に対して少なくとも１レベルの第３符号化処理を行い、ｋ番目のタイムステップにおける前記目標画像のセマンティック特徴を取得するように構成される。

本発明の実施例および他の実施例において、「部分」は、部分回路、部分プロセッサ、部分プログラムまたはソフトウェア等であってもよく、もちろん、ユニットであってもよく、モジュールまたは非モジュール化であってもよいことを理解することができる。

いくつかの実施例において、本発明の実施例で提供される装置の機能又はモジュールは、上記の方法の実施例で説明された方法を実行するように構成されることができ、その具体的な実現は、上記の方法の実施例の説明を参照することができ、簡潔にするために、ここでは繰り返して説明しない。

図５は、一例示的な実施例によって示された文字認識装置８００のブロック図である。例えば、装置８００は、携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などであってもよい。

図５を参照すると、装置８００は、処理コンポーネント８０２、メモリ８０４、電力コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）インターフェース８１２、センサコンポーネント８１４、及び通信コンポーネント８１６のうちの１つまたは複数のコンポーネントを備えることができる。

処理コンポーネント８０２は、一般的に、ディスプレイ、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する操作のような装置８００の全般的な操作を制御する。処理コンポーネント８０２は、上記の方法のステップのすべてまたは一部を完了するための命令を実行するための１つまたは複数のプロセッサ８２０を備えることができる。加えて、処理コンポーネント８０２は、処理コンポーネント８０２と他のコンポーネントの間のインタラクションを容易にするための１つまたは複数のモジュールを備えることができる。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８と処理コンポーネント８０２との間のインタラクションを容易にするためのマルチメディアモジュールを備えることができる。

メモリ８０４は、装置８００での操作をサポートするために、様々なタイプのデータを格納するように構成される。これらのデータの例には、装置８００で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。第１メモリ８０４は、スタティックランダムアクセスメモリ（ＳＲＡＭ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ）、プログラム可能な読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスク、または光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせによって実現されることができる。

電力コンポーネント８０６は、装置８００の様々なコンポーネントに電力を提供する。電力コンポーネント８０６は、電力管理システム、１つまたは複数の電源、及び装置８００の電力の生成、管理および分配に関する他のコンポーネントを備えることができる。

マルチメディアコンポーネント８０８は、前記装置８００とユーザとの間の出力インターフェースとして提供されるスクリーンを備える。いくつかの実施例において、スクリーンは、液晶ディスプレイ（ＬＣＤ）及びタッチパネル（ＴＰ）を備えることができる。スクリーンがタッチパネルを備える場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実装されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルでのジェスチャーを検知するための１つまたは複数のタッチセンサを備える。前記タッチセンサは、タッチまたはスワイプの操作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間及び圧力も検出することができる。いくつかの実施例において、マルチメディアコンポーネント８０８は、１つのフロントカメラおよび／またはリアカメラを備える。装置８００が撮影モードまたはビデオモードなどの動作モードにあるとき、フロントカメラおよび／またはリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、固定された光学レンズシステムであってもよく、焦点距離と光学ズーム機能を有するものであってもよい。

オーディオコンポーネント８１０は、オーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント８１０は、１つのマイクロフォン（ＭＩＣ）を備え、装置８００が通話モード、録音モード及び音声認識モードなどの動作モードにあるとき、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ８０４にさらに記憶されてもよく、または通信コンポーネント８１６を介して送信されてもよい。いくつかの実施例において、オーディオコンポーネント８１０は、さらに、オーディオ信号を出力するためのスピーカを備える。

Ｉ／Ｏインターフェース８１２は、処理コンポーネント８０２と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを備えることができるが、これらに限定されない。

センサコンポーネント８１４は、装置８００に各態様の状態の評価を提供するための１つまたは複数のセンサを備える。例えば、センサコンポーネント８１４は、装置８００のオン／オフ状態と、装置８００のディスプレイやキーパッドなどのコンポーネントの相対的な位置づけを検出することができ、センサコンポーネント８１４は、装置８００または装置８００のコンポーネントの位置の変化、ユーザとの装置８００の接触の有無、装置８００の向きまたは加速／減速、及び装置８００の温度の変化も検出することができる。センサコンポーネント８１４は、物理的接触なしに近くの物体の存在を検出するように構成された近接センサを備えることができる。センサコンポーネント８１４はまた、撮像用途で使用するためのＣＭＯＳまたはＣＣＤ画像センサなどの光センサをさらに備えることができる。いくつかの実施例において、当該センサコンポーネント８１４は、さらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを備えることができる。

通信コンポーネント８１６は、装置８００と他の装置の間の有線または無線通信を容易にするように構成される。装置８００は、ＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、前記通信コンポーネント８１６は、放送チャンネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント８１６は、さらに、短距離通信を促進するために、近距離通信（ＮＦＣ）モジュールを備える。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（ＢＴ）技術及び他の技術に基づいて具現することができる。

例示的な実施例において、装置８００は、上記の方法を実行するように構成される、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理装置（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子素子によって具現されることができる。

例示的な実施例において、コンピュータプログラム命令を含むメモリ８０４などの、コンピュータ可読記憶媒体をさらに提供し、上述のコンピュータプログラム命令は、装置８００のプロセッサ８２０によって実行されることにより、上記の方法を遂行することができる。

本発明の実施例は、電子機器をさらに提案し、前記電子機器は、プロセッサと、プロセッサ実行可能命令を記憶するように構成されるメモリとを備え、ここで、前記プロセッサは、前記メモリ８０４によって記憶された命令を呼び出して実行することにより、上記の方法を実行するように構成される。

電子機器は、端末、サーバまたは他の形の機器として提供される。

図６は、１つの例示的な実施例に係る電子機器１９００のブロック図である。例えば、電子機器１９００は、サーバとして提供されることができる。図６を参照すると、電子機器１９００は、１つまたは複数のプロセッサを含む処理コンポーネント１９２２と、処理コンポーネント１９２２によって実行可能な命令（アプリケーションなど）を記憶するように構成されるメモリリソースとして表されるメモリ１９３２と、を備える。メモリ１９３２に記憶されたアプリケーションは、それぞれが一セットの命令に対応する１つまたは複数のモジュールを備えることができる。さらに、処理コンポーネント１９２２は、命令を実行することにより、上記の方法を実行するように構成される。

電子機器１９００は、さらに、電子装置１９００の電源管理を実行するように構成される電力コンポーネント１９２６と、電子装置１９００をネットワークに接続するように構成される有線または無線ネットワークインターフェース１９５０と、入力／出力（Ｉ／Ｏ）インターフェース１９５８と、を備えることができる。電子機器１９００は、メモリ１９３２に記憶されたオペレーティングシステム、例えば、ＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似したものに基づいて操作されることができる。

例示的な実施例において、コンピュータプログラム命令を含むメモリ１９３２などの、コンピュータ可読記憶媒体をさらに提供し、電子機器１９００の処理コンポーネント１９２２によって上述のコンピュータプログラム命令を実行することにより、上記の方法を完了することができる。

本発明は、システム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を含み得、当該コンピュータ可読記憶媒体には、プロセッサに、本発明の実施例の様々な態様を実現させるためのコンピュータ可読プログラム命令が含まれる。

コンピュータ可読記憶媒体は、命令実行機器によって使用される命令を保持および記憶することができる有形機器であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶機器、磁気記憶機器、光学記憶機器、電磁記憶機器、半導体記憶機器または前述の任意の適切な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例（非網羅的リスト）は、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、命令が記憶されたパンチカードまたは溝内の凸状構造、および前述の任意の適切な組み合わせなどの機械的符号化機器を含む。ここで使用されるコンピュータ可読記憶媒体は、電波や自由に伝播される他の電磁波、導波管や他の伝播媒体を介して伝播される電磁波（光ファイバーケーブルを介した光パルスなど）、またはワイヤを介して伝送される電子信号などの、一時的な信号として解釈されてはならない。

本明細書で説明するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各コンピューティング／処理機器にダウンロードされるか、インターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークなどのネットワークを介して外部コンピュータまたは外部記憶機器にダウンロードされることができる。ネットワークは、銅線伝送ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバなどを含み得る。各コンピューティング／処理機器におけるネットワークアダプターカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、他のコンピューティング／処理機器のコンピュータ可読記憶媒体への記憶のために、当該コンピュータ可読プログラム命令を転送する。

本発明の操作を実行するためのコンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、または以１つまたは複数のプログラミング言語の任意の組み合わせでプログラミングされたソースコードまたは目標コードであってもよく、前記プログラミング言語は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」言語または類似のプログラミング言語などの一般的な手続き型プログラミング言語を含む。コンピュータ可読プログラム命令は、完全にユーザのコンピュータで実行されてもよく、その一部がユーザのコンピュータで実行されてもよく、１つの独立したソフトウェアパッケージとして実行されてもよく、その一部がユーザのコンピュータで実行されかつその他の部分がリモートコンピュータで実行されてもよく完全にリモートコンピュータまたはサーバで実行されてもよい。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを経由して、ユーザのコンピュータに接続するか、または、外部コンピュータに接続することができる（例えば、インターネットサービスプロバイダを使用してインターネットを経由して外部コンピュータにアクセスすることができる）。いくつかの実施例において、コンピュータ可読命令の状態情報を使用することにより、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブルロジックアレイ（ＰＬＡ）などの、電子回路をカスタマイズし、当該電子回路は、コンピュータ可読プログラム命令を実行し、それにより、本発明の各態様を実現することができる。

ここで、本発明の実施例に係る方法、装置（システム）およびコンピュータプログラム製品のフローチャートおよび／またはブロックを参照して、本発明の各態様について説明したが、フローチャートおよび／またはブロック図の各ブロック、およびフローチャートおよび／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解されたい。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサに提供することができ、それにより、これらの命令がコンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行されるときに、フローチャートおよび／またはブロック図における１つのまたは複数のブロックで指定された機能／動作を実現する手段を創出する。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよく、コンピュータ、プログラム可能データ処理装置および／または他の機器が、これらの命令に応じて特定方式で動作することができる。したがって、命令が記憶されたコンピュータ可読媒体は、フローチャートおよび／またはブロック図における１つまたは複数のブロックで指定された機能／動作の各態様の命令を含む、製品を含むことができる。

また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能なデータ処理装置、または他の機器にロードすることで、コンピュータ、プログラム可能な数据処理装置または他の機器に、一連の操作ステップを実行させることにより、コンピュータによって実現されるプロセスを生成し、それにより、コンピュータ、他のプログラム可能な数据処理装置、または他の機器で実行される命令により、フローチャートおよび／またはブロック図における１つまたは複数のブロックで指定された機能／動作を実現することができる。

添付の図面におけるフローチャートおよびブロック図は、本発明の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能な実装アーキテクチャ、機能および動作を示す。これに関して、フローチャートまたはブロック図における各ブロックは、１つのモジュール、プログラムセグメントまたは命令の一部を表すことができ、前記モジュール、プログラムセグメントまたは命令の一部は、指定された論理機能を実現するための１つまたは複数の実行可能な命令を含む。いくつかの代替的な実現では、ブロックで表示された機能は、図面で表示された順序とは異なる順序で実行することもできる。例えば、２つの連続するブロックは、実際には、並行して実行されることができ、関連する機能によっては、逆の順序で実行されることもできる。ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定された機能または動作を実行するハードウェアに基づく専用システムによって実現することができ、または専用ハードウェアとコンピュータ命令の組み合わせによって実現されることができることに留意されたい。

以上、本発明の各実施例を説明したが、以上の説明は、例示的なものであり、網羅的なものではなく、開示された各実施例に限定されない。説明された各実施例の範囲および精神から逸脱することなく、多くの修正および変更は、当業者にとっては明らかである。本明細書で使用される用語の選択は、各実施例の原理、実際の応用または市場における技術の技術的改善を最もよく説明するか、当業者が本明細書で開示された各実施例を理解することができるようにすることを意図する。

本発明の実施例では、認識対象となる目標画像を取得し、次に、決定された位置ベクトル及び目標画像の第１画像特徴に基づいて、目標画像の文字特徴を取得し、その後、文字特徴に基づいて目標画像内の文字を認識して、目標画像の文字認識結果を取得することができる。ここで、位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものであり、文字間の位置特徴を表すことができるため、文字認識プロセスにおいて、文字認識結果への文字間の位置特徴の影響を高め、文字認識プロセスのセマンティック特徴への依存性を低減し、文字認識の精度を向上させることができる。

Claims

文字認識方法であって、
認識対象となる目標画像を取得することと、
決定された位置ベクトル及び前記目標画像の第１画像特徴に基づいて、前記目標画像の文字特徴を取得することであって、前記位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものである、ことと、
前記文字特徴に基づいて前記目標画像内の文字を認識して、前記目標画像の文字認識結果を取得することと、を含む、前記文字認識方法。
前記決定された位置ベクトル及び前記目標画像の第１画像特徴に基づいて、前記目標画像の文字特徴を取得することは、
前記目標画像の第１画像特徴を符号化して、前記第１画像特徴の符号化結果を取得することと、
前記第１画像特徴の符号化結果に従って、前記目標画像の第２画像特徴を決定することと、
決定された位置ベクトル、前記第１画像特徴及び前記第２画像特徴に基づいて、前記目標画像の文字特徴を取得することと、を含む、
請求項１に記載の文字認識方法。
前記目標画像の第１画像特徴を符号化して、前記第１画像特徴の符号化結果を取得することは、
前記第１画像特徴の複数の第１次元特徴ベクトルに対して少なくとも１レベルの第１符号化処理を順次に実行して、前記第１画像特徴の符号化結果を取得することを含む、
請求項２に記載の文字認識方法。
前記第１画像特徴の複数の第１次元特徴ベクトルに対して少なくとも１レベルの第１符号化処理を順次に実行して、前記第１画像特徴の符号化結果を取得することは、
前記少なくとも１レベルの第１符号化処理における１レベルの第１符号化処理について、Ｎ（Ｎは、正の整数である）個の第１符号化ノードを用いて前記第１符号化ノードの入力情報に対して順次符号化を行い、Ｎ個の第１符号化ノードの出力結果を取得することであって、１＜ｉ≦Ｎである場合、ｉ（ｉは、正の整数である）番目の第１符号化ノードの入力情報は、ｉ－１番目の第１符号化ノードの出力結果を含む、ことと、
前記Ｎ個の第１符号化ノードの出力結果に従って、前記第１画像特徴の符号化結果を取得することと、を含む、
請求項３に記載の文字認識方法。
前記第１符号化ノードの入力情報は、前記第１画像特徴の第１次元特徴ベクトル又は前レベルの第１符号化処理の出力結果を更に含む、
請求項４に記載の文字認識方法。
前記決定された位置ベクトル、前記第１画像特徴及び前記第２画像特徴に基づいて、前記目標画像の文字特徴を取得することは、
前記位置ベクトル及び前記第２画像特徴に従って、アテンション重みを決定することと、
前記アテンション重みを用いて前記第１画像特徴に対して特徴加重を実行することにより、前記目標画像の文字特徴を取得することと、を含む、
請求項２ないし５のいずれか一項に記載の文字認識方法。
前記文字認識方法は、
少なくとも１つの第１プリセット情報を含むプリセット情報シーケンスを取得することと、
前記少なくとも１つの第１プリセット情報に対して少なくとも１レベルの第２符号化処理を順次に行い、前記位置ベクトルを取得することと、を更に含む、
請求項１ないし６のいずれか一項に記載の文字認識方法。
前記少なくとも１つの第１プリセット情報に対して少なくとも１レベルの第２符号化処理を順次に行い、前記位置ベクトルを取得することは、
前記少なくとも１レベルの第２符号化処理における１レベルの第２符号化処理について、Ｍ（Ｍは、正の整数である）個の第２符号化ノードを用いて前記第２符号化ノードの入力情報に対して順次符号化を行い、Ｍ個の第２符号化ノードの出力結果を取得することであって、１＜ｊ≦Ｍである場合、ｊ（ｊは、正の整数である）番目の第２符号化ノードの入力情報は、ｊ－１番目の第２符号化ノードの出力結果を含む、ことと、
前記Ｍ個の第２符号化ノードの出力結果に従って、前記位置ベクトルを取得することと、を含む、
請求項７に記載の文字認識方法。
前記第２符号化ノードの入力情報は、前記第１プリセット情報又は前レベルの第２符号化処理の出力結果を更に含む、
請求項８に記載の文字認識方法。
前記文字特徴に基づいて前記目標画像内の文字を認識して、前記目標画像の文字認識結果を取得することは、
前記目標画像のセマンティック特徴を抽出することと、
前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、前記目標画像の文字認識結果を取得することと、を含む、
請求項１ないし９のいずれか一項に記載の文字認識方法。
前記目標画像のセマンティック特徴を抽出することは、
取得された第２プリセット情報に基づいて、少なくとも１つのタイムステップにおける前記目標画像のセマンティック特徴を順次に決定することを含み、
前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、前記目標画像の文字認識結果を取得することは、
少なくとも１つのタイムステップにおける前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、少なくとも１つのタイムステップにおける前記目標画像の文字認識結果を取得することを含む、
請求項１０に記載の文字認識方法。
前記取得された第２プリセット情報に基づいて、少なくとも１つのタイムステップにおける前記目標画像のセマンティック特徴を順次に決定することは、
前記第２プリセット情報に対して少なくとも１レベルの第３符号化処理を行い、前記少なくとも１つのタイムステップのうちの１番目のタイムステップのセマンティック特徴を取得することと、
ｋ－１（ｋは、１より大きい整数である）番目のタイムステップにおける前記目標画像の文字認識結果に対して少なくとも１レベルの第３符号化処理を行い、ｋ番目のタイムステップにおける前記目標画像のセマンティック特徴を取得することと、を含む、
請求項１１に記載の文字認識方法。
文字認識装置であって、
認識対象となる目標画像を取得するように構成される取得部と、
決定された位置ベクトル及び前記目標画像の第１画像特徴に基づいて、前記目標画像の文字特徴を取得するように構成される決定部であって、前記位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものである、決定部と、
前記文字特徴に基づいて前記目標画像内の文字を認識して、前記目標画像の文字認識結果を取得するように構成される認識部と、を備える、前記文字認識装置。
電子機器であって、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
前記プロセッサは、前記メモリに記憶されている命令を呼び出して実行することにより、請求項１ないし１２のいずれか一項に記載の方法を実行するように構成される、前記電子機器。
コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、
前記コンピュータプログラム命令がプロセッサによって実行されるときに、請求項１ないし１２のいずれか一項に記載の方法を実現する、前記コンピュータ可読記憶媒体。
コンピュータ可読コードを含むコンピュータプログラムであって、
前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、請求項１ないし１２のいずれか一項に記載の方法を実行させる、前記コンピュータプログラム。