JP2022533065A - 文字認識方法及び装置、電子機器並びに記憶媒体 - Google Patents

文字認識方法及び装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP2022533065A
JP2022533065A JP2021567034A JP2021567034A JP2022533065A JP 2022533065 A JP2022533065 A JP 2022533065A JP 2021567034 A JP2021567034 A JP 2021567034A JP 2021567034 A JP2021567034 A JP 2021567034A JP 2022533065 A JP2022533065 A JP 2022533065A
Authority
JP
Japan
Prior art keywords
target image
feature
coding
character
character recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021567034A
Other languages
English (en)
Inventor
シアオユー ユエ
ジャンフイ クアン
チェンハオ リン
ホンビン スン
ウェイ ジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2022533065A publication Critical patent/JP2022533065A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/86Arrangements for image or video recognition or understanding using pattern recognition or machine learning using syntactic or structural representations of the image or video pattern, e.g. symbolic string recognition; using graph matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18133Extraction of features or characteristics of the image regional/local feature not essentially salient, e.g. local binary pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/182Extraction of features or characteristics of the image by coding the contour of the pattern
    • G06V30/1823Extraction of features or characteristics of the image by coding the contour of the pattern using vector-coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本発明は、文字認識方法及び装置、電子機器並びに記憶媒体に関し、ここで、前記文字認識方法は、認識対象となる目標画像を取得することと、決定された位置ベクトル及び前記目標画像の第1画像特徴に基づいて、前記目標画像の文字特徴を取得することであって、前記位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものであることと、前記文字特徴に基づいて前記目標画像内の文字を認識して、前記目標画像の文字認識結果を取得することと、を含む。本発明の実施例は、文字認識の精度を向上させることができる。【選択図】図1

Description

[関連出願への相互参照]
本願は、2020年04月16日に中国特許局に提出された、出願番号が202010301340.3である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照として本願に組み込まれる。
[技術分野]
本発明は、電子技術分野に関し、特に、文字認識方法及び装置、電子機器並びに記憶媒体に関する。
電子技術の発展に伴い、ますます多くの作業を電子機器で遂行したり、電子機器の支援により遂行したりすることができ、これは、人々に便利をもたらす。例えば、コンピュータを用いて文字を自動的に認識することにより、手動処理の効率を改善することができる。
現在、文字認識では、ドキュメントの解析など、規則な文字を認識することができる。文字認識は、不規則な文字を認識することもでき、例えば、交通標識や店の看板など、自然のシーンで不規則な文字を認識することができる。ただし、視角の変化や光照の変化などの要因により、不規則な文字を正確に認識することは困難である。
本発明は、文字認識のための技術的解決策を提案する。
本発明の1つの態様によれば、文字認識方法を提供し、前記文字認識方法は、認識対象となる目標画像を取得することと、決定された位置ベクトル及び前記目標画像の第1画像特徴に基づいて、前記目標画像の文字特徴を取得することであって、前記位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものであることと、前記文字特徴に基づいて前記目標画像内の文字を認識して、前記目標画像の文字認識結果を取得することと、を含む。
1つの可能な実施形態において、前記決定された位置ベクトル及び前記目標画像の第1画像特徴に基づいて、前記目標画像の文字特徴を取得することは、前記目標画像の第1画像特徴を符号化して、前記第1画像特徴の符号化結果を取得することと、前記第1画像特徴の符号化結果に従って、前記目標画像の第2画像特徴を決定することと、決定された位置ベクトル、前記第1画像特徴及び前記第2画像特徴に基づいて、前記目標画像の文字特徴を取得することと、を含む。ここで、第2画像特徴がより強い位置特徴を持つため、それに対応する取得された目標画像の文字特徴もより強い位置特徴を持ち、それにより、文字特徴に基づいて取得された文字認識結果はより正確であり、文字認識結果へのセマンティックの影響を更に軽減する。
1つの可能な実施形態において、前記目標画像の第1画像特徴を符号化して、前記第1画像特徴の符号化結果を取得することは、前記第1画像特徴の複数の第1次元特徴ベクトルに対して少なくとも1レベルの第1符号化処理を順次に実行して、前記第1画像特徴の符号化結果を取得することを含む。第1画像特徴の複数の第1次元特徴ベクトルに対して、1レベル又は複数レベルの第1符号化処理を順次に実行することにより、第1画像特徴に含まれる位置特徴を強調することができ、取得された第1画像特徴の符号化結果は、文字間のより明白な位置特徴を持つことができる。
1つの可能な実施形態において、前記第1画像特徴の複数の第1次元特徴ベクトルに対して少なくとも1レベルの第1符号化処理を順次に実行して、前記第1画像特徴の符号化結果を取得することは、前記少なくとも1レベルの第1符号化処理における1レベルの第1符号化処理について、N(Nは、正の整数である)個の第1符号化ノードを用いて前記第1符号化ノードの入力情報に対して順次符号化を行い、N個の第1符号化ノードの出力結果を取得することであって、1<i≦Nである場合、i(iは、正の整数である)番目の第1符号化ノードの入力情報は、i-1番目の第1符号化ノードの出力結果を含むことと、前記N個の第1符号化ノードの出力結果に従って、前記第1画像特徴の符号化結果を取得することと、を含む。このようにして、1番目の第1符号化ノードの入力情報を最後の第1符号化ノードへ転送することができるため、第1符号化ノードの入力情報を長期間記憶することができ、取得された出力結果をより正確にすることができる。
1つの可能な実施形態において、前記第1符号化ノードの入力情報は、前記第1画像特徴の第1次元特徴ベクトル又は前レベルの第1符号化処理の出力結果を更に含む。このようにして、1レベルの第1符号化処理において、第1符号化ノードを介して、第1画像特徴の第1次元特徴ベクトル又は前レベルの第1符号化処理の出力結果を最後の第1符号化ノードへ転送することができるため、1レベルの第1符号化処理出力結果をより正確にすることができる。
1つの可能な実施形態において、前記決定された位置ベクトル、前記第1画像特徴及び前記第2画像特徴に基づいて、前記目標画像の文字特徴を取得することは、前記位置ベクトル及び前記第2画像特徴に従って、アテンション重みを決定することと、前記アテンション重みを用いて前記第1画像特徴に対して特徴加重を実行することにより、前記目標画像の文字特徴を取得することと、を含む。このように、アテンション重みを用いて、第1画像特徴内の注意すべき特徴を強調できるため、アテンション重みを用いて第1画像特徴に対して特徴加重を実行することにより取得された文字特徴は、第1画像特徴のより重要な特徴部分をより正確に反映できる。
1つの可能な実施形態において、前記文字認識方法は、少なくとも1つの第1プリセット情報を含むプリセット情報シーケンスを取得することと、前記少なくとも1つの第1プリセット情報に対して少なくとも1レベルの第2符号化処理を順次に行い、前記位置ベクトルを取得することと、を更に含む。ニューラルネットワークを用いて少なくとも1つの第1プリセット情報に対して第2符号化処理を行うプロセスでは、少なくとも1つの第1プリセット情報を順次に符号化するため、生成された位置ベクトルは、少なくとも1つの第1プリセット情報の順序に関連し、それによって、位置ベクトルは、文字間の位置特徴を表すことができる。
1つの可能な実施形態において、前記少なくとも1つの第1プリセット情報に対して少なくとも1レベルの第2符号化処理を順次に行い、前記位置ベクトルを取得することは、前記少なくとも1レベルの第2符号化処理における1レベルの第2符号化処理について、M(Mは、正の整数である)個の第2符号化ノードを用いて前記第2符号化ノードの入力情報に対して順次符号化を行い、M個の第2符号化ノードの出力結果を取得することであって、1<j≦Mである場合、j(jは、正の整数である)番目の第2符号化ノードの入力情報は、j-1番目の第2符号化ノードの出力結果を含むことと、前記M個の第2符号化ノードの出力結果に従って、前記位置ベクトルを取得することと、を含む。このようにして、1番目の第2符号化ノードの入力情報を最後の第2符号化ノードへ転送することができるため、第2符号化ノードの入力情報を長期間記憶することができ、取得された位置ベクトルをより正確にすることができる。
1つの可能な実施形態において、前記第2符号化ノードの入力情報は、前記第1プリセット情報又は前レベルの第2符号化処理の出力結果を更に含む。このようにして、1レベルの第2符号化処理において、第2符号化ノードを介して、第1プリセット情報又は前レベルの第2符号化処理の出力結果を最後の第1符号化ノードへ転送することができるため、1レベルの第1符号化処理出力結果をより正確にすることができる。
1つの可能な実施形態において、前記文字特徴に基づいて前記目標画像内の文字を認識して、前記目標画像の文字認識結果を取得することは、前記目標画像のセマンティック特徴を抽出することと、前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、前記目標画像の文字認識結果を取得することと、を含む。このように、目標画像の文字認識結果を取得するプロセスにおいて、セマンティック特徴と文字特徴とを組み合わせることにより、文字認識結果の精度を向上させることができる。
1つの可能な実施形態において、前記目標画像のセマンティック特徴を抽出することは、取得された第2プリセット情報に基づいて、少なくとも1つのタイムステップにおける前記目標画像のセマンティック特徴を順次に決定することを含み、前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、前記目標画像の文字認識結果を取得することは、少なくとも1つのタイムステップにおける前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、少なくとも1つのタイムステップにおける前記目標画像の文字認識結果を取得することを含む。ここで、目標画像に複数の文字が存在するある場合、文字の位置(文字特徴)及びセマンティック(セマンティック特徴)に従って文字認識結果を順次に取得できるため、文字認識結果の精度を向上させることができる。
1つの可能な実施形態において、前記取得された第2プリセット情報に基づいて、少なくとも1つのタイムステップにおける前記目標画像のセマンティック特徴を順次に決定することは、前記第2プリセット情報に対して少なくとも1レベルの第3符号化処理を行い、前記少なくとも1つのタイムステップのうちの1番目のタイムステップのセマンティック特徴を取得することと、k-1(kは、1より大きい整数である)番目のタイムステップにおける前記目標画像の文字認識結果に対して少なくとも1レベルの第3符号化処理を行い、k番目のタイムステップにおける前記目標画像のセマンティック特徴を取得することと、を含む。このようにして、前の順番の第3符号化ノードの入力情報を後の順番の第3符号化ノードへ転送することができ、これにより、第3符号化ノードの入力情報を長期間記憶することができ、取得されたセマンティック特徴をより正確にすることができる。
本発明の1つの態様によれば、文字認識装置を提供し、前記文字認識装置は、
認識対象となる目標画像を取得するように構成される取得部と、
決定された位置ベクトル及び前記目標画像の第1画像特徴に基づいて、前記目標画像の文字特徴を取得するように構成される決定部であって、前記位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものである、決定部と、
前記文字特徴に基づいて前記目標画像内の文字を認識して、前記目標画像の文字認識結果を取得するように構成される認識部と、を備える。
1つの可能な実施形態において、前記決定部は更に、前記目標画像の第1画像特徴を符号化して、前記第1画像特徴の符号化結果を取得し、前記第1画像特徴の符号化結果に従って、前記目標画像の第2画像特徴を決定し、決定された位置ベクトル、前記第1画像特徴及び前記第2画像特徴に基づいて、前記目標画像の文字特徴を取得するように構成される。
1つの可能な実施形態において、前記決定部は更に、前記第1画像特徴の複数の第1次元特徴ベクトルに対して少なくとも1レベルの第1符号化処理を順次に実行して、前記第1画像特徴の符号化結果を取得するように構成される。
1つの可能な実施形態において、前記決定部は更に、前記少なくとも1レベルの第1符号化処理における1レベルの第1符号化処理について、N(Nは、正の整数である)個の第1符号化ノードを用いて前記第1符号化ノードの入力情報に対して順次符号化を行い、N個の第1符号化ノードの出力結果を取得し、ここで、1<i≦Nである場合、i(iは、正の整数である)番目の第1符号化ノードの入力情報は、i-1番目の第1符号化ノードの出力結果を含み、前記N個の第1符号化ノードの出力結果に従って、前記第1画像特徴の符号化結果を取得するように構成される。
1つの可能な実施形態において、前記第1符号化ノードの入力情報は、前記第1画像特徴の第1次元特徴ベクトル又は前レベルの第1符号化処理の出力結果を更に含む。
1つの可能な実施形態において、前記決定部は更に、前記位置ベクトル及び前記第2画像特徴に従って、アテンション重みを決定し、前記アテンション重みを用いて前記第1画像特徴に対して特徴加重を実行することにより、前記目標画像の文字特徴を取得するように構成される。
1つの可能な実施形態において、前記文字認識装置は更に、少なくとも1つの第1プリセット情報を含むプリセット情報シーケンスを取得し、前記少なくとも1つの第1プリセット情報に対して少なくとも1レベルの第2符号化処理を順次に行い、前記位置ベクトルを取得するように構成される符号化部を備える。
1つの可能な実施形態において、前記符号化部は更に、前記少なくとも1レベルの第2符号化処理における1レベルの第2符号化処理について、M(Mは、正の整数である)個の第2符号化ノードを用いて前記第2符号化ノードの入力情報に対して順次符号化を行い、M個の第2符号化ノードの出力結果を取得し、ここで、1<j≦Mである場合、j(jは、正の整数である)番目の第2符号化ノードの入力情報は、j-1番目の第2符号化ノードの出力結果を含み、前記M個の第2符号化ノードの出力結果に従って、前記位置ベクトルを取得するように構成される。
1つの可能な実施形態において、前記第2符号化ノードの入力情報は、前記第1プリセット情報又は前レベルの第2符号化処理の出力結果を更に含む。
1つの可能な実施形態において、前記認識部は更に、前記目標画像のセマンティック特徴を抽出し、前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、前記目標画像の文字認識結果を取得するように構成される。
1つの可能な実施形態において、前記認識部は更に、取得された第2プリセット情報に基づいて、少なくとも1つのタイムステップにおける前記目標画像のセマンティック特徴を順次に決定し、少なくとも1つのタイムステップにおける前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、少なくとも1つのタイムステップにおける前記目標画像の文字認識結果を取得するように構成される。
1つの可能な実施形態において、前記認識部は更に、前記第2プリセット情報に対して少なくとも1レベルの第3符号化処理を行い、前記少なくとも1つのタイムステップのうちの1番目のタイムステップのセマンティック特徴を取得し、k-1(kは、1より大きい整数である)番目のタイムステップにおける前記目標画像の文字認識結果に対して少なくとも1レベルの第3符号化処理を行い、k番目のタイムステップにおける前記目標画像のセマンティック特徴を取得するように構成される。
本発明の1つの態様によれば、電子機器を提供し、前記電子機器は、
プロセッサと、
プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
ここで、前記プロセッサは、前記メモリに記憶されている命令を呼び出して実行することにより、上記の文字認識方法を実行するように構成される。
本発明の1つの態様によれば、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体を提供し、前記コンピュータプログラム命令がプロセッサによって実行されるときに、上記の文字認識方法を実現する。
本発明の1つの態様によれば、コンピュータ可読コードを含むコンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、上記の文字認識方法を実行させる。
本発明の実施例では、認識対象となる目標画像を取得し、次に、決定された位置ベクトル及び目標画像の第1画像特徴に基づいて、目標画像の文字特徴を取得し、その後、文字特徴に基づいて目標画像内の文字を認識して、目標画像の文字認識結果を取得することができる。ここで、位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものであり、文字間の位置特徴を表すことができるため、文字認識プロセスにおいて、文字認識結果への文字間の位置特徴の影響を高め、文字認識の精度を向上させることができ、例えば、不規則な文字や非セマンティック文字の場合、より良い認識効果を得ることができる。
上記した一般的な説明および後述する詳細な説明は、単なる例示および説明に過ぎず、本開示を限定するものではないことを理解されたい。
以下、図面を参照した例示的な実施例に対する詳細な説明によれば、本開示の他の特徴および態様は明らかになる。
ここでの図面は、本明細書に組み込まれてその一部を構成し、これらの図面は、本発明に準拠する実施例を示し、明細書とともに本発明の技術的解決策を説明するために使用される。
本発明の実施例に係る文字認識方法のフローチャートである。 本発明の実施例に係る、目標画像の第2画像特徴を決定する一例を示すブロック図である。 本発明の実施例に係る、ニューラルネットワークを用いて文字認識結果を取得する一例を示すブロック図である。 本発明の実施例に係る文字認識装置の一例のブロック図である。 本発明の実施例に係る文字認識装置の一例のブロック図である。 本発明の実施例に係る電子機器の一例のブロック図である。
以下、本発明のさまざまな例示的な実施例、特徴及び態様を、図面を参照して詳細に説明する。図面における同じ参照番号は、同じまたは類似の機能の要素を表示する。実施例の様々な態様を図面に示したが、特に明記しない限り、縮尺通りに図面を描く必要がない。
明細書における「例示的」という専門の記載は、「例、実施例または説明として使用される」ことを意味する。ここで、「例示的」として記載される任意の実施例は、他の実施例より適切であるかまたは優れると解釈される必要はない。
本明細書における「及び/又は」という用語は、単に関連対象の関連関係を表し、3種類の関係が存在し得ることを示し、例えば、A及び/又はBは、Aが独立で存在する場合、AとBが同時に存在する場合、Bが独立で存在する場合のような3つの場合を表す。更に、本明細書における「少なくとも1つ」という用語は、複数のうちの1つ又は複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCで構成された集合から選択された任意の1つ又は複数の要素を含むことを示す。
更に、本開示をよりよく説明するために、以下の実施形態において、多数の詳細が記載されている。当業者は、幾つかの詳細が記載されなくても本開示が実施できることを理解されたい。いくつかの実施例において、本開示の要旨を強調するために、当業者に周知の方法、手段、要素及び回路について詳細に説明しない。
本発明の実施例に係る文字認識の解決策によれば、認識対象となる目標画像を取得した後、決定された位置ベクトル及び目標画像の第1画像特徴に基づいて、目標画像の文字特徴を取得し、次に、文字特徴に基づいて目標画像内の文字を認識して、目標画像の文字認識結果を取得することができる。ここで、位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものであり、文字の位置特徴を表すことができるため、文字認識プロセスで、文字間の位置特徴を強調することができ、これにより、取得された文字認識結果をより正確にすることができる。
関連技術では、通常、文字間のセマンティック特徴を用いて文字シーケンスを認識するが、一部の文字シーケンス内の文字間の意味的関連性が低い。例えば、ライセンスプレート番号や部屋番号などの文字シーケンスの文字間の意味的関連性が低いため、セマンティック特徴による文字シーケンスの認識効果が悪い。本発明の実施例に係る文字認識の解決策は、文字認識への文字の位置特徴の影響を高め、文字認識プロセスのセマンティック特徴への依存性を低減し、意味的関連性が低い文字の認識や不規則な文字の認識に対して、より優れた認識効果を得ることができる。
本発明の実施例に係る技術的解決策は、画像内の文字認識、画像からテキストへの変換などの適用シナリオの拡張に適用することができ、本発明の実施例は、これらに対して特に限定しない。例えば、交通標識の不規則な文字に対して文字認識を行い、交通標識が表す交通指示を判断することにより、ユーザに便利をもたらすことができる。
図1は、本発明の実施例に係る文字認識方法のフローチャートを示す。当該文字認識方法は、端末機器、サーバ又は他のタイプの電子機器によって実行されることができ、ここで、端末機器は、ユーザ機器(UE:User Equipment)、モバイル機器、ユーザ端末、端末、セルラー電話、コードレス電話、携帯情報端末(PDA:Personal Digital Assistant)、ハンドヘルド機器、コンピューティング機器、車載機器、ウェアラブル機器などであってもよい。いくつかの可能な実施形態において、当該文字認識方法は、プロセッサが、メモリに記憶されているコンピュータ可読命令を呼び出して実することにより実現することができる。以下では、電子機器が実行主体であることを例として、本発明の実施例の文字認識方法について説明する。
ステップS11において、認識対象となる目標画像を取得する。
本発明の実施例において、電子機器は、画像収集機能を有することができ、認識対象となる目標画像を収集することができる。又は、電子機器は、他の機器から、認識対象となる目標画像を取得してもよく、例えば、電子機器は、撮影機器や監視機器などの機器から、認識対象となる目標画像を取得することができる。認識対象となる目標画像は、文字認識待ちの画像であってもよい。目標画像には文字が含まれてもよく、文字は、1つの文字であってもよいし、文字列であってもよい。目標画像内の文字は、規則な文字(例えば、標準フォントで書かれたテキストなど)であってもよい。規則な文字は、すっきりとした配置、均一な大きさ、変形なし、遮蔽なしなどの特点を持つことができる。いくつかの実施形態において、目標画像内の文字は、不規則な文字(例えば、店の看板や広告の表紙上の芸術的なテキストなど)であってもよい。不規則な文字は、すっきりとしない配置、不均一な大きさ、変形あり、遮蔽ありなどの特点を持つことができる。
ステップS12において、決定された位置ベクトル及び前記目標画像の第1画像特徴に基づいて、前記目標画像の文字特徴を取得し、ここで、前記位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものである。
本発明の実施例において、プリセット情報シーケンスの文字の位置特徴に基づいて、文字の位置特徴を表すための位置ベクトルを決定することができ、例えば、特定の長さのプリセット情報シーケンスを取得した後、プリセット情報シーケンス内の文字の位置特徴を抽出することができる。位置ベクトルは、文字の所在位置に関連付けられ、例えば、文字シーケンスにおける、認識対象となる文字の位置が3番目の文字位置である場合、位置ベクトルは、当該文字シーケンスでの、認識対象となる文字の位置、すなわち、3番目の文字位置を表すことができる。位置ベクトルと文字セマンティックとの間の相関性を減らすために、プリセット情報シーケンス内の文字は同じであってもよい。いくつかの実施形態において、プリセット情報シーケンス内の各文字を、セマンティックのない情報に設定することもできるため、位置ベクトルと文字セマンティックとの間の相関性を更に低減することができる。位置ベクトルは、文字セマンティックとの相関性が低いため、異なる目標画像の場合、位置ベクトルは、同じであっても、異なっていてもよい。
目標画像の第1画像特徴は、目標画像に対して画像抽出を実行することにより取得されたものであってもよく、例えば、ニューラルネットワークを用いて目標画像に対して少なくとも一回の畳み込み操作を実行して、目標画像の第1画像特徴を取得することができる。決定された位置ベクトル及び目標画像の第1画像特徴に従って、目標画像の文字特徴を決定することができ、例えば、決定された位置ベクトルと目標画像の第1画像特徴とを融合して、目標画像の文字特徴を取得することができる。ここで、文字特徴は、位置ベクトル及び第1画像特徴に基づいて取得されたものであるため、文字特徴への文字のセマンティックの影響が低い。
ステップS13において、前記文字特徴に基づいて前記目標画像内の文字を認識して、前記目標画像の文字認識結果を取得する。
本発明の実施例において、ニューラルネットワークを用いて文字特徴を処理することができ、例えば、文字特徴に対して活性化操作を実行するか、又は、文字特徴をニューラルネットワークの全結合層に出力して全結合操作を実行して、目標画像の文字認識結果を取得することができる。文字認識結果は、目標画像内の文字の認識結果であり得る。目標画像が1つの文字を含む場合、文字認識結果は、1つの文字であり得る。目標画像が文字シーケンスを含む場合、文字認識結果は、1つの文字シーケンスであり得、文字認識結果の各文字の順序は、目標画像内の対応する文字の順序と同じである。
文字特徴によって取得される文字認識結果は、文字のセマンティックの影響を受けにくいため、文字間の意味的関連性が低い文字シーケンスの場合でも、より優れた認識効果を得ることができ、例えば、ライセンスプレート番号内の、意味的関連性のない文字シーケンスに対して文字認識を実行することができる。
上記のステップS12において、決定された位置ベクトル及び目標画像の第1画像特徴に基づいて、目標画像の文字特徴を取得することができ、それによって、文字特徴へのセマンティックの影響を低減する。以下、目標画像の文字特徴を取得する実施形態を提供する。
1つの可能な実施形態において、目標画像の第1画像特徴を符号化して、第1画像特徴の符号化結果を取得した後、第1画像特徴の符号化結果に従って、目標画像の第2画像特徴を決定し、決定された位置ベクトル、第1画像特徴及び第2画像特徴に基づいて、目標画像の文字特徴を取得することができる。
この実施形態では、ニューラルネットワークを用いて目標画像の第1画像特徴を符号化することができ、例えば、第1画像特徴に対して行ごと又は列ごとに符号化することができ、それによって、第1画像特徴に含まれる位置特徴を強調することができる。その後、第1画像特徴を符号化することにより取得された符号化結果に従って、目標画像の第2画像特徴を取得することができ、例えば、第1画像特徴と符号化結果とを融合して、目標画像の第2画像特徴を取得し、第2画像特徴は、第1画像特徴よりも強い位置特徴を持つ。その後、決定された位置ベクトル、第1画像特徴及び第2画像特徴に基づいて、目標画像の文字特徴を取得することができ、例えば、決定された位置ベクトル、第1画像特徴及び第2画像特徴を融合して目標画像の文字特徴を取得し、第2画像特徴はより強い位置特徴を持つため、取得された目標画像の文字特徴もより強い位置特徴を持ち、それにより、文字特徴に基づいて取得された文字認識結果がより正確であり、文字認識結果へのセマンティックの影響を更に軽減する。
上記の実施形態では、目標画像の第1画像特徴を符号化することにより、第1画像特徴に含まれる位置特徴を強調することができる。以下では、1つの例を介して、第1画像特徴の符号化結果を取得するプロセスについて説明する。
一例において、第1画像特徴の複数の第1次元特徴ベクトルに対して少なくとも1レベルの第1符号化処理を順次に実行して、第1画像特徴の符号化結果を取得することができる。
この例において、第1画像特徴は、複数の第1次元特徴ベクトルを含み得る。第1画像特徴は、複数の次元における特徴を含み得、例えば、第1画像特徴は、長さ、幅、深さなどの複数の次元を含み得る。異なる次元での特徴次元数は異なってもよい。第1次元特徴ベクトルは、1つの次元上の第1画像特徴の特徴であってもよく、例えば、第1次元特徴ベクトルは、長さ次元又は幅次元上の特徴であってもよい。第1符号化処理は、第1画像特徴への符号化であってもよく、それに対応して、ニューラルネットワークは、少なくとも1つの第1符号化層を含み得、第1符号化層に対応する符号化処理は、第1符号化処理であってもよい。ここで、ニューラルネットワークを用いて複数の第1次元特徴ベクトルに対して1レベル又は複数レベルの第1符号化処理を行い、複数の第1次元特徴ベクトルの処理結果を取得することができ、1つの第1次元特徴ベクトルは、1つの処理結果に対応することができ、その後、複数の第1次元特徴の複数の処理結果を合併して、第1画像特徴の符号化結果を形成することができる。第1画像特徴の複数の第1次元特徴ベクトルに対して、1レベル又は複数レベルの第1符号化処理を順次に実行することにより、第1画像特徴に含まれる位置特徴を強調することができ、取得された第1画像特徴の符号化結果は、文字間のより明白な位置特徴を持つことができる。
この例において、少なくとも1レベルの第1符号化処理における1レベルの第1符号化処理について、N(Nは、正の整数である)個の第1符号化ノードを用いて前記第1符号化ノードの入力情報に対して順次符号化を行い、N個の第1符号化ノードの出力結果を取得することができ、1<i≦Nである場合、i(iは、正の整数である)番目の第1符号化ノードの入力情報は、i-1番目の第1符号化ノードの出力結果を含む。N個の第1符号化ノードの出力結果に従って、第1画像特徴の符号化結果を取得する。
この例において、ニューラルネットワークを用いて第1画像特徴に対して少なくとも1レベルの第1符号化処理を実行することにより、第1画像特徴の符号化結果を取得することができる。ニューラルネットワークは、少なくとも1レベルの第1符号化層を含み得、第1符号化層は、第1符号化処理を実行することができ、各レベルの第1符号化処理は、複数の符号化ノードによって実現される。第1符号化処理が複数レベルの処理である場合、各レベルの第1符号化処理に係る動作は同じであってもよい。少なくとも1レベルの第1符号化処理における1レベルの第1符号化処理について、N個の第1符号化ノードを用いて当該レベルの第1符号化処理の入力情報を符号化することができ、1つの第1符号化ノードは、1つの入力情報に対応することができ、異なる第1符号化ノードの入力情報は異なっていてもよい。それに対応して、1つの第1符号化ノードにより、1つの出力結果を取得することができる。第1レベルの第1符号化処理の第1符号化ノードの入力情報は、第1画像特徴の第1次元特徴ベクトルであってもよい。第1レベルの第1符号化処理における第1符号化ノードの出力結果は、第2レベルの第1符号化処理における、同じ順番を有する第1符号化ノードの入力情報として使用されることができ、最後のレベルの第1符号化処理まで同様である。最後のレベルの第1符号化処理における第1符号化ノードの出力結果は、上記の第1次元特徴ベクトルの処理結果であってもよい。1レベルの第1符号化処理は、N個の第1符号化ノードを含み得、1<i≦Nである場合、すなわち、第1符号化ノードが、現在のレベルの第1符号化処理における1番目の第1符号化ノード以外の第1符号化ノードである場合、第1符号化ノードの入力情報は、当該レベルの第1符号化処理における前の第1符号化ノードの出力結果を更に含み得、それによって、1番目の第1符号化ノードの入力情報を最後の第1符号化ノードへ転送することができるため、第1符号化ノードの入力情報を長期間記憶することができ、取得された出力結果をより正確にすることができる。
図2は、本発明の実施例に係る、目標画像の第2画像特徴を決定する一例を示すブロック図を示す。この例において、ニューラルネットワーク(例えば、長・短期記憶(LSTM:Long Short-Term Memory)ネットワークなど)を用いて目標画像の第1画像特徴Fを符号化することができる。ニューラルネットワークは、2つの第1符号化層を含み得、各第1符号化層は、複数の第1符号化ノード(図2の符号化ノードに対応する)を含み得る。ここで、目標画像の第1画像特徴Fをニューラルネットワークの第1符号化層に入力し、第1符号化層の複数の第1符号化ノードを用いて第1画像特徴Fの複数の第1次元特徴ベクトル(幅次元の特徴ベクトル)をそれぞれ符号化して、各第1符号化ノードの出力結果を取得することができる。ここで、1番目の第1符号化ノードの入力情報は、1番目の第1次元特徴ベクトルであり、2番目の第1符号化ノードの入力情報は、1番目の第1符号化ノードの出力結果及び2番目の第1次元特徴ベクトルであり、これによって類推すれば、最後の第1符号化ノードの出力結果を取得することができる。複数の第1符号化点の出力結果を2番目の第1符号化層に入力し、2番目の第1符号化層の処理は、1番目の第1符号化層の処理と同様であり、ここでは繰り返して説明しない。最終的には、第1画像特徴の符号化結果Fを取得することができる。その後、第1画像特徴F及び第1画像特徴の符号化結果Fに対して特徴融合(特上の加算や合併などであってもよい)を実行して、目標画像の第2画像特徴
Figure 2022533065000002
を取得することができる。
ここで、2層のLSTMを使用して目標画像の第1画像特徴Fを符号化することを例にとると、次の式により、第1画像特徴Fによって第2画像特徴
Figure 2022533065000003
を取得することができる。
Figure 2022533065000004
式(1)
Figure 2022533065000005
式(2)
Figure 2022533065000006
式(3)
ここで、
Figure 2022533065000007
は、位置(i,j)における第1画像特徴Fの特徴ベクトル(第1次元特徴ベクトル)であり得、
Figure 2022533065000008
は、位置(i,j)における1番目の第1符号化層の出力結果F1の特徴ベクトルを表すことができ、
Figure 2022533065000009
は、位置(i,j-1)における出力結果F1の特徴ベクトルを表すことができ、
Figure 2022533065000010
は、位置(i,j)における符号化結果Fの特徴ベクトルを表すことができ、
Figure 2022533065000011
は、位置(i,j-1)における符号化結果Fの特徴ベクトルを表すことができ、
Figure 2022533065000012
は、取得された第2画像特徴を表すことができ、
Figure 2022533065000013
は、ベクトルの加算演算を表すことができる。ここで、i及びjは、自然数である。
上記の実施形態において、決定された位置ベクトル、第1画像特徴及び第2画像特徴に基づいて、目標画像の文字特徴を取得することができる。以下では、1つの例を介して、目標画像の文字特徴を取得するプロセスについて説明する。
一例において、決定された位置ベクトル及び第2画像特徴に従って、アテンション重みを決定し、次に、アテンション重みを用いて第1画像特徴に対して特徴加重を行い、目標画像の文字特徴を取得することができる。
一例において、位置ベクトルと第2画像特徴は両方とも顕著な位置特徴を含むため、位置ベクトル及び第2画像特徴に従ってアテンション重みを決定することができ、例えば、位置ベクトルと第2画像特徴との間の相関性を決定し、当該相関性に従って、アテンション重みを決定することができる。位置ベクトルと第2画像特徴との間の相関性は、位置ベクトルと第2画像特徴との内積によって得ることができる。決定されたアテンション重みを用いて、第1画像特徴に対して特徴加重を行うことができ、例えば、アテンション重みと第1画像特徴とを乗算してその合計を求めることにより、目標画像の文字特徴を取得することができる。アテンション重みを用いて、第1画像特徴内の注意すべき特徴を強調できるため、アテンション重みを用いて第1画像特徴に対して特徴加重を実行することにより、取得された文字特徴は、第1画像特徴のより重要な特徴部分をより正確に反映できる。
この例において、アテンション重みは、以下の式(4)により決定できる。
Figure 2022533065000014
式(4)
ここで、
Figure 2022533065000015
は、アテンション重みを表し、
Figure 2022533065000016
は、活性化関数を表し、
Figure 2022533065000017
は、位置ベクトル
Figure 2022533065000018
の転置を表し、
Figure 2022533065000019
は、特徴位置(i,j)における第2画像特徴
Figure 2022533065000020
の特徴ベクトルを表す。上記の式(4)を使用して、位置ベクトル及び第2画像に従って、特徴アテンション重みを決定することができる。
この例において、文字特徴は、以下の式(5)により決定できる。
Figure 2022533065000021
式(5)
ここで、
Figure 2022533065000022
は、文字特徴を表し、
Figure 2022533065000023
は、アテンション重みを表し、
Figure 2022533065000024
は、特徴位置(i,j)における第1画像特徴Fの特徴ベクトルを表す。上記の式(5)を使用して、アテンション重み及び第1画像特徴に基づいて文字特徴を取得することができる。
上記の実施形態において、決定された位置ベクトル及び第2画像特徴に従って、アテンション重みを決定することができる。位置ベクトルは、文字の位置特徴、すなわち、文字間の相対位置を表すことがきる。以下では、1つの実施形態を介して、位置ベクトルを決定するプロセスについて説明する。
1つの可能な実施形態において、少なくとも1つの第1プリセット情報を含むプリセット情報シーケンスを取得した後、少なくとも1つの第1プリセット情報に対して少なくとも1レベルの第2符号化処理を順次に行い、位置ベクトルを取得することができる。
この実施形態では、プリセット情報シーケンスは、1つ又は複数の第1プリセット情報を含み得る。第1プリセット情報は、実際の場合に応じて設定された情報であってもよく、特定の意味を有しないものであってもよい。例えば、第1プリセット情報は、カウント命令であってもよい。ニューラルネットワークを用いて、少なくとも1つの第1プリセット情報に対して、1レベル又は複数レベルの第2符号化処理を順次に行い、位置ベクトルを取得することができる。少なくとも1つの第1プリセット情報は同じでありかつ特定の意味を持たないため、少なくとも1つの第1プリセット情報間の意味的関連性低く、これにより、少なくとも1つの第1プリセット情報に対して1レベル又は複数レベルの第2符号化処理を行うことによって取得された位置ベクトルは、意味的関連性が低い。また、ニューラルネットワークを用いて少なくとも1つの第1プリセット情報に対して第2符号化処理を行うプロセスでは、少なくとも1つの第1プリセット情報を順次に符号化するため、生成された位置ベクトルは、少なくとも1つの第1プリセット情報の順序に関連しており(すなわち、少なくとも1つの第1プリセット情報間の位置に関連していると理解できる)、それによって、位置ベクトルは、文字間の位置特徴を表すことができる。
本実施形態の一例において、少なくとも1レベルの第2符号化処理における1レベルの第2符号化処理について、M個の第2符号化ノードを用いて、第2符号化ノードの入力情報を順次に符号化して、M個の第2符号化ノードの出力結果を取得することができる。1<j≦M(M及びjは、正の整数である)である場合、j番目の第2符号化ノードの入力情報は、j-1番目の第2符号化ノードの出力結果を含む。M個の第2符号化ノードの出力結果に従って、位置ベクトルを取得する。
この例では、ニューラルネットワークを用いて、少なくとも1つの第1プリセット情報に対して、1レベル又は複数レベルの第2符号化処理を順次に行い、位置ベクトルを取得することができる。第2符号化処理が複数レベルの処理である場合、各レベルの第2符号化処理に係る動作は同じであってもよい。少なくとも1レベルの第2符号化処理における1レベルの第2符号化処理について、M個の第2符号化ノードを用いて当該レベルの第2符号化処理の入力情報を符号化することができ、1つの第2符号化ノードは、1つの入力情報に対応することができ、異なる第2符号化ノードの入力情報は異なっていてもよい。それに対応して、1つの第2符号化ノードにより、1つの出力結果を取得することができる。第1レベルの第2符号化処理の1つの第2符号化ノードの入力情報は、1つの第1プリセット情報であってもよい。第1レベルの第2符号化処理における第2符号化ノードの出力結果は、第2レベルの第2符号化処理における、同じ順番を有する第2符号化ノードの入力情報として使用されることができ、最後のレベルの第2符号化処理まで同様である。最後のレベルの第2符号化処理における最後の第2符号化ノードの出力結果は、位置ベクトルとして使用されることができ、又は、最後のレベルの第2符号化処理における最後の第2符号化ノードの出力結果に対して畳み込み処理やプーリング処理などの更なる処理を行い、位置ベクトルを取得することができる。1レベルの第2符号化処理は、M個の第2符号化ノードを含み得、1<j≦Mである場合、すなわち、第2符号化ノードが、現在のレベルの第2符号化処理における1番目の第2符号化ノード以外の第2符号化ノードである場合、第2符号化ノードの入力情報は、当該レベルの第2符号化処理における前の第2符号化ノードの出力結果を更に含み得、それによって、1番目の第2符号化ノードの入力情報を最後の第2符号化ノードへ転送することができるため、第2符号化ノードの入力情報を長期間記憶することができ、取得された位置ベクトルをより正確にすることができる。
ここで、第1プリセット情報が定数「<next>」であり、第2符号化処理が2層のLSTMであることを例にとると、以下の式(6)及び式(7)により位置ベクトル
Figure 2022533065000025
を決定することができる。
Figure 2022533065000026
式(6)
Figure 2022533065000027
式(7)
ここで、
Figure 2022533065000028
は、第1レベルの第2符号化処理におけるt番目の第2符号化ノードの出力結果を表すことができ、
Figure 2022533065000029
は、第1レベルの第2符号化処理におけるt-1番目の第2符号化ノードの出力結果を表すことができ、
Figure 2022533065000030
は、第2レベルの第2符号化処理におけるt番目の第2符号化ノードの出力結果(すなわち、位置ベクトル)を表すことができ、
Figure 2022533065000031
は、第2レベルの第2符号化処理におけるt-1番目の第2符号化ノードの出力結果を表すことができる。ここで、tは自然数である。
留意されたいこととして、少なくとも1つの第1プリセット情報によって位置ベクトルを取得するプロセスは、図2に示されたニューラルネットワークによって実現でき、ここで、位置ベクトルは、複数の第2符号化ノードの出力結果によって形成されたものではなく、第2レベルの第2符号化処理における最後の第2符号化ノードの出力結果であり得る。
上記のステップS13において、文字特徴に基づいて目標画像内の文字を認識して、目標画像の文字認識結果を取得することができる。文字認識結果の精度を向上させるために、目標画像内の文字を認識するプロセスで、目標画像内の文字のセマンティック特徴を考慮することもできる。以下では、1つの実施形態を介して、目標画像の文字認識結果を取得するプロセスについて説明する。
1つの可能な実施形態において、目標画像のセマンティック特徴を抽出した後、目標画像のセマンティック特徴及び文字特徴に基づいて、目標画像の文字認識結果を取得することができる。
この実施形態では、目標画像のセマンティック特徴を抽出することができ、例えば、いくつかのシナリオにおけるセマンティック抽出モデルを用いて目標画像のセマンティック特徴を抽出し、その後、目標画像のセマンティック特徴と文字特徴とを融合して、融合結果を取得することができる。例えば、セマンティック特徴と文字特徴とを繋ぎ合わせるか、又は、セマンティック特徴と文字特徴とを繋ぎ合わせた後、更に特徴加重を行い、融合結果を取得することができる。ここで、特徴加重の重みは、事前設定されてもよいし、セマンティック特徴及び文字特徴に従って計算されてもよい。その後、当該融合結果に従って目標画像の文字認識結果を取得することができ、例えば、融合結果に対して少なくとも一回の畳み込み操作、全結合操作などを行い、目標画像の文字認識結果を取得することができる。このように、目標画像の文字認識結果を取得するプロセスにおいて、セマンティック特徴と文字特徴とを組み合わせることにより、文字認識結果の精度を向上させることができる。
例えば、セマンティック特徴は、
Figure 2022533065000032
で表すことができ、文字特徴は、
Figure 2022533065000033
で表すことができ、以下の式(8)及び式(9)により、セマンティック特徴と文字特徴との融合結果を取得することができる。
Figure 2022533065000034
式(8)
Figure 2022533065000035
式(9)
ここで、
Figure 2022533065000036
は、融合結果を表すことができ、wは、セマンティック特徴
Figure 2022533065000037
及び文字特徴
Figure 2022533065000038
に対して特徴加重を行うための重みを表すことができ、
Figure 2022533065000039
は、第1マッピング行列を表すことができ、ここで、第1マッピング行列を用いてセマンティック特徴
Figure 2022533065000040
と文字特徴
Figure 2022533065000041
を二次元ベクトル空間にマッピングすることができ、
Figure 2022533065000042
は、第1バイアス項を表すことができる。
融合結果
Figure 2022533065000043
を取得した後、以下の式(10)により、目標画像の文字認識結果を取得することができる。
Figure 2022533065000044
式(10)
ここで、
Figure 2022533065000045
は、文字認識結果を表すことができ、Wは、第2マッピング行列を表すことができ、ここで、第2マッピング行列を用いて融合結果
Figure 2022533065000046
に対して線形変換を行うことができ、bは、第2バイアス項であり得る。
本実施形態の一例において、取得された第2プリセット情報に基づいて、少なくとも1つのタイムステップにおける目標画像のセマンティック特徴を順次に決定し、その後、目標画像在少なくとも1つのタイムステップのセマンティック特徴及び文字特徴に基づいて、少なくとも1つのタイムステップにおける目標画像の文字認識結果を取得することができる。
この例では、取得された第2プリセット情報は、実際の場合に応じて選択でき、第2プリセット情報は、特定の意味を有しないものであってもよい。例えば、第2プリセット情報は、開始命令であってもよい。タイムステップのステップ幅は、実際の必要に応じて設定できる。タイムステップ毎に、1つのセマンティック特徴を決定することができ、異なるタイムステップによって取得されたセマンティック特徴は異なっていてもよい。ここで、ニューラルネットワークを用いて第2プリセット情報を符号化して、少なくとも1つのタイムステップのセマンティック特徴を順次に取得し、その後、少なくとも1つのタイムステップにおける目標画像のセマンティック特徴及び少なくとも1つのタイムステップにおける目標画像の文字特徴に従って、少なくとも1つのタイムステップにおける目標画像の文字認識結果を取得することができる。1つのタイムステップのセマンティック特徴及び同じタイムステップの文字特徴は、1つのタイムステップの文字認識結果に対応することができ、つまり、目標画像に複数の文字が存在する場合、文字の位置(文字特徴)及びセマンティック(セマンティック特徴)に従って文字認識結果を順次に取得できるため、文字認識結果の精度を向上させることができる。
この例では、第2プリセット情報に対して少なくとも1レベルの第3符号化処理を行い、少なくとも1つのタイムステップのうちの1番目のタイムステップのセマンティック特徴を取得し、次に、k-1番目のタイムステップにおける目標画像の文字認識結果に対して少なくとも1レベルの第3符号化処理を行い、k番目のタイムステップにおける目標画像のセマンティック特徴を取得することができる。ここで、kは、1より大きい整数である。
この例では、第2プリセット情報を、ニューラルネットワークの少なくとも1レベルの第3符号化処理の入力情報として使用することができる。各レベルの第3符号化処理は、複数の第3符号化ノードを含み得、各第3符号化ノードは、1つのタイムステップの入力情報に対応することができる。異なる第3符号化ノードの入力情報は異なっていてもよい。それに対応して、1つの第3符号化ノードにより、1つの出力結果を取得することができる。第1レベルの第3符号化処理における1番目の第3符号化ノードの入力情報は、第2プリセット情報であってもよい。第1レベルの第3符号化処理における第3符号化ノードの出力結果は、第2レベルの第3符号化処理における、同じ順番を有する第3符号化ノードの入力情報として使用されることができ、最後のレベルの第2符号化処理まで同様である。このようにして、第2プリセット情報に対して少なくとも1レベルの第3符号化処理を行い、最後のレベルの第3符号化処理の1番目の第3符号化ノードの出力結果を取得することができ、当該出力結果は、少なくとも1つのタイムステップのうちの1番目のタイムステップのセマンティック特徴であってもよい。更に、1番目のタイムステップのセマンティック特徴及び同じタイムステップの文字特徴に従って、1番目のタイムステップの文字認識結果を取得することができる。第1レベルの第3処理の2番目の第3符号化ノードの入力情報は、1番目のタイムステップの文字認識結果であってもよい。その後、1番目のタイムステップの文字認識結果に対して少なくとも1レベルの第3符号化処理を行い、2番目のタイムステップのセマンティック特徴を取得することができる。更に、2番目のタイムステップのセマンティック特徴及び同じタイムステップの文字特徴に従って、2番目のタイムステップの文字認識結果を取得することができる。最後のレベルの第3符号化処理まで同様である。最後のレベルの第3符号化処理において、最後の第3符号化ノードの出力結果は、最後のタイムステップのセマンティック特徴であってもよい。つまり、k-1番目のタイムステップにおける目標画像の文字認識結果に対して少なくとも1レベルの第3符号化処理を行い、k番目のタイムステップにおける目標画像のセマンティック特徴を取得することができる。kが1より大きい整数である場合、すなわち、第3符号化ノードが、現在のレベルの第3符号化処理における1番目の第3符号化ノード以外の第3符号化ノードである場合、第3符号化ノードの入力情報は、当該レベルの第3符号化処理における前の第3符号化ノードの出力結果を更に含み得、それによって、前の順番の第3符号化ノードの入力情報を後の順番の第3符号化ノードへ転送することができ、それにより、第3符号化ノードの入力情報を長期間記憶することができ、取得されたセマンティック特徴をより正確にすることができる。
留意されたいこととして、第2プリセット情報によりセマンティック特徴を決定するプロセスは、図2に示されたニューラルネットワークによって実現でき、ここで、k番目のタイムステップのセマンティック特徴は、第2レベルの第3符号化処理のk番目の第3符号化ノードの出力結果であってもよい。
本発明の実施例では、ニューラルネットワークを用いて目標画像の文字認識結果を取得することができる。以下では、1つ例を介して、ニューラルネットワークを用いて目標画像の文字認識結果を取得するプロセスについて説明する。
図3は、本発明の実施例に係る、ニューラルネットワークを用いて文字認識結果を取得する一例を示すブロック図である。この例では、ニューラルネットワークは、エンコーダ及びデコーダを含み得る。先ず、目標画像をニューラルネットワークのエンコーダに入力し、エンコーダを用いて目標画像の画像特徴を抽出することにより、目標画像の第1画像特徴Fを取得することができる。ここで、31層の残差ニューラルネットワーク(ResNet:Residual Neural Network)のネットワークアーキテクチャを用いて目標画像に対して画像特徴抽出を実行することができる。エンコーダは、位置情報強調モジュールを含み得、位置情報強調モジュールを用いて第1画像特徴の位置情報を強調して、目標画像の第2画像特徴
Figure 2022533065000047
を取得することができ、位置情報強調モジュールのネットワークアーキテクチャは、図2に示すとおりであり得る。その後、第2画像特徴
Figure 2022533065000048
をデコーダのアテンションモジュールに入力し、アテンションモジュールを用いて第2画像特徴
Figure 2022533065000049
と位置ベクトル
Figure 2022533065000050
とに対して行列乗算及び活性化操作を行い、アテンション重みを取得し、次に、アテンション重みを用いて第1画像特徴Fに対して特徴加重を行い(すなわち、アテンション重みと第1画像特徴とに対して行列乗算を行う)、目標画像の文字特徴を受信することができる。デコーダは更に、動的融合モジュールを備え、動的融合モジュールを用いて、文字特徴とセマンティック特徴とを融合することができ、その後、融合結果を全結合層に入力して、文字認識結果を取得することができる。
ここで、デコーダは更に、位置符号化モジュールを備え、複数の定数「<next>」(第1プリセット情報)を位置符号化モジュールに順次に入力することができ、つまり、各タイムステップに1つの定数「<next>」を入力することができる。位置符号化モジュールは、2つの符号化層(第1符号化処理に対応する)を含み得、入力された「<next>」を符号化して、t番目のタイムステップの位置ベクトル
Figure 2022533065000051
を取得することができる。ここで、位置符号化モジュールは、2つの符号化層を含み得る。デコーダは更に、セマンティックモジュールを備え、1番目のタイムステップの入力情報として1つの特殊トークン「<start>」(第2プリセット情報)をセマンティックモジュールに入力して、セマンティックモジュールによって出力された1番目のタイムステップのセマンティック特徴を取得することができる。その後、1番目のタイムステップの文字認識結果
Figure 2022533065000052
を、セマンティックモジュールの2番目のタイムステップの入力情報として使用でき、セマンティックモジュールによって出力された2番目のタイムステップのセマンティック特徴を取得し、以下同様に、t番目のタイムステップにおけるセマンティックモジュールによって出力されたセマンティック特徴
Figure 2022533065000053
を取得することができる。セマンティックモジュールは、2層の符号化層を含み得る。位置符号化モジュール及びセマンティックモジュールのネットワークアーキテクチャは、図2のネットワークアーキテクチャと同様であってもよく、ここでは繰り返して説明しない。
例示的に、エンコーダは、位置情報強調モジュールを備え、デコーダは、位置符号化モジュール、アテンションモジュール、セマンティックモジュール、及び動的融合モジュールを備える。ここで、位置情報強調モジュールは、2層のLSTM(図2を参照)を含み、2層のLSTMを使用して、目標画像の第1画像特徴を左から右への順に符号化して、第1画像特徴の符号化結果を取得し、第1画像特徴の符号化結果を第1画像特徴に加算して、目標画像の第2特徴の符号化結果を取得し、これによって、第2画像特徴を決定し、位置情報強調モジュールの出力として第2画像特徴を出力する。位置符号化モジュールは、2層のLSTMを含み、位置符号化モジュールの各入力は、1つの特定の入力であるため、当該位置符号化モジュールは、本質的には、文字長カウンタである。位置符号化モジュールを用いて少なくとも1つのプリセット情報に対して2レベルの第2符号化処理を行い、位置ベクトルを取得し、位置ベクトル及び第2画像特徴をアテンションモジュールに入力し、アテンションモジュールによって第2画像特徴と位置ベクトルとに対して行列乗算及び活性化操作を行い、アテンション重みを取得する。次に、アテンション重みに従って、第1画像特徴の加重平均値を取り、目標画像の文字特徴を取得する。第2プリセット情報をセマンティックモジュールに入力して、目標画像のセマンティック特徴を取得し、動的融合モジュールを用いて、セマンティック特徴及び文字特徴に対して重み予測を行い、セマンティック特徴と文字特徴の加重平均値を、融合結果出力として出力し、融合結果を予測モジュールに入力し、予測モジュールによって文字分類を行い、文字認識結果を取得することができる。
本発明の実施例による文字符号化解決策によれば、文字間の位置情報を強調し、文字認識結果のセマンティックへの依存性を低減し、それによって、文字認識の精度を向上させる。本発明に係る文字符号化解決策は、より複雑な文字認識シナリオ(例えば、不規則な文字の認識や非セマンティック文字の認識など)に適用でき、画像認識などのシナリオ(例えば、画像審査や画像分析など)にも適用できる。
本発明で述べた上述の各方法の実施例は、原理および論理に違反することなく、互いに組み合わせて、組み合わされた実施例を形成することができ、紙数に限りがあるので、本発明を繰り返して説明しないことを理解されたい。
さらに、本発明はまた、文字認識装置、電子機器、コンピュータ可読記憶媒体、プログラムを提供し、これらはすべて、本発明による文字認識方法のいずれかを実現するために使用でき、対応する技術的解決策と説明については、方法の実施例の対応する説明を参照することができ、ここでは繰り返して説明しない。
当業者なら自明であるが、上記の具体的な実施形態における方法において、記載された各ステップの順序は、実施プロセスを限定する厳密な実行順序を意味するのではなく、各ステップの具体的な実行順序は、その機能と可能な内部ロジックによって決定する必要がある。
図4は、本開示の実施例に係る文字認識装置のブロック図を示し、図4に示されたように、前記文字認識装置は、
認識対象となる目標画像を取得するように構成される取得部41と、
決定された位置ベクトル及び前記目標画像の第1画像特徴に基づいて、前記目標画像の文字特徴を取得するように構成される決定部42であって、前記位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものである、決定部42と、
前記文字特徴に基づいて前記目標画像内の文字を認識して、前記目標画像の文字認識結果を取得するように構成される認識部43と、を備える。
1つの可能な実施形態において、前記決定部42は更に、前記目標画像の第1画像特徴を符号化して、前記第1画像特徴の符号化結果を取得し、前記第1画像特徴の符号化結果に従って、前記目標画像の第2画像特徴を決定し、決定された位置ベクトル、前記第1画像特徴及び前記第2画像特徴に基づいて、前記目標画像の文字特徴を取得するように構成される。
1つの可能な実施形態において、前記決定部42は更に、前記第1画像特徴の複数の第1次元特徴ベクトルに対して少なくとも1レベルの第1符号化処理を順次に実行して、前記第1画像特徴の符号化結果を取得するように構成される。
1つの可能な実施形態において、前記決定部42は更に、前記少なくとも1レベルの第1符号化処理における1レベルの第1符号化処理について、N(Nは、正の整数である)個の第1符号化ノードを用いて前記第1符号化ノードの入力情報に対して符号化を順次に行い、N個の第1符号化ノードの出力結果を取得し、ここで、1<i≦Nである場合、i(iは、正の整数である)番目の第1符号化ノードの入力情報は、i-1番目の第1符号化ノードの出力結果を含み、前記N個の第1符号化ノードの出力結果に従って、前記第1画像特徴の符号化結果を取得するように構成される。
1つの可能な実施形態において、前記第1符号化ノードの入力情報は、前記第1画像特徴の第1次元特徴ベクトル又は前レベルの第1符号化処理の出力結果を更に含む。
1つの可能な実施形態において、前記決定部42は更に、前記位置ベクトル及び前記第2画像特徴に従って、アテンション重みを決定し、前記アテンション重みを用いて前記第1画像特徴に対して特徴加重を実行することにより、前記目標画像の文字特徴を取得するように構成される。
1つの可能な実施形態において、前記文字認識装置は更に、
少なくとも1つの第1プリセット情報を含むプリセット情報シーケンスを取得し、前記少なくとも1つの第1プリセット情報に対して少なくとも1レベルの第2符号化処理を順次に行い、前記位置ベクトルを取得するように構成される符号化部を備える。
1つの可能な実施形態において、前記符号化部は更に、前記少なくとも1レベルの第2符号化処理における1レベルの第2符号化処理について、M(Mは、正の整数である)個の第2符号化ノードを用いて前記第2符号化ノードの入力情報に対して符号化を順次に行い、M個の第2符号化ノードの出力結果を取得し、ここで、1<j≦Mである場合、j(jは、正の整数である)番目の第2符号化ノードの入力情報は、j-1番目の第2符号化ノードの出力結果を含み、前記M個の第2符号化ノードの出力結果に従って、前記位置ベクトルを取得するように構成される。
1つの可能な実施形態において、前記第2符号化ノードの入力情報は、前記第1プリセット情報又は前レベルの第2符号化処理の出力結果を更に含む。
1つの可能な実施形態において、前記認識部43は更に、前記目標画像のセマンティック特徴を抽出し、前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、前記目標画像の文字認識結果を取得するように構成される。
1つの可能な実施形態において、前記認識部43は更に、取得された第2プリセット情報に基づいて、少なくとも1つのタイムステップにおける前記目標画像のセマンティック特徴を順次に決定し、少なくとも1つのタイムステップにおける前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、少なくとも1つのタイムステップにおける前記目標画像の文字認識結果を取得するように構成される。
1つの可能な実施形態において、前記認識部43は更に、前記第2プリセット情報に対して少なくとも1レベルの第3符号化処理を行い、前記少なくとも1つのタイムステップのうちの1番目のタイムステップのセマンティック特徴を取得し、k-1(kは、1より大きい整数である)番目のタイムステップにおける前記目標画像の文字認識結果に対して少なくとも1レベルの第3符号化処理を行い、k番目のタイムステップにおける前記目標画像のセマンティック特徴を取得するように構成される。
本発明の実施例および他の実施例において、「部分」は、部分回路、部分プロセッサ、部分プログラムまたはソフトウェア等であってもよく、もちろん、ユニットであってもよく、モジュールまたは非モジュール化であってもよいことを理解することができる。
いくつかの実施例において、本発明の実施例で提供される装置の機能又はモジュールは、上記の方法の実施例で説明された方法を実行するように構成されることができ、その具体的な実現は、上記の方法の実施例の説明を参照することができ、簡潔にするために、ここでは繰り返して説明しない。
図5は、一例示的な実施例によって示された文字認識装置800のブロック図である。例えば、装置800は、携帯電話、コンピュータ、デジタル放送端末、メッセージングデバイス、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、携帯情報端末などであってもよい。
図5を参照すると、装置800は、処理コンポーネント802、メモリ804、電力コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インターフェース812、センサコンポーネント814、及び通信コンポーネント816のうちの1つまたは複数のコンポーネントを備えることができる。
処理コンポーネント802は、一般的に、ディスプレイ、電話の呼び出し、データ通信、カメラ操作及び記録操作に関する操作のような装置800の全般的な操作を制御する。処理コンポーネント802は、上記の方法のステップのすべてまたは一部を完了するための命令を実行するための1つまたは複数のプロセッサ820を備えることができる。加えて、処理コンポーネント802は、処理コンポーネント802と他のコンポーネントの間のインタラクションを容易にするための1つまたは複数のモジュールを備えることができる。例えば、処理コンポーネント802は、マルチメディアコンポーネント808と処理コンポーネント802との間のインタラクションを容易にするためのマルチメディアモジュールを備えることができる。
メモリ804は、装置800での操作をサポートするために、様々なタイプのデータを格納するように構成される。これらのデータの例には、装置800で動作する任意のアプリケーションまたは方法の命令、連絡先データ、電話帳データ、メッセージ、写真、ビデオ等が含まれる。第1メモリ804は、スタティックランダムアクセスメモリ(SRAM)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM)、プログラム可能な読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスク、または光ディスクなど、あらゆるタイプの揮発性または不揮発性ストレージデバイスまたはそれらの組み合わせによって実現されることができる。
電力コンポーネント806は、装置800の様々なコンポーネントに電力を提供する。電力コンポーネント806は、電力管理システム、1つまたは複数の電源、及び装置800の電力の生成、管理および分配に関する他のコンポーネントを備えることができる。
マルチメディアコンポーネント808は、前記装置800とユーザとの間の出力インターフェースとして提供されるスクリーンを備える。いくつかの実施例において、スクリーンは、液晶ディスプレイ(LCD)及びタッチパネル(TP)を備えることができる。スクリーンがタッチパネルを備える場合、スクリーンは、ユーザからの入力信号を受信するためのタッチスクリーンとして実装されることができる。タッチパネルは、タッチ、スワイプ及びタッチパネルでのジェスチャーを検知するための1つまたは複数のタッチセンサを備える。前記タッチセンサは、タッチまたはスワイプの操作の境界を感知するだけでなく、前記タッチまたはスワイプ動作に関連する持続時間及び圧力も検出することができる。いくつかの実施例において、マルチメディアコンポーネント808は、1つのフロントカメラおよび/またはリアカメラを備える。装置800が撮影モードまたはビデオモードなどの動作モードにあるとき、フロントカメラおよび/またはリアカメラは、外部のマルチメディアデータを受信することができる。各フロントカメラ及びリアカメラは、固定された光学レンズシステムであってもよく、焦点距離と光学ズーム機能を有するものであってもよい。
オーディオコンポーネント810は、オーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、1つのマイクロフォン(MIC)を備え、装置800が通話モード、録音モード及び音声認識モードなどの動作モードにあるとき、マイクロフォンは、外部オーディオ信号を受信するように構成される。受信されたオーディオ信号は、メモリ804にさらに記憶されてもよく、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例において、オーディオコンポーネント810は、さらに、オーディオ信号を出力するためのスピーカを備える。
I/Oインターフェース812は、処理コンポーネント802と周辺インターフェースモジュールとの間にインターフェースを提供し、前記周辺インターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームボタン、ボリュームボタン、スタートボタン、ロックボタンを備えることができるが、これらに限定されない。
センサコンポーネント814は、装置800に各態様の状態の評価を提供するための1つまたは複数のセンサを備える。例えば、センサコンポーネント814は、装置800のオン/オフ状態と、装置800のディスプレイやキーパッドなどのコンポーネントの相対的な位置づけを検出することができ、センサコンポーネント814は、装置800または装置800のコンポーネントの位置の変化、ユーザとの装置800の接触の有無、装置800の向きまたは加速/減速、及び装置800の温度の変化も検出することができる。センサコンポーネント814は、物理的接触なしに近くの物体の存在を検出するように構成された近接センサを備えることができる。センサコンポーネント814はまた、撮像用途で使用するためのCMOSまたはCCD画像センサなどの光センサをさらに備えることができる。いくつかの実施例において、当該センサコンポーネント814は、さらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを備えることができる。
通信コンポーネント816は、装置800と他の装置の間の有線または無線通信を容易にするように構成される。装置800は、WiFi、2Gまたは3G、またはそれらの組み合わせなどの通信規格に基づく無線ネットワークにアクセスすることができる。一例示的な実施例において、前記通信コンポーネント816は、放送チャンネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。一例示的な実施例において、前記通信コンポーネント816は、さらに、短距離通信を促進するために、近距離通信(NFC)モジュールを備える。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術及び他の技術に基づいて具現することができる。
例示的な実施例において、装置800は、上記の方法を実行するように構成される、1つまたは複数の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理装置(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子素子によって具現されることができる。
例示的な実施例において、コンピュータプログラム命令を含むメモリ804などの、コンピュータ可読記憶媒体をさらに提供し、上述のコンピュータプログラム命令は、装置800のプロセッサ820によって実行されることにより、上記の方法を遂行することができる。
本発明の実施例は、電子機器をさらに提案し、前記電子機器は、プロセッサと、プロセッサ実行可能命令を記憶するように構成されるメモリとを備え、ここで、前記プロセッサは、前記メモリ804によって記憶された命令を呼び出して実行することにより、上記の方法を実行するように構成される。
電子機器は、端末、サーバまたは他の形の機器として提供される。
図6は、1つの例示的な実施例に係る電子機器1900のブロック図である。例えば、電子機器1900は、サーバとして提供されることができる。図6を参照すると、電子機器1900は、1つまたは複数のプロセッサを含む処理コンポーネント1922と、処理コンポーネント1922によって実行可能な命令(アプリケーションなど)を記憶するように構成されるメモリリソースとして表されるメモリ1932と、を備える。メモリ1932に記憶されたアプリケーションは、それぞれが一セットの命令に対応する1つまたは複数のモジュールを備えることができる。さらに、処理コンポーネント1922は、命令を実行することにより、上記の方法を実行するように構成される。
電子機器1900は、さらに、電子装置1900の電源管理を実行するように構成される電力コンポーネント1926と、電子装置1900をネットワークに接続するように構成される有線または無線ネットワークインターフェース1950と、入力/出力(I/O)インターフェース1958と、を備えることができる。電子機器1900は、メモリ1932に記憶されたオペレーティングシステム、例えば、Windows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMまたは類似したものに基づいて操作されることができる。
例示的な実施例において、コンピュータプログラム命令を含むメモリ1932などの、コンピュータ可読記憶媒体をさらに提供し、電子機器1900の処理コンポーネント1922によって上述のコンピュータプログラム命令を実行することにより、上記の方法を完了することができる。
本発明は、システム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を含み得、当該コンピュータ可読記憶媒体には、プロセッサに、本発明の実施例の様々な態様を実現させるためのコンピュータ可読プログラム命令が含まれる。
コンピュータ可読記憶媒体は、命令実行機器によって使用される命令を保持および記憶することができる有形機器であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶機器、磁気記憶機器、光学記憶機器、電磁記憶機器、半導体記憶機器または前述の任意の適切な組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的リスト)は、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、命令が記憶されたパンチカードまたは溝内の凸状構造、および前述の任意の適切な組み合わせなどの機械的符号化機器を含む。ここで使用されるコンピュータ可読記憶媒体は、電波や自由に伝播される他の電磁波、導波管や他の伝播媒体を介して伝播される電磁波(光ファイバーケーブルを介した光パルスなど)、またはワイヤを介して伝送される電子信号などの、一時的な信号として解釈されてはならない。
本明細書で説明するコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各コンピューティング/処理機器にダウンロードされるか、インターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークなどのネットワークを介して外部コンピュータまたは外部記憶機器にダウンロードされることができる。ネットワークは、銅線伝送ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバなどを含み得る。各コンピューティング/処理機器におけるネットワークアダプターカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、他のコンピューティング/処理機器のコンピュータ可読記憶媒体への記憶のために、当該コンピュータ可読プログラム命令を転送する。
本発明の操作を実行するためのコンピュータプログラム命令は、アセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械関連命令、マイクロコード、ファームウェア命令、状態設定データ、または以1つまたは複数のプログラミング言語の任意の組み合わせでプログラミングされたソースコードまたは目標コードであってもよく、前記プログラミング言語は、Smalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似のプログラミング言語などの一般的な手続き型プログラミング言語を含む。コンピュータ可読プログラム命令は、完全にユーザのコンピュータで実行されてもよく、その一部がユーザのコンピュータで実行されてもよく、1つの独立したソフトウェアパッケージとして実行されてもよく、その一部がユーザのコンピュータで実行されかつその他の部分がリモートコンピュータで実行されてもよく完全にリモートコンピュータまたはサーバで実行されてもよい。リモートコンピュータの場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意のタイプのネットワークを経由して、ユーザのコンピュータに接続するか、または、外部コンピュータに接続することができる(例えば、インターネットサービスプロバイダを使用してインターネットを経由して外部コンピュータにアクセスすることができる)。いくつかの実施例において、コンピュータ可読命令の状態情報を使用することにより、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブルロジックアレイ(PLA)などの、電子回路をカスタマイズし、当該電子回路は、コンピュータ可読プログラム命令を実行し、それにより、本発明の各態様を実現することができる。
ここで、本発明の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロックを参照して、本発明の各態様について説明したが、フローチャートおよび/またはブロック図の各ブロック、およびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解されたい。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサに提供することができ、それにより、これらの命令がコンピュータまたは他のプログラム可能なデータ処理装置のプロセッサによって実行されるときに、フローチャートおよび/またはブロック図における1つのまたは複数のブロックで指定された機能/動作を実現する手段を創出する。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよく、コンピュータ、プログラム可能データ処理装置および/または他の機器が、これらの命令に応じて特定方式で動作することができる。したがって、命令が記憶されたコンピュータ可読媒体は、フローチャートおよび/またはブロック図における1つまたは複数のブロックで指定された機能/動作の各態様の命令を含む、製品を含むことができる。
また、コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能なデータ処理装置、または他の機器にロードすることで、コンピュータ、プログラム可能な数据処理装置または他の機器に、一連の操作ステップを実行させることにより、コンピュータによって実現されるプロセスを生成し、それにより、コンピュータ、他のプログラム可能な数据処理装置、または他の機器で実行される命令により、フローチャートおよび/またはブロック図における1つまたは複数のブロックで指定された機能/動作を実現することができる。
添付の図面におけるフローチャートおよびブロック図は、本発明の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能な実装アーキテクチャ、機能および動作を示す。これに関して、フローチャートまたはブロック図における各ブロックは、1つのモジュール、プログラムセグメントまたは命令の一部を表すことができ、前記モジュール、プログラムセグメントまたは命令の一部は、指定された論理機能を実現するための1つまたは複数の実行可能な命令を含む。いくつかの代替的な実現では、ブロックで表示された機能は、図面で表示された順序とは異なる順序で実行することもできる。例えば、2つの連続するブロックは、実際には、並行して実行されることができ、関連する機能によっては、逆の順序で実行されることもできる。ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定された機能または動作を実行するハードウェアに基づく専用システムによって実現することができ、または専用ハードウェアとコンピュータ命令の組み合わせによって実現されることができることに留意されたい。
以上、本発明の各実施例を説明したが、以上の説明は、例示的なものであり、網羅的なものではなく、開示された各実施例に限定されない。説明された各実施例の範囲および精神から逸脱することなく、多くの修正および変更は、当業者にとっては明らかである。本明細書で使用される用語の選択は、各実施例の原理、実際の応用または市場における技術の技術的改善を最もよく説明するか、当業者が本明細書で開示された各実施例を理解することができるようにすることを意図する。
本発明の実施例では、認識対象となる目標画像を取得し、次に、決定された位置ベクトル及び目標画像の第1画像特徴に基づいて、目標画像の文字特徴を取得し、その後、文字特徴に基づいて目標画像内の文字を認識して、目標画像の文字認識結果を取得することができる。ここで、位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものであり、文字間の位置特徴を表すことができるため、文字認識プロセスにおいて、文字認識結果への文字間の位置特徴の影響を高め、文字認識プロセスのセマンティック特徴への依存性を低減し、文字認識の精度を向上させることができる。

Claims (16)

  1. 文字認識方法であって、
    認識対象となる目標画像を取得することと、
    決定された位置ベクトル及び前記目標画像の第1画像特徴に基づいて、前記目標画像の文字特徴を取得することであって、前記位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものである、ことと、
    前記文字特徴に基づいて前記目標画像内の文字を認識して、前記目標画像の文字認識結果を取得することと、を含む、前記文字認識方法。
  2. 前記決定された位置ベクトル及び前記目標画像の第1画像特徴に基づいて、前記目標画像の文字特徴を取得することは、
    前記目標画像の第1画像特徴を符号化して、前記第1画像特徴の符号化結果を取得することと、
    前記第1画像特徴の符号化結果に従って、前記目標画像の第2画像特徴を決定することと、
    決定された位置ベクトル、前記第1画像特徴及び前記第2画像特徴に基づいて、前記目標画像の文字特徴を取得することと、を含む、
    請求項1に記載の文字認識方法。
  3. 前記目標画像の第1画像特徴を符号化して、前記第1画像特徴の符号化結果を取得することは、
    前記第1画像特徴の複数の第1次元特徴ベクトルに対して少なくとも1レベルの第1符号化処理を順次に実行して、前記第1画像特徴の符号化結果を取得することを含む、
    請求項2に記載の文字認識方法。
  4. 前記第1画像特徴の複数の第1次元特徴ベクトルに対して少なくとも1レベルの第1符号化処理を順次に実行して、前記第1画像特徴の符号化結果を取得することは、
    前記少なくとも1レベルの第1符号化処理における1レベルの第1符号化処理について、N(Nは、正の整数である)個の第1符号化ノードを用いて前記第1符号化ノードの入力情報に対して順次符号化を行い、N個の第1符号化ノードの出力結果を取得することであって、1<i≦Nである場合、i(iは、正の整数である)番目の第1符号化ノードの入力情報は、i-1番目の第1符号化ノードの出力結果を含む、ことと、
    前記N個の第1符号化ノードの出力結果に従って、前記第1画像特徴の符号化結果を取得することと、を含む、
    請求項3に記載の文字認識方法。
  5. 前記第1符号化ノードの入力情報は、前記第1画像特徴の第1次元特徴ベクトル又は前レベルの第1符号化処理の出力結果を更に含む、
    請求項4に記載の文字認識方法。
  6. 前記決定された位置ベクトル、前記第1画像特徴及び前記第2画像特徴に基づいて、前記目標画像の文字特徴を取得することは、
    前記位置ベクトル及び前記第2画像特徴に従って、アテンション重みを決定することと、
    前記アテンション重みを用いて前記第1画像特徴に対して特徴加重を実行することにより、前記目標画像の文字特徴を取得することと、を含む、
    請求項2ないし5のいずれか一項に記載の文字認識方法。
  7. 前記文字認識方法は、
    少なくとも1つの第1プリセット情報を含むプリセット情報シーケンスを取得することと、
    前記少なくとも1つの第1プリセット情報に対して少なくとも1レベルの第2符号化処理を順次に行い、前記位置ベクトルを取得することと、を更に含む、
    請求項1ないし6のいずれか一項に記載の文字認識方法。
  8. 前記少なくとも1つの第1プリセット情報に対して少なくとも1レベルの第2符号化処理を順次に行い、前記位置ベクトルを取得することは、
    前記少なくとも1レベルの第2符号化処理における1レベルの第2符号化処理について、M(Mは、正の整数である)個の第2符号化ノードを用いて前記第2符号化ノードの入力情報に対して順次符号化を行い、M個の第2符号化ノードの出力結果を取得することであって、1<j≦Mである場合、j(jは、正の整数である)番目の第2符号化ノードの入力情報は、j-1番目の第2符号化ノードの出力結果を含む、ことと、
    前記M個の第2符号化ノードの出力結果に従って、前記位置ベクトルを取得することと、を含む、
    請求項7に記載の文字認識方法。
  9. 前記第2符号化ノードの入力情報は、前記第1プリセット情報又は前レベルの第2符号化処理の出力結果を更に含む、
    請求項8に記載の文字認識方法。
  10. 前記文字特徴に基づいて前記目標画像内の文字を認識して、前記目標画像の文字認識結果を取得することは、
    前記目標画像のセマンティック特徴を抽出することと、
    前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、前記目標画像の文字認識結果を取得することと、を含む、
    請求項1ないし9のいずれか一項に記載の文字認識方法。
  11. 前記目標画像のセマンティック特徴を抽出することは、
    取得された第2プリセット情報に基づいて、少なくとも1つのタイムステップにおける前記目標画像のセマンティック特徴を順次に決定することを含み、
    前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、前記目標画像の文字認識結果を取得することは、
    少なくとも1つのタイムステップにおける前記目標画像のセマンティック特徴及び前記文字特徴に基づいて、少なくとも1つのタイムステップにおける前記目標画像の文字認識結果を取得することを含む、
    請求項10に記載の文字認識方法。
  12. 前記取得された第2プリセット情報に基づいて、少なくとも1つのタイムステップにおける前記目標画像のセマンティック特徴を順次に決定することは、
    前記第2プリセット情報に対して少なくとも1レベルの第3符号化処理を行い、前記少なくとも1つのタイムステップのうちの1番目のタイムステップのセマンティック特徴を取得することと、
    k-1(kは、1より大きい整数である)番目のタイムステップにおける前記目標画像の文字認識結果に対して少なくとも1レベルの第3符号化処理を行い、k番目のタイムステップにおける前記目標画像のセマンティック特徴を取得することと、を含む、
    請求項11に記載の文字認識方法。
  13. 文字認識装置であって、
    認識対象となる目標画像を取得するように構成される取得部と、
    決定された位置ベクトル及び前記目標画像の第1画像特徴に基づいて、前記目標画像の文字特徴を取得するように構成される決定部であって、前記位置ベクトルは、プリセット情報シーケンスにおける文字の位置特徴に基づいて決定されたものである、決定部と、
    前記文字特徴に基づいて前記目標画像内の文字を認識して、前記目標画像の文字認識結果を取得するように構成される認識部と、を備える、前記文字認識装置。
  14. 電子機器であって、
    プロセッサと、
    プロセッサ実行可能な命令を記憶するように構成されるメモリと、を備え、
    前記プロセッサは、前記メモリに記憶されている命令を呼び出して実行することにより、請求項1ないし12のいずれか一項に記載の方法を実行するように構成される、前記電子機器。
  15. コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、
    前記コンピュータプログラム命令がプロセッサによって実行されるときに、請求項1ないし12のいずれか一項に記載の方法を実現する、前記コンピュータ可読記憶媒体。
  16. コンピュータ可読コードを含むコンピュータプログラムであって、
    前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、請求項1ないし12のいずれか一項に記載の方法を実行させる、前記コンピュータプログラム。
JP2021567034A 2020-04-16 2021-03-19 文字認識方法及び装置、電子機器並びに記憶媒体 Pending JP2022533065A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010301340.3A CN111539410B (zh) 2020-04-16 2020-04-16 字符识别方法及装置、电子设备和存储介质
CN202010301340.3 2020-04-16
PCT/CN2021/081759 WO2021208666A1 (zh) 2020-04-16 2021-03-19 字符识别方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
JP2022533065A true JP2022533065A (ja) 2022-07-21

Family

ID=71974957

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021567034A Pending JP2022533065A (ja) 2020-04-16 2021-03-19 文字認識方法及び装置、電子機器並びに記憶媒体

Country Status (5)

Country Link
JP (1) JP2022533065A (ja)
KR (1) KR20220011783A (ja)
CN (1) CN111539410B (ja)
TW (1) TW202141352A (ja)
WO (1) WO2021208666A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111539410B (zh) * 2020-04-16 2022-09-06 深圳市商汤科技有限公司 字符识别方法及装置、电子设备和存储介质
CN113516146A (zh) * 2020-12-21 2021-10-19 腾讯科技(深圳)有限公司 一种数据分类方法、计算机及可读存储介质
CN113052156B (zh) * 2021-03-12 2023-08-04 北京百度网讯科技有限公司 光学字符识别方法、装置、电子设备和存储介质
CN113610081A (zh) * 2021-08-12 2021-11-05 北京有竹居网络技术有限公司 一种字符识别方法及其相关设备
CN115063799B (zh) * 2022-08-05 2023-04-07 中南大学 一种印刷体数学公式识别方法、装置及存储介质
CN115546810B (zh) * 2022-11-29 2023-04-11 支付宝(杭州)信息技术有限公司 图像元素类别的识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007042097A (ja) * 2005-07-29 2007-02-15 Fujitsu Ltd キー文字抽出プログラム、キー文字抽出装置、キー文字抽出方法、一括地名認識プログラム、一括地名認識装置および一括地名認識方法
JP2011081454A (ja) * 2009-10-02 2011-04-21 Sharp Corp 情報処理装置、情報処理方法、プログラムおよび記録媒体
CN108062290A (zh) * 2017-12-14 2018-05-22 北京三快在线科技有限公司 消息文本处理方法及装置、电子设备、存储介质
CN110569846A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
JP2019215647A (ja) * 2018-06-12 2019-12-19 キヤノンマーケティングジャパン株式会社 情報処理装置、その制御方法及びプログラム。

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10354168B2 (en) * 2016-04-11 2019-07-16 A2Ia S.A.S. Systems and methods for recognizing characters in digitized documents
RU2691214C1 (ru) * 2017-12-13 2019-06-11 Общество с ограниченной ответственностью "Аби Продакшн" Распознавание текста с использованием искусственного интеллекта
CN110321755A (zh) * 2018-03-28 2019-10-11 中移(苏州)软件技术有限公司 一种识别方法及装置
CN110619325B (zh) * 2018-06-20 2024-03-08 北京搜狗科技发展有限公司 一种文本识别方法及装置
WO2020068945A1 (en) * 2018-09-26 2020-04-02 Leverton Holding Llc Named entity recognition with convolutional networks
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法
CN109615006B (zh) * 2018-12-10 2021-08-17 北京市商汤科技开发有限公司 文字识别方法及装置、电子设备和存储介质
CN109919174A (zh) * 2019-01-16 2019-06-21 北京大学 一种基于门控级联注意力机制的文字识别方法
CN110659640B (zh) * 2019-09-27 2021-11-30 深圳市商汤科技有限公司 文本序列的识别方法及装置、电子设备和存储介质
CN110991560B (zh) * 2019-12-19 2023-07-07 深圳大学 一种结合上下文信息的目标检测方法及***
CN111539410B (zh) * 2020-04-16 2022-09-06 深圳市商汤科技有限公司 字符识别方法及装置、电子设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007042097A (ja) * 2005-07-29 2007-02-15 Fujitsu Ltd キー文字抽出プログラム、キー文字抽出装置、キー文字抽出方法、一括地名認識プログラム、一括地名認識装置および一括地名認識方法
JP2011081454A (ja) * 2009-10-02 2011-04-21 Sharp Corp 情報処理装置、情報処理方法、プログラムおよび記録媒体
CN108062290A (zh) * 2017-12-14 2018-05-22 北京三快在线科技有限公司 消息文本处理方法及装置、电子设备、存储介质
JP2019215647A (ja) * 2018-06-12 2019-12-19 キヤノンマーケティングジャパン株式会社 情報処理装置、その制御方法及びプログラム。
CN110569846A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
US20210081729A1 (en) * 2019-09-16 2021-03-18 Beijing Baidu Netcom Science Technology Co., Ltd. Method for image text recognition, apparatus, device and storage medium

Also Published As

Publication number Publication date
CN111539410A (zh) 2020-08-14
TW202141352A (zh) 2021-11-01
WO2021208666A1 (zh) 2021-10-21
CN111539410B (zh) 2022-09-06
KR20220011783A (ko) 2022-01-28

Similar Documents

Publication Publication Date Title
TWI781359B (zh) 人臉和人手關聯檢測方法及裝置、電子設備和電腦可讀儲存媒體
CN113538517B (zh) 目标追踪方法及装置、电子设备和存储介质
CN111310616B (zh) 图像处理方法及装置、电子设备和存储介质
CN110659640B (zh) 文本序列的识别方法及装置、电子设备和存储介质
CN110889469B (zh) 图像处理方法及装置、电子设备和存储介质
JP2022533065A (ja) 文字認識方法及び装置、電子機器並びに記憶媒体
CN111612070B (zh) 基于场景图的图像描述生成方法及装置
CN109615006B (zh) 文字识别方法及装置、电子设备和存储介质
CN110781813B (zh) 图像识别方法及装置、电子设备和存储介质
CN111435432B (zh) 网络优化方法及装置、图像处理方法及装置、存储介质
CN109145970B (zh) 基于图像的问答处理方法和装置、电子设备及存储介质
CN111242303B (zh) 网络训练方法及装置、图像处理方法及装置
CN109685041B (zh) 图像分析方法及装置、电子设备和存储介质
CN110633470A (zh) 命名实体识别方法、装置及存储介质
CN111652107B (zh) 对象计数方法及装置、电子设备和存储介质
CN114332503A (zh) 对象重识别方法及装置、电子设备和存储介质
CN110633715B (zh) 图像处理方法、网络训练方法及装置、和电子设备
CN113139484B (zh) 人群定位方法及装置、电子设备和存储介质
CN111984765B (zh) 知识库问答过程关系检测方法及装置
CN114842404A (zh) 时序动作提名的生成方法及装置、电子设备和存储介质
CN115035440A (zh) 时序动作提名的生成方法及装置、电子设备和存储介质
CN110019928B (zh) 视频标题的优化方法及装置
CN113537350B (zh) 图像处理方法及装置、电子设备和存储介质
CN112734015B (zh) 网络生成方法及装置、电子设备和存储介质
CN110119652B (zh) 视频的镜头分割方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221206

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230627