JP7449332B2 - コンテンツアウェアおよびスタイルアウェアデータを増強することによる筆跡認識方法および装置 - Google Patents

コンテンツアウェアおよびスタイルアウェアデータを増強することによる筆跡認識方法および装置 Download PDF

Info

Publication number
JP7449332B2
JP7449332B2 JP2022094191A JP2022094191A JP7449332B2 JP 7449332 B2 JP7449332 B2 JP 7449332B2 JP 2022094191 A JP2022094191 A JP 2022094191A JP 2022094191 A JP2022094191 A JP 2022094191A JP 7449332 B2 JP7449332 B2 JP 7449332B2
Authority
JP
Japan
Prior art keywords
style
characters
neural network
reference set
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022094191A
Other languages
English (en)
Other versions
JP2023007432A (ja
Inventor
シュー ティング
Original Assignee
コニカ ミノルタ ビジネス ソリューションズ ユー.エス.エー., インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニカ ミノルタ ビジネス ソリューションズ ユー.エス.エー., インコーポレイテッド filed Critical コニカ ミノルタ ビジネス ソリューションズ ユー.エス.エー., インコーポレイテッド
Publication of JP2023007432A publication Critical patent/JP2023007432A/ja
Application granted granted Critical
Publication of JP7449332B2 publication Critical patent/JP7449332B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Description

本発明の分野
本発明の態様は筆跡認識に関し、特に、筆跡認識システムを訓練するためのデータセットの増強に関する。
発明の背景
筆跡認識における多くの課題の1つは、異なる筆跡スタイルを補償する必要があることである。同じ個人であっても、年をとるにつれて、異なる筆跡を有する可能性がある。同じ個人の筆跡は、異なる表面上において、またはその個人が異なる筆記具を使用する場合、またはその個人が狭いスペースで書くことを強いられる場合(例えば、そのフィールド内に非常に少ないスペースを提供するフォームに記入する)に、異なる可能性がある。
これらの変化の1つの用語(term)はデータ分布シフトと呼ばれ、テストサンプルの確率分布は筆跡認識システムを訓練するために使用される訓練サンプル(x,y)の確率分布とは異なる。テストサンプルが異なる確率分布P(x,y)から引き出されると、筆跡認識システムが所望の結果から離れるように変化する可能性がある。この問題に対処する1つの方法は、元のモデルから新しいデータに転移学習する(to transfer learning)ことである。しかしながら、このアプローチをとることは、データの十分性およびデータプライバシーに関する問題を引き起こす可能性がある。
筆跡サンプルがモデルを訓練するために使用されるとき、十分な有用なサンプルを得ることが困難であることがあり、したがって、データの十分性の問題となる可能性がある。さらに、サンプル自体に、手書きをした人(handwriter)が公開することを望まないタイプの情報を含むことがあり、したがって、データプライバシーの問題となる可能性がある。モデルサイズおよびモデルのどの部分を微調整する必要があるかに応じて、顧客データは依然として、転移学習(transfer learning)のためであっても十分でない可能性がある。さらに、顧客は、この顧客データを識別および/またはラベル付けする必要がある。さらに、データは、1つまたは複数の顧客デバイス上で、顧客に端を発するので、このデータをサービスプロバイダに転送する必要がある。この転送、データプライバシーの懸念を生じさせる方法になり得る。連合学習(fedrated learning)などの協調分散学習(collaborative distributed learning)を促進するための最近の努力は、この問題に対処するためのアプローチを提供する。この種のアプローチの例として、複数のソース(ローカルデバイス)は、中央サーバからモデルを受信し得る。各ソースは、ソースにローカルに記憶されたデータを使用して、モデルに更新を提供する。ローカルに記憶されるデータではなく更新が、中央サーバに返送される。
筆跡認識に関しては、データ分布P(x,y)ドリフトの問題は、各個人が固有の筆跡スタイルをもつためにかなり顕著である。たとえば、同じ道具を用いても、異なる道具を用いても、異なる場所であっても(たとえば、紙の上の空きスペースと比較して、フォーム上の比較的狭くなっている領域)、同じ時間においても、あるいは異なる時間においても(人の筆跡は年齢とともに変化する傾向があるため)、人が異なれば、異なる方法で同じ文字を書く可能性がある。技術的には、これは「概念ドリフト(concept drift)」と呼ばれるデータドリフトの1つのタイプであり、つまり、y(文字)が発生したときにx(画像)が発生する確率を意味する条件付き確率または尤度P(x| y)であるが、生産のための訓練ごとに異なる可能性がある。別のタイプのドリフトは「事前ドリフト(prior drift)」であり、この場合、事前確率P(y)は、コンテンツ分布(content distribution)の変化の結果として変化する。例えば、漢字では、トピックに応じて、テキスト(text)に、異なる頻度(frequency)を有する異なる文字を使用し得る。前述の全ては、P(x,y)=P(x|y)P(y)というベイズの定理を考慮している。
さらなる課題は、筆跡認識システム、特にニューラルネットワークベースのシステムを訓練するのに十分なデータを得る能力である。最も洗練された認識モデルでさえ、適切な関連性の十分な訓練データがない場合、うまく機能しない。
発明の概要
前述のことに対処するために、本発明の態様は、増強データ(augmented data)を生成するために、スタイル(style)およびコンテンツ(content)の両方において顧客のデータと同様の訓練データを合成できるデータ増強技術を提供する。スタイルの類似性は、概念ドリフトを減少させ、P(x|y)を、顧客データの条件付き確率と同じか、ほぼ同じに保つ。コンテンツの関連性は事前ドリフトを低減し、P(y)を、顧客データの事前確率と同じまたはほぼ同じに保つ。
増強データは人工的に生成されるので、データがクラウドにアップロードされても、データによりもたらされるプライバシー問題はより少なくなる。他方、合成データの実質的な利用可能性は、転移学習に関するデータ不足を除去する。
図面の簡単な説明
次に、添付の図面に示される実施形態を参照して、本発明の態様を説明する。
図1は、一実施形態による、増強データセットを提供するためのハイレベルフローチャートを示す。 図2は、一実施形態による、増強データセットを提供するための構造のハイレベルブロック図を示す。 図3は、一実施形態による筆跡認識のための例示的な演算システムのハイレベルブロック図を示す。
実施形態の詳細な説明
本発明の実施形態は、以下を有するコンピューターによる実行方法を提供し得る。
複数のテキスト文字からテキスト文字を選択し、
フォントセットからの複数のフォントを選択し、
コンテンツ参照セットを生成するために、複数のフォントの各々におけるテキスト文字を生成し、
画像セットから複数の画像を選択して、複数のスタイルから選択されたスタイルを有するスタイル参照セットを生成し、
スタイルを複数のフォントのそれぞれにおけるテキスト文字に転移して、スタイル化された文字のセットを生成し、
セットから複数のスタイル化された文字を選択し、
複数のスタイル化された文字をランダムに配列して、増強データセットを形成し、
増強データセットを訓練セットとして筆跡認識システムに適用する
実施形態においては、挙げられたアクションが複数のテキスト文字の各々について、または複数のスタイルの各々について繰り返され得る。
実施形態においてはコンテンツ参照セットがスタイル参照セットの前に生成されてもよく、またはスタイル参照セットがコンテンツ参照セットの前に生成されてもよい。
一実施形態では、コンテンツ参照セットおよびスタイル参照セットのうちの少なくとも1つは以前に生成された参照セットから選択される。
一実施形態では、選択されたテキスト文字が回帰型ニューラルネットワーク/長期短期記憶言語(RNN/LSTM LM)モデルを有する増強データセット生成器から生成され得る。一実施形態では、このモデルがクロスエントロピー損失計算を使用して重みを更新することによって訓練され得る。
一実施形態では、上述の筆跡認識システムが筆跡を認識するために使用され得る。筆跡認識モデルは、双方向LSTM(CRNN)と組み合わされた畳み込みニューラルネットワーク(CNN)と、変圧器ニューラルネットワークと組み合わせたCNNとからなる群から選択されるニューラルネットワークベースのシステムを使用できる。実施形態では、筆跡認識モデルは、クロスエントロピー損失およびコネクショニスト時間分類(CTC)損失からなる群から選択される損失計算を使用して重みを更新することによって訓練され得る。
本発明の実施形態はまた、以下を有する装置を提供することができる。
増強データセットを生成するための、ニューラルネットワークベースの増強データセット生成器であって、増強データセットジェネレータは、
複数のテキスト文字から選択されたテキスト文字を有するコンテンツ参照セットを生成するためのコンテンツエンコーダーであって、テキスト文字は、複数のフォントの各々において生成される、コンテンツエンコーダーと、
複数のスタイルから選択されたスタイルで表されたテキスト文字を有する複数の画像を有するスタイル参照セットを生成するためのスタイルエンコーダーと、
スタイルを複数のフォントのそれぞれのテキスト文字に転移して、スタイル化された文字のセットを生成するミキサーと、
セットから複数のスタイル化された文字を選択するセレクターと、
複数のスタイル化された文字をランダムに配列して、増強データセットを生成するランダム化ステッチャーと、を有し、
一実施形態では、装置が増強データセット生成器から増強データセットを訓練セットとして受け取って、筆跡を認識するためのニューラルネットワークベースの筆跡認識システムをさらに備えることができる。
一実施形態では、増強データセット生成器が複数のテキスト文字の各々についての、および/または複数のスタイルの各々についての、複数の増強データセットを生成することができる。
一実施形態では、拡張データセット生成器は、テキスト文字を生成するために、回帰型ニューラルネットワーク/長期短期記憶言語(RNN/LSTM LM)モデルを有することができる。一実施形態では、モデルがクロスエントロピー損失計算を使用して重みを更新することによって訓練され得る。
一実施形態では、筆跡認識システムは、双方向LSTMと組み合わされた畳み込みニューラルネットワーク(CNN)(CRNN)と、変換器ニューラルネットワークと組み合わせたCNN(CNN+変換器)とからなる群から選択されるニューラルネットワークベースのモデルを有することができる。
一実施形態では、CRNNがコネクショニスト時間分類(CTC)損失計算を使用して訓練され得る。一実施形態では、CNN+変換器はクロスエントロピー損失計算を使用して訓練され得る。
一実施形態では、ミキサーは、コンテンツ参照セットとスタイル参照セットとをマッピングして、スタイル化された文字セットを生成するためのバイリニアモデルを有することができる。
一実施形態では、装置がコンテンツ参照セットを生成するために使用される複数のテキスト文字の一部または全部、および/またはスタイル参照セットを生成するために使用される複数の画像の一部または全部を提供する撮像装置をさらに有することができる。
本発明の態様は、コンテンツおよびスタイルの両方においてより関連性のあるデータを生成することにより改善されたデータの増強によって、データシフト問題に対処する。このようにして、所定の顧客からのデータに関する転移学習の有効性を改善することが可能であり、その顧客のためのより正確な筆跡認識モデル、すなわち、効果的に、モデルのタイプのカスタマイズにつながる。
説明される、本発明の態様による技術を使用して、センシティブな、顧客またはユーザのコンテンツを明かすことなく、ユーザーの筆跡スタイルで関連コンテンツを生成することが可能である。さらに、コンテンツおよびスタイル関連データ増強モデルは、顧客またはユーザーのデータについて訓練される必要はない。このようにして、筆跡認識モデルが特定のユーザーの筆跡を認識するように訓練されている場合であっても、システムのサーバ側における顧客またはユーザーのデータプライバシーを保護することができる。したがって、例えば、転移学習は、1つのタスクを達成するために開発されたモデルを、別のタスクを達成するために開発されるモデルの出発点として使用することができる機械学習方法である。
以下では、表意文字(characters)および/または表音文字(letters)の線画像(いわゆる「関連」コンテンツ)の合成について、それらに重畳し、または結合した筆跡スタイルとともに説明する。
中国語や日本語などのアジア言語では、アルファベットには漢字を中心に数千の文字(characters)が含まれている。例えば、そのような文字(characters)でスペルアウトされた単語は、どの文字(characters)が現れ得るかに対して実質的な影響をもち得る。異なる文字(character)は同じように発音され得るが、非常に異なる意味をもつことがあり、したがって、いくつかの文字(characters)はいくつかの単語において、他の文字よりも不適切である場合がある。その結果、文字(characters)(特に漢字)の事前確率分布は、対象(subject)に応じて変化する可能性がある。したがって、関連するテキスト(relevant text)を生成することは、事前分布P(y)を実際の顧客コンテンツのそれに、より類似させることができる。
しかしながら、関連するテキストは、必ずしも完全に理解可能であることを意味しない。一実施形態では、生成されたテキストは人間の理解のためのものではなく、人間に理解されることを意図されたものではないので、文字レベル(character-level)回帰型ニューラルネットワーク(RNN)/長期短期記憶(LSTM)言語モデル(LM)を使用することができる。むしろ、アイデアは、誰かの筆跡、特に、人が書き得る異なる表意文字または表音文字を認識するようにシステムを訓練することができるというものである。その文脈において、単語列が意味をなすかどうかは、問題とする必要はない。より重要なことは、線画像内の単語および/または語句における文字(characters)および文字の組み合わせに関して、テキストコンテンツの適切なカバレッジである。個々の単語は意味をなし得る。ファイナンスのような所定の分野では、特定のタイプの文字(characters)が単語(words)で期待されることがあり、したがって、個々の単語に関して、事前確率分布は関連性があり、有用であることがある。しかしながら、個々の単語は意味をなし得る一方で、それらの単語の単語列(strings of word)は意味をなさないかもしれない。単語内では、事前確率分布を適用することができる。例えば、訓練セットを生成するための増強データ(augmented data)を作成するための単語のランダム生成では、単語列中の単語の存在が後続の単語の存在の可能性に影響を及ぼさないことがある。結果として生じる、単語または語句または文の理解され易さは、説明される実施形態のうちの1つまたは複数においてそれほど重要ではない。
個々の単語が意味をなすように意図されている場合、文字列を形成する個々の文字(characters)が所定の規律(discipline)において依存性および文脈(context)を有するので、事前確率分布を適用することができる。しかし、一実施形態では、文字列は意味をなす必要はない。
一実施形態では、テキストジェネレーターは、輸送、金融、医療、法律、科学(工学、化学、生物学)などの専門分野コーパス(topic-specific corpus)においてで訓練された標準RNN/LSTM文字レベル言語モデル(LM)であり得る。利用可能な専門分野コーパスのサイズに応じて、単層または多層のRNN/LSTMを使用できる。文字(characters)のシーケンスであるコーパスは、前の文字(characters)の存在が与えられると、各文字(characters)の確率分布を予測するためにLMに供給され得る。損失関数は、予測された確率分布と真の次の文字(ワンホットベクトル)との間のクロスエントロピーとして計算され得る。このキャラクターレベル(character-level)LMは、標準的なバックプロパゲーションにより、時間を通して訓練され得る。訓練入力は、アルファベットの文字インデックス(character index)を符号化する単純なワンホットベクトルであってもよい。文のバッチに対する損失関数および勾配の両方が計算され得る。一実施形態では勾配降下、またはより具体的な実施形態では確率的勾配降下を使用して、モデル重み(model weights)を更新できる。
一実施形態では、ニューラルスタイルトランスファー(neural style transfer)を良好な利点のために使用することができる。ニューラルトランスファーでは、コンテンツ画像(content image)とスタイル画像(style image)とが結合され得る。スタイル化される入力画像が存在し得る。これは、コンテンツ画像であってもよいし、別の画像であってもよい。アルファベット、文字列などのコンテキスト(context)において、コンテンツ画像は、表音文字(letter)、または表意文字(character)であり得る。スタイル画像は、フォント、または手書きスタイルであり得る。コンテンツ画像とスタイル画像とを組付け(imposing)、重畳させ(superimposing)、または結合する(combining)ことによって、特定のユーザーからの特定の筆跡例が存在しなくても、文字(character)の筆跡スタイルを提供することが可能であり得る。
実際、顧客の手書きスタイルが事前に知られていないことがあり、したがって、ターゲットスタイル転移モデル(targeted style transfer model)の訓練を妨げるので、テスト中に新しいスタイルに一般化することが可能でなければならない。
柔軟な方法でコンテンツとスタイルを分離および/または融合することができる2つのファクタモデル(factor model)であるバイリニアモデル(bilinear model)がある。一実施形態では、このタイプの特性が転移モデル(transfer model)において有利であり得る。EMD(Encoder-Mixer-Decorder)と呼ばれる1つのそのようなモデルは、エンコーダー-デコーダーアーキテクチャにおけるコンテンツスタイルミキサ(content-style mixer)としてバイリニアモデルを利用する。このモデルは、コンテンツ参照セット(content reference set)およびスタイル参照セット(style reference set)を、対応するコンテンツ(文字(character)クラス)およびスタイルを有するターゲット画像にマッピングする。
以下に説明するように、一実施形態では、そのようなモデルを利用して、いくつかの手書き文字画像のスタイルを、所望のコンテンツを有するいくつかのフォントレンダリング(font-rendered)された文字画像に転移(transfer)することができる。このように、モデルが訓練されると、新しいスタイルに一般化(generalize)することが可能である。一実施形態では、そのようなモデルを使用することにより、テスト中に新しいスタイルを再訓練する必要性をなくすことができる。
再訓練を回避するこの能力は、筆跡スタイルの多様性のために特に有用であり得る。利用可能なスタイル画像に関しては、例えば、筆跡スタイルは、訓練データにおいて過小評価されるか、それどころか訓練データにないといったほど多様であり得る。
一実施形態では、モデルは、フォントレンダリングされた文字画像と実際の手書き文字画像の両方を使用して訓練される。一実施形態では、フォントセットFをスタイル画像として選択することができる。手書き文字画像セットHもまた、スタイル情報(例えば、手書き者の識別)を有し得るが、文字画像も提供する。
一実施形態では、手書き文字画像Tが、画像セットSから、個人Pによって書き込まれたその画像内の文字Cとともに、ターゲット画像としてランダムに選択され得る。一態様では、文字Cをレンダリングするために、フォントの数rもランダムに選択され得る。このようにして、結果は文字Cのr個の画像を有するコンテンツ参照セットである。同時に、個人Pによって書き込まれた、同じまたは類似する数rの画像(文字は文字Cであってもなくてもよい)も、スタイル参照セットとしてランダムに選択され得る。これらの2つのセット(コンテンツ参照セットおよびスタイル参照セット)は、モデルへの入力とすることができる。ターゲット画像Tは、スタイル転移モデル(style transfer model)を訓練するためのグラウンドトゥルースとして扱われ得る。
一実施形態では、フォント間でスタイルを転移する代わりに、(手書き文字画像の)筆跡スタイルを、フォントによってレンダリングされるコンテンツ画像に転移することができる。コンテンツ画像は、フォントレンダリング画像(font rendered images)のみを使用してサンプリングされ得る。スタイル画像は、手書き文字画像からのみサンプリングされ得る。次いで、訓練されたEMDモデルを使用して、個人の手書き画像のスタイルをフォントレンダリング画像に転移し得る。
一実施形態では、前述のように、テスト中のトレーニングサンプルの生成(テキスト生成およびスタイル転移を使用)においては、訓練は必要とされない。
テスト中、文字(character)の初期入力を文字言語モデルに提供し得る。反復サンプリングによって、関連するテキストコンテンツ(textual content)を生成することが可能である。一実施形態では、出力としてのそのようなサンプリングされた文字が、順に、次の反復またはステップのための入力になり得る。
一実施形態では生成されたテキストのセットにおける各文字がフォントセットFからランダムに選択されたr個のフォントによってレンダリングされる1つのコンテンツターゲット(content target)と見なされ得る。 次いで、r個のフォント画像は、スタイル転移装置(style transferrer)への2つの入力のうちの1つであるコンテンツ参照セットを形成する。したがって、コンテンツ参照セットは、異なるフォントにそれぞれ対応するr個のスタイルで再生成される単一の文字であり得る。
次に、ターゲットスタイル(targeted style)は、個人のスキャンされた文書からセグメント化されたr個の文字画像からなるスタイル参照セットによって特定され得る。一実施形態では、手書き文字検出モデルを使用し得る。あるいは、文字は、1つまたは複数の既知の文字セグメント化アルゴリズムによって文書ライン画像(document line image)からセグメント化し得る。したがって、スタイル参照セットは、単一のスタイルで再生成される複数のr個の文字であってもよい。
コンテンツ参照セットおよびスタイル参照セットが生成された後、これらは、ターゲットコンテンツ(targeted content)(文字クラス)および筆跡スタイルを有する文字画像を生成するスタイル転移モデルに入力され得る。
個々の文字画像を生成した後、個々の文字画像のうちの様々な1つの文字画像をライン画像(line imege)として組み立てる(まとめる、または「スティッチングする」)ことができる。これらのライン画像は、転移学習を促進するための最終的な増強サンプルとなり得る。各ライン画像の対応するコンテンツは、そのサンプルのグランドトゥルースラベルであり得る。ライン画像を生成することには、ライン画像を形成するために文字画像がシーケンスに入れられるとき、個々の文字画像の位置、サイズ、および他の特性をランダム化することが含まれる。様々な文字画像特性のランダム化は、よりロバストな訓練セットをもたらし得る。
画像のスティッチングは、シームレスなライン画像を提供するための、サイズおよびフォーマットのマッチングを包含し得る。そのようなシームレスさは、本発明の実施形態によるいくつかの状況では望ましくあり得る。しかし、今述べたように、文字画像のラインを生成することには、個々の文字画像の様々な特性のランダム化を含み得る。文字画像が組み立てられるとき、結果として得られるライン画像は、スティッチングにおけるシームレスさを反映してもよく、反映しなくてもよい。実際、いくつかの実施形態においては、筆跡は任意の数の理由によりランダムな変動を持ちうるので、ライン画像のシームレスな組み立てを可能にするための、文字画像の正規化を行わないことが望ましくあり得る。漢字やこれに類似する文字の場合、このことは特に当てはまり得る。例えば、英語または他のアルファベットに関する他のタイプの手書きの場合、スティッチングがシームレスであることが、より筆記体(cursive writing)に近い訓練セットを提供するために望ましくあり得る。
図1は、一実施形態による、生成された、増強された訓練セットに関するハイレベルフローチャートを示す。この処理は、最初の文字Cを選択することによって始まる。これは、105および110において、カウンターにN=1を設定し、第1の文字をCとして示すことによって行われ得る。115において、選択されたフォントセットFから、r個のフォントを選択し得る。120において、文字Cがr個のフォントの各々において生成されて、コンテンツ参照セットを作成し得る。この生成は、エンコード処理として実行され得る。
プロセスの別の面において、第1のスタイルMが選択され得る。これは、125および130において、カウンターにM=1を設定することによって行われ得る。130において、スタイルMが選択される。135において、スタイルMにおけるr個の画像が生成されて、スタイル参照セットが作成される。一実施形態では、画像は、複数の表意文字(character)または表音文字(letter)であり得る。この生成は、エンコード処理として実行され得る。
140において、スタイルMは、r個のフォントにおける文字Cに転移されて、スタイル化された(stylized)文字を生成する。先の議論から、この転移は、バイリニアモデルを使用して、ミキシングプロセスとして実行され得る。145および150において、文字Cのすべてが考慮されるまで、処理を繰り返し、110に戻り得る。これが行われると、155において、複数のP個の生成されたスタイル化された文字が、ミキシングプロセスによって生成されたQ個の文字から選択される。先の議論から、これは、デコード処理として理解され得る。160において、P個の生成されたスタイル化された文字のランダムシーケンスから、増強訓練セットを形成し得る。このプロセスは選択すべき少なくともP個のスタイル化された文字がまだ存在する限り、一度にP個の文字について、155および160を反復することによって繰り返される。Pは固定される必要はないが、様々なライン長を有するサンプルを生成するために、各反復において乱数であり得る。
図1では、全てのスタイルが考慮されるまで、直前に検討したシーケンスを複数のスタイルの各々について繰り返すことができる。たとえば、図1では180および185において、プロセスはすべてのスタイルが考慮されるまで、別のスタイルの選択のためにフローを130に戻しながら繰り返し得る。これが達成されると、195において、プロセスは終了する。しかし、特定の筆跡スタイルを認識するために筆跡認識システムを訓練する目的のために、プロセスは、その特定の筆跡スタイルのための増強された訓練セットだけに焦点を当てることができる。この実施形態では、複数のスタイルを選択し、当該複数のスタイルに対してプロセスを繰り返す必要がない場合がある。
当業者は、スタイル参照セットおよびコンテンツ参照セットの作成が特定の順番で進められる必要がないことを理解するであろう。2つのセットは、並行して生成されてもよく、または一方が他方の前に生成されてもよい。別の代替として、スタイル参照セットおよび/または文字参照セットの「作成」が、複数のそのようなセットからの1つのそのようなセットの選択によりなされることで、複数のそのようなセットが事前に作成され得る。
図2は、実施形態による、増強データセットを生成するための装置200の様々な要素のハイレベルブロック図を示す。コンテンツエンコーダー210およびスタイルエンコーダー220は、それぞれ、上述したコンテンツ参照セットおよびスタイル参照セットを提供する。一実施形態では、これらのエンコーダーの一方または両方に、一連の畳み込み層によるダウンサンプリングを使用し得る。一実施形態では、コンテンツエンコーダー210は、ストレージ(例えば、図3のストレージ360)から必要なテキスト文字(text character)及びフォントを取得し得る。同様に、スタイルエンコーダー220は、ストレージ360から必要な画像及びスタイルを取得し得る。
ミキサー230はコンテンツエンコーダー210からコンテンツ参照セットを受信し、スタイルエンコーダー220からスタイル参照セットを受信して、スタイル参照セットに反映されたスタイルをコンテンツ参照セットにおける文字(character)に転移する。一実施形態では、ミキサーは、上述したようなバイリニアモデルを使用し得る。
デコーダー240は、ミキサー230の出力を受け取る。一実施形態では、デコーダーが一連のデコンボリューション層によるアップサンプリングを使用し得る。デコーダー240は、スタイル化された文字を出力する。一実施形態では、デコーダーは、出力されているスタイル化された文字のうちのいくつかの出力の選択を可能にするセレクターを含み得る。ランダム化ステッチャー250はデコーダー/セレクター240の出力を受け取り、選択されたスタイル化された文字のシーケンスをランダム化して、増強データセット260を出力する。ランダム化を用いることにより、筆跡認識モデルの訓練を改良する強化されたデータセットを生成することができる。
図3は、一実施形態による筆跡認識モデルを訓練するための増強データセットを他のものとの間で使用できるコンピューティングシステム300のハイレベルブロック図である。システム300は、図2の増強データセット生成器200を含み得る。増強データセット生成器200は筆跡認識システム400と直接通信することができ、または有線もしくは無線ネットワーク、または一実施形態ではクラウドとされ得るネットワーク320を介して通信し得る。システム300はまた、1つまたは複数のプロセッサ、1つまたは複数の記憶デバイス、および1つまたは複数のソリッドステートメモリシステム(記憶デバイスとは異なり、非一時的および一時的メモリの両方を含み得る)を含み得る処理システム340を含み得る。また、直接またはネットワーク320を介してアクセス可能な追加のストレージ360があってもよい。増強データセット生成器200はストレージ360と直接通信し、またはネットワーク320を介して通信し得る。
一実施形態では、前述のように、ストレージ360はコンテンツエンコーダー210にコンテンツおよびフォントを提供し、および/またはスタイルエンコーダー220に画像およびスタイルを提供し得る。コンピューティングシステム300、特に処理システム340は、スキャナ、カメラ、または他の撮像機器345などの外部手段によって、ストレージ360に記憶されるコンテンツおよびフォント、ならびに画像およびスタイルを取得し得る。一実施形態では、処理システム340は、増強データセット生成器200に処理電力を提供し得る。代替的に、増強データセット生成器200の様々な要素は、それら自体の処理ユニットを使用し得る。
ネットワーク320が通信のためのクラウドシステムである場合、コンピューティングシステム300の1つまたは複数の部分は、他の部分から離れていてもよい。一実施形態では様々な要素が同一場所に配置される場合であっても、ネットワーク320はクラウドベースのシステムであり得る。
一実施形態では、筆跡認識システム400は双方向LSTMと連動した、畳み込みニューラルネットワーク(CNN)に基づき得る。そのようなアーキテクチャーは、CRNNとして当業者に知られている。一実施形態では、コネクショニスト時間分類(CTC)損失が計算されて、CRNNモデルを訓練するために使用され得る。当業者は、そのような構成が、対応するデコーダー構造をもたないエンコーダーを構成すると理解する。CTC損失の計算は、当業者に周知である。さらなる実施形態では、筆跡認識システム400は変換器ニューラルネットワーク(transformer neural network)と組み合わせたCNNに基づき得る。当業者は、そのような構成が、エンコーダー-デコーダーの組合せを構成すると理解する。一実施形態では、前述したクロスエントロピー損失が計算されて、CNN+変圧器モデルを訓練するために使用され得る。
本出願は、筆跡認識システム400を実装するための、ならびに増強データセット生成器200を実装するための、いくつかのニューラルネットワークベースのアーキテクチャーに言及する。当業者は増強データセット生成器200と筆跡認識システム400との組合せが、本発明の態様による有益な効果をもたらすことを理解するであろう。筆跡認識システム400の訓練は、増強データセット生成器200が生成するデータセットを使用して容易にできる。特定の用途に応じて、増強データセット生成器200と筆跡認識システム400とのこの組み合わせは、上述のニューラルネットワークベースのアーキテクチャーのより具体的なバージョンを当業者に知らせることができる。個人の個人的にセンシティブな情報、または自然源から得ることができる訓練データセットに含まれ得る他の機密情報を明らかにすることなく、筆跡認識システムにおいてより良好な結果をもたらすのは、組み合わせ自体である。
概して、本発明の態様による深層学習モデルは1つまたは複数の異なるタイプのニューラルネットワークが、場合によっては上述のものに加えて実装され得るが、上述のものは特に良好に、一緒に機能するように見える。上述のように、本発明の実施形態は、筆跡認識モデルに提供される訓練データの生成に着目している。
上記では本発明の態様による実施形態を説明したが、本発明はそれらの実施形態または態様に限定されると見なされるべきではない。当業者は、添付の特許請求の範囲の範囲および精神の範囲内で本発明の変形を理解するであろう。

Claims (20)

  1. コンピューターにより実行される方法であって、
    i)複数のテキスト文字からテキスト文字を選択し、
    ii)フォントセットから複数のフォントを選択し、
    iii)コンテンツ参照セットを生成するために、複数のフォントの各々におけるテキスト文字を生成し、
    iv)画像セットから複数の画像を選択して、複数のスタイルから選択されたスタイルを有するスタイル参照セットを生成し、
    v)スタイルを複数のフォントのそれぞれにおけるテキスト文字に転移して、スタイル化された文字のセットを生成し、
    vi)セットから複数のスタイル化された文字を選択し、
    vii)複数のスタイル化された文字をランダムに配列して、増強データセットを形成し、
    viii)増強データセットを訓練セットとして筆跡認識システムに適用すること、
    を有する方法。
  2. 前記複数のテキスト文字の各々について、i)~viii)を繰り返すことをさらに含む、請求項1に記載の、コンピューターにより実行される方法。
  3. 前記複数のスタイルの各々について、i)~viii)を繰り返すことをさらに含む、請求項1に記載の、コンピューターにより実行される方法。
  4. 前記コンテンツ参照セットは、前記スタイル参照セットの前に生成される、請求項1~3のいずれか一項に記載の、コンピューターにより実行される方法。
  5. 前記スタイル参照セットは、前記コンテンツ参照セットの前に生成される、請求項1~3のいずれか一項に記載の、コンピューターにより実行される方法。
  6. 前記コンテンツ参照セットおよび前記スタイル参照セットのうちの少なくとも1つは、以前に生成された参照セットから選択される、請求項1~3のいずれか一項に記載の、コンピューターにより実行される方法。
  7. 回帰型ニューラルネットワーク(RNN)または長期短期記憶(LSTM)モデルを有する言語モデルから前記テキスト文字を生成することをさらに含む、請求項1~3のいずれか一項に記載の、コンピューターにより実行される方法。
  8. 前記回帰型ニューラルネットワーク(RNN)/長期短期記憶(LSTM) 言語モデル(LM)は、クロスエントロピー損失計算を使用して重みを更新することによって訓練される、請求項7に記載の、コンピューターにより実行される方法。
  9. さらに、ix)筆跡を認識するために前記筆跡認識システムを使用し、前記筆跡認識システムは、双方向LSTM(CRNN)と組み合わされた畳み込みニューラルネットワーク(CNN)と、変換器ニューラルネットワークと組み合わせたCNNと、からなる群から選択されるニューラルネットワークベースのシステムを使用する、請求項1~3のいずれか一項に記載の、コンピューターにより実行される方法。
  10. 前記筆跡認識システムは、クロスエントロピー損失およびコネクショニスト時間分類(CTC)損失からなる群から選択される損失計算を使用して重みを更新することによって訓練される、請求項9に記載の、コンピューターによる実行される方法。
  11. 装置であって、
    増強データセットを生成するための、ニューラルネットワークベースの増強データセット生成器を有し、
    増強データセット生成器は、
    複数のテキスト文字から選択されたテキスト文字を有するコンテンツ参照セットを生成するためのコンテンツエンコーダーであって、テキスト文字は、複数のフォントの各々において生成される、コンテンツエンコーダーと、
    複数のスタイルから選択されたスタイルで表されたテキスト文字を有する複数の画像を有するスタイル参照セットを生成するためのスタイルエンコーダーと、
    スタイルを複数のフォントのそれぞれのテキスト文字に転移して、スタイル化された文字のセットを生成するミキサーと、
    セットから複数のスタイル化された文字を選択するセレクターと、
    複数のスタイル化された文字をランダムに配列して、増強データセットを生成するランダム化ステッチャーと、を有し、
    増強データセット生成器から増強データセットを訓練セットとして受け取って、筆跡を認識するためのニューラルネットワークベースの筆跡認識システムをさらに備える装置。
  12. 前記増強データセット生成器は、前記複数のテキスト文字の各々に対して、複数の増強データセットを生成する、請求項11に記載の装置。
  13. 前記増強データセット生成器は、前記複数のスタイルの各々に対して複数の増強データセットを生成する、請求項11に記載の装置。
  14. 前記増強データセット生成器は前記テキスト文字を生成するために、回帰型ニューラルネットワーク(RNN)または長期短期記憶(LSTM)モデルが実装される言語モデルを備える、請求項11から13のいずれか一項に記載の装置。
  15. 回帰型ニューラルネットワーク(RNN)/長期短期記憶言語(LSTM LM)モデルは、クロスエントロピー損失計算を使用して重みを更新することによって訓練される、請求項14に記載の装置。
  16. 筆跡認識システムは、双方向LSTMと組み合わされた畳み込みニューラルネットワーク(CNN)(CRNN)と、変換器ニューラルネットワークと組み合わせたCNN(CNN+変換器)とからなる群から選択されるニューラルネットワークベースのモデルを有する、請求項11から13のいずれか一項に記載の装置。
  17. CRNNは、コネクショニスト時間分類(CTC)損失計算を使用して訓練される、請求項11から13のいずれか一項に記載の装置。
  18. CNN+変換器は、クロスエントロピー損失計算を使用して訓練される、請求項11~13のいずれか一項に記載の装置。
  19. 前記ミキサーは、コンテンツ参照セットとスタイル参照セットとをマッピングして、スタイル化された文字セットを生成するバイリニアモデルを有する、請求項11~13のいずれか一項に記載の装置。
  20. コンテンツ参照セットを生成するために使用される複数のテキスト文字の一部または全部、および/または前記スタイル参照セットを生成するために使用される複数の画像の一部または全部を提供する撮像装置をさらに備える、請求項11から13のいずれか一項に記載の装置。
JP2022094191A 2021-06-30 2022-06-10 コンテンツアウェアおよびスタイルアウェアデータを増強することによる筆跡認識方法および装置 Active JP7449332B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/364,641 US20230004741A1 (en) 2021-06-30 2021-06-30 Handwriting recognition method and apparatus employing content aware and style aware data augmentation
US17/364,641 2021-06-30

Publications (2)

Publication Number Publication Date
JP2023007432A JP2023007432A (ja) 2023-01-18
JP7449332B2 true JP7449332B2 (ja) 2024-03-13

Family

ID=84786138

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022094191A Active JP7449332B2 (ja) 2021-06-30 2022-06-10 コンテンツアウェアおよびスタイルアウェアデータを増強することによる筆跡認識方法および装置

Country Status (2)

Country Link
US (1) US20230004741A1 (ja)
JP (1) JP7449332B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116756588B (zh) * 2023-08-14 2023-10-20 北京点聚信息技术有限公司 一种同屏手写输入的智能匹配方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259981A (ja) 2001-02-28 2002-09-13 Matsushita Electric Ind Co Ltd 個人認証方法および装置
CN110866501A (zh) 2019-11-19 2020-03-06 中国建设银行股份有限公司 一种训练数据生成方法、数据识别方法和计算机存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10318889B2 (en) * 2017-06-26 2019-06-11 Konica Minolta Laboratory U.S.A., Inc. Targeted data augmentation using neural style transfer
CN111783760B (zh) * 2020-06-30 2023-08-08 北京百度网讯科技有限公司 文字识别的方法、装置、电子设备及计算机可读存储介质
CN112633423B (zh) * 2021-03-10 2021-06-22 北京易真学思教育科技有限公司 文本识别模型的训练方法、文本识别方法、装置及设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259981A (ja) 2001-02-28 2002-09-13 Matsushita Electric Ind Co Ltd 個人認証方法および装置
CN110866501A (zh) 2019-11-19 2020-03-06 中国建设银行股份有限公司 一种训练数据生成方法、数据识别方法和计算机存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
個性を持った文字フォントシステム,電子情報通信学会技術研究報告 Vol.118 No.494,2019年03月06日
古代文字フォントの画像データに基づく手書き篆文文字の検索支援,人文科学とコンピュータシンポジウム 2017,2017年12月02日

Also Published As

Publication number Publication date
US20230004741A1 (en) 2023-01-05
JP2023007432A (ja) 2023-01-18

Similar Documents

Publication Publication Date Title
Lopes et al. A learned representation for scalable vector graphics
Kang et al. GANwriting: content-conditioned generation of styled handwritten word images
CN111191078B (zh) 基于视频信息处理模型的视频信息处理方法及装置
US11899927B2 (en) Simulated handwriting image generator
US10706351B2 (en) Recurrent encoder and decoder
US20190325308A1 (en) Multi-task learning using knowledge distillation
JP2020017274A (ja) ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのシステムおよび方法
US11741190B2 (en) Multi-dimensional language style transfer
US10963647B2 (en) Predicting probability of occurrence of a string using sequence of vectors
KR102258003B1 (ko) 글자 인식 모델을 활용하여 이미지 번역 서비스를 제공하기 위한 방법 및 서버
CN111611805A (zh) 一种基于图像的辅助写作方法、装置、介质及设备
JP2022128441A (ja) 弱教師ありマルチ報酬強化学習を使用した文章分類のためのテキストデータの増強
JP7449332B2 (ja) コンテンツアウェアおよびスタイルアウェアデータを増強することによる筆跡認識方法および装置
Mayr et al. Spatio-temporal handwriting imitation
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
Wang et al. Affganwriting: a handwriting image generation method based on multi-feature fusion
WO2023091226A1 (en) Language-model pretraining with gradient-disentangled embedding sharing
Sinha et al. Unsupervised OCR model evaluation using GAN
Zhang et al. Byte-level recursive convolutional auto-encoder for text
Zhang et al. A rapid combined model for automatic generating web UI codes
CN113591493A (zh) 翻译模型的训练方法及翻译模型的装置
SureshKumar et al. Ai based ui development using deep neural networks (ai-ui)
Zhang et al. Chaco: character contrastive learning for handwritten text recognition
Rodrigues et al. Tulu Language Text Recognition and Translation
Diesbach et al. Generating synthetic styled Chu nom characters

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240227

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240301

R150 Certificate of patent or registration of utility model

Ref document number: 7449332

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150