JP7449332B2

JP7449332B2 - コンテンツアウェアおよびスタイルアウェアデータを増強することによる筆跡認識方法および装置

Info

Publication number: JP7449332B2
Application number: JP2022094191A
Authority: JP
Inventors: シューティング
Original assignee: コニカミノルタビジネスソリューションズユー．エス．エー．，インコーポレイテッド
Priority date: 2021-06-30
Filing date: 2022-06-10
Publication date: 2024-03-13
Anticipated expiration: 2042-06-10
Also published as: US20230004741A1; JP2023007432A

Description

本発明の分野
本発明の態様は筆跡認識に関し、特に、筆跡認識システムを訓練するためのデータセットの増強に関する。

発明の背景
筆跡認識における多くの課題の1つは、異なる筆跡スタイルを補償する必要があることである。同じ個人であっても、年をとるにつれて、異なる筆跡を有する可能性がある。同じ個人の筆跡は、異なる表面上において、またはその個人が異なる筆記具を使用する場合、またはその個人が狭いスペースで書くことを強いられる場合(例えば、そのフィールド内に非常に少ないスペースを提供するフォームに記入する)に、異なる可能性がある。

これらの変化の１つの用語（ｔｅｒｍ）はデータ分布シフトと呼ばれ、テストサンプルの確率分布は筆跡認識システムを訓練するために使用される訓練サンプル(x,y)の確率分布とは異なる。テストサンプルが異なる確率分布P(x,y)から引き出されると、筆跡認識システムが所望の結果から離れるように変化する可能性がある。この問題に対処する1つの方法は、元のモデルから新しいデータに転移学習する（ｔｏｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇ）ことである。しかしながら、このアプローチをとることは、データの十分性およびデータプライバシーに関する問題を引き起こす可能性がある。

筆跡サンプルがモデルを訓練するために使用されるとき、十分な有用なサンプルを得ることが困難であることがあり、したがって、データの十分性の問題となる可能性がある。さらに、サンプル自体に、手書きをした人（ｈａｎｄｗｒｉｔｅｒ）が公開することを望まないタイプの情報を含むことがあり、したがって、データプライバシーの問題となる可能性がある。モデルサイズおよびモデルのどの部分を微調整する必要があるかに応じて、顧客データは依然として、転移学習（ｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇ）のためであっても十分でない可能性がある。さらに、顧客は、この顧客データを識別および/またはラベル付けする必要がある。さらに、データは、1つまたは複数の顧客デバイス上で、顧客に端を発するので、このデータをサービスプロバイダに転送する必要がある。この転送、データプライバシーの懸念を生じさせる方法になり得る。連合学習（ｆｅｄｒａｔｅｄｌｅａｒｎｉｎｇ）などの協調分散学習（ｃｏｌｌａｂｏｒａｔｉｖｅｄｉｓｔｒｉｂｕｔｅｄｌｅａｒｎｉｎｇ）を促進するための最近の努力は、この問題に対処するためのアプローチを提供する。この種のアプローチの例として、複数のソース(ローカルデバイス)は、中央サーバからモデルを受信し得る。各ソースは、ソースにローカルに記憶されたデータを使用して、モデルに更新を提供する。ローカルに記憶されるデータではなく更新が、中央サーバに返送される。

筆跡認識に関しては、データ分布P(x,y)ドリフトの問題は、各個人が固有の筆跡スタイルをもつためにかなり顕著である。たとえば、同じ道具を用いても、異なる道具を用いても、異なる場所であっても(たとえば、紙の上の空きスペースと比較して、フォーム上の比較的狭くなっている領域)、同じ時間においても、あるいは異なる時間においても(人の筆跡は年齢とともに変化する傾向があるため)、人が異なれば、異なる方法で同じ文字を書く可能性がある。技術的には、これは「概念ドリフト（ｃｏｎｃｅｐｔｄｒｉｆｔ）」と呼ばれるデータドリフトの１つのタイプであり、つまり、y(文字)が発生したときにx(画像)が発生する確率を意味する条件付き確率または尤度P(x| y)であるが、生産のための訓練ごとに異なる可能性がある。別のタイプのドリフトは「事前ドリフト（ｐｒｉｏｒｄｒｉｆｔ）」であり、この場合、事前確率P(y)は、コンテンツ分布（ｃｏｎｔｅｎｔｄｉｓｔｒｉｂｕｔｉｏｎ）の変化の結果として変化する。例えば、漢字では、トピックに応じて、テキスト（ｔｅｘｔ）に、異なる頻度（ｆｒｅｑｕｅｎｃｙ）を有する異なる文字を使用し得る。前述の全ては、P(x,y)=P(x|y)P(y)というベイズの定理を考慮している。

さらなる課題は、筆跡認識システム、特にニューラルネットワークベースのシステムを訓練するのに十分なデータを得る能力である。最も洗練された認識モデルでさえ、適切な関連性の十分な訓練データがない場合、うまく機能しない。

発明の概要
前述のことに対処するために、本発明の態様は、増強データ（ａｕｇｍｅｎｔｅｄｄａｔａ）を生成するために、スタイル（ｓｔｙｌｅ）およびコンテンツ（ｃｏｎｔｅｎｔ）の両方において顧客のデータと同様の訓練データを合成できるデータ増強技術を提供する。スタイルの類似性は、概念ドリフトを減少させ、P(x|y)を、顧客データの条件付き確率と同じか、ほぼ同じに保つ。コンテンツの関連性は事前ドリフトを低減し、P(y)を、顧客データの事前確率と同じまたはほぼ同じに保つ。

増強データは人工的に生成されるので、データがクラウドにアップロードされても、データによりもたらされるプライバシー問題はより少なくなる。他方、合成データの実質的な利用可能性は、転移学習に関するデータ不足を除去する。

図面の簡単な説明
次に、添付の図面に示される実施形態を参照して、本発明の態様を説明する。
図１は、一実施形態による、増強データセットを提供するためのハイレベルフローチャートを示す。図２は、一実施形態による、増強データセットを提供するための構造のハイレベルブロック図を示す。図３は、一実施形態による筆跡認識のための例示的な演算システムのハイレベルブロック図を示す。

実施形態の詳細な説明
本発明の実施形態は、以下を有するコンピューターによる実行方法を提供し得る。

複数のテキスト文字からテキスト文字を選択し、
フォントセットからの複数のフォントを選択し、
コンテンツ参照セットを生成するために、複数のフォントの各々におけるテキスト文字を生成し、
画像セットから複数の画像を選択して、複数のスタイルから選択されたスタイルを有するスタイル参照セットを生成し、
スタイルを複数のフォントのそれぞれにおけるテキスト文字に転移して、スタイル化された文字のセットを生成し、
セットから複数のスタイル化された文字を選択し、
複数のスタイル化された文字をランダムに配列して、増強データセットを形成し、
増強データセットを訓練セットとして筆跡認識システムに適用する
実施形態においては、挙げられたアクションが複数のテキスト文字の各々について、または複数のスタイルの各々について繰り返され得る。

実施形態においてはコンテンツ参照セットがスタイル参照セットの前に生成されてもよく、またはスタイル参照セットがコンテンツ参照セットの前に生成されてもよい。

一実施形態では、コンテンツ参照セットおよびスタイル参照セットのうちの少なくとも1つは以前に生成された参照セットから選択される。

一実施形態では、選択されたテキスト文字が回帰型ニューラルネットワーク/長期短期記憶言語(RNN/LSTM LM)モデルを有する増強データセット生成器から生成され得る。一実施形態では、このモデルがクロスエントロピー損失計算を使用して重みを更新することによって訓練され得る。

一実施形態では、上述の筆跡認識システムが筆跡を認識するために使用され得る。筆跡認識モデルは、双方向LSTM(CRNN)と組み合わされた畳み込みニューラルネットワーク(CNN)と、変圧器ニューラルネットワークと組み合わせたCNNとからなる群から選択されるニューラルネットワークベースのシステムを使用できる。実施形態では、筆跡認識モデルは、クロスエントロピー損失およびコネクショニスト時間分類(CTC)損失からなる群から選択される損失計算を使用して重みを更新することによって訓練され得る。

本発明の実施形態はまた、以下を有する装置を提供することができる。

増強データセットを生成するための、ニューラルネットワークベースの増強データセット生成器であって、増強データセットジェネレータは、
複数のテキスト文字から選択されたテキスト文字を有するコンテンツ参照セットを生成するためのコンテンツエンコーダーであって、テキスト文字は、複数のフォントの各々において生成される、コンテンツエンコーダーと、
複数のスタイルから選択されたスタイルで表されたテキスト文字を有する複数の画像を有するスタイル参照セットを生成するためのスタイルエンコーダーと、
スタイルを複数のフォントのそれぞれのテキスト文字に転移して、スタイル化された文字のセットを生成するミキサーと、
セットから複数のスタイル化された文字を選択するセレクターと、
複数のスタイル化された文字をランダムに配列して、増強データセットを生成するランダム化ステッチャーと、を有し、
一実施形態では、装置が増強データセット生成器から増強データセットを訓練セットとして受け取って、筆跡を認識するためのニューラルネットワークベースの筆跡認識システムをさらに備えることができる。

一実施形態では、増強データセット生成器が複数のテキスト文字の各々についての、および/または複数のスタイルの各々についての、複数の増強データセットを生成することができる。

一実施形態では、拡張データセット生成器は、テキスト文字を生成するために、回帰型ニューラルネットワーク/長期短期記憶言語(RNN/LSTM LM)モデルを有することができる。一実施形態では、モデルがクロスエントロピー損失計算を使用して重みを更新することによって訓練され得る。

一実施形態では、筆跡認識システムは、双方向LSTMと組み合わされた畳み込みニューラルネットワーク(CNN)(CRNN)と、変換器ニューラルネットワークと組み合わせたCNN(CNN+変換器)とからなる群から選択されるニューラルネットワークベースのモデルを有することができる。

一実施形態では、CRNNがコネクショニスト時間分類(CTC)損失計算を使用して訓練され得る。一実施形態では、CNN+変換器はクロスエントロピー損失計算を使用して訓練され得る。

一実施形態では、ミキサーは、コンテンツ参照セットとスタイル参照セットとをマッピングして、スタイル化された文字セットを生成するためのバイリニアモデルを有することができる。

一実施形態では、装置がコンテンツ参照セットを生成するために使用される複数のテキスト文字の一部または全部、および/またはスタイル参照セットを生成するために使用される複数の画像の一部または全部を提供する撮像装置をさらに有することができる。

本発明の態様は、コンテンツおよびスタイルの両方においてより関連性のあるデータを生成することにより改善されたデータの増強によって、データシフト問題に対処する。このようにして、所定の顧客からのデータに関する転移学習の有効性を改善することが可能であり、その顧客のためのより正確な筆跡認識モデル、すなわち、効果的に、モデルのタイプのカスタマイズにつながる。

説明される、本発明の態様による技術を使用して、センシティブな、顧客またはユーザのコンテンツを明かすことなく、ユーザーの筆跡スタイルで関連コンテンツを生成することが可能である。さらに、コンテンツおよびスタイル関連データ増強モデルは、顧客またはユーザーのデータについて訓練される必要はない。このようにして、筆跡認識モデルが特定のユーザーの筆跡を認識するように訓練されている場合であっても、システムのサーバ側における顧客またはユーザーのデータプライバシーを保護することができる。したがって、例えば、転移学習は、1つのタスクを達成するために開発されたモデルを、別のタスクを達成するために開発されるモデルの出発点として使用することができる機械学習方法である。

以下では、表意文字（ｃｈａｒａｃｔｅｒｓ）および/または表音文字（ｌｅｔｔｅｒｓ）の線画像(いわゆる「関連」コンテンツ)の合成について、それらに重畳し、または結合した筆跡スタイルとともに説明する。

中国語や日本語などのアジア言語では、アルファベットには漢字を中心に数千の文字（ｃｈａｒａｃｔｅｒｓ）が含まれている。例えば、そのような文字（ｃｈａｒａｃｔｅｒｓ）でスペルアウトされた単語は、どの文字（ｃｈａｒａｃｔｅｒｓ）が現れ得るかに対して実質的な影響をもち得る。異なる文字（ｃｈａｒａｃｔｅｒ）は同じように発音され得るが、非常に異なる意味をもつことがあり、したがって、いくつかの文字（ｃｈａｒａｃｔｅｒｓ）はいくつかの単語において、他の文字よりも不適切である場合がある。その結果、文字（ｃｈａｒａｃｔｅｒｓ）(特に漢字)の事前確率分布は、対象（ｓｕｂｊｅｃｔ）に応じて変化する可能性がある。したがって、関連するテキスト（ｒｅｌｅｖａｎｔｔｅｘｔ）を生成することは、事前分布P(y)を実際の顧客コンテンツのそれに、より類似させることができる。

しかしながら、関連するテキストは、必ずしも完全に理解可能であることを意味しない。一実施形態では、生成されたテキストは人間の理解のためのものではなく、人間に理解されることを意図されたものではないので、文字レベル（ｃｈａｒａｃｔｅｒ－ｌｅｖｅｌ）回帰型ニューラルネットワーク(RNN)/長期短期記憶(LSTM)言語モデル(LM)を使用することができる。むしろ、アイデアは、誰かの筆跡、特に、人が書き得る異なる表意文字または表音文字を認識するようにシステムを訓練することができるというものである。その文脈において、単語列が意味をなすかどうかは、問題とする必要はない。より重要なことは、線画像内の単語および/または語句における文字（ｃｈａｒａｃｔｅｒｓ）および文字の組み合わせに関して、テキストコンテンツの適切なカバレッジである。個々の単語は意味をなし得る。ファイナンスのような所定の分野では、特定のタイプの文字（ｃｈａｒａｃｔｅｒｓ）が単語（ｗｏｒｄｓ）で期待されることがあり、したがって、個々の単語に関して、事前確率分布は関連性があり、有用であることがある。しかしながら、個々の単語は意味をなし得る一方で、それらの単語の単語列（ｓｔｒｉｎｇｓｏｆｗｏｒｄ）は意味をなさないかもしれない。単語内では、事前確率分布を適用することができる。例えば、訓練セットを生成するための増強データ（ａｕｇｍｅｎｔｅｄｄａｔａ）を作成するための単語のランダム生成では、単語列中の単語の存在が後続の単語の存在の可能性に影響を及ぼさないことがある。結果として生じる、単語または語句または文の理解され易さは、説明される実施形態のうちの1つまたは複数においてそれほど重要ではない。

個々の単語が意味をなすように意図されている場合、文字列を形成する個々の文字（ｃｈａｒａｃｔｅｒｓ）が所定の規律（ｄｉｓｃｉｐｌｉｎｅ）において依存性および文脈（ｃｏｎｔｅｘｔ）を有するので、事前確率分布を適用することができる。しかし、一実施形態では、文字列は意味をなす必要はない。

一実施形態では、テキストジェネレーターは、輸送、金融、医療、法律、科学(工学、化学、生物学)などの専門分野コーパス（ｔｏｐｉｃ－ｓｐｅｃｉｆｉｃｃｏｒｐｕｓ）においてで訓練された標準RNN/LSTM文字レベル言語モデル(LM)であり得る。利用可能な専門分野コーパスのサイズに応じて、単層または多層のRNN/LSTMを使用できる。文字（ｃｈａｒａｃｔｅｒｓ）のシーケンスであるコーパスは、前の文字（ｃｈａｒａｃｔｅｒｓ）の存在が与えられると、各文字（ｃｈａｒａｃｔｅｒｓ）の確率分布を予測するためにLMに供給され得る。損失関数は、予測された確率分布と真の次の文字(ワンホットベクトル)との間のクロスエントロピーとして計算され得る。このキャラクターレベル（ｃｈａｒａｃｔｅｒ－ｌｅｖｅｌ）LMは、標準的なバックプロパゲーションにより、時間を通して訓練され得る。訓練入力は、アルファベットの文字インデックス（ｃｈａｒａｃｔｅｒｉｎｄｅｘ）を符号化する単純なワンホットベクトルであってもよい。文のバッチに対する損失関数および勾配の両方が計算され得る。一実施形態では勾配降下、またはより具体的な実施形態では確率的勾配降下を使用して、モデル重み（ｍｏｄｅｌｗｅｉｇｈｔｓ）を更新できる。

一実施形態では、ニューラルスタイルトランスファー（ｎｅｕｒａｌｓｔｙｌｅｔｒａｎｓｆｅｒ）を良好な利点のために使用することができる。ニューラルトランスファーでは、コンテンツ画像（ｃｏｎｔｅｎｔｉｍａｇｅ）とスタイル画像（ｓｔｙｌｅｉｍａｇｅ）とが結合され得る。スタイル化される入力画像が存在し得る。これは、コンテンツ画像であってもよいし、別の画像であってもよい。アルファベット、文字列などのコンテキスト（ｃｏｎｔｅｘｔ）において、コンテンツ画像は、表音文字（ｌｅｔｔｅｒ）、または表意文字（ｃｈａｒａｃｔｅｒ）であり得る。スタイル画像は、フォント、または手書きスタイルであり得る。コンテンツ画像とスタイル画像とを組付け（ｉｍｐｏｓｉｎｇ）、重畳させ（ｓｕｐｅｒｉｍｐｏｓｉｎｇ）、または結合する（ｃｏｍｂｉｎｉｎｇ）ことによって、特定のユーザーからの特定の筆跡例が存在しなくても、文字（ｃｈａｒａｃｔｅｒ）の筆跡スタイルを提供することが可能であり得る。

実際、顧客の手書きスタイルが事前に知られていないことがあり、したがって、ターゲットスタイル転移モデル（ｔａｒｇｅｔｅｄｓｔｙｌｅｔｒａｎｓｆｅｒｍｏｄｅｌ）の訓練を妨げるので、テスト中に新しいスタイルに一般化することが可能でなければならない。

柔軟な方法でコンテンツとスタイルを分離および/または融合することができる２つのファクタモデル（ｆａｃｔｏｒｍｏｄｅｌ）であるバイリニアモデル（ｂｉｌｉｎｅａｒｍｏｄｅｌ）がある。一実施形態では、このタイプの特性が転移モデル（ｔｒａｎｓｆｅｒｍｏｄｅｌ）において有利であり得る。ＥＭＤ(Ｅｎｃｏｄｅｒ－Ｍｉｘｅｒ－Ｄｅｃｏｒｄｅｒ)と呼ばれる1つのそのようなモデルは、エンコーダー－デコーダーアーキテクチャにおけるコンテンツスタイルミキサ（ｃｏｎｔｅｎｔ－ｓｔｙｌｅｍｉｘｅｒ）としてバイリニアモデルを利用する。このモデルは、コンテンツ参照セット（ｃｏｎｔｅｎｔｒｅｆｅｒｅｎｃｅｓｅｔ）およびスタイル参照セット（ｓｔｙｌｅｒｅｆｅｒｅｎｃｅｓｅｔ）を、対応するコンテンツ(文字（ｃｈａｒａｃｔｅｒ）クラス)およびスタイルを有するターゲット画像にマッピングする。

以下に説明するように、一実施形態では、そのようなモデルを利用して、いくつかの手書き文字画像のスタイルを、所望のコンテンツを有するいくつかのフォントレンダリング（ｆｏｎｔ－ｒｅｎｄｅｒｅｄ）された文字画像に転移（ｔｒａｎｓｆｅｒ）することができる。このように、モデルが訓練されると、新しいスタイルに一般化（ｇｅｎｅｒａｌｉｚｅ）することが可能である。一実施形態では、そのようなモデルを使用することにより、テスト中に新しいスタイルを再訓練する必要性をなくすことができる。

再訓練を回避するこの能力は、筆跡スタイルの多様性のために特に有用であり得る。利用可能なスタイル画像に関しては、例えば、筆跡スタイルは、訓練データにおいて過小評価されるか、それどころか訓練データにないといったほど多様であり得る。

一実施形態では、モデルは、フォントレンダリングされた文字画像と実際の手書き文字画像の両方を使用して訓練される。一実施形態では、フォントセットＦをスタイル画像として選択することができる。手書き文字画像セットＨもまた、スタイル情報(例えば、手書き者の識別)を有し得るが、文字画像も提供する。

一実施形態では、手書き文字画像Ｔが、画像セットＳから、個人Ｐによって書き込まれたその画像内の文字Ｃとともに、ターゲット画像としてランダムに選択され得る。一態様では、文字Ｃをレンダリングするために、フォントの数ｒもランダムに選択され得る。このようにして、結果は文字Ｃのr個の画像を有するコンテンツ参照セットである。同時に、個人Ｐによって書き込まれた、同じまたは類似する数rの画像(文字は文字Ｃであってもなくてもよい)も、スタイル参照セットとしてランダムに選択され得る。これらの２つのセット(コンテンツ参照セットおよびスタイル参照セット)は、モデルへの入力とすることができる。ターゲット画像Ｔは、スタイル転移モデル（ｓｔｙｌｅｔｒａｎｓｆｅｒｍｏｄｅｌ）を訓練するためのグラウンドトゥルースとして扱われ得る。

一実施形態では、フォント間でスタイルを転移する代わりに、(手書き文字画像の)筆跡スタイルを、フォントによってレンダリングされるコンテンツ画像に転移することができる。コンテンツ画像は、フォントレンダリング画像（ｆｏｎｔｒｅｎｄｅｒｅｄｉｍａｇｅｓ）のみを使用してサンプリングされ得る。スタイル画像は、手書き文字画像からのみサンプリングされ得る。次いで、訓練されたＥＭＤモデルを使用して、個人の手書き画像のスタイルをフォントレンダリング画像に転移し得る。

一実施形態では、前述のように、テスト中のトレーニングサンプルの生成(テキスト生成およびスタイル転移を使用)においては、訓練は必要とされない。

テスト中、文字（ｃｈａｒａｃｔｅｒ）の初期入力を文字言語モデルに提供し得る。反復サンプリングによって、関連するテキストコンテンツ（ｔｅｘｔｕａｌｃｏｎｔｅｎｔ）を生成することが可能である。一実施形態では、出力としてのそのようなサンプリングされた文字が、順に、次の反復またはステップのための入力になり得る。

一実施形態では生成されたテキストのセットにおける各文字がフォントセットＦからランダムに選択されたｒ個のフォントによってレンダリングされる１つのコンテンツターゲット（ｃｏｎｔｅｎｔｔａｒｇｅｔ）と見なされ得る。次いで、r個のフォント画像は、スタイル転移装置（ｓｔｙｌｅｔｒａｎｓｆｅｒｒｅｒ）への２つの入力のうちの１つであるコンテンツ参照セットを形成する。したがって、コンテンツ参照セットは、異なるフォントにそれぞれ対応するr個のスタイルで再生成される単一の文字であり得る。

次に、ターゲットスタイル（ｔａｒｇｅｔｅｄｓｔｙｌｅ）は、個人のスキャンされた文書からセグメント化されたr個の文字画像からなるスタイル参照セットによって特定され得る。一実施形態では、手書き文字検出モデルを使用し得る。あるいは、文字は、１つまたは複数の既知の文字セグメント化アルゴリズムによって文書ライン画像（ｄｏｃｕｍｅｎｔｌｉｎｅｉｍａｇｅ）からセグメント化し得る。したがって、スタイル参照セットは、単一のスタイルで再生成される複数のr個の文字であってもよい。

コンテンツ参照セットおよびスタイル参照セットが生成された後、これらは、ターゲットコンテンツ（ｔａｒｇｅｔｅｄｃｏｎｔｅｎｔ）(文字クラス)および筆跡スタイルを有する文字画像を生成するスタイル転移モデルに入力され得る。

個々の文字画像を生成した後、個々の文字画像のうちの様々な１つの文字画像をライン画像（ｌｉｎｅｉｍｅｇｅ）として組み立てる(まとめる、または「スティッチングする」)ことができる。これらのライン画像は、転移学習を促進するための最終的な増強サンプルとなり得る。各ライン画像の対応するコンテンツは、そのサンプルのグランドトゥルースラベルであり得る。ライン画像を生成することには、ライン画像を形成するために文字画像がシーケンスに入れられるとき、個々の文字画像の位置、サイズ、および他の特性をランダム化することが含まれる。様々な文字画像特性のランダム化は、よりロバストな訓練セットをもたらし得る。

画像のスティッチングは、シームレスなライン画像を提供するための、サイズおよびフォーマットのマッチングを包含し得る。そのようなシームレスさは、本発明の実施形態によるいくつかの状況では望ましくあり得る。しかし、今述べたように、文字画像のラインを生成することには、個々の文字画像の様々な特性のランダム化を含み得る。文字画像が組み立てられるとき、結果として得られるライン画像は、スティッチングにおけるシームレスさを反映してもよく、反映しなくてもよい。実際、いくつかの実施形態においては、筆跡は任意の数の理由によりランダムな変動を持ちうるので、ライン画像のシームレスな組み立てを可能にするための、文字画像の正規化を行わないことが望ましくあり得る。漢字やこれに類似する文字の場合、このことは特に当てはまり得る。例えば、英語または他のアルファベットに関する他のタイプの手書きの場合、スティッチングがシームレスであることが、より筆記体（ｃｕｒｓｉｖｅｗｒｉｔｉｎｇ）に近い訓練セットを提供するために望ましくあり得る。

図１は、一実施形態による、生成された、増強された訓練セットに関するハイレベルフローチャートを示す。この処理は、最初の文字Ｃ_Ｎを選択することによって始まる。これは、１０５および１１０において、カウンターにＮ＝１を設定し、第１の文字をＣ_１として示すことによって行われ得る。１１５において、選択されたフォントセットＦから、r個のフォントを選択し得る。１２０において、文字Ｃ_Ｎがr個のフォントの各々において生成されて、コンテンツ参照セットを作成し得る。この生成は、エンコード処理として実行され得る。

プロセスの別の面において、第１のスタイルＭが選択され得る。これは、１２５および１３０において、カウンターにＭ＝１を設定することによって行われ得る。１３０において、スタイルＭが選択される。１３５において、スタイルＭにおけるｒ個の画像が生成されて、スタイル参照セットが作成される。一実施形態では、画像は、複数の表意文字（ｃｈａｒａｃｔｅｒ）または表音文字（ｌｅｔｔｅｒ）であり得る。この生成は、エンコード処理として実行され得る。

１４０において、スタイルＭは、r個のフォントにおける文字Ｃ_Ｎに転移されて、スタイル化された（ｓｔｙｌｉｚｅｄ）文字を生成する。先の議論から、この転移は、バイリニアモデルを使用して、ミキシングプロセスとして実行され得る。１４５および１５０において、文字Ｃ_Ｎのすべてが考慮されるまで、処理を繰り返し、１１０に戻り得る。これが行われると、１５５において、複数のＰ個の生成されたスタイル化された文字が、ミキシングプロセスによって生成されたＱ個の文字から選択される。先の議論から、これは、デコード処理として理解され得る。１６０において、Ｐ個の生成されたスタイル化された文字のランダムシーケンスから、増強訓練セットを形成し得る。このプロセスは選択すべき少なくともＰ個のスタイル化された文字がまだ存在する限り、一度にＰ個の文字について、１５５および１６０を反復することによって繰り返される。Ｐは固定される必要はないが、様々なライン長を有するサンプルを生成するために、各反復において乱数であり得る。

図１では、全てのスタイルが考慮されるまで、直前に検討したシーケンスを複数のスタイルの各々について繰り返すことができる。たとえば、図1では１８０および１８５において、プロセスはすべてのスタイルが考慮されるまで、別のスタイルの選択のためにフローを１３０に戻しながら繰り返し得る。これが達成されると、１９５において、プロセスは終了する。しかし、特定の筆跡スタイルを認識するために筆跡認識システムを訓練する目的のために、プロセスは、その特定の筆跡スタイルのための増強された訓練セットだけに焦点を当てることができる。この実施形態では、複数のスタイルを選択し、当該複数のスタイルに対してプロセスを繰り返す必要がない場合がある。

当業者は、スタイル参照セットおよびコンテンツ参照セットの作成が特定の順番で進められる必要がないことを理解するであろう。２つのセットは、並行して生成されてもよく、または一方が他方の前に生成されてもよい。別の代替として、スタイル参照セットおよび/または文字参照セットの「作成」が、複数のそのようなセットからの１つのそのようなセットの選択によりなされることで、複数のそのようなセットが事前に作成され得る。

図２は、実施形態による、増強データセットを生成するための装置２００の様々な要素のハイレベルブロック図を示す。コンテンツエンコーダー２１０およびスタイルエンコーダー２２０は、それぞれ、上述したコンテンツ参照セットおよびスタイル参照セットを提供する。一実施形態では、これらのエンコーダーの一方または両方に、一連の畳み込み層によるダウンサンプリングを使用し得る。一実施形態では、コンテンツエンコーダー２１０は、ストレージ(例えば、図３のストレージ３６０)から必要なテキスト文字（ｔｅｘｔｃｈａｒａｃｔｅｒ）及びフォントを取得し得る。同様に、スタイルエンコーダー２２０は、ストレージ３６０から必要な画像及びスタイルを取得し得る。

ミキサー２３０はコンテンツエンコーダー２１０からコンテンツ参照セットを受信し、スタイルエンコーダー２２０からスタイル参照セットを受信して、スタイル参照セットに反映されたスタイルをコンテンツ参照セットにおける文字（ｃｈａｒａｃｔｅｒ）に転移する。一実施形態では、ミキサーは、上述したようなバイリニアモデルを使用し得る。

デコーダー２４０は、ミキサー２３０の出力を受け取る。一実施形態では、デコーダーが一連のデコンボリューション層によるアップサンプリングを使用し得る。デコーダー２４０は、スタイル化された文字を出力する。一実施形態では、デコーダーは、出力されているスタイル化された文字のうちのいくつかの出力の選択を可能にするセレクターを含み得る。ランダム化ステッチャー２５０はデコーダー/セレクター２４０の出力を受け取り、選択されたスタイル化された文字のシーケンスをランダム化して、増強データセット２６０を出力する。ランダム化を用いることにより、筆跡認識モデルの訓練を改良する強化されたデータセットを生成することができる。

図３は、一実施形態による筆跡認識モデルを訓練するための増強データセットを他のものとの間で使用できるコンピューティングシステム３００のハイレベルブロック図である。システム３００は、図２の増強データセット生成器２００を含み得る。増強データセット生成器２００は筆跡認識システム４００と直接通信することができ、または有線もしくは無線ネットワーク、または一実施形態ではクラウドとされ得るネットワーク３２０を介して通信し得る。システム３００はまた、１つまたは複数のプロセッサ、１つまたは複数の記憶デバイス、および１つまたは複数のソリッドステートメモリシステム(記憶デバイスとは異なり、非一時的および一時的メモリの両方を含み得る)を含み得る処理システム３４０を含み得る。また、直接またはネットワーク３２０を介してアクセス可能な追加のストレージ３６０があってもよい。増強データセット生成器２００はストレージ３６０と直接通信し、またはネットワーク３２０を介して通信し得る。

一実施形態では、前述のように、ストレージ３６０はコンテンツエンコーダー２１０にコンテンツおよびフォントを提供し、および/またはスタイルエンコーダー２２０に画像およびスタイルを提供し得る。コンピューティングシステム３００、特に処理システム３４０は、スキャナ、カメラ、または他の撮像機器３４５などの外部手段によって、ストレージ３６０に記憶されるコンテンツおよびフォント、ならびに画像およびスタイルを取得し得る。一実施形態では、処理システム３４０は、増強データセット生成器２００に処理電力を提供し得る。代替的に、増強データセット生成器２００の様々な要素は、それら自体の処理ユニットを使用し得る。

ネットワーク３２０が通信のためのクラウドシステムである場合、コンピューティングシステム３００の１つまたは複数の部分は、他の部分から離れていてもよい。一実施形態では様々な要素が同一場所に配置される場合であっても、ネットワーク３２０はクラウドベースのシステムであり得る。

一実施形態では、筆跡認識システム４００は双方向ＬＳＴＭと連動した、畳み込みニューラルネットワーク（ＣＮＮ）に基づき得る。そのようなアーキテクチャーは、ＣＲＮＮとして当業者に知られている。一実施形態では、コネクショニスト時間分類（ＣＴＣ）損失が計算されて、ＣＲＮＮモデルを訓練するために使用され得る。当業者は、そのような構成が、対応するデコーダー構造をもたないエンコーダーを構成すると理解する。ＣＴＣ損失の計算は、当業者に周知である。さらなる実施形態では、筆跡認識システム４００は変換器ニューラルネットワーク（ｔｒａｎｓｆｏｒｍｅｒｎｅｕｒａｌｎｅｔｗｏｒｋ）と組み合わせたＣＮＮに基づき得る。当業者は、そのような構成が、エンコーダー－デコーダーの組合せを構成すると理解する。一実施形態では、前述したクロスエントロピー損失が計算されて、ＣＮＮ+変圧器モデルを訓練するために使用され得る。

本出願は、筆跡認識システム４００を実装するための、ならびに増強データセット生成器２００を実装するための、いくつかのニューラルネットワークベースのアーキテクチャーに言及する。当業者は増強データセット生成器２００と筆跡認識システム４００との組合せが、本発明の態様による有益な効果をもたらすことを理解するであろう。筆跡認識システム４００の訓練は、増強データセット生成器２００が生成するデータセットを使用して容易にできる。特定の用途に応じて、増強データセット生成器２００と筆跡認識システム４００とのこの組み合わせは、上述のニューラルネットワークベースのアーキテクチャーのより具体的なバージョンを当業者に知らせることができる。個人の個人的にセンシティブな情報、または自然源から得ることができる訓練データセットに含まれ得る他の機密情報を明らかにすることなく、筆跡認識システムにおいてより良好な結果をもたらすのは、組み合わせ自体である。

概して、本発明の態様による深層学習モデルは１つまたは複数の異なるタイプのニューラルネットワークが、場合によっては上述のものに加えて実装され得るが、上述のものは特に良好に、一緒に機能するように見える。上述のように、本発明の実施形態は、筆跡認識モデルに提供される訓練データの生成に着目している。

上記では本発明の態様による実施形態を説明したが、本発明はそれらの実施形態または態様に限定されると見なされるべきではない。当業者は、添付の特許請求の範囲の範囲および精神の範囲内で本発明の変形を理解するであろう。

Claims

コンピューターにより実行される方法であって、
ｉ）複数のテキスト文字からテキスト文字を選択し、
ｉｉ）フォントセットから複数のフォントを選択し、
ｉｉｉ）コンテンツ参照セットを生成するために、複数のフォントの各々におけるテキスト文字を生成し、
ｉｖ）画像セットから複数の画像を選択して、複数のスタイルから選択されたスタイルを有するスタイル参照セットを生成し、
ｖ）スタイルを複数のフォントのそれぞれにおけるテキスト文字に転移して、スタイル化された文字のセットを生成し、
ｖｉ）セットから複数のスタイル化された文字を選択し、
ｖｉｉ）複数のスタイル化された文字をランダムに配列して、増強データセットを形成し、
ｖｉｉｉ）増強データセットを訓練セットとして筆跡認識システムに適用すること、
を有する方法。
前記複数のテキスト文字の各々について、ｉ）～ｖｉｉｉ）を繰り返すことをさらに含む、請求項１に記載の、コンピューターにより実行される方法。
前記複数のスタイルの各々について、ｉ）～ｖｉｉｉ）を繰り返すことをさらに含む、請求項１に記載の、コンピューターにより実行される方法。
前記コンテンツ参照セットは、前記スタイル参照セットの前に生成される、請求項１～３のいずれか一項に記載の、コンピューターにより実行される方法。
前記スタイル参照セットは、前記コンテンツ参照セットの前に生成される、請求項１～３のいずれか一項に記載の、コンピューターにより実行される方法。
前記コンテンツ参照セットおよび前記スタイル参照セットのうちの少なくとも１つは、以前に生成された参照セットから選択される、請求項１～３のいずれか一項に記載の、コンピューターにより実行される方法。
回帰型ニューラルネットワーク（ＲＮＮ）または長期短期記憶（ＬＳＴＭ）モデルを有する言語モデルから前記テキスト文字を生成することをさらに含む、請求項１～３のいずれか一項に記載の、コンピューターにより実行される方法。
前記回帰型ニューラルネットワーク（ＲＮＮ）／長期短期記憶（ＬＳＴＭ）言語モデル（ＬＭ）は、クロスエントロピー損失計算を使用して重みを更新することによって訓練される、請求項７に記載の、コンピューターにより実行される方法。
さらに、ｉｘ）筆跡を認識するために前記筆跡認識システムを使用し、前記筆跡認識システムは、双方向ＬＳＴＭ（ＣＲＮＮ）と組み合わされた畳み込みニューラルネットワーク（ＣＮＮ）と、変換器ニューラルネットワークと組み合わせたＣＮＮと、からなる群から選択されるニューラルネットワークベースのシステムを使用する、請求項１～３のいずれか一項に記載の、コンピューターにより実行される方法。
前記筆跡認識システムは、クロスエントロピー損失およびコネクショニスト時間分類（ＣＴＣ）損失からなる群から選択される損失計算を使用して重みを更新することによって訓練される、請求項９に記載の、コンピューターによる実行される方法。
装置であって、
増強データセットを生成するための、ニューラルネットワークベースの増強データセット生成器を有し、
増強データセット生成器は、
複数のテキスト文字から選択されたテキスト文字を有するコンテンツ参照セットを生成するためのコンテンツエンコーダーであって、テキスト文字は、複数のフォントの各々において生成される、コンテンツエンコーダーと、
複数のスタイルから選択されたスタイルで表されたテキスト文字を有する複数の画像を有するスタイル参照セットを生成するためのスタイルエンコーダーと、
スタイルを複数のフォントのそれぞれのテキスト文字に転移して、スタイル化された文字のセットを生成するミキサーと、
セットから複数のスタイル化された文字を選択するセレクターと、
複数のスタイル化された文字をランダムに配列して、増強データセットを生成するランダム化ステッチャーと、を有し、
増強データセット生成器から増強データセットを訓練セットとして受け取って、筆跡を認識するためのニューラルネットワークベースの筆跡認識システムをさらに備える装置。
前記増強データセット生成器は、前記複数のテキスト文字の各々に対して、複数の増強データセットを生成する、請求項１１に記載の装置。
前記増強データセット生成器は、前記複数のスタイルの各々に対して複数の増強データセットを生成する、請求項１１に記載の装置。
前記増強データセット生成器は前記テキスト文字を生成するために、回帰型ニューラルネットワーク（ＲＮＮ）または長期短期記憶（ＬＳＴＭ）モデルが実装される言語モデルを備える、請求項１１から１３のいずれか一項に記載の装置。
回帰型ニューラルネットワーク（ＲＮＮ）／長期短期記憶言語（ＬＳＴＭＬＭ）モデルは、クロスエントロピー損失計算を使用して重みを更新することによって訓練される、請求項１４に記載の装置。
筆跡認識システムは、双方向ＬＳＴＭと組み合わされた畳み込みニューラルネットワーク（ＣＮＮ）（ＣＲＮＮ）と、変換器ニューラルネットワークと組み合わせたＣＮＮ（ＣＮＮ＋変換器）とからなる群から選択されるニューラルネットワークベースのモデルを有する、請求項１１から１３のいずれか一項に記載の装置。
ＣＲＮＮは、コネクショニスト時間分類（ＣＴＣ）損失計算を使用して訓練される、請求項１１から１３のいずれか一項に記載の装置。
ＣＮＮ＋変換器は、クロスエントロピー損失計算を使用して訓練される、請求項１１～１３のいずれか一項に記載の装置。
前記ミキサーは、コンテンツ参照セットとスタイル参照セットとをマッピングして、スタイル化された文字セットを生成するバイリニアモデルを有する、請求項１１～１３のいずれか一項に記載の装置。
コンテンツ参照セットを生成するために使用される複数のテキスト文字の一部または全部、および／または前記スタイル参照セットを生成するために使用される複数の画像の一部または全部を提供する撮像装置をさらに備える、請求項１１から１３のいずれか一項に記載の装置。