JP7449332B2 - コンテンツアウェアおよびスタイルアウェアデータを増強することによる筆跡認識方法および装置 - Google Patents
コンテンツアウェアおよびスタイルアウェアデータを増強することによる筆跡認識方法および装置 Download PDFInfo
- Publication number
- JP7449332B2 JP7449332B2 JP2022094191A JP2022094191A JP7449332B2 JP 7449332 B2 JP7449332 B2 JP 7449332B2 JP 2022094191 A JP2022094191 A JP 2022094191A JP 2022094191 A JP2022094191 A JP 2022094191A JP 7449332 B2 JP7449332 B2 JP 7449332B2
- Authority
- JP
- Japan
- Prior art keywords
- style
- characters
- neural network
- reference set
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003190 augmentative effect Effects 0.000 title claims description 45
- 238000000034 method Methods 0.000 title claims description 28
- 238000012549 training Methods 0.000 claims description 26
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 238000012546 transfer Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 102100032202 Cornulin Human genes 0.000 claims description 8
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims description 8
- 230000000306 recurrent effect Effects 0.000 claims description 7
- 230000006403 short-term memory Effects 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000003384 imaging method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000007774 longterm Effects 0.000 claims 1
- 238000009826 distribution Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000003860 storage Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 6
- 238000013526 transfer learning Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000003416 augmentation Effects 0.000 description 3
- 238000013434 data augmentation Methods 0.000 description 3
- 239000010410 layer Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/36—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Description
本発明の態様は筆跡認識に関し、特に、筆跡認識システムを訓練するためのデータセットの増強に関する。
筆跡認識における多くの課題の1つは、異なる筆跡スタイルを補償する必要があることである。同じ個人であっても、年をとるにつれて、異なる筆跡を有する可能性がある。同じ個人の筆跡は、異なる表面上において、またはその個人が異なる筆記具を使用する場合、またはその個人が狭いスペースで書くことを強いられる場合(例えば、そのフィールド内に非常に少ないスペースを提供するフォームに記入する)に、異なる可能性がある。
前述のことに対処するために、本発明の態様は、増強データ(augmented data)を生成するために、スタイル(style)およびコンテンツ(content)の両方において顧客のデータと同様の訓練データを合成できるデータ増強技術を提供する。スタイルの類似性は、概念ドリフトを減少させ、P(x|y)を、顧客データの条件付き確率と同じか、ほぼ同じに保つ。コンテンツの関連性は事前ドリフトを低減し、P(y)を、顧客データの事前確率と同じまたはほぼ同じに保つ。
次に、添付の図面に示される実施形態を参照して、本発明の態様を説明する。
本発明の実施形態は、以下を有するコンピューターによる実行方法を提供し得る。
フォントセットからの複数のフォントを選択し、
コンテンツ参照セットを生成するために、複数のフォントの各々におけるテキスト文字を生成し、
画像セットから複数の画像を選択して、複数のスタイルから選択されたスタイルを有するスタイル参照セットを生成し、
スタイルを複数のフォントのそれぞれにおけるテキスト文字に転移して、スタイル化された文字のセットを生成し、
セットから複数のスタイル化された文字を選択し、
複数のスタイル化された文字をランダムに配列して、増強データセットを形成し、
増強データセットを訓練セットとして筆跡認識システムに適用する
実施形態においては、挙げられたアクションが複数のテキスト文字の各々について、または複数のスタイルの各々について繰り返され得る。
複数のテキスト文字から選択されたテキスト文字を有するコンテンツ参照セットを生成するためのコンテンツエンコーダーであって、テキスト文字は、複数のフォントの各々において生成される、コンテンツエンコーダーと、
複数のスタイルから選択されたスタイルで表されたテキスト文字を有する複数の画像を有するスタイル参照セットを生成するためのスタイルエンコーダーと、
スタイルを複数のフォントのそれぞれのテキスト文字に転移して、スタイル化された文字のセットを生成するミキサーと、
セットから複数のスタイル化された文字を選択するセレクターと、
複数のスタイル化された文字をランダムに配列して、増強データセットを生成するランダム化ステッチャーと、を有し、
一実施形態では、装置が増強データセット生成器から増強データセットを訓練セットとして受け取って、筆跡を認識するためのニューラルネットワークベースの筆跡認識システムをさらに備えることができる。
Claims (20)
- コンピューターにより実行される方法であって、
i)複数のテキスト文字からテキスト文字を選択し、
ii)フォントセットから複数のフォントを選択し、
iii)コンテンツ参照セットを生成するために、複数のフォントの各々におけるテキスト文字を生成し、
iv)画像セットから複数の画像を選択して、複数のスタイルから選択されたスタイルを有するスタイル参照セットを生成し、
v)スタイルを複数のフォントのそれぞれにおけるテキスト文字に転移して、スタイル化された文字のセットを生成し、
vi)セットから複数のスタイル化された文字を選択し、
vii)複数のスタイル化された文字をランダムに配列して、増強データセットを形成し、
viii)増強データセットを訓練セットとして筆跡認識システムに適用すること、
を有する方法。 - 前記複数のテキスト文字の各々について、i)~viii)を繰り返すことをさらに含む、請求項1に記載の、コンピューターにより実行される方法。
- 前記複数のスタイルの各々について、i)~viii)を繰り返すことをさらに含む、請求項1に記載の、コンピューターにより実行される方法。
- 前記コンテンツ参照セットは、前記スタイル参照セットの前に生成される、請求項1~3のいずれか一項に記載の、コンピューターにより実行される方法。
- 前記スタイル参照セットは、前記コンテンツ参照セットの前に生成される、請求項1~3のいずれか一項に記載の、コンピューターにより実行される方法。
- 前記コンテンツ参照セットおよび前記スタイル参照セットのうちの少なくとも1つは、以前に生成された参照セットから選択される、請求項1~3のいずれか一項に記載の、コンピューターにより実行される方法。
- 回帰型ニューラルネットワーク(RNN)または長期短期記憶(LSTM)モデルを有する言語モデルから前記テキスト文字を生成することをさらに含む、請求項1~3のいずれか一項に記載の、コンピューターにより実行される方法。
- 前記回帰型ニューラルネットワーク(RNN)/長期短期記憶(LSTM) 言語モデル(LM)は、クロスエントロピー損失計算を使用して重みを更新することによって訓練される、請求項7に記載の、コンピューターにより実行される方法。
- さらに、ix)筆跡を認識するために前記筆跡認識システムを使用し、前記筆跡認識システムは、双方向LSTM(CRNN)と組み合わされた畳み込みニューラルネットワーク(CNN)と、変換器ニューラルネットワークと組み合わせたCNNと、からなる群から選択されるニューラルネットワークベースのシステムを使用する、請求項1~3のいずれか一項に記載の、コンピューターにより実行される方法。
- 前記筆跡認識システムは、クロスエントロピー損失およびコネクショニスト時間分類(CTC)損失からなる群から選択される損失計算を使用して重みを更新することによって訓練される、請求項9に記載の、コンピューターによる実行される方法。
- 装置であって、
増強データセットを生成するための、ニューラルネットワークベースの増強データセット生成器を有し、
増強データセット生成器は、
複数のテキスト文字から選択されたテキスト文字を有するコンテンツ参照セットを生成するためのコンテンツエンコーダーであって、テキスト文字は、複数のフォントの各々において生成される、コンテンツエンコーダーと、
複数のスタイルから選択されたスタイルで表されたテキスト文字を有する複数の画像を有するスタイル参照セットを生成するためのスタイルエンコーダーと、
スタイルを複数のフォントのそれぞれのテキスト文字に転移して、スタイル化された文字のセットを生成するミキサーと、
セットから複数のスタイル化された文字を選択するセレクターと、
複数のスタイル化された文字をランダムに配列して、増強データセットを生成するランダム化ステッチャーと、を有し、
増強データセット生成器から増強データセットを訓練セットとして受け取って、筆跡を認識するためのニューラルネットワークベースの筆跡認識システムをさらに備える装置。 - 前記増強データセット生成器は、前記複数のテキスト文字の各々に対して、複数の増強データセットを生成する、請求項11に記載の装置。
- 前記増強データセット生成器は、前記複数のスタイルの各々に対して複数の増強データセットを生成する、請求項11に記載の装置。
- 前記増強データセット生成器は前記テキスト文字を生成するために、回帰型ニューラルネットワーク(RNN)または長期短期記憶(LSTM)モデルが実装される言語モデルを備える、請求項11から13のいずれか一項に記載の装置。
- 回帰型ニューラルネットワーク(RNN)/長期短期記憶言語(LSTM LM)モデルは、クロスエントロピー損失計算を使用して重みを更新することによって訓練される、請求項14に記載の装置。
- 筆跡認識システムは、双方向LSTMと組み合わされた畳み込みニューラルネットワーク(CNN)(CRNN)と、変換器ニューラルネットワークと組み合わせたCNN(CNN+変換器)とからなる群から選択されるニューラルネットワークベースのモデルを有する、請求項11から13のいずれか一項に記載の装置。
- CRNNは、コネクショニスト時間分類(CTC)損失計算を使用して訓練される、請求項11から13のいずれか一項に記載の装置。
- CNN+変換器は、クロスエントロピー損失計算を使用して訓練される、請求項11~13のいずれか一項に記載の装置。
- 前記ミキサーは、コンテンツ参照セットとスタイル参照セットとをマッピングして、スタイル化された文字セットを生成するバイリニアモデルを有する、請求項11~13のいずれか一項に記載の装置。
- コンテンツ参照セットを生成するために使用される複数のテキスト文字の一部または全部、および/または前記スタイル参照セットを生成するために使用される複数の画像の一部または全部を提供する撮像装置をさらに備える、請求項11から13のいずれか一項に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/364,641 US20230004741A1 (en) | 2021-06-30 | 2021-06-30 | Handwriting recognition method and apparatus employing content aware and style aware data augmentation |
US17/364,641 | 2021-06-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023007432A JP2023007432A (ja) | 2023-01-18 |
JP7449332B2 true JP7449332B2 (ja) | 2024-03-13 |
Family
ID=84786138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022094191A Active JP7449332B2 (ja) | 2021-06-30 | 2022-06-10 | コンテンツアウェアおよびスタイルアウェアデータを増強することによる筆跡認識方法および装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20230004741A1 (ja) |
JP (1) | JP7449332B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116756588B (zh) * | 2023-08-14 | 2023-10-20 | 北京点聚信息技术有限公司 | 一种同屏手写输入的智能匹配方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002259981A (ja) | 2001-02-28 | 2002-09-13 | Matsushita Electric Ind Co Ltd | 個人認証方法および装置 |
CN110866501A (zh) | 2019-11-19 | 2020-03-06 | 中国建设银行股份有限公司 | 一种训练数据生成方法、数据识别方法和计算机存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10318889B2 (en) * | 2017-06-26 | 2019-06-11 | Konica Minolta Laboratory U.S.A., Inc. | Targeted data augmentation using neural style transfer |
CN111783760B (zh) * | 2020-06-30 | 2023-08-08 | 北京百度网讯科技有限公司 | 文字识别的方法、装置、电子设备及计算机可读存储介质 |
CN112633423B (zh) * | 2021-03-10 | 2021-06-22 | 北京易真学思教育科技有限公司 | 文本识别模型的训练方法、文本识别方法、装置及设备 |
-
2021
- 2021-06-30 US US17/364,641 patent/US20230004741A1/en active Pending
-
2022
- 2022-06-10 JP JP2022094191A patent/JP7449332B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002259981A (ja) | 2001-02-28 | 2002-09-13 | Matsushita Electric Ind Co Ltd | 個人認証方法および装置 |
CN110866501A (zh) | 2019-11-19 | 2020-03-06 | 中国建设银行股份有限公司 | 一种训练数据生成方法、数据识别方法和计算机存储介质 |
Non-Patent Citations (2)
Title |
---|
個性を持った文字フォントシステム,電子情報通信学会技術研究報告 Vol.118 No.494,2019年03月06日 |
古代文字フォントの画像データに基づく手書き篆文文字の検索支援,人文科学とコンピュータシンポジウム 2017,2017年12月02日 |
Also Published As
Publication number | Publication date |
---|---|
US20230004741A1 (en) | 2023-01-05 |
JP2023007432A (ja) | 2023-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lopes et al. | A learned representation for scalable vector graphics | |
Kang et al. | GANwriting: content-conditioned generation of styled handwritten word images | |
CN111191078B (zh) | 基于视频信息处理模型的视频信息处理方法及装置 | |
US11899927B2 (en) | Simulated handwriting image generator | |
US10706351B2 (en) | Recurrent encoder and decoder | |
US20190325308A1 (en) | Multi-task learning using knowledge distillation | |
JP2020017274A (ja) | ニューラルネットワークを使用するエンドツーエンド手書きテキスト認識のためのシステムおよび方法 | |
US11741190B2 (en) | Multi-dimensional language style transfer | |
US10963647B2 (en) | Predicting probability of occurrence of a string using sequence of vectors | |
KR102258003B1 (ko) | 글자 인식 모델을 활용하여 이미지 번역 서비스를 제공하기 위한 방법 및 서버 | |
CN111611805A (zh) | 一种基于图像的辅助写作方法、装置、介质及设备 | |
JP2022128441A (ja) | 弱教師ありマルチ報酬強化学習を使用した文章分類のためのテキストデータの増強 | |
JP7449332B2 (ja) | コンテンツアウェアおよびスタイルアウェアデータを増強することによる筆跡認識方法および装置 | |
Mayr et al. | Spatio-temporal handwriting imitation | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 | |
Wang et al. | Affganwriting: a handwriting image generation method based on multi-feature fusion | |
WO2023091226A1 (en) | Language-model pretraining with gradient-disentangled embedding sharing | |
Sinha et al. | Unsupervised OCR model evaluation using GAN | |
Zhang et al. | Byte-level recursive convolutional auto-encoder for text | |
Zhang et al. | A rapid combined model for automatic generating web UI codes | |
CN113591493A (zh) | 翻译模型的训练方法及翻译模型的装置 | |
SureshKumar et al. | Ai based ui development using deep neural networks (ai-ui) | |
Zhang et al. | Chaco: character contrastive learning for handwritten text recognition | |
Rodrigues et al. | Tulu Language Text Recognition and Translation | |
Diesbach et al. | Generating synthetic styled Chu nom characters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231024 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240227 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7449332 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |