JP2020173669A - Image recognition device, image recognition method, image recognition program, and image recognition system - Google Patents

Image recognition device, image recognition method, image recognition program, and image recognition system Download PDF

Info

Publication number
JP2020173669A
JP2020173669A JP2019075833A JP2019075833A JP2020173669A JP 2020173669 A JP2020173669 A JP 2020173669A JP 2019075833 A JP2019075833 A JP 2019075833A JP 2019075833 A JP2019075833 A JP 2019075833A JP 2020173669 A JP2020173669 A JP 2020173669A
Authority
JP
Japan
Prior art keywords
character string
image recognition
image
model
delimiter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019075833A
Other languages
Japanese (ja)
Other versions
JP6868052B2 (en
Inventor
牧 劉
Mu Ryu
牧 劉
岡本 康宏
Yasuhiro Okamoto
康宏 岡本
大柱 金
Daeju Kim
大柱 金
山田 聡
Satoshi Yamada
聡 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoftBank Corp
Original Assignee
SoftBank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Corp filed Critical SoftBank Corp
Priority to JP2019075833A priority Critical patent/JP6868052B2/en
Publication of JP2020173669A publication Critical patent/JP2020173669A/en
Application granted granted Critical
Publication of JP6868052B2 publication Critical patent/JP6868052B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

To provide an image recognition device, an image recognition method, and an image recognition program capable of properly recognizing a character and a numeral described in a non-standard form.SOLUTION: An image recognition device 10 includes: an acquisition unit 11 for acquiring an image having a photographed character string; a dividing unit 12 for dividing the image into a plurality of partial images; a calculation unit 13 for calculating information indicating a break of the character string for each of the plurality of partial images by using a first model 15b for extracting a feature quantity from each of the plurality of partial images, and a second model 15c for successively converting the feature quantities into information indicating the breaks of the character string; and an output unit 14 for outputting the information indicating the breaks of the character string.SELECTED DRAWING: Figure 7

Description

本発明は、画像認識装置、画像認識方法、画像認識プログラム及び画像認識システムに関する。 The present invention relates to an image recognition device, an image recognition method, an image recognition program, and an image recognition system.

従来、OCR(Optical Character Recognition)技術を用いて、画像に写された文字や数字を認識する画像認識装置が用いられている。 Conventionally, an image recognition device that recognizes characters and numbers transferred to an image by using OCR (Optical Character Recognition) technology has been used.

例えば、下記特許文献1には、対象画像から文字情報を抽出し、文字情報の対象画像中の位置に基づいて、その文字情報と対をなす文字情報とを紐づけする画像分析装置が記載されている。 For example, Patent Document 1 below describes an image analyzer that extracts character information from a target image and associates the character information with paired character information based on the position of the character information in the target image. ing.

また、下記非特許文献1には、日本語の手書き文字について、複数の手法を用いて文字列のセグメンテーションを行った研究が記載されている。 Further, Non-Patent Document 1 below describes a study in which Japanese handwritten characters are segmented by using a plurality of methods.

特開2018−92459号公報JP-A-2018-92459

Kha Cong Nguyen and Nakagawa Masaki, "Text-Line and Character Segmentation for Off-line Recognition of Handwritten Japanese Text", 信学技報, vol. 115, no. 517, PRMU2015-173, pp. 53-58, 2016年3月Kha Cong Nguyen and Nakagawa Masaki, "Text-Line and Character Segmentation for Off-line Recognition of Handwritten Japanese Text", Shingaku Giho, vol. 115, no. 517, PRMU2015-173, pp. 53-58, 2016 March

例えば特許文献1に記載の技術では、画像のうち罫線で囲まれた領域を検出し、当該領域に記載された文字を認識している。また、非特許文献1に記載の技術では、手書きの漢字、平仮名及びカタカナについてセグメンテーションが試みられている。しかしながら、例えば「川」や「ル」のように2以上に分離可能な要素で構成される文字の場合、適切にセグメンテーションすることが困難だった。 For example, in the technique described in Patent Document 1, a region surrounded by a ruled line in an image is detected, and characters described in the region are recognized. Further, in the technique described in Non-Patent Document 1, segmentation is attempted for handwritten Chinese characters, hiragana and katakana. However, in the case of a character composed of two or more separable elements such as "river" and "le", it is difficult to properly segment.

そこで、本発明は、2以上に分離可能な要素で構成される文字を含む場合であっても、文字列のセグメンテーションを適切に行うことができる画像認識装置、画像認識方法、画像認識プログラム及び画像認識システムを提供する。 Therefore, the present invention includes an image recognition device, an image recognition method, an image recognition program, and an image capable of appropriately performing segmentation of a character string even when a character composed of two or more separable elements is included. Provide a recognition system.

本発明の一態様に係る画像認識装置は、文字列が写された画像を取得する取得部と、画像を複数の部分画像に分割する分割部と、複数の部分画像それぞれから特徴量を抽出する第1モデル及び特徴量を文字列の区切りを表す情報に順次変換する第2モデルを用いて、複数の部分画像それぞれについて文字列の区切りを表す情報を算出する算出部と、文字列の区切りを表す情報を出力する出力部と、を備える。 The image recognition device according to one aspect of the present invention extracts a feature amount from each of an acquisition unit that acquires an image on which a character string is copied, a division unit that divides the image into a plurality of partial images, and a plurality of partial images. Using the first model and the second model that sequentially converts the feature amount into the information representing the character string delimiter, the calculation unit that calculates the information representing the character string delimiter for each of the plurality of subimages and the character string delimiter are separated. It includes an output unit that outputs information to be represented.

この態様によれば、画像を複数の部分画像に分割し、第1モデルによって複数の部分画像の特徴を捉え、第2モデルによって特徴量を文字列の区切りを表す情報に変換することで、画像に写された文字列が2以上に分離可能な要素で構成される場合であっても、文字列のセグメンテーションを適切に行うことができる。 According to this aspect, the image is divided into a plurality of partial images, the features of the plurality of partial images are captured by the first model, and the feature amount is converted into information representing a character string delimiter by the second model. Even when the character string copied to is composed of two or more separable elements, the segmentation of the character string can be appropriately performed.

上記態様において、文字列の区切りを表す情報は、部分画像が文字列の区切りに対応するか否かを表す2値情報であってもよい。 In the above aspect, the information representing the character string delimiter may be binary information indicating whether or not the partial image corresponds to the character string delimiter.

この態様によれば、2値情報に従って、画像を文字列の区切りに対応する領域と、文字列の区切りに対応しない領域とに分けることができ、文字列のセグメンテーションを適切に行うことができる。 According to this aspect, the image can be divided into an area corresponding to the character string delimiter and an area not corresponding to the character string delimiter according to the binary information, and the character string segmentation can be appropriately performed.

上記態様において、第1モデルは、複数の部分画像それぞれから特徴量として特徴マップを算出するCNN(Convolutional Neural Network)であり、第2モデルは、特徴マップを2値情報に順次変換するRNN(Recurrent Neural Network)であってもよい。 In the above aspect, the first model is a CNN (Convolutional Neural Network) that calculates a feature map as a feature amount from each of a plurality of partial images, and the second model is an RNN (Recurrent) that sequentially converts the feature map into binary information. Neural Network) may be used.

この態様によれば、CNNによって算出される複数の部分画像の特徴マップによって、複数の部分画像の特徴を適切に捉え、RNNによって特徴マップの前後関係を考慮しつつ、特徴マップを文字列の区切りを表す情報に変換することができ、文字列のセグメンテーションをより適切に行うことができる。 According to this aspect, the features of the plurality of partial images are appropriately captured by the feature maps of the plurality of partial images calculated by the CNN, and the feature map is separated into character strings while considering the context of the feature map by the RNN. It can be converted into information representing, and the segmentation of the character string can be performed more appropriately.

上記態様において、文字列が写された学習用画像に対して、文字列の区切りを表す情報が関連付けられた学習データを記憶する記憶部と、学習データを用いて、第1モデル及び第2モデルを生成する生成部と、をさらに備えてもよい。 In the above aspect, the first model and the second model are used by using the learning data and the storage unit that stores the learning data in which the information indicating the character string delimiter is associated with the learning image on which the character string is copied. It may further include a generation unit for generating the above.

この態様によれば、学習用画像に対して、文字列の区切りを表す情報が関連付けられた学習データが与えられた場合に、画像に写された文字列の区切りを表す情報を適切に算出することができる第1モデル及び第2モデルを生成することができる。 According to this aspect, when the learning data associated with the information representing the character string delimiter is given to the learning image, the information representing the character string delimiter copied in the image is appropriately calculated. It is possible to generate a first model and a second model that can be generated.

上記態様において、生成部は、CTC(Connectionist Temporal Classification)損失関数を最小化するように、第1モデル及び第2モデルを生成してもよい。 In the above aspect, the generator may generate the first model and the second model so as to minimize the CTC (Connectionist Temporal Classification) loss function.

この態様によれば、任意の文字間隔と大きさで記載された文字列について、文字列のセグメンテーションを適切に行う第1モデル及び第2モデルを生成することができる。 According to this aspect, it is possible to generate a first model and a second model for appropriately performing character string segmentation for a character string described with an arbitrary character spacing and size.

本発明の他の態様に係る画像認識方法は、画像認識装置に、文字列が写された画像を取得することと、画像を複数の部分画像に分割することと、複数の部分画像それぞれから特徴量を抽出する第1モデル及び特徴量を文字列の区切りを表す情報に順次変換する第2モデルを用いて、複数の部分画像それぞれについて文字列の区切りを表す情報を算出することと、文字列の区切りを表す情報を出力することと、を実行させる。 The image recognition method according to another aspect of the present invention is characterized by acquiring an image on which a character string is copied on an image recognition device, dividing the image into a plurality of partial images, and each of the plurality of partial images. Using the first model for extracting quantities and the second model for sequentially converting feature quantities into information representing character string delimiters, calculating information representing character string delimiters for each of a plurality of subimages and character strings Output the information that represents the delimiter of, and execute.

この態様によれば、画像を複数の部分画像に分割し、第1モデルによって複数の部分画像の特徴を捉え、第2モデルによって特徴量を文字列の区切りを表す情報に変換することで、画像に写された文字列が2以上に分離可能な要素で構成される場合であっても、文字列のセグメンテーションを適切に行うことができる。 According to this aspect, the image is divided into a plurality of partial images, the features of the plurality of partial images are captured by the first model, and the feature amount is converted into information representing a character string delimiter by the second model. Even when the character string copied to is composed of two or more separable elements, the segmentation of the character string can be appropriately performed.

本発明の他の態様に係る画像認識プログラムは、画像認識装置に、文字列が写された画像を取得することと、画像を複数の部分画像に分割することと、複数の部分画像それぞれから特徴量を抽出する第1モデル及び特徴量を文字列の区切りを表す情報に順次変換する第2モデルを用いて、複数の部分画像それぞれについて文字列の区切りを表す情報を算出することと、文字列の区切りを表す情報を出力することと、を実行させる画像認識プログラム。 The image recognition program according to another aspect of the present invention is characterized by acquiring an image in which a character string is copied on an image recognition device, dividing the image into a plurality of partial images, and each of the plurality of partial images. Using the first model for extracting quantities and the second model for sequentially converting feature quantities into information representing character string delimiters, calculating information representing character string delimiters for each of a plurality of partial images and character strings An image recognition program that outputs information that represents the delimiter of and executes.

この態様によれば、画像を複数の部分画像に分割し、第1モデルによって複数の部分画像の特徴を捉え、第2モデルによって特徴量を文字列の区切りを表す情報に変換することで、画像に写された文字列が2以上に分離可能な要素で構成される場合であっても、文字列のセグメンテーションを適切に行うことができる。 According to this aspect, the image is divided into a plurality of partial images, the features of the plurality of partial images are captured by the first model, and the feature amount is converted into information representing a character string delimiter by the second model. Even when the character string copied to is composed of two or more separable elements, the segmentation of the character string can be appropriately performed.

本発明の他の態様に係る画像認識システムは、画像認識装置と、ユーザ端末とを備える画像認識システムであって、画像認識装置は、ユーザ端末から、文字列が写された画像を取得する取得部と、画像を複数の部分画像に分割する分割部と、複数の部分画像それぞれから特徴量を抽出する第1モデル及び特徴量を文字列の区切りを表す情報に順次変換する第2モデルを用いて、複数の部分画像それぞれについて文字列の区切りを表す情報を算出する算出部と、文字列の区切りを表す情報をユーザ端末に出力する出力部と、を有する。 The image recognition system according to another aspect of the present invention is an image recognition system including an image recognition device and a user terminal, and the image recognition device acquires an image in which a character string is copied from the user terminal. A part, a division part that divides an image into a plurality of partial images, a first model that extracts a feature amount from each of the plurality of partial images, and a second model that sequentially converts the feature amount into information representing a character string delimiter are used. It has a calculation unit that calculates information representing a character string delimiter for each of the plurality of partial images, and an output unit that outputs information representing the character string delimiter to the user terminal.

この態様によれば、画像を複数の部分画像に分割し、第1モデルによって複数の部分画像の特徴を捉え、第2モデルによって特徴量を文字列の区切りを表す情報に変換することで、画像に写された文字列が2以上に分離可能な要素で構成される場合であっても、文字列のセグメンテーションを適切に行うことができる。 According to this aspect, the image is divided into a plurality of partial images, the features of the plurality of partial images are captured by the first model, and the feature amount is converted into information representing a character string delimiter by the second model. Even when the character string copied to is composed of two or more separable elements, the segmentation of the character string can be appropriately performed.

本発明によれば、2以上に分離可能な要素で構成される文字を含む場合であっても、文字列のセグメンテーションを適切に行うことができる画像認識装置、画像認識方法、画像認識プログラム及び画像認識システムを提供することができる。 According to the present invention, an image recognition device, an image recognition method, an image recognition program, and an image capable of appropriately performing segmentation of a character string even when a character composed of two or more separable elements is included. A recognition system can be provided.

本発明の実施形態に係る画像認識システムのネットワーク構成を示す図である。It is a figure which shows the network structure of the image recognition system which concerns on embodiment of this invention. 本実施形態に係る画像認識装置の機能ブロックを示す図である。It is a figure which shows the functional block of the image recognition apparatus which concerns on this embodiment. 本実施形態に係る画像認識装置の物理的構成を示す図である。It is a figure which shows the physical structure of the image recognition apparatus which concerns on this embodiment. 本実施形態に係る画像認識装置により取得される画像の一例を示す図である。It is a figure which shows an example of the image acquired by the image recognition apparatus which concerns on this embodiment. 本実施形態に係る画像認識装置により分割された部分画像の一例を示す図である。It is a figure which shows an example of the partial image divided by the image recognition apparatus which concerns on this embodiment. 本実施形態に係る画像認識装置により用いられる第1モデル及び第2モデルの概念図である。It is a conceptual diagram of the 1st model and the 2nd model used by the image recognition apparatus which concerns on this embodiment. 本実施形態に係る画像認識装置により算出された文字列の区切りの一例を示す図である。It is a figure which shows an example of the delimiter of the character string calculated by the image recognition apparatus which concerns on this embodiment. 本実施形態に係る画像認識装置により実行されるセグメンテーション処理のフローチャートである。It is a flowchart of the segmentation processing executed by the image recognition apparatus which concerns on this embodiment. 本実施形態に係る画像認識装置により実行される学習処理のフローチャートである。It is a flowchart of the learning process executed by the image recognition apparatus which concerns on this embodiment.

添付図面を参照して、本発明の実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。 Embodiments of the present invention will be described with reference to the accompanying drawings. In each figure, those having the same reference numerals have the same or similar configurations.

図1は、本発明の実施形態に係る画像認識システム100のネットワーク構成を示す図である。画像認識システム100は、画像認識装置10及びユーザ端末20を備える。画像認識装置10は、通信ネットワークNを介してユーザ端末20から画像を受信して、画像に写された文字列のセグメンテーションを行う。ここで、文字列のセグメンテーションとは、文字列を一文字ずつに区切る処理をいう。本実施形態では、画像認識装置10によって、カタカナで記載された文字列のセグメンテーションを行う例について説明する。もっとも、画像認識装置10は、漢字や平仮名、数字のセグメンテーションを行うこともできるし、漢字、平仮名及びカタカナが混合した文字列のセグメンテーションを行うこともできる。また、英文字や他の言語の文字を含む文字列についてセグメンテーションを行うこともできる。 FIG. 1 is a diagram showing a network configuration of an image recognition system 100 according to an embodiment of the present invention. The image recognition system 100 includes an image recognition device 10 and a user terminal 20. The image recognition device 10 receives an image from the user terminal 20 via the communication network N, and performs segmentation of the character string copied on the image. Here, the segmentation of a character string means a process of dividing a character string into characters one by one. In the present embodiment, an example in which the image recognition device 10 performs segmentation of the character string described in katakana will be described. However, the image recognition device 10 can perform segmentation of kanji, hiragana, and numbers, and can also perform segmentation of a character string in which kanji, hiragana, and katakana are mixed. It is also possible to perform segmentation on character strings that include English characters and characters in other languages.

ユーザ端末20は、汎用のコンピュータであり、例えばカメラ付きスマートフォンで構成されてよい。ユーザ端末20は、画像認識アプリケーションを実行し、文字列の画像を撮影して、通信ネットワークNを介して画像を画像認識装置10に送信し、文字列のセグメンテーション結果を画像認識装置10から受信する。なお、画像認識システム100は、セグメンテーション処理がされた文字列の画像に基づいて、OCR(Optical Character Recognition)を行うOCR装置を含んでもよい。その場合、文字列を撮影した画像がユーザ端末20から画像認識装置10に送信され、セグメンテーション処理された文字列の画像が画像認識装置10からOCR装置に送信され、OCR装置によって画像に写された文字列の認識が行われて、認識結果がOCR装置からユーザ端末20に送信されてよい。 The user terminal 20 is a general-purpose computer, and may be configured by, for example, a smartphone with a camera. The user terminal 20 executes an image recognition application, captures an image of a character string, transmits the image to the image recognition device 10 via the communication network N, and receives the segmentation result of the character string from the image recognition device 10. .. The image recognition system 100 may include an OCR device that performs OCR (Optical Character Recognition) based on an image of a character string that has undergone segmentation processing. In that case, the captured image of the character string is transmitted from the user terminal 20 to the image recognition device 10, the image of the segmented character string is transmitted from the image recognition device 10 to the OCR device, and is copied to the image by the OCR device. The character string may be recognized, and the recognition result may be transmitted from the OCR device to the user terminal 20.

図2は、本実施形態に係る画像認識装置10の機能ブロックを示す図である。画像認識装置10は、取得部11、分割部12、算出部13、出力部14、記憶部15及び生成部16を備える。 FIG. 2 is a diagram showing a functional block of the image recognition device 10 according to the present embodiment. The image recognition device 10 includes an acquisition unit 11, a division unit 12, a calculation unit 13, an output unit 14, a storage unit 15, and a generation unit 16.

取得部11は、ユーザ端末20から画像を取得する。取得部11は、画像とあわせて、当該画像に関連付けられた検収に関する情報を取得してもよい。 The acquisition unit 11 acquires an image from the user terminal 20. The acquisition unit 11 may acquire information on acceptance inspection associated with the image together with the image.

分割部12は、取得した画像を複数の部分画像に分割する。分割部12は、文字列が写された矩形の画像を、複数の矩形の部分画像に分割してよい。ここで、部分画像の形状は、文字列が並ぶ方向の辺の長さが、文字列が並ぶ方向に直交する方向の辺の長さより短い矩形であってよい。例えば、文字列が水平方向に一列並んでいる画像の大きさが幅Aピクセル×高さBピクセルである場合、分割部12は、画像を幅A/Nピクセル×高さBピクセルの複数の部分画像に分割してよい。ここで、Nは、A以上の数値である。なお、A/Nが割り切れない場合、部分画像の幅は、A/Nを四捨五入した値であったり、A/Nを繰り上げた値であったりしてよい。 The dividing unit 12 divides the acquired image into a plurality of partial images. The dividing unit 12 may divide the rectangular image on which the character string is copied into a plurality of rectangular partial images. Here, the shape of the partial image may be a rectangle in which the length of the side in the direction in which the character strings are arranged is shorter than the length of the side in the direction orthogonal to the direction in which the character strings are arranged. For example, when the size of an image in which character strings are arranged in a row in the horizontal direction is width A pixel × height B pixel, the dividing unit 12 divides the image into a plurality of portions of width A / N pixel × height B pixel. It may be divided into images. Here, N is a numerical value greater than or equal to A. If the A / N is not divisible, the width of the partial image may be a value obtained by rounding the A / N or a value obtained by raising the A / N.

算出部13は、複数の部分画像それぞれから特徴量を抽出する第1モデル15b及び特徴量を文字列の区切りを表す情報に順次変換する第2モデル15cを用いて、複数の部分画像それぞれについて文字列の区切りを表す情報を算出する。第1モデル15b及び第2モデル15cにつては、後に詳細に説明する。 The calculation unit 13 uses a first model 15b that extracts a feature amount from each of the plurality of partial images and a second model 15c that sequentially converts the feature amount into information representing a character string delimiter, and uses characters for each of the plurality of partial images. Calculate the information that represents the column break. The first model 15b and the second model 15c will be described in detail later.

出力部14は、文字列の区切りを表す情報を、ユーザ端末20に出力する。もっとも、出力部14は、文字列の区切りを表す情報をOCR装置等の他の機器に出力してもよい。このように、本実施形態に係る画像認識装置10によれば、画像を複数の部分画像に分割し、第1モデル15bによって複数の部分画像の特徴を捉え、第2モデル15cによって特徴量を文字列の区切りを表す情報に変換することで、画像に写された文字列が2以上に分離可能な要素で構成される場合であっても、文字列のセグメンテーションを適切に行うことができる。 The output unit 14 outputs information indicating a character string delimiter to the user terminal 20. However, the output unit 14 may output information indicating the character string delimiter to another device such as an OCR device. As described above, according to the image recognition device 10 according to the present embodiment, the image is divided into a plurality of partial images, the features of the plurality of partial images are captured by the first model 15b, and the feature amount is characterized by the second model 15c. By converting to information representing a column delimiter, even when the character string copied in the image is composed of two or more separable elements, the segmentation of the character string can be appropriately performed.

算出部13によって算出される文字列の区切りを表す情報は、部分画像が文字列の区切りに対応するか否かを表す2値情報であってよい。これにより、2値情報に従って、画像を文字列の区切りに対応する領域と、文字列の区切りに対応しない領域とに分けることができ、文字列のセグメンテーションを適切に行うことができる。 The information representing the character string delimiter calculated by the calculation unit 13 may be binary information indicating whether or not the partial image corresponds to the character string delimiter. As a result, the image can be divided into an area corresponding to the character string delimiter and an area not corresponding to the character string delimiter according to the binary information, and the character string segmentation can be appropriately performed.

記憶部15は、文字列が写された学習用画像に対して、文字列の区切りを表す情報が関連付けられた学習データ15aを記憶する。また、記憶部15は、第1モデル15b及び第2モデル15cを記憶する。 The storage unit 15 stores the learning data 15a in which the information indicating the delimiter of the character string is associated with the learning image on which the character string is copied. In addition, the storage unit 15 stores the first model 15b and the second model 15c.

生成部16は、学習データ15aを用いて、第1モデル15b及び第2モデル15cを生成する。生成部16は、学習データ15aを用いた教師あり学習によって、第1モデル15b及び第2モデル15cを生成してよい。すなわち、生成部16は、学習データ15aに含まれる学習用画像から第1モデル15bによって特徴量を算出し、特徴量を第2モデル15cによって文字列の区切りを表す情報に変換して、学習データ15aに含まれる文字列の区切りを表す情報と比較し、誤差が小さくなるように第1モデル15b及び第2モデル15cのパラメータを更新することで、第1モデル15b及び第2モデル15cを生成してよい。生成部16によって、学習用画像に対して、文字列の区切りを表す情報が関連付けられた学習データ15aが与えられた場合に、画像に写された文字列の区切りを表す情報を適切に算出することができる第1モデル15b及び第2モデル15cを生成することができる。 The generation unit 16 uses the learning data 15a to generate the first model 15b and the second model 15c. The generation unit 16 may generate the first model 15b and the second model 15c by supervised learning using the learning data 15a. That is, the generation unit 16 calculates the feature amount from the learning image included in the training data 15a by the first model 15b, converts the feature amount into information representing a character string delimiter by the second model 15c, and trains data. The first model 15b and the second model 15c are generated by updating the parameters of the first model 15b and the second model 15c so that the error becomes smaller by comparing with the information indicating the delimiter of the character string included in the 15a. You can. When the learning data 15a associated with the information representing the character string delimiter is given to the learning image by the generation unit 16, the information representing the character string delimiter copied in the image is appropriately calculated. It is possible to generate a first model 15b and a second model 15c that can be generated.

第1モデル15bは、複数の部分画像それぞれから特徴量として特徴マップを算出するCNN(Convolutional Neural Network)であってよい。また、第2モデル15cは、特徴マップを、部分画像が文字列の区切りに対応するか否かを表す2値情報に順次変換するRNN(Recurrent Neural Network)であってよい。ここで、RNNは、例えば双方向LSTM(Long Short-Term Memory)で構成されてよい。このように、CNNによって算出される複数の部分画像の特徴マップによって、複数の部分画像の特徴を適切に捉え、RNNによって特徴マップの前後関係を考慮しつつ、特徴マップを文字列の区切りを表す情報に変換することができ、文字列のセグメンテーションをより適切に行うことができる。 The first model 15b may be a CNN (Convolutional Neural Network) that calculates a feature map as a feature amount from each of a plurality of partial images. Further, the second model 15c may be an RNN (Recurrent Neural Network) that sequentially converts the feature map into binary information indicating whether or not the partial image corresponds to the character string delimiter. Here, the RNN may be composed of, for example, a bidirectional RSTM (Long Short-Term Memory). In this way, the features of the plurality of partial images calculated by the CNN appropriately capture the features of the plurality of partial images, and the feature map represents the character string delimiter while considering the context of the feature map by the RNN. It can be converted into information, and the segmentation of character strings can be performed more appropriately.

生成部16は、CTC(Connectionist Temporal Classification)損失関数を最小化するように、第1モデル15b及び第2モデル15cを生成してよい。生成部16は、例えば誤差逆伝播法によって、CTC損失関数を最小化するように第1モデル15bを構成するCNN及び第2モデル15cを構成するRNNのパラメータを最適化することで、第1モデル15b及び第2モデル15cを生成してよい。第1モデル15b及び第2モデル15cに含まれるCNNの構成や、RNNの構成は任意であり、例えば、LSTMブロックの代わりにGRU(Gated Recurrent Unit)を用いてもよい。CTC損失関数を用いることで、任意の文字間隔と大きさで記載された文字列について、文字列のセグメンテーションを適切に行う第1モデル15b及び第2モデル15cを生成することができる。 The generation unit 16 may generate the first model 15b and the second model 15c so as to minimize the CTC (Connectionist Temporal Classification) loss function. The generation unit 16 optimizes the parameters of the CNN constituting the first model 15b and the RNN constituting the second model 15c so as to minimize the CTC loss function by, for example, the error back propagation method, thereby optimizing the parameters of the first model. 15b and the second model 15c may be generated. The configuration of the CNN and the configuration of the RNN included in the first model 15b and the second model 15c are arbitrary, and for example, a GRU (Gated Recurrent Unit) may be used instead of the LSTM block. By using the CTC loss function, it is possible to generate the first model 15b and the second model 15c that appropriately perform the segmentation of the character string for the character string described with an arbitrary character spacing and size.

図3は、本実施形態に係る画像認識装置10の物理的構成を示す図である。画像認識装置10は、演算部に相当するCPU(Central Processing Unit)10aと、記憶部に相当するRAM(Random Access Memory)10bと、記憶部に相当するROM(Read only Memory)10cと、通信部10dと、入力部10eと、表示部10fと、を有する。これらの各構成は、バスを介して相互にデータ送受信可能に接続される。なお、本例では画像認識装置10が一台のコンピュータで構成される場合について説明するが、画像認識装置10は、複数のコンピュータが組み合わされて実現されてもよい。また、図3で示す構成は一例であり、画像認識装置10はこれら以外の構成を有してもよいし、これらの構成のうち一部を有さなくてもよい。 FIG. 3 is a diagram showing a physical configuration of the image recognition device 10 according to the present embodiment. The image recognition device 10 includes a CPU (Central Processing Unit) 10a corresponding to a calculation unit, a RAM (Random Access Memory) 10b corresponding to a storage unit, a ROM (Read only Memory) 10c corresponding to a storage unit, and a communication unit. It has a 10d, an input unit 10e, and a display unit 10f. Each of these configurations is connected to each other via a bus so that data can be transmitted and received. In this example, the case where the image recognition device 10 is composed of one computer will be described, but the image recognition device 10 may be realized by combining a plurality of computers. Further, the configuration shown in FIG. 3 is an example, and the image recognition device 10 may have configurations other than these, or may not have a part of these configurations.

CPU10aは、RAM10b又はROM10cに記憶されたプログラムの実行に関する制御やデータの演算、加工を行う制御部である。CPU10aは、文字列が写された画像を分割し、複数の部分画像それぞれについて文字列の区切りを表す情報を算出するプログラム(画像認識プログラム)を実行する演算部である。CPU10aは、入力部10eや通信部10dから種々のデータを受け取り、データの演算結果を表示部10fに表示したり、RAM10bに格納したりする。 The CPU 10a is a control unit that controls execution of a program stored in the RAM 10b or ROM 10c, calculates data, and processes data. The CPU 10a is a calculation unit that executes a program (image recognition program) that divides an image on which a character string is copied and calculates information indicating a character string delimiter for each of a plurality of partial images. The CPU 10a receives various data from the input unit 10e and the communication unit 10d, displays the calculation result of the data on the display unit 10f, and stores the data in the RAM 10b.

RAM10bは、記憶部のうちデータの書き換えが可能なものであり、例えば半導体記憶素子で構成されてよい。RAM10bは、CPU10aが実行する画像認識プログラム、学習データといったデータを記憶してよい。なお、これらは例示であって、RAM10bには、これら以外のデータが記憶されていてもよいし、これらの一部が記憶されていなくてもよい。 The RAM 10b is a storage unit capable of rewriting data, and may be composed of, for example, a semiconductor storage element. The RAM 10b may store data such as an image recognition program and learning data executed by the CPU 10a. It should be noted that these are examples, and data other than these may be stored in the RAM 10b, or a part of these may not be stored.

ROM10cは、記憶部のうちデータの読み出しが可能なものであり、例えば半導体記憶素子で構成されてよい。ROM10cは、例えば画像認識プログラムや、書き換えが行われないデータを記憶してよい。 The ROM 10c is a storage unit capable of reading data, and may be composed of, for example, a semiconductor storage element. The ROM 10c may store, for example, an image recognition program or data that is not rewritten.

通信部10dは、画像認識装置10を他の機器に接続するインターフェースである。通信部10dは、インターネット等の通信ネットワークNに接続されてよい。 The communication unit 10d is an interface for connecting the image recognition device 10 to another device. The communication unit 10d may be connected to a communication network N such as the Internet.

入力部10eは、画像認識装置10の管理者からデータの入力を受け付けるものであり、例えば、キーボード及びタッチパネルを含んでよい。 The input unit 10e receives data input from the administrator of the image recognition device 10, and may include, for example, a keyboard and a touch panel.

表示部10fは、CPU10aによる演算結果を視覚的に表示するものであり、例えば、LCD(Liquid Crystal Display)により構成されてよい。表示部10fは、取得した画像、算出された文字列の区切りを表す情報等を表示してよい。 The display unit 10f visually displays the calculation result by the CPU 10a, and may be configured by, for example, an LCD (Liquid Crystal Display). The display unit 10f may display the acquired image, information indicating the delimiter of the calculated character string, and the like.

画像認識プログラムは、RAM10bやROM10c等のコンピュータによって読み取り可能な記憶媒体に記憶されて提供されてもよいし、通信部10dにより接続される通信ネットワークを介して提供されてもよい。画像認識装置10では、CPU10aが画像認識プログラムを実行することにより、図2を用いて説明した様々な動作が実現される。なお、これらの物理的な構成は例示であって、必ずしも独立した構成でなくてもよい。例えば、画像認識装置10は、CPU10aとRAM10bやROM10cが一体化したLSI(Large-Scale Integration)を備えていてもよい。 The image recognition program may be stored in a storage medium readable by a computer such as RAM 10b or ROM 10c and provided, or may be provided via a communication network connected by the communication unit 10d. In the image recognition device 10, the CPU 10a executes the image recognition program to realize various operations described with reference to FIG. It should be noted that these physical configurations are examples and do not necessarily have to be independent configurations. For example, the image recognition device 10 may include an LSI (Large-Scale Integration) in which the CPU 10a, the RAM 10b, and the ROM 10c are integrated.

図4は、本実施形態に係る画像認識装置10により取得される画像IMGの一例を示す図である。画像IMGは、「センタービル」というカタカナの文字列を含む。従来術を用いて画像IMGに記載された文字列をセグメンテーションすると、「ル」を「ノ」及び「レ」とセグメンテーションしてしまう場合がある。 FIG. 4 is a diagram showing an example of an image IMG acquired by the image recognition device 10 according to the present embodiment. The image IMG contains the katakana character string "center building". When the character string described in the image IMG is segmented by using the conventional technique, "ru" may be segmented as "no" and "re".

図5は、本実施形態に係る画像認識装置10により分割された部分画像DIV1,DIV2,…DIVNの一例を示す図である。同図では、画像IMGをNコの部分画像DIV1,DIV2,…DIVNに分割した例を示している。部分画像DIV1,DIV2,…DIVNの高さは、画像IMGと等しく、部分画像DIV1,DIV2,…DIVNの幅は、画像IMGの幅の1/N倍となっている。 FIG. 5 is a diagram showing an example of partial images DIV1, DIV2, ... DIVN divided by the image recognition device 10 according to the present embodiment. The figure shows an example in which the image IMG is divided into N partial images DIV1, DIV2, ... DIVN. The height of the partial images DIV1, DIV2, ... DIVN is equal to that of the image IMG, and the width of the partial images DIV1, DIV2, ... DIVN is 1 / N times the width of the image IMG.

図6は、本実施形態に係る画像認識装置10により用いられる第1モデル15b及び第2モデル15cの概念図である。第1モデル15bは、CNNで構成され、画像IMGから分割された複数の部分画像DIV1,DIV2,…DIVNに基づいて、複数の部分画像DIV1,DIV2,…DIVNそれぞれの特徴マップFMを算出する。特徴マップFMは、任意の次元の配列であってよい。 FIG. 6 is a conceptual diagram of the first model 15b and the second model 15c used by the image recognition device 10 according to the present embodiment. The first model 15b calculates the feature map FM of each of the plurality of partial images DIV1, DIV2, ... DIVN based on the plurality of partial images DIV1, DIV2, ... DIVNs composed of CNNs and divided from the image IMG. The feature map FM may be an array of arbitrary dimensions.

第2モデル15cは、双方向LSTMで構成され、特徴マップFMを文字列の区切りを表す2値情報Bに順次変換する。2値情報Bは、0及び1のビット列であり、各ビットは、部分画像が文字列の区切りに対応するか否かを表す。本例では、2値情報Bのうち「1」が、部分画像が文字列の区切りに対応することを表し、2値情報Bのうち「0」が、部分画像が文字列の区切りに対応しない(すなわち当該部分画像は文字列の一部を構成する)ことを表す。 The second model 15c is composed of bidirectional LSTMs, and sequentially converts the feature map FM into binary information B representing a character string delimiter. The binary information B is a bit string of 0 and 1, and each bit indicates whether or not the partial image corresponds to the character string delimiter. In this example, "1" in the binary information B indicates that the partial image corresponds to the character string delimiter, and "0" in the binary information B does not correspond to the character string delimiter. (That is, the partial image constitutes a part of the character string).

図7は、本実施形態に係る画像認識装置10により算出された文字列の区切りの一例を示す図である。本実施形態に係る画像認識装置10によれば、「センタービル」という文字列を含む画像IMGに対して、文字列の区切りを表す第1区切り情報SEP1、第2区切り情報SEP2、第3区切り情報SEP3、第4区切り情報SEP4、第5区切り情報SEP5、第6区切り情報SEP6及び第7区切り情報SEP7が出力される。これにより、「センタービル」という6文字の文字列が適切にセグメンテーションされる。 FIG. 7 is a diagram showing an example of character string delimiters calculated by the image recognition device 10 according to the present embodiment. According to the image recognition device 10 according to the present embodiment, for the image IMG including the character string "center building", the first delimiter information SEP1, the second delimiter information SEP2, and the third delimiter information SEP3 indicating the character string delimiter. , 4th delimiter information SEP4, 5th delimiter information SEP5, 6th delimiter information SEP6, and 7th delimiter information SEP7 are output. As a result, the 6-character character string "center building" is properly segmented.

画像認識装置10は、第2モデル15cにより算出された2値情報に基づいて、2値情報が「1」である部分画像に対応する画像IMGの領域を文字列の区切り領域と判定して、画像IMGに対して第1区切り情報SEP1、第2区切り情報SEP2、第3区切り情報SEP3、第4区切り情報SEP4、第5区切り情報SEP5、第6区切り情報SEP6及び第7区切り情報SEP7を付与してよい。 Based on the binary information calculated by the second model 15c, the image recognition device 10 determines that the area of the image IMG corresponding to the partial image whose binary information is "1" is the character string delimiter area. The first delimiter information SEP1, the second delimiter information SEP2, the third delimiter information SEP3, the fourth delimiter information SEP4, the fifth delimiter information SEP5, the sixth delimiter information SEP6, and the seventh delimiter information SEP7 are added to the image IMG. Good.

図8は、本実施形態に係る画像認識装置10により実行されるセグメンテーション処理のフローチャートである。はじめに、画像認識装置10は、文字列が写された画像を取得する(S10)。そして、画像認識装置10は、画像を複数の部分画像に分割する(S11)。 FIG. 8 is a flowchart of the segmentation process executed by the image recognition device 10 according to the present embodiment. First, the image recognition device 10 acquires an image on which the character string is copied (S10). Then, the image recognition device 10 divides the image into a plurality of partial images (S11).

その後、画像認識装置10は、第1モデル15bによって、複数の部分画像それぞれから特徴量を抽出し(S12)、第2モデル15cによって、特徴量を文字列の区切りを表す情報に順次変換する(S13)。 After that, the image recognition device 10 extracts the feature amount from each of the plurality of partial images by the first model 15b (S12), and sequentially converts the feature amount into the information representing the character string delimiter by the second model 15c (S12). S13).

最後に、画像認識装置10は、複数の部分画像それぞれについて文字列の区切りを表す情報を算出し、ユーザ端末20に出力する。なお、画像認識装置10は、文字列の区切りを表す情報をOCR装置等の他の機器に出力してもよい。 Finally, the image recognition device 10 calculates information representing a character string delimiter for each of the plurality of partial images and outputs the information to the user terminal 20. The image recognition device 10 may output information indicating a character string delimiter to another device such as an OCR device.

図9は、本実施形態に係る画像認識装置10により実行される学習処理のフローチャートである。はじめに、画像認識装置10は、文字列が写された学習用画像に対して、文字列の区切りを表す情報が関連付けられた学習データ15aを収集し、記憶部15に記憶する(S20)。 FIG. 9 is a flowchart of the learning process executed by the image recognition device 10 according to the present embodiment. First, the image recognition device 10 collects the learning data 15a associated with the information representing the character string delimiter with respect to the learning image on which the character string is copied, and stores it in the storage unit 15 (S20).

その後、画像認識装置10は、学習データ15aを用いて、CTC損失関数を最小化するように、第1モデル15b及び第2モデル15cの学習処理を実行する(S21)。ここで、学習処理は、第1モデル15bを構成するCNNのパラメータ及び第2モデル15cを構成するRNNのパラメータを、誤差逆伝播法によって更新する処理であってよい。 After that, the image recognition device 10 uses the learning data 15a to execute the learning process of the first model 15b and the second model 15c so as to minimize the CTC loss function (S21). Here, the learning process may be a process of updating the parameters of the CNN constituting the first model 15b and the parameters of the RNN constituting the second model 15c by the error back propagation method.

学習終了条件を満たさない場合(S22:NO)、画像認識装置10は、第1モデル15b及び第2モデル15cの学習処理を再び実行する(S21)。ここで、学習終了条件は、CTC損失関数の値が所定値以下となることであったり、学習処理のエポック数が所定回数以上となることであったりしてよい。 When the learning end condition is not satisfied (S22: NO), the image recognition device 10 re-executes the learning process of the first model 15b and the second model 15c (S21). Here, the learning end condition may be that the value of the CTC loss function is equal to or less than a predetermined value, or that the number of epochs in the learning process is equal to or greater than a predetermined number of times.

一方、学習終了条件を満たす場合(S22:YES)、画像認識装置10は、生成された第1モデル15b及び第2モデル15cを記憶部15に記憶する。 On the other hand, when the learning end condition is satisfied (S22: YES), the image recognition device 10 stores the generated first model 15b and second model 15c in the storage unit 15.

以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。 The embodiments described above are for facilitating the understanding of the present invention, and are not for limiting and interpreting the present invention. Each element included in the embodiment and its arrangement, material, condition, shape, size, etc. are not limited to those exemplified, and can be changed as appropriate. In addition, the configurations shown in different embodiments can be partially replaced or combined.

10…画像認識装置、10a…CPU、10b…RAM、10c…ROM、10d…通信部、10e…入力部、10f…表示部、11…取得部、12…分割部、13…算出部、14…出力部、15…記憶部、15a…学習データ、15b…第1モデル、15c…第2モデル、16…生成部、20…ユーザ端末、100…画像認識システム 10 ... image recognition device, 10a ... CPU, 10b ... RAM, 10c ... ROM, 10d ... communication unit, 10e ... input unit, 10f ... display unit, 11 ... acquisition unit, 12 ... division unit, 13 ... calculation unit, 14 ... Output unit, 15 ... Storage unit, 15a ... Learning data, 15b ... First model, 15c ... Second model, 16 ... Generation unit, 20 ... User terminal, 100 ... Image recognition system

Claims (8)

文字列が写された画像を取得する取得部と、
前記画像を複数の部分画像に分割する分割部と、
前記複数の部分画像それぞれから特徴量を抽出する第1モデル及び前記特徴量を前記文字列の区切りを表す情報に順次変換する第2モデルを用いて、前記複数の部分画像それぞれについて前記文字列の区切りを表す情報を算出する算出部と、
前記文字列の区切りを表す情報を出力する出力部と、
を備える画像認識装置。
An acquisition unit that acquires an image in which a character string is copied, and
A division portion that divides the image into a plurality of partial images,
Using a first model that extracts a feature amount from each of the plurality of partial images and a second model that sequentially converts the feature amount into information representing the division of the character string, the character string of each of the plurality of partial images is used. A calculation unit that calculates information that represents a delimiter,
An output unit that outputs information indicating the delimiter of the character string, and
An image recognition device comprising.
前記文字列の区切りを表す情報は、前記部分画像が前記文字列の区切りに対応するか否かを表す2値情報である、
請求項1に記載の画像認識装置。
The information representing the character string delimiter is binary information indicating whether or not the partial image corresponds to the character string delimiter.
The image recognition device according to claim 1.
前記第1モデルは、前記複数の部分画像それぞれから前記特徴量として特徴マップを算出するCNN(Convolutional Neural Network)であり、
前記第2モデルは、前記特徴マップを前記2値情報に順次変換するRNN(Recurrent Neural Network)である、
請求項2に記載の画像認識装置。
The first model is a CNN (Convolutional Neural Network) that calculates a feature map as the feature amount from each of the plurality of partial images.
The second model is an RNN (Recurrent Neural Network) that sequentially converts the feature map into the binary information.
The image recognition device according to claim 2.
文字列が写された学習用画像に対して、前記文字列の区切りを表す情報が関連付けられた学習データを記憶する記憶部と、
前記学習データを用いて、前記第1モデル及び前記第2モデルを生成する生成部と、をさらに備える、
請求項1から3のいずれか一項に記載の画像認識装置。
A storage unit that stores learning data associated with information indicating the delimiter of the character string with respect to the learning image on which the character string is copied.
A generation unit for generating the first model and the second model using the training data is further provided.
The image recognition device according to any one of claims 1 to 3.
前記生成部は、CTC(Connectionist Temporal Classification)損失関数を最小化するように、前記第1モデル及び前記第2モデルを生成する、
請求項4に記載の画像認識装置。
The generation unit generates the first model and the second model so as to minimize the CTC (Connectionist Temporal Classification) loss function.
The image recognition device according to claim 4.
画像認識装置に、
文字列が写された画像を取得することと、
前記画像を複数の部分画像に分割することと、
前記複数の部分画像それぞれから特徴量を抽出する第1モデル及び前記特徴量を前記文字列の区切りを表す情報に順次変換する第2モデルを用いて、前記複数の部分画像それぞれについて前記文字列の区切りを表す情報を算出することと、
前記文字列の区切りを表す情報を出力することと、
を実行させる画像認識方法。
For image recognition devices
To get an image with a character string,
Dividing the image into a plurality of partial images and
Using a first model that extracts a feature amount from each of the plurality of partial images and a second model that sequentially converts the feature amount into information representing the division of the character string, the character string of each of the plurality of partial images is used. To calculate the information that represents the delimiter
To output the information indicating the delimiter of the character string and
Image recognition method to execute.
画像認識装置に、
文字列が写された画像を取得することと、
前記画像を複数の部分画像に分割することと、
前記複数の部分画像それぞれから特徴量を抽出する第1モデル及び前記特徴量を前記文字列の区切りを表す情報に順次変換する第2モデルを用いて、前記複数の部分画像それぞれについて前記文字列の区切りを表す情報を算出することと、
前記文字列の区切りを表す情報を出力することと、
を実行させる画像認識プログラム。
For image recognition devices
To get an image with a character string,
Dividing the image into a plurality of partial images and
Using a first model that extracts a feature amount from each of the plurality of partial images and a second model that sequentially converts the feature amount into information representing the division of the character string, the character string of each of the plurality of partial images is used. To calculate the information that represents the delimiter
To output the information indicating the delimiter of the character string and
An image recognition program that runs.
画像認識装置と、ユーザ端末とを備える画像認識システムであって、
前記画像認識装置は、
前記ユーザ端末から、文字列が写された画像を取得する取得部と、
前記画像を複数の部分画像に分割する分割部と、
前記複数の部分画像それぞれから特徴量を抽出する第1モデル及び前記特徴量を前記文字列の区切りを表す情報に順次変換する第2モデルを用いて、前記複数の部分画像それぞれについて前記文字列の区切りを表す情報を算出する算出部と、
前記文字列の区切りを表す情報を前記ユーザ端末に出力する出力部と、を有する、
画像認識システム。
An image recognition system including an image recognition device and a user terminal.
The image recognition device is
An acquisition unit that acquires an image in which a character string is copied from the user terminal, and
A division portion that divides the image into a plurality of partial images,
Using a first model that extracts a feature amount from each of the plurality of partial images and a second model that sequentially converts the feature amount into information representing the division of the character string, the character string of each of the plurality of partial images is used. A calculation unit that calculates information that represents a delimiter,
It has an output unit that outputs information representing the character string delimiter to the user terminal.
Image recognition system.
JP2019075833A 2019-04-11 2019-04-11 Image recognition device, image recognition method, image recognition program and image recognition system Active JP6868052B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019075833A JP6868052B2 (en) 2019-04-11 2019-04-11 Image recognition device, image recognition method, image recognition program and image recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019075833A JP6868052B2 (en) 2019-04-11 2019-04-11 Image recognition device, image recognition method, image recognition program and image recognition system

Publications (2)

Publication Number Publication Date
JP2020173669A true JP2020173669A (en) 2020-10-22
JP6868052B2 JP6868052B2 (en) 2021-05-12

Family

ID=72831403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019075833A Active JP6868052B2 (en) 2019-04-11 2019-04-11 Image recognition device, image recognition method, image recognition program and image recognition system

Country Status (1)

Country Link
JP (1) JP6868052B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022190900A1 (en) * 2021-03-08 2022-09-15 株式会社 東芝 Image processing apparatus, program, and system
WO2024018547A1 (en) * 2022-07-19 2024-01-25 日本電信電話株式会社 Information processing device, information processing method, and information processing program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022190900A1 (en) * 2021-03-08 2022-09-15 株式会社 東芝 Image processing apparatus, program, and system
WO2024018547A1 (en) * 2022-07-19 2024-01-25 日本電信電話株式会社 Information processing device, information processing method, and information processing program

Also Published As

Publication number Publication date
JP6868052B2 (en) 2021-05-12

Similar Documents

Publication Publication Date Title
CN108520229B (en) Image detection method, image detection device, electronic equipment and computer readable medium
US10846553B2 (en) Recognizing typewritten and handwritten characters using end-to-end deep learning
Mathew et al. Multilingual OCR for Indic scripts
CN111615702B (en) Method, device and equipment for extracting structured data from image
US20080317347A1 (en) Rendering engine test system
CN113034406B (en) Distorted document recovery method, device, equipment and medium
CN111078552A (en) Method and device for detecting page display abnormity and storage medium
CN112819686A (en) Image style processing method and device based on artificial intelligence and electronic equipment
CN113343958B (en) Text recognition method, device, equipment and medium
US11468655B2 (en) Method and apparatus for extracting information, device and storage medium
JP6868052B2 (en) Image recognition device, image recognition method, image recognition program and image recognition system
CN110210480B (en) Character recognition method and device, electronic equipment and computer readable storage medium
CN113159013A (en) Paragraph identification method and device based on machine learning, computer equipment and medium
EP3882817A2 (en) Method, apparatus and device for recognizing bill and storage medium
CN113449726A (en) Character comparison and identification method and device
CN113191355A (en) Text image synthesis method, device, equipment and storage medium
CN114331932A (en) Target image generation method and device, computing equipment and computer storage medium
CN114187445A (en) Method and device for recognizing text in image, electronic equipment and storage medium
KR20220067387A (en) Method and system for analyzing layout of image
JP5913763B1 (en) Reference line setting device, reference line setting method, and reference line setting program
KR101667910B1 (en) Method and apparatus for generating digital artifical hand-writing data and computer program stored in computer readable medium therefor
CN113111713B (en) Image detection method and device, electronic equipment and storage medium
KR102222640B1 (en) Apparatus for recognition of character and method of the same
JP7512798B2 (en) Information processing device and computer program
CN108875929B (en) Font code generation method and apparatus, font code, storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210409

R150 Certificate of patent or registration of utility model

Ref document number: 6868052

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250