JP7416614B2

JP7416614B2 - 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法

Info

Publication number: JP7416614B2
Application number: JP2019233573A
Authority: JP
Inventors: 文彦高橋
Original assignee: Ｇｏ株式会社
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2024-01-17
Anticipated expiration: 2039-12-24
Also published as: JP2021103386A

Description

特許法第３０条第２項適用令和１年６月４日に、２０１９年度人工知能学会全国大会（第３３回）にて公開令和１年７月１日に、データサイエンティスト：ゆるふわ採用座談会にて公開令和１年７月１３日に、ＣＣＳＥ２０１９にて公開令和１年７月１６日に、ＤａｔａＤｒｉｖｅｎＤｅｖｅｌｏｐｅｒＭｅｅｔｕｐ＃６にて公開

本発明は、画像から文字列を認識する学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び、情報処理方法に関する。

画像内の文字列を、ニューラルネットワークを用いて認識する学習方法が種々提案されている。特許文献１には、帳票に記入されうる単語が登録されたデータベースを用いた学習によって、帳票の画像データからの文字列の認識処理の精度を改善する方法が開示されている。

特許第６５９０３５５号公報

ニューラルネットワークを用いた文字認識が多様な場面で可能であるとはいえ、あらゆる画像から特に条件もなく、文字を認識することは依然として難しい。ニューラルネットワークを用いた文字認識を精度よく、また学習効率を向上させるためには、特許文献１に示されているように、対象となる画像を特定の画像とし、認識対象外の単語を除外し、前後の文字から類推が可能な状態とすることが必要である。

本発明は、精度よく、教師データのデータ量が少ない場合であっても効率的に学習できる文字認識のための学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法を提供することを目的とする。

本開示の一実施形態の学習モデルの生成方法は、文字列が写っている画像の画像データ及び前記文字列のテキストデータの組、画像データ及び該画像データの画像に文字列が写っているか否かを示す存否データの組を含む教師データを取得し、画像データを入力した場合に、写っている文字列のテキストデータ及び存否データを出力する学習モデルを、前記教師データを用いて生成する。

本開示の学習モデルの生成方法では、学習モデルは、文字列が写っていない画像の画像データと、文字列が写っている画像の画像データ及びその画像に写っている文字列の正解データとを用いて、文字列が写っているか否かの存否の判定と、文字列の認識とを同一のネットワークで学習させて生成される。

本開示の一実施形態の情報処理装置は、画像データを入力した場合に、前記画像データの画像に写っている文字列の認識結果であるテキストデータ及び存否データを出力するように学習してあるモデルが記憶してある記憶部と、画像データを取得する画像取得部と、該画像取得部が取得した画像データを前記モデルに入力することによって前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する出力部とを備える。

本開示の一実施形態の情報処理方法は、画像データを入力した場合に、前記画像データ
の画像に写っている文字列の認識結果であるテキストデータ及び存否データを出力するように学習してあるモデルを記憶しておき、画像データを取得し、取得した画像データを前記モデルに入力し、前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する処理を含む。

本開示の一実施形態のコンピュータプログラムは、画像データを入力した場合に、前記画像データの画像に写っている文字列の認識結果であるテキストデータ及び存否データを出力するように学習してあるモデルを記憶してあるコンピュータに、画像データを取得し、取得した画像データを前記モデルに入力し、前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する処理を実行させる。

本開示のコンピュータプログラムでは、車両から撮像される画像に写っている文字といった、低解像であって教師データが少ない対象であっても、学習モデルを用いて認識精度を向上させることができる。

本開示の一実施形態のコンピュータプログラムは、画像データを入力した場合に、前記画像データの画像に検出対象の文字列が写っている範囲を検出するように学習されてある第１モデル、及び、画像データを入力した場合に、写っている文字列を示すテキストデータ及び存否データを出力するように学習してある第２モデルを記憶してあるコンピュータに、第１画像データを取得し、取得した第１画像データを前記第１モデルに入力し、前記第１画像データの画像から、前記第１モデルにて検出された検出範囲を抽出した第２画像データを取得し、第２画像データを前記第２モデルに入力し、前記第１モデルから出力される、検出範囲及び該検出範囲に文字列が写っている確信度、並びに、前記第２モデルから出力されたテキストデータ及び該テキストデータと共に出力される文字列である確信度を、前記第１画像データと対応付けて記憶する処理を実行させる。

本開示の生成方法によれば、少ない教師データであっても、教師データが多い場合と同程度の精度で文字列を認識できる学習モデルが生成できる。

文字認識を実行する情報処理装置のブロック図である。学習モデルの概要図である。学習モデルの生成方法の一例を示すフローチャートである。学習モデルの学習の概要図である。学習モデルの学習の概要図である。学習データ量の精度の関係を示すグラフである。実施の形態２の情報提供サービスの概要図である。情報提供サービスを実現する通信機の構成を示すブロック図である。収集装置、情報処理装置及び記憶装置の構成を示すブロック図である。収集装置及び情報処理装置による処理手順の一例を示すフローチャートである。ドライブレコーダで撮像された画像に対する処理結果を示す。情報提供装置及び情報端末装置の構成を示すブロック図である。情報提供装置によって提供される情報の表示例を示す。

本開示をその実施の形態を示す図面を参照して具体的に説明する。

（実施の形態１）
図１は、文字認識を実行する情報処理装置１のブロック図である。情報処理装置１は、制御部１０、画像処理部１１、記憶部１２、通信部１３、及び読取部１４を備える。情報処理装置１及び情報処理装置１における動作について以下では、１台のサーバコンピュータとして説明するが、複数のコンピュータによって処理を分散するようにして構成されてもよい。

制御部１０は、ＣＰＵ（Central Processing Unit ）等のプロセッサ及びメモリ等を用い、装置の構成部を制御して各種機能を実現する。画像処理部１１は、ＧＰＵ（Graphics
Processing Unit）又は専用回路等のプロセッサ及びメモリを用い、制御部１０からの制御指示に応じて画像処理を実行し、学習モデル１Ｍとして機能する。なお、制御部１０及び画像処理部１１は、一体のハードウェアであってもよい。また制御部１０及び画像処理部１１は、ＣＰＵ、ＧＰＵ等のプロセッサ、メモリ、更には記憶部１２及び通信部１３を集積した１つのハードウェア（ＳｏＣ：System On a Chip）として構成されていてもよい。

記憶部１２は、ハードディスク又はフラッシュメモリを用いる。記憶部１２には、学習プログラム１Ｐ、ＤＬ（Deep Learning ）ライブラリ１Ｌが記憶されている。また記憶部１２には、ＤＬライブラリ１Ｌを用いた学習によって生成される学習モデル１Ｍを定義する定義情報、学習済み（学習中）の学習モデル１Ｍにおける各層の重み係数等を含むパラメータ情報等が記憶される。

記憶部１２には、学習モデル１Ｍの学習を実行するための学習プログラム（コンピュータプログラム）１Ｐが記憶されている。制御部１０は、学習プログラム１Ｐに基づいて、記憶部１２に記憶されている定義情報に基づくネットワークのパラメータの学習処理を実行する。

通信部１３は、外部からのデータを入力し、外部へデータを送信するインタフェースである。通信部１３は、インターネット等の通信網への通信接続を実現する通信モジュールである。通信部１３は、ネットワークカード、無線通信デバイス又はキャリア通信用モジュールを含んでもよい。通信部１３は、ＵＳＢインタフェースであってもよい。

読取部１４は、例えばディスクドライブを用い、光ディスク等を用いた記録媒体７に記憶してある学習プログラム７１Ｐ、ＤＬライブラリ７１Ｌを読み取ることが可能である。記憶部１２に記憶してあるＤＬライブラリ１Ｌは、記録媒体７から読取部１４が読み取った学習プログラム７１Ｐを、制御部１０が記憶部１２に複製したものであってもよい。

このように構成される情報処理装置１は、記憶部１２に記憶してあるＤＬライブラリ１Ｌ、及び学習プログラム１Ｐに基づき、畳み込みニューラルネットワーク（以下、ＣＮＮ（Convolutional Neural Network ）と呼ぶ）及びリカレントＮＮを、学習モデル１Ｍとするべくパラメータを学習する処理を行なう。

図２は、学習モデル１Ｍの概要図である。学習モデル１Ｍは、文字列の画像データを入力して特徴量を出力するＣＮＮ１２１と、ＣＮＮ１２１からの出力を順次入力するＢｉ－ＬＳＴＭ（Long Short Term Memory）であるＲＮＮ１２２とを含む。学習モデル１Ｍは、ＲＮＮ１２２の出力から尤もらしい文字の確率分布を出力するＣＲＦ（Conditional Random Field）層１２３を含む。

学習モデル１Ｍは、ＣＲＦ層１２３からの出力を分岐させて入力し、画像に写っている
文字列のデータを出力する第１出力層１２４と、分岐された出力を入力し、画像に文字列が写っているかの存否データを出力する第２出力層１２５とを含む。

このように、本開示の学習モデル１Ｍは、入力はＣＮＮ１２１であるのに対し、異なるデータを出力する第１出力層１２４及び第２出力層１２５を同時に学習させるマルチタスク学習によって生成される。

ＣＮＮ１２１は、入力された画像データの画像から、文字列の並列方向に、相互に重複する範囲を抽出するフィルターを含む。ＣＮＮ１２１は、順次抽出された範囲の画像データについて、特徴量を文字列の並列方向に沿って順に出力する。

ＲＮＮ１２２は、ＣＮＮ１２１から順に出力される特徴量を順に入力し、入力される範囲毎に、その範囲に写っている文字の確信度を順次出力する。このときＲＮＮは、空白文字も含めてその確信度を出力する。

ＣＲＦ層１２３はＲＮＮ１２２から順次出力される文字及び角度から、ＣＮＮ１２１に入力されている画像データの画像に写っている可能性が最も確率が高い文字の組み合わせを出力する。

第１出力層１２４は、ＣＲＦ層１２３から出力される文字列の組み合わせから、ＣＮＮ１２１のフィルターで重複して抽出されていることを考慮し、連続する文字列は同一の文字であると判断し、ＣＮＮ１２１に入力されている画像データの画像に写っている可能性が最も高い文字列を出力する。図２に示すように第１出力層１２４は、ＣＴＣ（Connectionist Temporal Classification ）を用い、空白文字を挟まずに連続して同一の文字が出力されている場合には、１つの文字であるとして出力する。

第２出力層１２５は、ＣＲＦ層１２３から出力される文字列の組み合わせと、その確率から、ＣＮＮ１２１に入力されている画像データの画像にそもそも、文字列が写っているか否かの判定結果である存否データを出力する。

図３は、学習モデル１Ｍの生成方法の一例を示すフローチャートであり、図４及び図５は、学習モデル１Ｍの学習の概要図である。図４及び図５に示す概要図は、図２の学習モデル１Ｍと、教師データの例を示している。

制御部１０は、学習プログラム１Ｐに基づいて、ＤＬライブラリ１Ｌに基づいて画像処理部１１を用い、図２のように、ＣＮＮ１２１、ＲＮＮ１２２、ＣＲＦ層１２３、第１出力層１２４、及び第２出力層１２５を定義するネットワークを生成する（ステップＳ１０１）。

制御部１０は、教師データとして図４に示すように、文字列（図４では数字列）が写っている画像の画像データをネットワークのＣＮＮ１２１へ与える（ステップＳ１０２）。制御部１０は、ネットワークの第１出力層１２４から出力される文字列及びその確信度と、第２出力層１２５から出力される存否データ（確率）とを特定する（ステップＳ１０３）。

制御部１０は、ステップＳ１０３で特定した文字列のテキスト、確信度、存否データと、教師データである前記画像に写っている文字列を表すテキスト（正解）、及び、文字列が存在することを示す存否データ（正解）とを用いて損失を演算で求める（ステップＳ１０４）。

制御部１０は、画像処理部１１を用い、ステップＳ１０４で求めた損失を、ネットワークに逆伝播させる学習を実行し、パラメータを更新する（ステップＳ１０５）。ステップＳ１０５において制御部１０は、１つの画像データに対し、学習回数が所定回数と到達するまで、又は、第１出力層１２４から出力される文字列の精度が所定精度に到達するまで繰り返し学習するとよい。

制御部１０は、教師データとして図５に示すように、文字列が写っていない画像の画像データをネットワークのＣＮＮ１２１へ与える（ステップＳ１０６）。制御部１０は、第１出力層１２４からの出力は用いず、第２出力層１２５から出力される存否データ（確率）のみを特定する（ステップＳ１０７）。

制御部１０は、ステップＳ１０７で特定した存否データと、教師データである画像に文字列が存在しないことを示す存否データ（正解）とを用いて損失を演算で求める（ステップＳ１０８）。

制御部１０は、画像処理部１１を用い、ステップＳ１０８で求めた損失を、ネットワークに逆伝播させる学習を実行し、パラメータを更新する（ステップＳ１０９）。ステップＳ１０９においても制御部１０は、１つの画像データに対し、第２出力層１２５から出力される存否データの精度が所定精度に到達するまで繰り返し学習するとよい。

制御部１０は、教師データとして用意された画像データ全てについて学習処理を実行したか否かを判断する（ステップＳ１１０）。制御部１０は、全てについて学習処理を実行していないと判断した場合（Ｓ１１０：ＮＯ）、処理をステップＳ１０２へ戻す。全てについて学習処理を実行したと判断された場合（Ｓ１１０：ＹＥＳ）、制御部１０は、学習処理を終了する。

図３のフローチャートに示す手順では、制御部１０は、文字列が写っている画像を１つ選択してステップＳ１０２－Ｓ１０５の処理を実行してから、文字列がいない画像を１つ選択してステップＳ１０６－Ｓ１０９の処理を実行することを、全ての画像データに対して処理が完了するまで、交互に繰り返すとして説明した。しかしながら、制御部１０は、文字列が写っている画像の全ての画像データについてステップＳ１０２－Ｓ１０５の処理を実行してから、文字列が写っていない画像の全ての画像データについてステップＳ１０６－Ｓ１０９の処理を実行するようにしてもよい。

再学習の際は、新たな画像データを用いて制御部１０は、ステップＳ１０２－Ｓ１１０の処理を実行するとよい。

このように学習モデル１Ｍは、文字列が写っていない画像の画像データと、文字列が写っている画像の画像データ及びその画像に写っている文字列の正解データとを用いて、文字列が写っているか否かの存否の判定と、文字列の認識とを同一のネットワークで学習させて生成される。これにより、学習モデル１Ｍに対し、文字列（数字）の形自体を学習させることができ、認識精度が、少ない教師データ量でも向上する。

実施の形態１では、学習モデル１Ｍは、図２－５に示したように、ＣＮＮ－ＲＮＮで構成するとして説明した。学習モデル１Ｍは、画像を文字列方向に順次抽出するフィルターを使わず、且つＲＮＮ１２２及びＣＲＦ層１２３を用いることなく実現されてもよい。例えば学習モデル１Ｍは、画像データを入力するＣＮＮ１２１及び他の公知の画像認識用のネットワークを用いて実現されてもよい。

図６は、学習データ量の精度の関係を示すグラフである。図６は、教師データの消費割
合に対する、認識精度の向上の推移を示す。図６中、実線は、上述の学習モデル１Ｍの学習方法によって生成されている過程における精度の推移を示す。破線は、第２出力層１２５を用いないモデル、即ち単純に文字列認識を学習させたモデルにおける精度の推移を示す。

図６に示すように、複数の出力によってネットワークのパラメータを更新するマルチタスク学習によって、少ない教師データ量であっても、学習が進んだ後の精度と同程度に向上していることが分かる。

（実施の形態２）
実施の形態では、実施の形態１で説明した情報処理装置１によって文字列を認識し、認識した文字列と、文字列を含む画像が撮影された位置情報とを対応付けて記憶するデータベースを作成し、文字列が示すテキストデータに基づく情報を提供する情報提供サービスを実現する。認識される文字列は、実施の形態２においてはガソリンスタンドにおけるガソリンの値段を示す数字列である。

図７は、実施の形態２の情報提供サービスの概要図である。情報提供サービスは、ガソリンスタンドが設けられている道路を走行する車両Ｖ、情報処理装置１、通信機２、収集装置３、記憶装置４、情報提供装置５、及び、情報端末装置６を含む。

通信機２は、車両Ｖに搭載されている。通信機２は、車両Ｖに設けられたドライブレコーダによって得られる画像データを収集装置３へ画像データを送信する。通信機２と収集装置３との間は、公衆ネットワークＮ１及びキャリアネットワークＮ２を含むネットワークＮを介して通信接続が可能である。ネットワークＮは、車両Ｖと収集装置３との間の通信接続のための専用ネットワークを含んでもよいし、道路交通情報の通信に使用されるネットワークであってもよい。

収集装置３は、複数の車両Ｖから画像データを収集し、記憶装置４に記憶させる。収集装置３、情報処理装置１、記憶装置４、及び情報提供装置５は、サービス提供者のローカルネットワークＬＮを介して相互に、また、各々、外部のネットワークＮを介して他装置と通信接続が可能である。収集装置３は、記憶装置４に記憶した画像データを情報処理装置１へ与える。収集装置３は、情報処理装置１から出力される、画像データの画像に数字列が写っているか否か、写っている場合には数字列が示す数値は何であるかのデータを取得する。収集装置３は、取得した数値データ、即ちガソリンの値段を示す数値データを、画像データが撮像された際の車両Ｖの走行位置を示す位置データと対応付けて記憶装置４にて蓄積し、逐次最新のデータに更新する。

情報提供装置５は、情報端末装置６と、ネットワークＮを介して通信接続が可能である。情報提供装置５は、記憶装置４に記憶されている位置データと対応付けられているガソリンの値段を示す数値データに基づいて、地図上にガソリンの値段を表示させるサービスを提供する。

図８は、情報提供サービスを実現する通信機２の構成を示すブロック図である。通信機２は、通信部２２及びＧＰＳ受信機２３を備え、車両Ｖに、車両外を写すように搭載された撮影装置２０（例えばドライブレコーダ）から動画像の画像データを逐次取得する。通信機２は、撮影装置２０から画像データを取得した時点の車両Ｖの位置を示す位置データをＧＰＳ受信機２３によって取得し、画像データに対応付ける。通信機２は、対応付けられた画像データ及び位置データを、キャリアネットワーク、専用ネットワーク、又はビーコン等の無線通信を実現する通信部２２により、収集装置３に向けて送信する。通信機２は、撮影装置２０が設けられている車両Ｖの識別情報、及び時刻情報を、画像データ及び
位置データ対応付けて送信してもよい。

図９は、収集装置３、情報処理装置１及び記憶装置４の構成を示すブロック図である。収集装置３は、制御部３０、画像処理部３１、記憶部３２、及び通信部３３を備える。制御部３０は、ＣＰＵ等のプロセッサ及びメモリ等を用い、装置の構成部を制御して各種機能を実現する。画像処理部３１は、ＧＰＵ又は専用回路等のプロセッサ及びメモリを用い、制御部３０からの制御指示に応じて画像処理を実行する。なお、制御部３０及び画像処理部３１は、一体のハードウェアであってもよい。

記憶部３２は、処理プログラム３０Ｐ及び画像処理プログラム３１Ｐを記憶する。記憶部３２には、画像処理部３１によってガソリンの値段が写っている可能性が高い領域を検出するための検出モデル３Ｍの定義データが記憶されている。

制御部３０は、処理プログラム３０Ｐに基づき、通信機２から画像データ及び位置データを受信し、少なくとも、画像データを識別する識別ＩＤと、受信した日時のデータとを対応付けて記憶装置４へ送信して記憶させる処理を実行する。

制御部３０は、画像処理プログラム３１Ｐに基づき、取得した画像データから、ガソリンの値段が写っている可能性が高い領域を検出する検出モデル３Ｍによる領域検出処理を、画像処理部３１を用いて実行する。検出モデル３Ｍは、ドライブレコーダで撮像された画像から、ガソリンの値段が写っている領域を検出するように学習されている。検出モデル３Ｍは、例えばＳＳＤ（Single Shot Detector／Single Shot Multibox Detector ）等を用い、予めその領域がガソリンの値段が写っている領域であるという教師データに基づいて学習済みである。画像処理部３１は、その他、画像データにおける特定のものが写っている可能性が高い領域を画像から抽出するための公知の手法を用いてもよい。

通信部３３は、ローカルネットワークＬＮ、又はネットワークＮを介した記憶装置４及び情報処理装置１との通信接続を実現する通信モジュールである。通信部３３は例えばネットワークカードである。

記憶装置４は、制御部４０、記憶部４１及び通信部４２を備える。制御部４０は、ＣＰＵ等のプロセッサを用いる。記憶部４１は、ハードディスク、ＳＳＤ（Solid State Drive）等の大容量不揮発性メモリを用いる。記憶部４１には、車両Ｖのドライブレコーダで撮像されて送信された画像データ及び位置データ、画像データから文字列の部分を抽出した画像データ、並びに、抽出後の画像データから認識されたテキストデータ（数値データ）及び存否データが、識別ＩＤに対応付けて記憶される。

図１０は、収集装置３及び情報処理装置１による処理手順の一例を示すフローチャートである。

制御部３０は、通信機２から画像データを通信によって取得する（ステップＳ３０１）。制御部３０は、画像データと対応付けて送信される位置データを取得する（ステップＳ３０２）。

制御部３０は、画像データ及び位置データを、識別ＩＤに対応付けて記憶装置４に記憶させる（ステップＳ３０３）。

制御部３０は、画像データを検出モデル３Ｍへ入力し（ステップＳ３０４）、検出モデル３Ｍから出力される検出範囲、及び、検出範囲にガソリンの値段を示す文字列（数字列）が写っている確信度を示すデータを取得する（ステップＳ３０５）。

制御部３０は、確信度に基づいてガソリンの値段が写っている領域が検出できたか否かを判断する（ステップＳ３０６）。制御部４０は、ステップＳ３０５によって複数の領域が検出されている場合、夫々に対してステップＳ３０６の処理及び以下のステップＳ３０７以降の処理を実行する。

ステップＳ３０６にて、値段が写っている領域が検出できたと判断された場合（Ｓ３０６：ＹＥＳ）、制御部３０は、ステップＳ３０１で取得した画像データの画像から、検出範囲を抽出し（ステップＳ３０７）、抽出された画像の画像データを取得する（ステップＳ３０８）。

制御部３０は、抽出後の画像データを、情報処理装置１へ通信部３３から送信する（ステップＳ３０９）。

情報処理装置１は、収集装置３から送信された抽出後の画像データを通信部１３から取得する（ステップＳ１２１）。情報処理装置１の制御部１０は、取得した画像データを、学習済みの学習モデル１Ｍとして機能する画像処理部１１へ入力する（ステップＳ１２２）。

画像処理部１１は、学習モデル１Ｍとして、値段を示すテキストデータ（数値データ）、認識された数値の確信度のデータ、及び値段が写っているか否かを示す存否データを出力する（ステップＳ１２３）。

制御部１０は、テキストデータ（数値データ）及び存否データを通信部１３から収集装置３へ送信する（ステップＳ１２４）。

収集装置３の制御部３０は、情報処理装置１から送信されたテキストデータ及び存否データを通信部３３によって取得する（ステップＳ３１０）。制御部３０は、取得したテキストデータ及び存否データを、識別ＩＤに対応付けて記憶装置４に記憶させ（ステップＳ３１１）、処理を終了する。

ステップＳ３１１により、存否データが、文字列が写っていないことを示す画像データであっても、記憶装置４に蓄積される。

ステップＳ３０６にて、値段が写っている領域が検出できていなかったと判断された場合（Ｓ３０６：ＮＯ）、制御部３０は、ステップＳ３０７－Ｓ３１１の処理を省略して処理を終了する。制御部３０はこの場合、ステップＳ３０３で記憶した画像データ及び位置データを削除してもよい。

収集装置３は、情報処理装置１とは異なるハードウェアとして存在し、図１０のフローチャートに示す処理手順を実行するとして説明したが、収集装置３及び情報処理装置１は１つのコンピュータで実現されてもよい。

図１１は、ドライブレコーダで撮像された画像に対する処理結果を示す。図１１に示すように、撮像画像に対し、検出モデル３Ｍに基づいて値段が写っている領域が、所定の確信度で検出されて抽出される。図１１に示すように、抽出後の画像が学習モデル１Ｍに入力された場合、ガソリンの値段を示す数値、領域検出の確信度、数値の確信度、存否結果の確信度が出力される。

このように情報処理装置１を用いて得られる画像に写っている文字列を学習済みの学習
モデル１Ｍを用いて認識できることにより、以下に示すように、ガソリンの値段を地図上に示すサービスが実現される。

図１２は、情報提供装置５及び情報端末装置６の構成を示すブロック図である。情報提供装置５は、サーバコンピュータであって、制御部５０、記憶部５１、及び通信部５２を備える。

制御部５０は、ＣＰＵ又はＧＰＵ等であるプロセッサ及びメモリ等を用い、装置の構成部を制御して各種機能を実現する。記憶部５１には、情報提供プログラム５Ｐ、情報端末装置６からのリクエストを受け付けるためのＷｅｂサーバプログラム、及び地図データが記憶されている。記憶部５１にはその他、制御部５０が参照するデータが記憶されている。

通信部５２は、ネットワークＮを介した情報端末装置６との通信接続を実現するためのネットワークカード又は無線通信モジュールである。通信部５２は、記憶装置４からデータを読み出すためにネットワークＮを介した通信接続を実現するためのネットワークカード又は無線通信モジュールを含む。

制御部５０は、情報提供プログラム５Ｐに基づき、情報端末装置６からのリクエストに基づいて、リクエストで指示される位置データを含む所定範囲におけるガソリンの値段を、地図上に示すＷｅｂページのデータを情報端末装置６へ送信する。

情報端末装置６は、パーソナルコンピュータ、スマートフォン、タブレット端末等のコンピュータである。情報端末装置６は、制御部６０、記憶部６１、表示部６２、操作部６３、及び通信部６４を備える。

制御部６０は、ＣＰＵまたはＧＰＵを用いたプロセッサである。制御部６０は、ＣＰＵ、又はＧＰＵ等のプロセッサと、メモリ等を含む。制御部６０は、記憶部６１に記憶されている汎用のＷｅｂブラウザベースの表示プログラム６Ｐに基づき、情報提供装置５と通信接続し、汎用コンピュータを、情報提供サービスを受ける端末装置として動作させる。

記憶部６１は、例えばフラッシュメモリ等の不揮発性メモリを含む。記憶部６１には、上述の表示プログラム６Ｐが記憶されている。

表示部６２は、液晶パネル又は有機ＥＬディスプレイ等のディスプレイ装置を含む。操作部６３は、ユーザの操作を受け付けるインタフェースであり、物理ボタン、ディスプレイ内蔵のタッチパネルデバイスを含む。操作部６３は、物理ボタンまたはタッチパネルにて表示部６２で表示している画面上における操作を受け付けることが可能である。操作部６３は、マイクロフォン等を含み、マイクロフォンにて入力音声から操作内容を認識して操作を受け付けてもよい。

通信部６４は、ネットワークＮを介した情報端末装置６との通信接続を実現するためのネットワークカード又は無線通信モジュールである。

制御部６０は、表示プログラム６Ｐに基づいて、操作部６３で受け付けた位置データをリクエストとして情報提供装置５へ送信し、位置データが示す位置周辺におけるガソリンの値段を表示部６２に表示させることができる。

図１３は、情報提供装置５によって提供される情報の表示例を示す。図１３には、地図画像上に、各位置で撮像された画像の画像データから認識されたガソリンの値段のテキス
ト又は画像が重畳して表示されている。これにより、情報端末装置６を操作する操作者は、ガソリンの値段を把握することができる。ガソリンの値段は、車両Ｖで撮像された画像データが送信される都度、最新のデータに更新される。履歴として記憶装置４に蓄積されるので、制御部６０は、操作に応じて、ガソリンの値段の推移を表示部６２に表示させてもよい。

このようにして、ドライブレコーダで撮像されるガソリンスタンドにおけるガソリンの値段といった比較的小さな範囲の低解像となる画像内の文字列であっても、学習モデル１Ｍを用いた認識であれば、高精度に値段を認識できる。

実施の形態２においては、収集装置３が収集する画像データは、車両Ｖのドライブレコーダにて撮影された画像の画像データであった。車両Ｖはタクシーに限られないし、運搬車輌であってもよい。自動運転機能を有する車両であってもよい。更に、文字列（数字列）の認識対象となる画像データは、車両Ｖに限らず、所謂ドローンと呼ばれるような無人機に搭載されている撮影装置によって撮影されたデータであってもよい。

上述のように開示された実施の形態は全ての点で例示であって、制限的なものではない。本発明の範囲は、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内での全ての変更が含まれる。

１情報処理装置
１０制御部
１１画像処理部
１２記憶部
１３通信部
１Ｍ学習モデル（第２モデル）
１２１ＣＮＮ
１２２ＲＮＮ
１２３ＣＲＦ層
１２４第１出力層
１２５第２出力層
１Ｐ学習プログラム
３収集装置
３０制御部
３２記憶部
３０Ｐ処理プログラム
３１Ｐ画像処理プログラム
３Ｍ検出モデル（第１モデル）
４記憶装置
４１記憶部
６情報端末装置
６２表示部

Claims

画像データを入力した場合に、写っている文字列のテキストデータ及び存否データを出力する学習モデルを、生成する方法であって、
前記学習モデルは、画像データを分別して順次入力する畳み込みニューラルネットワーク、及び、該畳み込みニューラルネットワークから出力された特徴量データを順次入力する再帰型ニューラルネットワークを含み、
前記再帰型ニューラルネットワークは、入力された画像データの画像に写る文字列を出力する第１出力層、及び、前記画像における文字列の存否データを出力する第２出力層を含み、
前記学習モデルに対し、文字列が写っている画像の画像データ及び前記文字列のテキストデータの組、文字列が写っている画像及び文字列が写っていない画像それぞれの画像データと、該画像データそれぞれについて画像に文字列が写っているか否かを示す存否データとの組を含む教師データを取得し、
前記教師データに含まれる、文字列が写っている画像の画像データが入力される場合に、前記第１出力層からの出力と、第２出力層からの出力とを用いて、前記畳み込みニューラルネットワークにおけるパラメータを学習し、
前記教師データに含まれる、文字列が写っていない画像の画像データが入力される場合には、前記畳み込みニューラルネットワーク及び再帰型ニューラルネットワークにおけるパラメータを、前記第１出力層からの出力を用いず、前記第２出力層からの出力を用いた損失関数によって学習する
学習モデルの生成方法。
前記畳み込みニューラルネットワークには、入力された画像データの画像から、水平方向に順次、相互に重複する所定範囲を抽出し、抽出した所定範囲の画像の画像データが入力される
請求項１に記載の生成方法。
前記文字列が写っている画像の画像データが入力される場合に、前記第１出力層からの出力と、第２出力層からの出力とを用いて前記教師データの正解のテキストデータとなる確率を最大化するように、前記畳み込みニューラルネットワーク及び再帰型ニューラルネットワークにおけるパラメータを学習する
請求項１又は２に記載の生成方法。
前記学習モデルは、
文字列が写っている画像の画像データが入力された場合には、前記文字列のテキストデータ、及び文字列が写っていることを示す存否データを出力し、
文字列が写っていない画像の画像データが入力された場合には文字列が写っていないことを示す存否データを出力するように学習される
請求項１から請求項３のいずれか１項に記載の生成方法。
前記画像データは、車両に外向きに搭載された撮影装置によって撮影された画像データである
請求項１から請求項４のいずれか１項に記載の生成方法。
コンピュータに、画像データを入力した場合に、写っている文字列のテキストデータ及び存否データを出力する学習モデルを、生成させるコンピュータプログラムであって、
前記学習モデルは、画像データを分別して順次入力する畳み込みニューラルネットワーク、及び、該畳み込みニューラルネットワークから出力された特徴量データを順次入力する再帰型ニューラルネットワークを含み、
前記再帰型ニューラルネットワークは、入力された画像データの画像に写る文字列を出力する第１出力層、及び、前記画像における文字列の存否データを出力する第２出力層を含み、
前記コンピュータに、
前記学習モデルに対し、文字列が写っている画像の画像データ及び前記文字列のテキストデータの組、文字列が写っている画像及び文字列が写っていない画像それぞれの画像データと、該画像データそれぞれについて画像に文字列が写っているか否かを示す存否データとの組を含む教師データを取得し、
前記教師データに含まれる、文字列が写っている画像の画像データが入力される場合に、前記第１出力層からの出力と、第２出力層からの出力とを用いて、前記畳み込みニューラルネットワークにおけるパラメータを学習し、
前記教師データに含まれる、文字列が写っていない画像の画像データが入力される場合には、前記畳み込みニューラルネットワーク及び再帰型ニューラルネットワークにおけるパラメータを、前記第１出力層からの出力を用いず、前記第２出力層からの出力を用いた損失関数によって学習する
処理を実行させるコンピュータプログラム。
コンピュータが、画像データを入力した場合に、写っている文字列のテキストデータ及び存否データを出力する学習モデルを、生成する方法であって、
前記学習モデルは、画像データを分別して順次入力する畳み込みニューラルネットワーク、及び、該畳み込みニューラルネットワークから出力された特徴量データを順次入力する再帰型ニューラルネットワークを含み、
前記再帰型ニューラルネットワークは、入力された画像データの画像に写る文字列を出力する第１出力層、及び、前記画像における文字列の存否データを出力する第２出力層を含み、
前記コンピュータは、
前記学習モデルに対し、文字列が写っている画像の画像データ及び前記文字列のテキストデータの組、文字列が写っている画像及び文字列が写っていない画像それぞれの画像データと、該画像データそれぞれについて画像に文字列が写っているか否かを示す存否データとの組を含む教師データを取得し、
前記教師データに含まれる、文字列が写っている画像の画像データが入力される場合に、前記第１出力層からの出力と、第２出力層からの出力とを用いて、前記畳み込みニューラルネットワークにおけるパラメータを学習し、
前記教師データに含まれる、文字列が写っていない画像の画像データが入力される場合には、前記畳み込みニューラルネットワーク及び再帰型ニューラルネットワークにおけるパラメータを、前記第１出力層からの出力を用いず、前記第２出力層からの出力を用いた損失関数によって学習する
情報処理方法。
請求項１から５のいずれか１項に記載した生成方法によって学習済みのモデルを記憶してあるコンピュータに、
画像データを取得し、
取得した画像データを前記モデルに入力し、
前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する
処理を実行させるコンピュータプログラム。
前記コンピュータに、
前記モデルから出力されたテキストデータと、該テキストデータと共に出力される前記画像データの画像に文字列が写っている確信度に関する情報と、前記画像データとを対応付けて記憶する
処理を実行させる請求項８に記載のコンピュータプログラム。
前記コンピュータに、
前記モデルから出力された存否データが、文字列が写っていないことを示している場合に、前記画像データと、文字列の不存在を示すデータとを対応付けて記憶する
処理を実行させる請求項８又は９に記載のコンピュータプログラム。
前記画像データは、車両に外向きに搭載された撮影装置によって撮影された画像データである
請求項８から請求項１０のいずれか１項に記載のコンピュータプログラム。
前記コンピュータに、
前記画像データが撮影されたタイミングにおける前記車両の位置データを取得し、
取得した位置データを、前記画像データを前記モデルに入力することによって前記モデルから出力されるテキストデータ及び存否データと対応付けて記憶する
処理を実行させる請求項１１に記載のコンピュータプログラム。
画像データを入力した場合に、前記画像データの画像に検出対象の文字列が写っている範囲を検出するように学習されてある第１モデル、及び、請求項１から５のいずれか１項に記載した生成方法によって学習済みの第２モデルを記憶してあるコンピュータに、
第１画像データを取得し、
取得した第１画像データを前記第１モデルに入力し、
前記第１画像データの画像から、前記第１モデルにて検出された検出範囲を抽出した第２画像データを取得し、
第２画像データを前記第２モデルに入力し、
前記第１モデルから出力される、検出範囲及び該検出範囲に文字列が写っている確信度、並びに、前記第２モデルから出力されたテキストデータ及び該テキストデータと共に出力される文字列である確信度を、前記第１画像データと対応付けて記憶する
処理を実行させるコンピュータプログラム。
請求項１から５のいずれか１項に記載した生成方法によって学習済みのモデルが記憶してある記憶部と、
画像データを取得する画像取得部と、
該画像取得部が取得した画像データを前記モデルに入力することによって前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する出力部と
を備える情報処理装置。
請求項１から５のいずれか１項に記載した生成方法によって学習済みのモデルを記憶しておき、
画像データを取得し、
取得した画像データを前記モデルに入力し、
前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する
処理を含む情報処理方法。