JP7416614B2 - 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法 - Google Patents
学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法 Download PDFInfo
- Publication number
- JP7416614B2 JP7416614B2 JP2019233573A JP2019233573A JP7416614B2 JP 7416614 B2 JP7416614 B2 JP 7416614B2 JP 2019233573 A JP2019233573 A JP 2019233573A JP 2019233573 A JP2019233573 A JP 2019233573A JP 7416614 B2 JP7416614 B2 JP 7416614B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- data
- character string
- image data
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 50
- 230000010365 information processing Effects 0.000 title claims description 34
- 238000004590 computer program Methods 0.000 title claims description 18
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 23
- 238000001514 detection method Methods 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000000306 recurrent effect Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 claims 1
- 238000004891 communication Methods 0.000 description 52
- 238000010586 diagram Methods 0.000 description 16
- 230000015654 memory Effects 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
- Image Analysis (AREA)
Description
の画像に写っている文字列の認識結果であるテキストデータ及び存否データを出力するように学習してあるモデルを記憶しておき、画像データを取得し、取得した画像データを前記モデルに入力し、前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する処理を含む。
図1は、文字認識を実行する情報処理装置1のブロック図である。情報処理装置1は、制御部10、画像処理部11、記憶部12、通信部13、及び読取部14を備える。情報処理装置1及び情報処理装置1における動作について以下では、1台のサーバコンピュータとして説明するが、複数のコンピュータによって処理を分散するようにして構成されてもよい。
Processing Unit)又は専用回路等のプロセッサ及びメモリを用い、制御部10からの制御指示に応じて画像処理を実行し、学習モデル1Mとして機能する。なお、制御部10及び画像処理部11は、一体のハードウェアであってもよい。また制御部10及び画像処理部11は、CPU、GPU等のプロセッサ、メモリ、更には記憶部12及び通信部13を集積した1つのハードウェア(SoC:System On a Chip)として構成されていてもよい。
文字列のデータを出力する第1出力層124と、分岐された出力を入力し、画像に文字列が写っているかの存否データを出力する第2出力層125とを含む。
合に対する、認識精度の向上の推移を示す。図6中、実線は、上述の学習モデル1Mの学習方法によって生成されている過程における精度の推移を示す。破線は、第2出力層125を用いないモデル、即ち単純に文字列認識を学習させたモデルにおける精度の推移を示す。
実施の形態では、実施の形態1で説明した情報処理装置1によって文字列を認識し、認識した文字列と、文字列を含む画像が撮影された位置情報とを対応付けて記憶するデータベースを作成し、文字列が示すテキストデータに基づく情報を提供する情報提供サービスを実現する。認識される文字列は、実施の形態2においてはガソリンスタンドにおけるガソリンの値段を示す数字列である。
位置データ対応付けて送信してもよい。
モデル1Mを用いて認識できることにより、以下に示すように、ガソリンの値段を地図上に示すサービスが実現される。
ト又は画像が重畳して表示されている。これにより、情報端末装置6を操作する操作者は、ガソリンの値段を把握することができる。ガソリンの値段は、車両Vで撮像された画像データが送信される都度、最新のデータに更新される。履歴として記憶装置4に蓄積されるので、制御部60は、操作に応じて、ガソリンの値段の推移を表示部62に表示させてもよい。
10 制御部
11 画像処理部
12 記憶部
13 通信部
1M 学習モデル(第2モデル)
121 CNN
122 RNN
123 CRF層
124 第1出力層
125 第2出力層
1P 学習プログラム
3 収集装置
30 制御部
32 記憶部
30P 処理プログラム
31P 画像処理プログラム
3M 検出モデル(第1モデル)
4 記憶装置
41 記憶部
6 情報端末装置
62 表示部
Claims (15)
- 画像データを入力した場合に、写っている文字列のテキストデータ及び存否データを出力する学習モデルを、生成する方法であって、
前記学習モデルは、画像データを分別して順次入力する畳み込みニューラルネットワーク、及び、該畳み込みニューラルネットワークから出力された特徴量データを順次入力する再帰型ニューラルネットワークを含み、
前記再帰型ニューラルネットワークは、入力された画像データの画像に写る文字列を出力する第1出力層、及び、前記画像における文字列の存否データを出力する第2出力層を含み、
前記学習モデルに対し、文字列が写っている画像の画像データ及び前記文字列のテキストデータの組、文字列が写っている画像及び文字列が写っていない画像それぞれの画像データと、該画像データそれぞれについて画像に文字列が写っているか否かを示す存否データとの組を含む教師データを取得し、
前記教師データに含まれる、文字列が写っている画像の画像データが入力される場合に、前記第1出力層からの出力と、第2出力層からの出力とを用いて、前記畳み込みニューラルネットワークにおけるパラメータを学習し、
前記教師データに含まれる、文字列が写っていない画像の画像データが入力される場合には、前記畳み込みニューラルネットワーク及び再帰型ニューラルネットワークにおけるパラメータを、前記第1出力層からの出力を用いず、前記第2出力層からの出力を用いた損失関数によって学習する
学習モデルの生成方法。 - 前記畳み込みニューラルネットワークには、入力された画像データの画像から、水平方向に順次、相互に重複する所定範囲を抽出し、抽出した所定範囲の画像の画像データが入力される
請求項1に記載の生成方法。 - 前記文字列が写っている画像の画像データが入力される場合に、前記第1出力層からの出力と、第2出力層からの出力とを用いて前記教師データの正解のテキストデータとなる確率を最大化するように、前記畳み込みニューラルネットワーク及び再帰型ニューラルネットワークにおけるパラメータを学習する
請求項1又は2に記載の生成方法。 - 前記学習モデルは、
文字列が写っている画像の画像データが入力された場合には、前記文字列のテキストデータ、及び文字列が写っていることを示す存否データを出力し、
文字列が写っていない画像の画像データが入力された場合には文字列が写っていないことを示す存否データを出力するように学習される
請求項1から請求項3のいずれか1項に記載の生成方法。 - 前記画像データは、車両に外向きに搭載された撮影装置によって撮影された画像データである
請求項1から請求項4のいずれか1項に記載の生成方法。 - コンピュータに、画像データを入力した場合に、写っている文字列のテキストデータ及び存否データを出力する学習モデルを、生成させるコンピュータプログラムであって、
前記学習モデルは、画像データを分別して順次入力する畳み込みニューラルネットワーク、及び、該畳み込みニューラルネットワークから出力された特徴量データを順次入力する再帰型ニューラルネットワークを含み、
前記再帰型ニューラルネットワークは、入力された画像データの画像に写る文字列を出力する第1出力層、及び、前記画像における文字列の存否データを出力する第2出力層を含み、
前記コンピュータに、
前記学習モデルに対し、文字列が写っている画像の画像データ及び前記文字列のテキストデータの組、文字列が写っている画像及び文字列が写っていない画像それぞれの画像データと、該画像データそれぞれについて画像に文字列が写っているか否かを示す存否データとの組を含む教師データを取得し、
前記教師データに含まれる、文字列が写っている画像の画像データが入力される場合に、前記第1出力層からの出力と、第2出力層からの出力とを用いて、前記畳み込みニューラルネットワークにおけるパラメータを学習し、
前記教師データに含まれる、文字列が写っていない画像の画像データが入力される場合には、前記畳み込みニューラルネットワーク及び再帰型ニューラルネットワークにおけるパラメータを、前記第1出力層からの出力を用いず、前記第2出力層からの出力を用いた損失関数によって学習する
処理を実行させるコンピュータプログラム。 - コンピュータが、画像データを入力した場合に、写っている文字列のテキストデータ及び存否データを出力する学習モデルを、生成する方法であって、
前記学習モデルは、画像データを分別して順次入力する畳み込みニューラルネットワーク、及び、該畳み込みニューラルネットワークから出力された特徴量データを順次入力する再帰型ニューラルネットワークを含み、
前記再帰型ニューラルネットワークは、入力された画像データの画像に写る文字列を出力する第1出力層、及び、前記画像における文字列の存否データを出力する第2出力層を含み、
前記コンピュータは、
前記学習モデルに対し、文字列が写っている画像の画像データ及び前記文字列のテキストデータの組、文字列が写っている画像及び文字列が写っていない画像それぞれの画像データと、該画像データそれぞれについて画像に文字列が写っているか否かを示す存否データとの組を含む教師データを取得し、
前記教師データに含まれる、文字列が写っている画像の画像データが入力される場合に、前記第1出力層からの出力と、第2出力層からの出力とを用いて、前記畳み込みニューラルネットワークにおけるパラメータを学習し、
前記教師データに含まれる、文字列が写っていない画像の画像データが入力される場合には、前記畳み込みニューラルネットワーク及び再帰型ニューラルネットワークにおけるパラメータを、前記第1出力層からの出力を用いず、前記第2出力層からの出力を用いた損失関数によって学習する
情報処理方法。 - 請求項1から5のいずれか1項に記載した生成方法によって学習済みのモデルを記憶してあるコンピュータに、
画像データを取得し、
取得した画像データを前記モデルに入力し、
前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する
処理を実行させるコンピュータプログラム。 - 前記コンピュータに、
前記モデルから出力されたテキストデータと、該テキストデータと共に出力される前記画像データの画像に文字列が写っている確信度に関する情報と、前記画像データとを対応付けて記憶する
処理を実行させる請求項8に記載のコンピュータプログラム。 - 前記コンピュータに、
前記モデルから出力された存否データが、文字列が写っていないことを示している場合に、前記画像データと、文字列の不存在を示すデータとを対応付けて記憶する
処理を実行させる請求項8又は9に記載のコンピュータプログラム。 - 前記画像データは、車両に外向きに搭載された撮影装置によって撮影された画像データである
請求項8から請求項10のいずれか1項に記載のコンピュータプログラム。 - 前記コンピュータに、
前記画像データが撮影されたタイミングにおける前記車両の位置データを取得し、
取得した位置データを、前記画像データを前記モデルに入力することによって前記モデルから出力されるテキストデータ及び存否データと対応付けて記憶する
処理を実行させる請求項11に記載のコンピュータプログラム。 - 画像データを入力した場合に、前記画像データの画像に検出対象の文字列が写っている範囲を検出するように学習されてある第1モデル、及び、請求項1から5のいずれか1項に記載した生成方法によって学習済みの第2モデルを記憶してあるコンピュータに、
第1画像データを取得し、
取得した第1画像データを前記第1モデルに入力し、
前記第1画像データの画像から、前記第1モデルにて検出された検出範囲を抽出した第2画像データを取得し、
第2画像データを前記第2モデルに入力し、
前記第1モデルから出力される、検出範囲及び該検出範囲に文字列が写っている確信度、並びに、前記第2モデルから出力されたテキストデータ及び該テキストデータと共に出力される文字列である確信度を、前記第1画像データと対応付けて記憶する
処理を実行させるコンピュータプログラム。 - 請求項1から5のいずれか1項に記載した生成方法によって学習済みのモデルが記憶してある記憶部と、
画像データを取得する画像取得部と、
該画像取得部が取得した画像データを前記モデルに入力することによって前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する出力部と
を備える情報処理装置。 - 請求項1から5のいずれか1項に記載した生成方法によって学習済みのモデルを記憶しておき、
画像データを取得し、
取得した画像データを前記モデルに入力し、
前記モデルから出力されたテキストデータ及び存否データに基づき、前記画像データの画像に文字列が写っているか否か、及び、写っている文字列を出力する
処理を含む情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019233573A JP7416614B2 (ja) | 2019-12-24 | 2019-12-24 | 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019233573A JP7416614B2 (ja) | 2019-12-24 | 2019-12-24 | 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021103386A JP2021103386A (ja) | 2021-07-15 |
JP7416614B2 true JP7416614B2 (ja) | 2024-01-17 |
Family
ID=76755190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019233573A Active JP7416614B2 (ja) | 2019-12-24 | 2019-12-24 | 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7416614B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609965B (zh) * | 2021-08-03 | 2024-02-13 | 同盾科技有限公司 | 文字识别模型的训练方法及装置、存储介质、电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018132953A (ja) | 2017-02-15 | 2018-08-23 | ソフネック株式会社 | 画像処理方法、及びコンピュータプログラム |
JP2018152026A (ja) | 2017-03-15 | 2018-09-27 | ソフネック株式会社 | 文字認識方法及びコンピュータプログラム |
JP2019148521A (ja) | 2018-02-28 | 2019-09-05 | 株式会社Jvcケンウッド | 認識画像表示装置、認識画像表示方法、及びプログラム |
-
2019
- 2019-12-24 JP JP2019233573A patent/JP7416614B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018132953A (ja) | 2017-02-15 | 2018-08-23 | ソフネック株式会社 | 画像処理方法、及びコンピュータプログラム |
JP2018152026A (ja) | 2017-03-15 | 2018-09-27 | ソフネック株式会社 | 文字認識方法及びコンピュータプログラム |
JP2019148521A (ja) | 2018-02-28 | 2019-09-05 | 株式会社Jvcケンウッド | 認識画像表示装置、認識画像表示方法、及びプログラム |
Non-Patent Citations (3)
Title |
---|
Khaoula Elagouni,Combining Multi-Scale Character Recognition and Linguistic Knowledge for Natural Scene Text OCR,2012 10th IAPR International Workshop on Document Analysis Systems,IEEE,2012年,P.120-124,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6195347 |
Siyang Qin,Cascaded Segmentation-Detection Networks for Word-Level Text Spotting,2017 14th IAPR International Conference on Document Analysis and Recognition,IEEE,2017年,P.1275-1282,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8270141 |
芦田 和毅,情景画像からの文字抽出,電子情報通信学会論文誌 D-II,日本,社団法人電子情報通信学会,2005年09月01日,Vol.J88-D-II No.9,P.1817-1824 |
Also Published As
Publication number | Publication date |
---|---|
JP2021103386A (ja) | 2021-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220058812A1 (en) | Target recognition method and appartus, storage medium, and electronic device | |
US20210097103A1 (en) | Method and system for automatically collecting and updating information about point of interest in real space | |
CN110033386B (zh) | 车辆事故的鉴定方法及装置、电子设备 | |
CN108460427B (zh) | 一种分类模型训练方法、装置以及分类方法及装置 | |
EP3378222A1 (en) | Moving vehicle detection and analysis using low resolution remote sensing imagery | |
EP4105600A2 (en) | Method for automatically producing map data, related apparatus and computer program product | |
EP4211601B1 (en) | Method for electronic trip familiarity detection | |
CN110119725B (zh) | 用于检测信号灯的方法及装置 | |
CN110858213A (zh) | 用于根据地图图像进行位置推理的方法 | |
JP2021111273A (ja) | 学習モデルの生成方法、プログラム及び情報処理装置 | |
CN111339976A (zh) | 室内定位方法、装置、终端及存储介质 | |
CN114194180A (zh) | 一种辅助泊车信息的确定方法、装置、设备及介质 | |
CN116824533A (zh) | 一种基于注意力机制的远小目标点云数据特征增强方法 | |
JP2016045678A (ja) | 価格表示システム、価格判定装置、表示装置、価格判定方法、および、価格判定プログラム | |
CN118139775A (zh) | 安装在车辆上的电子设备及其操作方法 | |
JP7416614B2 (ja) | 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法 | |
CN114385662A (zh) | 路网更新方法、装置、存储介质及电子设备 | |
US20220164350A1 (en) | Searching an autonomous vehicle sensor data repository based on context embedding | |
CN114396956A (zh) | 导航方法及装置、计算设备、存储介质和计算机程序产品 | |
CN110263779A (zh) | 文本区域检测方法及装置、文本检测方法、计算机可读介质 | |
CN111310595B (zh) | 用于生成信息的方法和装置 | |
CN115311867B (zh) | 隧道场景的定位方法、装置、计算机设备、存储介质 | |
CN116823884A (zh) | 多目标跟踪方法、***、计算机设备及存储介质 | |
CN115675528A (zh) | 基于相似场景挖掘的自动驾驶方法和车辆 | |
Kang et al. | ETLi: Efficiently annotated traffic LiDAR dataset using incremental and suggestive annotation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20200121 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221111 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231010 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231206 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7416614 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |