JP7002729B2 - 画像データ生成装置、画像認識装置、画像データ生成プログラム、及び画像認識プログラム - Google Patents
画像データ生成装置、画像認識装置、画像データ生成プログラム、及び画像認識プログラム Download PDFInfo
- Publication number
- JP7002729B2 JP7002729B2 JP2018035744A JP2018035744A JP7002729B2 JP 7002729 B2 JP7002729 B2 JP 7002729B2 JP 2018035744 A JP2018035744 A JP 2018035744A JP 2018035744 A JP2018035744 A JP 2018035744A JP 7002729 B2 JP7002729 B2 JP 7002729B2
- Authority
- JP
- Japan
- Prior art keywords
- image data
- data
- recognition
- image
- data generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 8
- 238000005452 bending Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 description 32
- 238000012986 modification Methods 0.000 description 29
- 230000004048 modification Effects 0.000 description 29
- 238000012545 processing Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 15
- 238000011176 pooling Methods 0.000 description 9
- 230000002123 temporal effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000013434 data augmentation Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010030 laminating Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
動画は2次元画像であるフレーム画像を時系列的に並べたものであるため、2次元画像に対する深層学習の技術を動画に適用したいとの要望が高まっている。
このような2次元の画像認識技術を用いて動画を認識する技術として非特許文献1の「3D Convolutional Neural Networks for Human Action Recognition」や非特許文献2の「フレーム連結画像を用いたCNNによるシーン認識」がある。
非特許文献1の技術は、動画データに対して空間2次元と時間1次元から成る畳み込みフィルタを適用して、畳み込み処理を行うものである。
非特許文献2の技術は、対象の動き(発話シーン)を撮影した一連のフレーム画像をタイル状に配置して連結することにより、1枚の2次元の画像で対象の経時変化を表すものである。これをCNNによる画像認識装置に投入してシーンの認識を行う。
非特許文献2記載の技術では、2次元の畳み込みフィルタを用いるため、計算コストを低減することができるが、タイル状に隣接する画像の画素間には情報の関連性がなく、対象の認識精度が低下するという問題があった。
(2)請求項2に記載の発明では、前記所定の方向は、前記時系列空間情報の空間方向であり、前記他の方向は、前記時系列空間情報の時間方向であることを特徴とする請求項1に記載の画像データ生成装置を提供する。
(3)請求項3に記載の発明では、前記時系列空間情報は、前記認識対象を撮影した動画データであり、前記データ値取得手段は、前記動画データの各フレーム画像データに前記曲線を設定し、前記各フレーム画像データを走査して、画素値の列をデータ値の列として取得し、前記画像データ生成手段は、フレーム画像データごとの画素値の列を時間方向に対応して配列した2次元の前記画像データを生成することを特徴とする請求項1、又は請求項2に記載の画像データ生成装置を提供する。
(4)請求項4に記載の発明では、前記データ値取得手段は、前記フレーム画像データごとに、前記曲線の設定条件を変化させることを特徴とする請求項3に記載の画像データ生成装置を提供する。
(5)請求項5に記載の発明では、前記データ値取得手段は、前記設定条件として、前記曲線の設定範囲を変化させることを特徴とする請求項4に記載の画像データ生成装置を提供する。
(6)請求項6に記載の発明では、前記データ値取得手段は、前記設定条件として、前記フレーム画像データごとに、前記曲線の設定形態を変化させることを特徴とする請求項4に記載の画像データ生成装置を提供する。
(7)請求項7に記載の発明では、前記データ値取得手段は、同一のフレーム画像データに対して前記曲線の設定条件を変化させて、当該設定条件ごとにデータ値を取得することを特徴とする請求項4、請求項5、又は請求項6に記載の画像データ生成装置を提供する。
(8)請求項8に記載の発明では、前記データ値取得手段は、直線状の走査経路に沿って前記データ値の列を取得することを特徴とする請求項2に記載の画像データ生成装置を提供する。
(9)請求項9に記載の発明では、前記時系列空間情報は、前記認識対象を撮影した動画データであり、前記動画データを構成するフレーム画像の少なくとも一部の静止画像データに対して前記走査経路の走査方向を決定する走査方向決定手段を具備し、前記データ値取得手段は、前記決定した走査方向に沿って前記データ値の列を取得し、前記画像データ生成手段は、前記静止画像データごとの画素値の列を時間方向に対応して配列した2次元の前記画像データを生成することを特徴とする請求項8に記載の画像データ生成装置を提供する。
(10)請求項10に記載の発明では、前記走査方向決定手段は、前記静止画像データによって形成される画像の短手方向に前記走査方向を決定することを特徴とする請求項9に記載の画像データ生成装置を提供する。
(11)請求項11に記載の発明では、空間内での認識対象を撮影した動画データを取得する動画データ取得手段と、前記動画データを構成するフレーム画像の少なくとも一部の静止画像データに対して、前記静止画像データによって形成される画像の短手方向に、直線状の走査経路の走査方向を決定する走査方向決定手段と、前記決定した走査方向に沿って、前記静止画像データの空間方向における画素値の列を取得するデータ値取得手段と、前記静止画像データごとの画素値の列を時間方向に対応して配列して、前記認識対象を画像認識するための2次元の前記画像データを生成する画像データ生成手段と、前記生成した画像データを出力する出力手段と、を具備したことを特徴とする画像データ生成装置を提供する。
(12)請求項12に記載の発明では、請求項1から請求項11までのうちの何れか1の請求項に記載の画像データ生成装置と、前記画像データ生成装置が出力した画像データを取得する画像データ取得手段と、認識対象を画像認識するための学習データを取得する学習データ取得手段と、前記取得した学習データを用いて前記取得した画像データに含まれている前記認識対象を認識する認識手段と、を具備したことを特徴とする画像認識装置を提供する。
(13)請求項13に記載の発明では、コンピュータによって読み取られ実行される画像データ生成プログラムであって、前記コンピュータを、請求項1から請求項11のうちのいずれか1の請求項に記載の画像データ生成装置として機能させることを特徴とする画像データ生成プログラムを提供する。
(14)請求項14に記載の発明では、コンピュータによって読み取られ実行される画像認識プログラムであって、前記コンピュータを、請求項12に記載の画像認識装置として機能させることを特徴とする画像認識プログラムを提供する。
画像認識装置1(図1)は、時空間画像データ生成部2によって、動画データ4を構成するフレーム画像データ6をヒルベルトスキャンして1次元空間画像データ7を生成し、更に、1次元空間画像データ7を時間方向に配列して空間的情報と時間的情報を保持した2次元の時空間画像データ8を生成する。
このように、画像認識装置1は、空間的情報と時間的情報を保持しつつ、動画データ4を2次元の時空間画像データ8に画像変換する。
次に、画像認識装置1は、CNN部3によって、時空間画像データ8に対して2次元フィルタを用いた畳み込み処理を行い、認識対象である歩行者の行動を画像認識する。
このように、画像認識装置1は、本来は、空間2次元と時間1次元による3次元の解析を要する歩行者の行動認識を、2次元画像のCNN(深層学習を用いた人工知能の一つ)による画像認識処理によって行い、歩行者の状態を推定することができる。
図1は、本実施の形態に係る画像認識装置1の構成を説明するための図である。
図1(a)に示した画像認識装置1は、車載装置であって、画像認識用の画像データの生成を行う時空間画像データ生成部2と深層学習を用いた人工知能による画像認識処理を行うCNN部3を備えており、車載のカメラが出力した動画データを解析して車外に存在する歩行者の有無と動作状態の分類(右直立、右歩行、左直立、左歩行など)を画像認識する。
カメラによって撮影された動画データ4は、時系列的に生成されたフレーム画像データ6a、6b、…から構成されている。
以降、フレーム画像データ6a、6b、…を特に区別しない場合は、単にフレーム画像データ6と記し、後述する他の構成要素についても同様とする。
動画データ4は、フレーム画像データ6を撮影時間に従って時間方向(t軸とする)に時系列に順序づけて並べた静止画像データの集合であり、空間方向の2次元、時間方向の1次元を合計した3次元データとなる。
ここで、動画データ4は、空間内での認識対象の位置を時間の経過に従って記録した時系列空間情報として機能している。
このように、時空間画像データ生成部2は、カメラより時系列空間情報を取得する時系列空間情報取得手段を備えている。
ここでは、一例として最初のフレーム画像データ6aから最新のフレーム画像データ6fまでの6枚のフレーム画像データ6を読み込むことにする。
なお、画像認識精度が許容範囲内に保たれる限度まで、フレーム画像データ6を所定枚数ごとに、あるいは、ランダムに読み込んだり、または、コマ落ちが生じてもよい。
すなわち、時空間画像データ生成部2は、カメラから逐次送られてくるフレーム画像データ6のうち、最新のものから過去のものへ時系列的に所定枚数分を読み込むようにしてもよい。この場合の一例としては、最新のフレーム画像データ6fから過去方向のフレーム画像データ6aまでの6枚のフレーム画像データ6を読み込むことになる。
時空間画像データ生成部2は、同様にして、フレーム画像データ6b~6fも図示しない1次元空間画像データ7b~7fに変換する。
後述するように、ヒルベルト曲線は屈曲しているため、これに沿ってスキャンすると、画像の局所性を極力保持したまま2次元画像を1次元化することができる。
このように、時空間画像データ生成部2は、時系列空間情報を所定の方向(この例では、空間方向であり、時間方向とすることも可能)に走査して当該所定の方向におけるデータ値(この例では画素値)の列を取得するデータ値取得手段を備えている。
そして、当該データ値取得手段は、走査経路として、当該所定の方向におけるデータ値の局所性に対応して屈曲を繰り返す曲線(この例では、ヒルベルト曲線)を設定し、当該設定した曲線に沿って時系列空間情報を走査して当該所定の方向におけるデータ値(この例では、画素値)の列を取得している。
このように、時空間画像データ生成部2は、取得したデータ値の列を、時系列空間情報の他の方向(この例では、時間方向)に対応して配列して認識対象を画像認識するための画像データ(時空間画像データ8)を生成する画像データ生成手段を備えている。
このように、時空間画像データ生成部2は、動画データ4を空間方向にヒルベルトスキャンして展開することにより3次元の時系列空間データである動画データ4を、空間的情報、及び時間的情報を保持しつつ、2次元の画像データである時空間画像データ8に変換する。
なお、ここでは1次元空間画像データ7の配列を時系列順としたが、画像認識が可能な範囲で順序を変更することも可能である。
CNN部3が用いるアルゴリズムは、2次元画像データの画像認識方法として高い評価を得ており、また、広く利用されているものである。
このように、時空間画像データ生成部2は、生成した画像データをCNN部3に出力する出力手段を備えている。
CNN部3は、入力側から、畳み込み層11、プーリング層12、畳み込み層13、プーリング層14、畳み込み層15、プーリング層16、全結合層17の各層を積層して構成されている。
畳み込み層11は、入力された2次元画像データ(ここでは、時空間画像データ8)に対して2次元フィルタを画像上でスライドさせてフィルタリングすることにより画像の特徴的な濃淡構造を抽出する層であり、周波数解析に対応する処理を行う。
歩行者は、動的に動くため、フレーム画像データ6での撮影位置がずれるが、プーリング層12の処理によって歩行者を表す空間的な特徴の位置のずれを吸収することができる。これによって、空間的な位置ずれに対する画像認識精度の頑強性を高めることができる。
全結合層17は、一般的なニューラルネットワークであり、2次元特徴マップ(畳み込み層11~プーリング層16を経て得られるデータ)を1次元に展開し、回帰分析のような処理を行う層である。
このように、CNN部3は、画像の特徴の抽出と位置のずれの吸収を3回行った後、回帰分析的な処理を行って、歩行者の態様を画像認識する。
学習は、分類クラスごとに多数の時空間画像データ8を用意し、これを画像認識装置1に入力して、その結果をバックプロパゲーションするなどして行う。
ヒルベルトスキャンは、フレーム画像データ6に各画素を通過するヒルベルト曲線を設定し、これに沿ってスキャンすることにより、フレーム画像データ6の全体に渡って画素値を一筆書き的に読み取る処理である。
このように、時空間画像データ生成部2は、屈曲を繰り返す曲線として空間充填曲線を設定している。
更に、より画素の多い画像データも同様に、ヒルベルト曲線に従ってスキャンする。
同様に、画像データ24で局在している画素3、4、7、8も1次元空間画像データ26で局在してまとまっている。
このようにヒルベルトスキャンを用いると、画素値の局所性をできるだけ保持したまま2次元データを1次元化することができる。
そのため、ヒルベルト曲線は、フレーム画像データ6をスキャンするための走査線として適した曲線である。
なお、これは、フレーム画像データ6をスキャンする曲線をヒルベルト曲線に限定するものではなく、ペアノ曲線などの他の空間充填曲線や、非空間充填曲線を用いることも可能である。
このように、時空間画像データ生成部2は、動画による3次元データをスキャンして2次元データ化することができる。このため、CNN部3は、3次元の動画データを2次元フィルタでフィルタリングすることが可能となる。これにより、動画データに3次元フィルタを適用する従来例に比して、計算コストを著しく低減することができる。
上述したように、ヒルベルトスキャンすることによりフレーム画像データ6における画素の局所性をなるべく保持したまま時空間画像データ8を生成することができる。
しかし、局所性の全てが保存されるわけではなく、局在化していた画素が離れてしまう場合もある程度発生する。
しかし、画像データ24において局在している画素5、6、9、Aからなる領域に注目した場合、1次元空間画像データ26では画素5、6と画素9、Aとが離れてしまい、局所性が低下している。
このため、各フレーム画像データ6に対して同一条件でヒルベルトスキャンをすると、上記の画素5、6と画素9、Aとの間で生じた局所性の低下が、全てのフレーム画像データ6において生じることになり、時系列的に局所性の低下が累積されてしまう。
そこで、時空間画像データ生成部2は、次に述べるように、フレーム画像データ6ごとのヒルベルト曲線の設定条件を変化させるためにフレーム画像データ6をランダムにクリッピングする機能を備えている。
これに対し、時空間画像データ生成部2は、このサイズより小さい領域をフレーム画像データ6aにランダム(任意)に設定し、フレーム画像データ6aから当該領域で形成されたクリッピング画像9aを抜き出す。クリッピング画像9aのサイズは、一例として60×30とする。
そこで、時空間画像データ生成部2は、図3(b)に示したように、クリッピング画像9aの周囲に適当な画素を追加するパディングという処理を行って、64×32のフレーム画像データ6aを復元する
そして、時空間画像データ生成部2は、復元したフレーム画像データ6aにヒルベルト曲線を設定してスキャンし、追加した画素の画素値はメモリに読み込まずにスキップして1次元空間画像データ7aを生成する。
そして、時空間画像データ生成部2は、1次元空間画像データ7a~7fを時系列順に配設して時空間画像データ8を生成する。
以上の例では、クリッピング画像9aをフレーム画像データ6ごとに任意の領域に設定したが、何らかの規則性に従って設定してもよい。
このように、時空間画像データ生成部2は、フレーム画像データごとに、曲線の設定範囲を変化させることにより曲線の設定条件を変化させる。
データオーギュメンテーションは、事前学習用の動画データと動画データ4の双方について行われる。
この変形例では、時空間画像データ生成部2は、クリッピング画像9aの上半分から30×30のクリッピング画像を抜き出した後、パディングして32×32のフレーム画像データ31aを生成する。
同様にして、時空間画像データ生成部2は、クリッピング画像9b~9fから図示しないフレーム画像データ31b~31fを生成する。
クリッピング画像9を半分にリサイズすることにより、1次元空間画像データ7や時空間画像データ8のデータ量も半分になり、より小型の画像認識装置1での処理が可能となる。
また、フレーム画像データ6を直接クリッピングしてクリッピング画像を生成してもよい。
画像認識装置1は、車載用に構成されているが、航空機や船舶などの他の形態の移動体に搭載したり、あるいは、スマートフォンなどの携帯端末に搭載したり、更には、パーソナルコンピュータなどの据え置き型の装置に搭載したりすることができる。
CPU41は、中央処理装置であって、記憶装置44が記憶する画像認識プログラムに従って動作し、上述した歩行者の画像認識を行う。
RAM43は、読み書きが可能なメモリであって、CPU41が動画データ4から時空間画像データ8を生成したり、更に、時空間画像データ8から歩行者を画像認識する際のワーキングメモリを提供する。
画像認識プログラムは、CPU41に時空間画像データ生成部2やCNN部3としての機能を発揮させるプログラムである。
入力部46は、画像認識装置1を操作するための操作ボタンなどから構成され、出力部47は、画像認識装置1の設定画面などを表示するディスプレイなどから構成されている。
本実施の形態では、画像認識装置1を車載装置とするが、カメラ45を車両に設置し、ネットワーク通信によって動画をサーバに送信し、サーバで画像認識して認識結果を車両に送信するように構成することもできる。
以下の処理は、CPU41が画像認識プログラムに従って行うものである。また、CPU41の処理に対応する機能部を括弧にて示す。
まず、カメラ45が車外を撮影して動画データ4を逐次的に出力している。
次に、CPU41(時空間画像データ生成部2)は、動画フレームをQ枚読み込む(ステップ5)。すなわち、CPU41は、出力される動画データ4における所定枚数Q枚(例えば、6枚)のフレーム画像データ6を出力順にRAM43に読み込む。
そして、CPU41(時空間画像データ生成部2)は、RAM43からi番目のフレーム画像データ6を読み出し、これからクリッピング画像9を生成してRAM43に記憶する(ステップ15)。フレーム画像データ6からクリッピング画像9を生成する領域は、乱数を発生させて、これに基づいてランダムに決定する。
なお、i=0番目のフレーム画像データ6は、Q枚のうちの1枚目に対応する。即ち、i番目のフレーム画像データ6は、Q枚の内のi+1枚目に対応する。
そして、CPU41(時空間画像データ生成部2)は、RAM43に記憶した当該フレーム画像データ6にヒルベルト曲線を設定してヒルベルトスキャンを行い(ステップ20)、1次元空間画像データ7を生成する(ステップ25)。
なお、i=0の場合は、まず、最初の1次元空間画像データ7aをRAM43に記憶し、i=1、2、…の場合には、既にRAM43に記憶してある1次元空間画像データ7に時系列的に追加していく。
iがQ未満の場合(ステップ40;Y)、CPU41(時空間画像データ生成部2)は、ステップ15に戻り、次のフレーム画像データ6に対して同様の処理を行う。
そして、CPU41(CNN部3)は、画像認識結果を所定の出力先に出力する(ステップ50)。
出力先は、例えば、車両の制御系であり、車両前方に歩行者が存在する場合に車速の制動を行ったりする。
処理を終了しない場合(ステップ55;N)、CPU41(CNN部3)は、ステップ5に戻る。一方、ユーザが終了ボタンを選択するなどして処理を終了する場合(ステップ55;Y)、CPU41(CNN部3)は、処理を終了する。
この図は、画像認識装置1の画像認識能力を10分割交差検定という評価方法により評価した結果を表した表である。
10分割交差検定とは、1つのデータセット(例えば時空間画像データ8の1万セット分)を10個(1000セット)に分割した後、9個で学習し、残りの1つで正答率を評価する、という処理を繰り替えし行う評価方法である。
評価項目は、正答率であり、画像認識装置1の場合は77.1%、LSTMの場合は74.0%となっている。
このように、画像認識装置1の正答率は、LSTMを上回っており、画像認識装置1は、従来技術と比較して高い画像認識能力を備えていることが分かる。
実施の形態では、クリッピングにより離散化する画素を分散させたが、本変形例では、ヒルベルト
スキャンの経路、即ち、ヒルベルト曲線の形態をフレーム画像データ6ごとに変化させることにより離散化する画素の分散を行う。
ヒルベルト曲線の始点から最初の一歩目を右側に進む場合を形態1とし、下側に進む場合を形態2とし、上側に進む場合を形態3とし、左側に進む場合を形態4とする。はじめの一歩目の位置がフレーム画像データ6の外となる場合は、パディングして当該パディング部分に関しては、スキャン時に画素値の読み込みを行わないものとする。
割り当て方は各種考えられ、例えば、フレーム画像データ6aは、形態1のヒルベルト曲線でヒルベルトスキャンし、フレーム画像データ6bは、形態2のヒルベルト曲線でヒルベルトスキャンし、…といったように、形態1から形態4までを順番に割り当ててもよいし、あるいは、形態1~形態4から任意に選んだ形態をフレーム画像データ6aに割り当て、残りの形態から任意に選んだ形態をフレーム画像データ6bに割り当て、…といったように、形態を任意に割り当ててもよい。
更に、フレーム画像データ6aは、形態1のヒルベルト曲線、フレーム画像データ6bは、形態1のペアノ曲線、フレーム画像データ6cは、形態2のヒルベルト曲線、フレーム画像データ6dは、形態2のペアノ曲線、…といったように、曲線の種類と曲線の形態の両方を変えてもよい。
このように、この例の時空間画像データ生成部2は、曲線の設定条件として、フレーム画像データごとに、曲線の設定形態を変化させている。
変形例1では、フレーム画像データ6ごとにヒルベルト曲線の形態を変化させてヒルベルトスキャンしたが、本変形例では、1つのフレーム画像データ6に対して形態の異なる複数のヒルベルト曲線を設定する。
例えば、フレーム画像データ6aを形態1のヒルベルト曲線でスキャンして1次元空間画像データ7a1を生成し、更に、フレーム画像データ6aを形態2のヒルベルト曲線でスキャンして1次元空間画像データ7a2を生成し、…、次に、フレーム画像データ6bを形態1のヒルベルト曲線でスキャンして1次元空間画像データ7b1を生成し、更に、フレーム画像データ6bを形態2のヒルベルト曲線でスキャンして1次元空間画像データ7b2を生成し、…、といったように、フレーム画像データ6fまで、各フレーム画像データ6を形態の異なるヒルベルト曲線で複数回スキャンした後、1次元空間画像データ7a1、7a2、…、7b1、7b2、…、を配列して時空間画像データ8を生成する。
また、同一のフレーム画像データ6aを任意に複数回クリッピングし、これらをそれぞれパディングした後にヒルベルトスキャンすることにより、複数の1次元空間画像データ7a1、7a2、…を生成することもできる。同様にフレーム画像データ6bから1次元空間画像データ7b1、7b2、…を生成する。
このように、フレーム画像データ6を複数回任意にクリッピングすることにより同一のフレーム画像データ6から複数の1次元空間画像データ7を生成することもできる。
以上に説明したように、変形例2の画像認識装置1は、同一のフレーム画像データに対して曲線の設定条件を変化させて、当該設定条件ごとにデータ値を取得している。
本変形例では、1つのフレーム画像データ6に複数回ランダムにクリッピング画像9の領域を設定し、1つのフレーム画像データ6から複数枚のクリッピング画像9を生成する。
例えば、フレーム画像データ6aから領域1のクリッピング画像9a1を生成し、同じくフレーム画像データ6aから領域2のクリッピング画像9a2を生成し、…、次に、フレーム画像データ6bから領域1のクリッピング画像9b1を生成し、同じくフレーム画像データ6bから領域2のクリッピング画像9b2を生成し、…、といったように、フレーム画像データ6fまで、各フレーム画像データ6から切り抜き領域の異なるクリッピング画像9を複数個生成する。
これにより、元画像のフレーム画像データ6aから複数枚のフレーム画像データ6a1、6a2、…が復元される。フレーム画像データ6b、6c、…も同様である。
あるいは、フレーム画像データ6a1、6b1、…から時空間画像データ8aを生成して画像認識し、フレーム画像データ6a2、6b2、…から時空間画像データ8bを生成して画像認識し、これらの画像認識の結果を総合して判断してもよい。
変形例2と変形例3を組み合わせる。即ち、変形例3で生成したフレーム画像データ6a1、6a2、…、6b1、6b2、…を複数種類の形態の曲線でスキャンする。
例えば、フレーム画像データ6a1は、形態1のヒルベルト曲線でスキャンし、フレーム画像データ6a2は、形態1のペアノ曲線でスキャンし、…、といったようにスキャンする。
実施の形態では、空間2次元、時間1次元の(x、y、t)成分を持つ3次元の動画データ4を空間方向(x、y方向)にヒルベルトスキャンして(α、t1)、(α、t2)、…の1次元空間画像データ7a、7b、…を生成し、これをt1、t2、…の時間方向の順に配列して(α、t)成分を持つ2次元の時空間画像データ8を生成した。ここで、αは、画素の位置をヒルベルト曲線に沿った長さで表した座標値である。
例えば、(y、t)方向にヒルベルトスキャンして(x1、α)、(x2、α)、…の1次元空間画像データ7a、7b、…を生成し、これをx1、x2、…の順に配列して(x、α)成分を持つ2次元の時空間画像データ8を生成することが可能である。同様に(x、t)方向にヒルベルトスキャンして(y、α)成分を持つ時空間画像データ8を生成することも可能である。
例えば、(α、t)成分の時空間画像データ8を画像認識し、(x、α)成分の時空間画像データ8を画像認識し、(y、α)成分の時空間画像データ8を画像認識し、それぞれの結果を全結合層17の出力値で重み付けして加重平均を取ったり、あるいは、(α、t)、(x、α)、(y、α)のそれぞれから生成される3つの時空間画像データ8を配列して1つの時空間画像データ8とし、当該時空間画像データ8を画像認識することが可能である。
時間方向にスキャンすることにより、動画のフレームレートを低減できることが期待される。これにより画像処理の負荷が低減される。
本変形例では、更に高次の時系列空間情報を画像認識する。
近年、車両前方の地形をライダー(LiDAR)と呼ばれるレーザーレーダーを用いた技術によって地形を読み取り、車両を自動運転する技術が研究されている。
ライダーで得られる時系列空間情報は、空間3次元と時間1次元の(x、y、z、t)成分を有する4次元データである。
これをt1を固定してz方向に配列して(α、z、t1)、(α、z、t2)、…の2次元空間画像データが得られる。
更に、これらを時系列的に配列すると(α、z、t)の3次元時空間画像データが得られる。
画像認識装置1の畳み込み用のフィルタとして3次元フィルタを設定し、上記3次元時空間画像データを画像認識することが可能である。
また、変形例5と同様に時間方向にヒルベルトスキャンすることも可能である。
そのため、色情報や各種センサ値など、更に情報を付加して高次元の時系列空間情報を生成し、これを低次元化して画像認識装置1で画像認識することが可能である。
図8は、変形例7を説明するための図である。本変形例では、ラスタスキャンにて画像データを走査する。
時空間画像データ生成部2は、図8(a)に示したフレーム画像データ6のアスペクト比を検出し、短手方向を走査方向(スキャン方向)に決定する。これは、後述の実験結果で述べるように、長手方向を走査方向とする場合よりも、短手方向を走査方向とした場合の方が認識率が高かったためである。
そして、時空間画像データ生成部2は、短手方向の直線状の走査経路に沿って走査することにより、フレーム画像データ6の全体をラスタスキャンする。
このように、時空間画像データ生成部2は、直線状の走査経路に沿ってデータ値の列を取得するデータ値取得手段として機能しており、動画データを構成するフレーム画像の少なくとも一部の画像データに対して走査経路の走査方向を決定する走査方向決定手段を備えている。
更に、当該走査方向決定手段は、画像データによって形成される画像の短手方向に走査方向を決定している。
そして、時空間画像データ生成部2は、図に示した実線の矢線に沿って、第1行目の画素1から画素4までx軸方向に順に画素値を読み取っていく。時空間画像データ生成部2は、走査が端部の画素4に達すると、破線の矢線に示したように、第2行目の先頭の画素5に走査開始位置を移動し、x軸方向に端部の画素8まで画素値を順に読み取っていく。
そして、時空間画像データ生成部2は、生成した1次元空間画像データ7a、7b、・・・から時空間画像データ8を生成する。これをCNN部3で画像認識する手順は、上述の実施形態と同様である。
これは、短手方向のラスタスキャンは、長手方向のラスタスキャンに比べて、画像データの端点で次の行の画素行に移動する際の移動距離が小さいため、画像の局所性の保存状態が長手方向にラスタスキャンする場合よりもよいためではないかと思われる。
この場合、時空間画像データ生成部2は、実線の矢線で示したように、画素1から画素Dまで、短手方向、即ち、y方向に画素値を順に読み取っていき、端部の画素Dに達すると、破線の矢線で示したように次の列の先頭画素2に移動して、画素Eまで画素値を読み取っていく。
以下、時空間画像データ生成部2は、同様の動作を繰り返してフレーム画像データ6aの全ての画素値を読みとり、これを一列に並べて、1次元空間画像データ7aを生成する。
上述した実施形態と同じ処理には同じステップ番号を付し、説明を省略する。
この例では、フレーム画像データ6をクリッピングすることによりデータオーギュメンテーションを行っている。
時空間画像データ生成部2は、ステップ15にて、i番目のフレーム画像データをクリッピングすると、クリッピング後のフレーム画像データ6の短手方向を走査方向(スキャン方向)に決定する(ステップ80)。
そして、時空間画像データ生成部2は、決定した走査方向にクリッピング後のフレーム画像データ6をラスタスキャンして(ステップ85)、1次元空間画像データ7を生成する(ステップ25)。他は、上述の実施形態と同様である。
図10は、変形例8を説明するための図である。
本変形例の時空間画像データ生成部2は、フレーム画像データ6を小領域51に分割し、分割した小領域51ごとにラスタスキャンする。
図10(a)の例では、時空間画像データ生成部2は、フレーム画像データ6を太線で示した正方形の小領域51a1、51a2、・・・に分割する。小領域51内の升目は画素を表している。
そして、時空間画像データ生成部2は、1次元空間画像データ7a1、7a2、・・・を一列に連結してフレーム画像データ6aの1次元空間画像データ7a(図示せず)を生成する。
時空間画像データ生成部2は、同様にして、1次元空間画像データ7b、7c・・・を生成し、これらを時間方向に配列して時空間画像データ8(図示せず)を生成する。
この場合は、小領域51a1、小領域51a2、・・・に関しては、例えば、これら小領域51の短手方向を優先してx軸方向にラスタスキャンするように構成することができる。
小領域51a1、小領域51a2、・・・から生成される1次元空間画像データ7a1、7a2、・・・(図示せず)に関しては、図10(a)の場合と同様に適当な所定の順序で連結する。
(1)動画データを2次元の画像データで表現することができる。
(2)空間充填曲線を用いたヒルベルトスキャンや、ラスタスキャンを用いてフレーム画像データ6を画像変換することにより、空間的情報と時間的情報を保持したまま動画データ4(時系列画像データ)から2次元の時空間画像データ8を生成することができる。
(3)時空間画像データ8を入力データとすることにより、2次元フィルタを用いたCNNで動画データを画像認識することができる。
(4)時空間画像データ8において隣接する画素間の情報に関係性を持たせることができるので画像認識精度の向上が見込める。
(5)一般的な2次元フィルタを用いたCNNを用いることができるため、CNNの導入に要するコストやCNNの実行に要する計算コストを低減することができる上、認識精度の向上も見込める。
(6)一般に、車載カメラや車載コンピュータには、高価なハードウェアが搭載されないため、使用メモリが少なく計算コストが低い画像認識装置1が実装に適している。
(7)データオーギュメンテーションなど、スキャンする曲線の設定条件を変化させることにより、時空間画像データ8の空間的情報の保持を網羅的にすることができる。
(8)事前学習フェーズや画像認識フェーズなどにおいて、一回り小さい画像をランダムで切り出すデータオーギュメンテーションを行うことにより空間情報と時間情報の保持を網羅的にすることができる。
2 時空間画像データ生成部
3 CNN部
4 動画データ
6、31 フレーム画像データ
7 1次元空間画像データ
8 時空間画像データ
9、 クリッピング画像
11、13、15 畳み込み層
12、14、16 プーリング層
17 全結合層
20、24 画像データ
21、25 ヒルベルト曲線
22、26 1次元空間画像データ
27、28 領域
41 CPU
42 ROM
43 RAM
44 記憶装置
45 カメラ
46 入力部
47 出力部
51 小領域
Claims (14)
- 空間内での認識対象の位置を時間の経過に従って記録した時系列空間情報を取得する時系列空間情報取得手段と、
前記取得した時系列空間情報を所定の方向に走査して当該所定の方向におけるデータ値の列を取得するデータ値取得手段と、
前記取得したデータ値の列を、前記時系列空間情報の他の方向に対応して配列して前記認識対象を画像認識するための画像データを生成する画像データ生成手段と、
前記生成した画像データを出力する出力手段と、
を具備し、
前記データ値取得手段は、前記所定の方向におけるデータ値の局所性に対応して屈曲を繰り返す空間充填曲線を走査経路として設定し、当該設定した走査経路に沿って前記データ値の列を取得する、
ことを特徴とする画像データ生成装置。 - 前記所定の方向は、前記時系列空間情報の空間方向であり、前記他の方向は、前記時系列空間情報の時間方向であることを特徴とする請求項1に記載の画像データ生成装置。
- 前記時系列空間情報は、前記認識対象を撮影した動画データであり、
前記データ値取得手段は、前記動画データの各フレーム画像データに前記曲線を設定し、前記各フレーム画像データを走査して、画素値の列をデータ値の列として取得し、
前記画像データ生成手段は、フレーム画像データごとの画素値の列を時間方向に対応して配列した2次元の前記画像データを生成することを特徴とする請求項1、又は請求項2に記載の画像データ生成装置。 - 前記データ値取得手段は、前記フレーム画像データごとに、前記曲線の設定条件を変化させることを特徴とする請求項3に記載の画像データ生成装置。
- 前記データ値取得手段は、前記設定条件として、前記曲線の設定範囲を変化させることを特徴とする請求項4に記載の画像データ生成装置。
- 前記データ値取得手段は、前記設定条件として、前記フレーム画像データごとに、前記曲線の設定形態を変化させることを特徴とする請求項4に記載の画像データ生成装置。
- 前記データ値取得手段は、同一のフレーム画像データに対して前記曲線の設定条件を変化させて、当該設定条件ごとにデータ値を取得することを特徴とする請求項4、請求項5、又は請求項6に記載の画像データ生成装置。
- 前記データ値取得手段は、直線状の走査経路に沿って前記データ値の列を取得することを特徴とする請求項2に記載の画像データ生成装置。
- 前記時系列空間情報は、前記認識対象を撮影した動画データであり、
前記動画データを構成するフレーム画像の少なくとも一部の静止画像データに対して前記走査経路の走査方向を決定する走査方向決定手段を具備し、
前記データ値取得手段は、前記決定した走査方向に沿って前記データ値の列を取得し、
前記画像データ生成手段は、前記静止画像データごとの画素値の列を時間方向に対応して配列した2次元の前記画像データを生成することを特徴とする請求項8に記載の画像データ生成装置。 - 前記走査方向決定手段は、前記静止画像データによって形成される画像の短手方向に前記走査方向を決定することを特徴とする請求項9に記載の画像データ生成装置。
- 空間内での認識対象を撮影した動画データを取得する動画データ取得手段と、
前記動画データを構成するフレーム画像の少なくとも一部の静止画像データに対して、前記静止画像データによって形成される画像の短手方向に、直線状の走査経路の走査方向を決定する走査方向決定手段と、
前記決定した走査方向に沿って、前記静止画像データの空間方向における画素値の列を取得するデータ値取得手段と、
前記静止画像データごとの画素値の列を時間方向に対応して配列して、前記認識対象を画像認識するための2次元の前記画像データを生成する画像データ生成手段と、
前記生成した画像データを出力する出力手段と、
を具備したことを特徴とする画像データ生成装置。 - 請求項1から請求項11までのうちの何れか1の請求項に記載の画像データ生成装置と、
前記画像データ生成装置が出力した画像データを取得する画像データ取得手段と、
認識対象を画像認識するための学習データを取得する学習データ取得手段と、
前記取得した学習データを用いて前記取得した画像データに含まれている前記認識対象を認識する認識手段と、
を具備したことを特徴とする画像認識装置。 - コンピュータによって読み取られ実行される画像データ生成プログラムであって、
前記コンピュータを、請求項1から請求項11のうちのいずれか1の請求項に記載の画像データ生成装置として機能させることを特徴とする画像データ生成プログラム。 - コンピュータによって読み取られ実行される画像認識プログラムであって、
前記コンピュータを、請求項12に記載の画像認識装置として機能させることを特徴とする画像認識プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201880050342.0A CN110998597B (zh) | 2017-07-31 | 2018-07-31 | 图像数据生成装置、图像识别装置、图像数据生成程序、及图像识别程序 |
EP18841314.0A EP3664020A4 (en) | 2017-07-31 | 2018-07-31 | IMAGE DATA GENERATION DEVICE, IMAGE RECOGNITION DEVICE, IMAGE DATA GENERATION PROGRAM, AND IMAGE RECOGNITION PROGRAM |
PCT/JP2018/028606 WO2019026890A1 (ja) | 2017-07-31 | 2018-07-31 | 画像データ生成装置、画像認識装置、画像データ生成プログラム、及び画像認識プログラム |
US16/634,589 US11157724B2 (en) | 2017-07-31 | 2018-07-31 | Image data generation device, image recognition device, image data generation program, and image recognition program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017148011 | 2017-07-31 | ||
JP2017148011 | 2017-07-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019028985A JP2019028985A (ja) | 2019-02-21 |
JP7002729B2 true JP7002729B2 (ja) | 2022-01-20 |
Family
ID=65476329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018035744A Active JP7002729B2 (ja) | 2017-07-31 | 2018-02-28 | 画像データ生成装置、画像認識装置、画像データ生成プログラム、及び画像認識プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US11157724B2 (ja) |
EP (1) | EP3664020A4 (ja) |
JP (1) | JP7002729B2 (ja) |
CN (1) | CN110998597B (ja) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018176000A1 (en) | 2017-03-23 | 2018-09-27 | DeepScale, Inc. | Data synthesis for autonomous control systems |
US11157441B2 (en) | 2017-07-24 | 2021-10-26 | Tesla, Inc. | Computational array microprocessor system using non-consecutive data formatting |
US11893393B2 (en) | 2017-07-24 | 2024-02-06 | Tesla, Inc. | Computational array microprocessor system with hardware arbiter managing memory requests |
US10671349B2 (en) | 2017-07-24 | 2020-06-02 | Tesla, Inc. | Accelerated mathematical engine |
US11409692B2 (en) | 2017-07-24 | 2022-08-09 | Tesla, Inc. | Vector computational unit |
US11561791B2 (en) | 2018-02-01 | 2023-01-24 | Tesla, Inc. | Vector computational unit receiving data elements in parallel from a last row of a computational array |
CN110473147A (zh) * | 2018-05-09 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 一种视频去模糊方法和装置 |
US11215999B2 (en) | 2018-06-20 | 2022-01-04 | Tesla, Inc. | Data pipeline and deep learning system for autonomous driving |
US11361457B2 (en) | 2018-07-20 | 2022-06-14 | Tesla, Inc. | Annotation cross-labeling for autonomous control systems |
US11636333B2 (en) | 2018-07-26 | 2023-04-25 | Tesla, Inc. | Optimizing neural network structures for embedded systems |
US11562231B2 (en) | 2018-09-03 | 2023-01-24 | Tesla, Inc. | Neural networks for embedded devices |
JP2022504713A (ja) | 2018-10-11 | 2022-01-13 | テスラ,インコーポレイテッド | 拡張データによって機械モデルを訓練するためのシステムおよび方法 |
US11196678B2 (en) | 2018-10-25 | 2021-12-07 | Tesla, Inc. | QOS manager for system on a chip communications |
US11816585B2 (en) | 2018-12-03 | 2023-11-14 | Tesla, Inc. | Machine learning models operating at different frequencies for autonomous vehicles |
US11537811B2 (en) | 2018-12-04 | 2022-12-27 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
US11610117B2 (en) | 2018-12-27 | 2023-03-21 | Tesla, Inc. | System and method for adapting a neural network model on a hardware platform |
US11150664B2 (en) | 2019-02-01 | 2021-10-19 | Tesla, Inc. | Predicting three-dimensional features for autonomous driving |
US10997461B2 (en) | 2019-02-01 | 2021-05-04 | Tesla, Inc. | Generating ground truth for machine learning from time series elements |
US11567514B2 (en) | 2019-02-11 | 2023-01-31 | Tesla, Inc. | Autonomous and user controlled vehicle summon to a target |
US10956755B2 (en) | 2019-02-19 | 2021-03-23 | Tesla, Inc. | Estimating object properties using visual image data |
KR20210024862A (ko) | 2019-08-26 | 2021-03-08 | 삼성전자주식회사 | 계층적인 피라미드를 이용하여 객체를 검출하는 객체 검출 시스템 및 이의 객체 검출 방법 |
KR102297578B1 (ko) * | 2019-11-12 | 2021-09-03 | 건국대학교 산학협력단 | 이동체의 자율 주행 제어 방법 및 이를 수행하는 장치들 |
CN110866509B (zh) | 2019-11-20 | 2023-04-28 | 腾讯科技(深圳)有限公司 | 动作识别方法、装置、计算机存储介质和计算机设备 |
JP7297705B2 (ja) * | 2020-03-18 | 2023-06-26 | 株式会社東芝 | 処理装置、処理方法、学習装置およびプログラム |
EP3885787B1 (de) * | 2020-03-27 | 2022-05-04 | Sick Ag | Erfassung von abstandsmessdaten |
JP6964372B1 (ja) | 2021-05-19 | 2021-11-10 | 忠久 片岡 | コード生成方法、コード生成装置、プログラム、データ照合方法 |
CN113887419B (zh) * | 2021-09-30 | 2023-05-12 | 四川大学 | 一种基于提取视频时空信息的人体行为识别方法及*** |
CN115294342B (zh) * | 2022-09-26 | 2023-02-28 | 荣耀终端有限公司 | 图像处理方法及相关装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002123834A (ja) | 2000-08-08 | 2002-04-26 | Ocean Network Co Ltd | 画像認識方法及び画像処理装置 |
JP2017187954A (ja) | 2016-04-06 | 2017-10-12 | Kddi株式会社 | 画像合成装置、プログラム及びデータ構造 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000011088A (ja) * | 1998-06-22 | 2000-01-14 | Hitachi Ltd | 読取り画像の特徴情報抽出方法、画像処理装置および郵便物宛名読取り装置 |
US8155451B2 (en) * | 2004-11-12 | 2012-04-10 | Kitakyushu Foundation For The Advancement Of Industry, Science And Technology | Matching apparatus, image search system, and histogram approximate restoring unit, and matching method, image search method, and histogram approximate restoring method |
JP2007282078A (ja) * | 2006-04-11 | 2007-10-25 | Seiko Epson Corp | パターンデータ、情報処理装置、ロゴ画像出力装置、音声出力装置、映像出力装置、ロゴ画像出力方法、ロゴ画像出力プログラムおよび記録媒体 |
JP4807879B2 (ja) * | 2006-06-21 | 2011-11-02 | 株式会社バンダイナムコゲームス | 入力された画像データから少なくとも1以上の認識対象画像を抽出するための画像認識装置、方法、プログラム及び情報記録媒体 |
JP2008258980A (ja) * | 2007-04-05 | 2008-10-23 | Ricoh Co Ltd | 画像情報処理装置および画像傾斜角度算出方法 |
JP4623135B2 (ja) | 2008-05-08 | 2011-02-02 | 株式会社デンソー | 画像認識装置 |
JP5016073B2 (ja) * | 2010-02-12 | 2012-09-05 | 株式会社デンソー | 白線認識装置 |
JP2014106685A (ja) * | 2012-11-27 | 2014-06-09 | Osaka Univ | 車両周辺監視装置 |
WO2015011799A1 (ja) * | 2013-07-24 | 2015-01-29 | 日本電気株式会社 | 画像認識装置および記憶媒体 |
JP2019152927A (ja) * | 2018-02-28 | 2019-09-12 | 株式会社エクォス・リサーチ | 画像データ生成装置、画像認識装置、画像データ生成プログラム、及び、画像認識プログラム |
-
2018
- 2018-02-28 JP JP2018035744A patent/JP7002729B2/ja active Active
- 2018-07-31 CN CN201880050342.0A patent/CN110998597B/zh active Active
- 2018-07-31 US US16/634,589 patent/US11157724B2/en active Active
- 2018-07-31 EP EP18841314.0A patent/EP3664020A4/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002123834A (ja) | 2000-08-08 | 2002-04-26 | Ocean Network Co Ltd | 画像認識方法及び画像処理装置 |
JP2017187954A (ja) | 2016-04-06 | 2017-10-12 | Kddi株式会社 | 画像合成装置、プログラム及びデータ構造 |
Non-Patent Citations (1)
Title |
---|
橋村 佳祐,距離画像のフレーム連結画像を用いたConvolutional Neural Networkによる手話単語認識,電子情報通信学会技術研究報告 Vol.116 No.248,日本,一般社団法人電子情報通信学会,2016年10月09日,WIT2016-36 (2016-10),P.17-22 |
Also Published As
Publication number | Publication date |
---|---|
US20200160043A1 (en) | 2020-05-21 |
CN110998597A (zh) | 2020-04-10 |
EP3664020A1 (en) | 2020-06-10 |
EP3664020A4 (en) | 2021-04-21 |
US11157724B2 (en) | 2021-10-26 |
CN110998597B (zh) | 2023-12-19 |
JP2019028985A (ja) | 2019-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7002729B2 (ja) | 画像データ生成装置、画像認識装置、画像データ生成プログラム、及び画像認識プログラム | |
Zhang et al. | Deep image deblurring: A survey | |
Zhao et al. | Hierarchical regression network for spectral reconstruction from RGB images | |
TWI750498B (zh) | 視訊流的處理方法和裝置 | |
WO2019167303A1 (ja) | 画像データ生成装置、画像認識装置、画像データ生成プログラム、及び、画像認識プログラム | |
JP6943338B2 (ja) | 画像処理装置、システム、方法及びプログラム | |
JP7284872B2 (ja) | 別々の空間的及び時間的な注意の重みを使用して活動を認識するための方法 | |
US11687773B2 (en) | Learning method and recording medium | |
CN107909026B (zh) | 基于小规模卷积神经网络年龄和/或性别评估方法及*** | |
CN112912890A (zh) | 用于使用生成模型生成合成点云数据的方法和*** | |
US8103091B2 (en) | Object identification parameter learning system | |
US11017542B2 (en) | Systems and methods for determining depth information in two-dimensional images | |
JP2007000205A (ja) | 画像処理装置及び画像処理方法並びに画像処理プログラム | |
WO2019026890A1 (ja) | 画像データ生成装置、画像認識装置、画像データ生成プログラム、及び画像認識プログラム | |
KR20120130090A (ko) | 머리 인식 방법 | |
JP2022504713A (ja) | 拡張データによって機械モデルを訓練するためのシステムおよび方法 | |
Brehm et al. | High-resolution dual-stage multi-level feature aggregation for single image and video deblurring | |
Kang et al. | Crowd counting by adapting convolutional neural networks with side information | |
Advani et al. | A multi-resolution saliency framework to drive foveation | |
US9323999B2 (en) | Image recoginition device, image recognition method, and image recognition program | |
CN113569896A (zh) | 基于图像和深度数据进行对象3d定位的计算机实现方法 | |
Marban et al. | Estimating position & velocity in 3d space from monocular video sequences using a deep neural network | |
KR102490445B1 (ko) | 딥 러닝 기반 저조도 영상 분할 시스템 및 방법 | |
CN115082867A (zh) | 用于对象检测的方法和*** | |
Mun et al. | Universal super-resolution for face and non-face regions via a facial feature network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180301 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210226 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20210728 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211206 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7002729 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |