JP2020533696A - 画像認識方法、端末及び記憶媒体 - Google Patents
画像認識方法、端末及び記憶媒体 Download PDFInfo
- Publication number
- JP2020533696A JP2020533696A JP2020514506A JP2020514506A JP2020533696A JP 2020533696 A JP2020533696 A JP 2020533696A JP 2020514506 A JP2020514506 A JP 2020514506A JP 2020514506 A JP2020514506 A JP 2020514506A JP 2020533696 A JP2020533696 A JP 2020533696A
- Authority
- JP
- Japan
- Prior art keywords
- time series
- input data
- guide
- network model
- vector set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Library & Information Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
本願は、2017年09月11日に提出した中国特許出願第201710814187.2号、発明の名称「画像認識方法、装置及び記憶媒体」の優先権を主張し、その全内容が本願の一部として援用される。
エンコーダによって認識対象の目標画像に対して特徴抽出を行って、特徴ベクトル及び第1アノテーションベクトル集合を取得することと、
前記特徴ベクトルに対して初期化処理を行って、第1初期入力データを取得することと、
前記第1アノテーションベクトル集合に基づき、第1ガイドネットワークモデルによって第1ガイド情報を生成し、前記第1ガイドネットワークモデルが、いずれの画像のアノテーションベクトル集合に基づいてガイド情報を生成することに用いられることと、
前記第1ガイド情報、前記第1アノテーションベクトル集合及び前記第1初期入力データに基づき、デコーダによって前記目標画像の表現語句を決定することと、を含む。
エンコーダによって認識対象の目標画像に対して特徴抽出を行って、特徴ベクトル及び第1アノテーションベクトル集合を取得するための抽出モジュールと、
前記特徴ベクトルに対して初期化処理を行って、第1初期入力データを取得するための処理モジュールと、
前記第1アノテーションベクトル集合に基づき、第1ガイドネットワークモデルによって第1ガイド情報を生成することに用いられ、前記第1ガイドネットワークモデルが、いずれの画像のアノテーションベクトル集合に基づいてガイド情報を生成することに用いられる生成モジュールと、
前記第1ガイド情報、前記第1アノテーションベクトル集合及び前記第1初期入力データに基づき、デコーダによって前記目標画像の表現語句を決定するための決定モジュールと、を備える。
エンコーダによって認識対象の目標画像に対して特徴抽出を行って、特徴ベクトル及び第1アノテーションベクトル集合を取得し、
前記特徴ベクトルに対して初期化処理を行って、第1初期入力データを取得し、
前記第1アノテーションベクトル集合に基づき、第1ガイドネットワークモデルによって第1ガイド情報を生成し、前記第1ガイドネットワークモデルが、いずれの画像のアノテーションベクトル集合に基づいてガイド情報を生成することに用いられ、
前記第1ガイド情報、前記第1アノテーションベクトル集合及び前記第1初期入力データに基づき、デコーダによって前記目標画像の表現語句を決定する操作を実現するように実行される。
エンコーダは、画像をエンコードしてベクトルを生成することに用いられ、通常、エンコーダはCNN(Convolutional Neural Networks、畳み込みニューラルネットワーク)モデルを用いる。
デコーダは、エンコーダにより生成されたベクトルに対してデコードすることに用いられ、エンコーダにより生成されたベクトルを画像の表現語句に翻訳するようにする。通常、デコーダはRNN(Recurrent Neural Network、リカレントニューラルネットワーク)モデルを用いる。
ガイド情報は、画像を処理して得られた情報であり、通常、ベクトルとして表れ、デコーダの入力の一部としてデコード過程をガイドすることができる。デコーダにガイド情報を導入することにより、デコーダの性能を向上させることができ、デコーダがより良い表現語句を生成できるように確保し、表現語句の生成品質を向上させることができる。
CNNモデルは、従来の多層ニューラルネットワークに基づいて発展してきた画像に対する分類、認識を行うニューラルネットワークモデルを指し、通常、CNNモデルは、複数の畳み込み層及び少なくとも1つの全結合層を備え、画像に対して特徴抽出を行うことができる。
従来のニューラルネットワークは記憶機能を有せず、つまり、従来のニューラルネットワークは、その入力がコンテクストの関連画なく、独立したデータである。しかしながら、実際の応用では、通常、入力が明らかなコンテクスト特徴を有する直列化した入力であり、例えば予測すべき表現語句内の次の単語であり、この時、ニューラルネットワークの出力が前回の入力に依存する必要がある。つまり、ニューラルネットワークが記憶機能を有するように要求される。それに対して、RNNモデルは、ノードが一定方向で環状に連接されて記憶機能を有するニューラルネットワークであり、内部の記憶機能を利用して入力データを繰り返し処理することができる。
LSTMネットワークモデルは特別なRNNモデルであり、時系列の間隔及び遅延の長い、重要なイベントを処理、予測することができる。LSTMネットワークモデルはLSTMユニットを備え、LSTMユニットに入力ゲート、忘却ゲート及び出力ゲートが設置され、各時系列ステップにおいて、設置された入力ゲート、忘却ゲート及び出力ゲートに基づいて入力データを処理することができる。
レビューネットは、エンコーダ−デコーダフレームワークに基づく画像認識ネットワークであり、レビューアー(reviewer)及びデコーダを備える。通常、レビューアー及びデコーダがCNNモデルを用いる。デコーダの性能を向上させるために、レビューアーは、エンコーダにより画像から抽出されたグローバル特徴と局所特徴との相互関係を更に探り、グローバル特徴と局所特徴との相互関係に基づいてデコーダのために初期入力データを生成することができる。
第1ガイドネットワークモデルにおけるモデルパラメータにより形成される第1行列に基づいて第1アノテーションベクトル集合に対して線形変換を行って、第2行列を取得し、第2行列における各行の最大値に基づいて該第1ガイド情報を決定する。
該第1ガイドネットワークモデルは、いずれの画像のアノテーションベクトル集合及び属性情報に基づいてガイド情報を生成することに用いられる場合、該目標画像をマルチインスタンスモデルの入力とし、該マルチインスタンスモデルによって該目標画像を処理して、該目標画像の属性情報を取得し、該第1ガイドネットワークモデルにおけるモデルパラメータにより形成される第3行列に基づいて該第1アノテーションベクトル集合に対して線形変換を行って、第4行列を取得し、該第4行列及び該目標画像の属性情報に基づき、第5行列を生成し、該第5行列における各行の最大値に基づいて該第1ガイド情報を決定することができる。サンプル画像の属性情報は、予測される、該サンプル画像の表現語句に単語が現れる確率を示すことに用いられる。
第1ガイド情報に基づき、デコーダによって第1アノテーションベクトル集合及び第1初期入力データをデコードして、該目標画像の表現語句を取得する。
第1ガイド情報、第1アノテーションベクトル集合及び第1初期入力データに基づき、レビューアーによって第2アノテーションベクトル集合及び第2初期入力データを決定し、該第2アノテーションベクトル集合に基づき、第2ガイドネットワークモデルによって第2ガイド情報を生成し、該第2ガイド情報に基づき、該エンコーダによって該第2アノテーションベクトル集合及び該第2初期入力データをエンコードして、該目標画像の表現語句を取得する。
時系列ステップが該N個の第2時系列ステップにおける1番目の第2時系列ステップである場合、該第2時系列ステップの前の第2時系列ステップの出力データが該第1初期入力データに基づいて決定することによって取得されたものである。
エンコーダによって認識対象の目標画像に対して特徴抽出を行って、特徴ベクトル及び第1アノテーションベクトル集合を取得するための抽出モジュール301と、
該特徴ベクトルに対して初期化処理を行って、第1初期入力データを取得するための処理モジュール302と、
該第1アノテーションベクトル集合に基づき、第1ガイドネットワークモデルによって第1ガイド情報を生成することに用いられ、該第1ガイドネットワークモデルが、いずれの画像のアノテーションベクトル集合に基づいてガイド情報を生成することに用いられる生成モジュール303と、
該第1ガイド情報、該第1アノテーションベクトル集合及び該第1初期入力データに基づき、デコーダによって該目標画像の表現語句を決定するための決定モジュール304と、を備える。
該第1ガイドネットワークモデルにおけるモデルパラメータにより形成される第1行列に基づいて該第1アノテーションベクトル集合に対して線形変換を行って、第2行列を取得するための第1線形変換ユニット3031と、
該第2行列における各行の最大値に基づいて該第1ガイド情報を決定するための第1決定ユニット3032と、を備える。
該生成モジュール303は、
該目標画像をマルチインスタンスモデルの入力とし、該マルチインスタンスモデルによって該目標画像を処理して、該目標画像の属性情報を取得するための処理ユニット3033と、
該第2ガイドネットワークモデルにおけるモデルパラメータにより形成される第3行列に基づいて該第1アノテーションベクトル集合に対して線形変換を行って、第4行列を取得するための第2線形変換ユニット3034と、
該第4行列及び該目標画像の属性情報に基づき、第5行列を生成するための第1生成ユニット3035と、
該第5行列における各行の最大値に基づいて該第1ガイド情報を決定するための第2決定ユニット3036と、を備える。
該第1ガイド情報に基づき、該デコーダによって該第1アノテーションベクトル集合及び該第1初期入力データをデコードして、該目標画像の表現語句を取得することに用いられる。
該デコーダが第1リカレントニューラルネットワーク(RNN)モデルを用いる場合、且つ、該第1RNNモデルがM個の第1時系列ステップを実行することに用いられる場合、該第1RNNモデルで実行される各第1時系列ステップに対して、該第1ガイド情報に基づいて該第1時系列ステップの入力データを決定することに用いられ、
該Mが、該第1RNNモデルが入力データに対して繰り返し処理を行う回数を指し、該Mが正の整数であり、各第1時系列ステップが該第1RNNモデルの入力データに対する処理ステップである第3決定ユニット3041と、
該第1時系列ステップの入力データ、該第1アノテーションベクトル集合及び該第1時系列ステップの前の第1時系列ステップの出力データに基づき、該第1時系列ステップの出力データを決定することに用いられ、
該第1時系列ステップが該M個の第1時系列ステップにおける1番目の第1時系列ステップである場合、該第1時系列ステップの前の第1時系列ステップの出力データが該第1初期入力データに基づいて決定することによって取得されたものである第4決定ユニット3042と、
該M個の第1時系列ステップのすべての出力データに基づき、該目標画像の表現語句を決定するための第5決定ユニット3043と、を備える。
該第1ガイド情報に基づき、下記の式で該第1時系列ステップの入力データを決定することに用いられ、
第1訓練待ちエンコーダ、第1訓練待ちガイドネットワークモデル及び第1訓練待ちデコーダを組み合わせて、第1カスケードネットワークモデルを取得するための第1組み合わせモジュール305と、
複数のサンプル画像及び該複数のサンプル画像の表現語句に基づき、勾配降下法で該第1カスケードネットワークモデルに対して訓練して、該エンコーダ、該第1ガイドネットワークモデル及び該デコーダを取得するための第1訓練モジュール306と、を備える。
該第1ガイド情報、該第1アノテーションベクトル集合及び該第1初期入力データに基づき、レビューアーによって第2アノテーションベクトル集合及び第2初期入力データを決定するための第6決定ユニット3044と、
該第2アノテーションベクトル集合に基づき、第2ガイドネットワークモデルによって第2ガイド情報を生成することに用いられ、該第2ガイドネットワークモデルがサンプル画像によって訓練して取得されたものである第2生成ユニット3045と、
該第2ガイド情報に基づき、該エンコーダによって該第2アノテーションベクトル集合及び該第2初期入力データをエンコードして、該目標画像の表現語句を取得するためのエンコードユニット3046と、を備える。
該第1レビューアーが第2RNNモデルを用いる場合、且つ、該第2RNNモデルがN個の第2時系列ステップを実行することに用いられる場合、該第2RNNモデルで実行される各第2時系列ステップに対して、該第1目標ガイド情報に基づいて該第2時系列ステップの入力データを決定し、
該Nが、該第2RNNモデルが入力データに対して繰り返し処理を行う回数を指し、該Nが正の整数であり、各第2時系列ステップが該第2RNNモデルの入力データに対する処理ステップであり、
該第2時系列ステップの入力データ、該第1アノテーションベクトル集合及び該第2時系列ステップの前の第2時系列ステップの出力データに基づき、該第2時系列ステップの出力データを決定し、
該第2時系列ステップが該N個の第2時系列ステップにおける1番目の第2時系列ステップである場合、該第2時系列ステップの前の第2時系列ステップの出力データが該第1初期入力データに基づいて決定することによって取得されたものであり、
該N個の第2時系列ステップにおける最後の第2時系列ステップの出力データに基づき、該第2初期入力データを決定し、
該N個の第2時系列ステップのすべての出力データに基づき、該第2アノテーションベクトル集合を決定することに用いられる。
第2訓練待ちエンコーダ、第2訓練待ちガイドネットワークモデル、訓練待ちレビューアー、第3訓練待ちガイドネットワークモデル及び第2訓練待ちデコーダを組み合わせて、第2カスケードネットワークモデルを取得するための第2組み合わせモジュール307と、
複数のサンプル画像及び該複数のサンプル画像の表現語句に基づき、勾配降下法で該第2カスケードネットワークモデルに対して訓練して、該エンコーダ、該第1ガイドネットワークモデル、該レビューアー、該第2ガイドネットワークモデル及び該デコーダを取得するための第2訓練モジュール308と、を備える。
20 第1ガイドネットワークモデル
30 デコーダ
40 マルチインスタンスモデル
50 レビューアー
60 第2ガイドネットワークモデル
301 抽出モジュール
302 処理モジュール
303 生成モジュール
304 確定モジュール
305 第1組み合わせモジュール
306 第1訓練モジュール
307 第2組み合わせモジュール
308 第2訓練モジュール
410 通信ユニット
420 メモリ
430 入力ユニット
431 タッチ操作面
432 他の入力装置
440 表示ユニット
441 表示パネル
450 センサ
460 オーディオ回路
470 無線通信ユニット
480 プロセッサ
490 電源
3033 処理ユニット
3034 第2線形変換ユニット
3035 第1生成ユニット
3036 第2確定ユニット
3041 第3確定ユニット
3042 第4確定ユニット
3043 第5確定ユニット
3044 第6確定ユニット
3045 第2生成ユニット
3046 エンコードユニット
Claims (20)
- 端末により実行される画像認識方法であって、
エンコーダによって認識対象の目標画像に対して特徴抽出を行って、特徴ベクトル及び第1アノテーションベクトル集合を取得することと、
前記特徴ベクトルに対して初期化処理を行って、第1初期入力データを取得することと、
前記第1アノテーションベクトル集合に基づき、第1ガイドネットワークモデルによって第1ガイド情報を生成し、前記第1ガイドネットワークモデルが、いずれの画像のアノテーションベクトル集合に基づいてガイド情報を生成することに用いられることと、
前記第1ガイド情報、前記第1アノテーションベクトル集合及び前記第1初期入力データに基づき、デコーダによって前記目標画像の表現語句を決定することと、を含むことを特徴とする、前記画像認識方法。 - 前記第1アノテーションベクトル集合に基づき、第1ガイドネットワークモデルによって第1ガイド情報を生成することは、
前記第1ガイドネットワークモデルにおけるモデルパラメータにより形成される第1行列に基づき、前記第1アノテーションベクトル集合に対して線形変換を行って、第2行列を取得することと、
前記第2行列における各行の最大値に基づいて前記第1ガイド情報を決定することと、を含むことを特徴とする
請求項1に記載の方法。 - 前記第1ガイドネットワークモデルは、いずれの画像のアノテーションベクトル集合及び属性情報に基づいてガイド情報を生成することに用いられ、前記属性情報は、予測される、前記画像の表現語句に単語が現れる確率を示すことに用いられ、
前記第1アノテーションベクトル集合に基づき、第1ガイドネットワークモデルによって第1ガイド情報を生成することは、
前記目標画像をマルチインスタンスモデルの入力とし、前記マルチインスタンスモデルによって前記目標画像を処理して、前記目標画像の属性情報を取得することと、
前記第1ガイドネットワークモデルにおけるモデルパラメータにより形成される第3行列に基づき、前記第1アノテーションベクトル集合に対して線形変換を行って、第4行列を取得することと、
前記第4行列及び前記目標画像の属性情報に基づき、第5行列を生成することと、
前記第5行列における各行の最大値に基づいて前記第1ガイド情報を決定することと、を含むことを特徴とする
請求項1に記載の方法。 - 前記第1ガイド情報、前記第1アノテーションベクトル集合及び前記第1初期入力データに基づき、デコーダによって前記目標画像の表現語句を決定することは、
前記第1ガイド情報に基づき、前記デコーダによって前記第1アノテーションベクトル集合及び前記第1初期入力データをデコードして、前記目標画像の表現語句を取得することを含むことを特徴とする
請求項1に記載の方法。 - 前記第1ガイド情報に基づき、前記デコーダによって前記第1アノテーションベクトル集合及び前記第1初期入力データをデコードして、前記目標画像の表現語句を取得することは、
前記デコーダが第1リカレントニューラルネットワーク(RNN)モデルを用いる場合、且つ、前記第1RNNモデルがM個の第1時系列ステップを実行することに用いられる場合、前記第1RNNモデルで実行される各第1時系列ステップに対して、前記第1ガイド情報に基づいて前記第1時系列ステップの入力データを決定し、
前記Mが、前記第1RNNモデルが入力データに対して繰り返し処理を行う回数を指し、前記Mが正の整数であり、各第1時系列ステップが前記第1RNNモデルの入力データに対する処理ステップであることと、
前記第1時系列ステップの入力データ、前記第1アノテーションベクトル集合及び前記第1時系列ステップの前の第1時系列ステップの出力データに基づき、前記第1時系列ステップの出力データを決定し、
前記第1時系列ステップが前記M個の第1時系列ステップにおける1番目の第1時系列ステップである場合、前記第1時系列ステップの前の第1時系列ステップの出力データが前記第1初期入力データに基づいて決定することによって取得されたものであることと、
前記M個の第1時系列ステップのすべての出力データに基づき、前記目標画像の表現語句を決定することと、を含むことを特徴とする
請求項4に記載の方法。 - 前記第1ガイド情報に基づいて前記第1時系列ステップの入力データを決定することは、
前記第1ガイド情報に基づき、
tが前記第1時系列ステップであり、xtが前記第1時系列ステップの入力データであり、Eが単語埋め込み行列であり、且つ、前記第1RNNモデルのモデルパラメータであり、ytが前記第1時系列ステップに対応する単語のワンホット(one−hot)ベクトルであり、前記第1時系列ステップに対応する単語は、前記第1時系列ステップの前の第1時系列ステップの出力データに基づいて決定することによって取得されたものであり、Qが第6行列であり、且つ、前記第1RNNモデルのモデルパラメータであり、νが前記第1ガイド情報であることを含むことを特徴とする
請求項5に記載の方法。 - エンコーダによって目標画像に対して特徴抽出を行って、特徴ベクトル及び第1アノテーションベクトル集合を取得する前に、更に、
第1訓練待ちエンコーダ、第1訓練待ちガイドネットワークモデル及び第1訓練待ちデコーダを組み合わせて、第1カスケードネットワークモデルを取得することと、
複数のサンプル画像及び前記複数のサンプル画像の表現語句に基づき、勾配降下法で前記第1カスケードネットワークモデルに対して訓練して、前記エンコーダ、前記第1ガイドネットワークモデル及び前記デコーダを取得することと、を含むことを特徴とする
請求項1〜6のいずれか1項に記載の方法。 - 前記第1ガイド情報、前記第1アノテーションベクトル集合及び前記第1初期入力データに基づき、前記デコーダによって前記目標画像の表現語句を決定することは、
前記第1ガイド情報、前記第1アノテーションベクトル集合及び前記第1初期入力データに基づき、レビューアーによって第2アノテーションベクトル集合及び第2初期入力データを決定することと、
前記第2アノテーションベクトル集合に基づき、第2ガイドネットワークモデルによって第2ガイド情報を生成し、前記第2ガイドネットワークモデルは、アノテーションベクトル集合に基づいてガイド情報を生成することに用いられることと、
前記第2ガイド情報に基づき、前記エンコーダによって前記第2アノテーションベクトル集合及び前記第2初期入力データをエンコードして、前記目標画像の表現語句を取得することと、を含むことを特徴とする
請求項1に記載の方法。 - 前記第1ガイド情報、前記第1アノテーションベクトル集合及び前記第1初期入力データに基づき、レビューアーによって第2アノテーションベクトル集合及び第2初期入力データを決定することは、
第1レビューアーが第2RNNモデルを用いる場合、且つ、前記第2RNNモデルがN個の第2時系列ステップを実行することに用いられる場合、前記第2RNNモデルで実行される各第2時系列ステップに対して、前記第1ガイド情報に基づいて前記第2時系列ステップの入力データを決定し、
前記Nが、前記第2RNNモデルが入力データに対して繰り返し処理を行う回数を指し、前記Nが正の整数であり、各第2時系列ステップが前記第2RNNモデルの入力データに対する処理ステップであることと、
前記第2時系列ステップの入力データ、前記第1アノテーションベクトル集合及び前記第2時系列ステップの前の第2時系列ステップの出力データに基づき、前記第2時系列ステップの出力データを決定し、
前記第2時系列ステップが前記N個の第2時系列ステップにおける1番目の第2時系列ステップである場合、前記第2時系列ステップの前の第2時系列ステップの出力データが前記第1初期入力データに基づいて決定することによって取得されたものであることと、
前記N個の第2時系列ステップにおける最後の第2時系列ステップの出力データに基づき、前記第2初期入力データを決定することと、
前記N個の第2時系列ステップのすべての出力データに基づき、前記第2アノテーションベクトル集合を決定することと、を含むことを特徴とする
請求項8に記載の方法。 - エンコーダによって目標画像に対して特徴抽出を行って、特徴ベクトル及び第1アノテーションベクトル集合を取得する前に、更に、
第2訓練待ちエンコーダ、第2訓練待ちガイドネットワークモデル、訓練待ちレビューアー、第3訓練待ちガイドネットワークモデル及び第2訓練待ちデコーダを組み合わせて、第2カスケードネットワークモデルを取得することと、
複数のサンプル画像及び前記複数のサンプル画像の表現語句に基づき、勾配降下法で前記第2カスケードネットワークモデルに対して訓練して、前記エンコーダ、前記第1ガイドネットワークモデル、前記レビューアー、前記第2ガイドネットワークモデル及び前記デコーダを取得することと、を含むことを特徴とする
請求項8又は9に記載の方法。 - 端末であって、
プロセッサ及びメモリを備え、前記メモリに少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶され、前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、
エンコーダによって認識対象の目標画像に対して特徴抽出を行って、特徴ベクトル及び第1アノテーションベクトル集合を取得し、
前記特徴ベクトルに対して初期化処理を行って、第1初期入力データを取得し、
前記第1アノテーションベクトル集合に基づき、第1ガイドネットワークモデルによって第1ガイド情報を生成し、前記第1ガイドネットワークモデルが、いずれの画像のアノテーションベクトル集合に基づいてガイド情報を生成することに用いられ、
前記第1ガイド情報、前記第1アノテーションベクトル集合及び前記第1初期入力データに基づき、デコーダによって前記目標画像の表現語句を決定する操作を実現するように実行されることを特徴とする、前記端末。 - 前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、前記第1ガイドネットワークモデルにおけるモデルパラメータにより形成される第1行列に基づき、前記第1アノテーションベクトル集合に対して線形変換を行って、第2行列を取得し、
前記第2行列における各行の最大値に基づいて前記第1ガイド情報を決定する操作を実現するように実行されることを特徴とする
請求項11に記載の端末。 - 前記第1ガイドネットワークモデルは、いずれの画像のアノテーションベクトル集合及び属性情報に基づいてガイド情報を生成することに用いられ、前記属性情報は、予測される、前記画像の表現語句に単語が現れる確率を示すことに用いられ、
前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、
前記目標画像をマルチインスタンスモデルの入力とし、前記マルチインスタンスモデルによって前記目標画像を処理して、前記目標画像の属性情報を取得し、
前記第1ガイドネットワークモデルにおけるモデルパラメータにより形成される第3行列に基づき、前記第1アノテーションベクトル集合に対して線形変換を行って、第4行列を取得し、
前記第4行列及び前記目標画像の属性情報に基づき、第5行列を生成し、
前記第5行列における各行の最大値に基づいて前記第1ガイド情報を決定する操作を実現するように実行されることを特徴とする
請求項11に記載の端末。 - 前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、前記第1ガイド情報に基づき、前記デコーダによって前記第1アノテーションベクトル集合及び前記第1初期入力データをデコードして、前記目標画像の表現語句を取得する操作を実現するように実行されることを特徴とする
請求項11に記載の端末。 - 前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、
第1レビューアーが第2RNNモデルを用いる場合、且つ、前記第2RNNモデルがN個の第2時系列ステップを実行することに用いられる場合、前記第2RNNモデルで実行される各第2時系列ステップに対して、前記第1ガイド情報に基づいて前記第2時系列ステップの入力データを決定し、
前記Nが、前記第2RNNモデルが入力データに対して繰り返し処理を行う回数を指し、前記Nが正の整数であり、各第2時系列ステップが前記第2RNNモデルの入力データに対する処理ステップであり、
前記第2時系列ステップの入力データ、前記第1アノテーションベクトル集合及び前記第2時系列ステップの前の第2時系列ステップの出力データに基づき、前記第2時系列ステップの出力データを決定し、
前記第2時系列ステップが前記N個の第2時系列ステップにおける1番目の第2時系列ステップである場合、前記第2時系列ステップの前の第2時系列ステップの出力データが前記第1初期入力データに基づいて決定することによって取得されたものであり、
前記N個の第2時系列ステップにおける最後の第2時系列ステップの出力データに基づき、第2初期入力データを決定し、
前記N個の第2時系列ステップのすべての出力データに基づき、第2アノテーションベクトル集合を決定する操作を実現するように実行されることを特徴とする
請求項14に記載の端末。 - 前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、
第1訓練待ちエンコーダ、第1訓練待ちガイドネットワークモデル及び第1訓練待ちデコーダを組み合わせて、第1カスケードネットワークモデルを取得し、
複数のサンプル画像及び前記複数のサンプル画像の表現語句に基づき、勾配降下法で前記第1カスケードネットワークモデルに対して訓練して、前記エンコーダ、前記第1ガイドネットワークモデル及び前記デコーダを取得する操作を実現するように実行されることを特徴とする
請求項11〜15のいずれか1項に記載の端末。 - 前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、
前記第1ガイド情報、前記第1アノテーションベクトル集合及び前記第1初期入力データに基づき、レビューアーによって第2アノテーションベクトル集合及び第2初期入力データを決定し、
前記第2アノテーションベクトル集合に基づき、第2ガイドネットワークモデルによって第2ガイド情報を生成し、前記第2ガイドネットワークモデルは、アノテーションベクトル集合に基づいてガイド情報を生成することに用いられ、
前記第2ガイド情報に基づき、前記エンコーダによって前記第2アノテーションベクトル集合及び前記第2初期入力データをエンコードして、前記目標画像の表現語句を取得する操作を実現するように実行されることを特徴とする
請求項11に記載の端末。 - 前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、
第1レビューアーが第2RNNモデルを用いる場合、且つ、前記第2RNNモデルがN個の第2時系列ステップを実行することに用いられる場合、前記第2RNNモデルで実行される各第2時系列ステップに対して、前記第1ガイド情報に基づいて前記第2時系列ステップの入力データを決定し、
前記Nが、前記第2RNNモデルが入力データに対して繰り返し処理を行う回数を指し、前記Nが正の整数であり、各第2時系列ステップが前記第2RNNモデルの入力データに対する処理ステップであり、
前記第2時系列ステップの入力データ、前記第1アノテーションベクトル集合及び前記第2時系列ステップの前の第2時系列ステップの出力データに基づき、前記第2時系列ステップの出力データを決定し、
前記第2時系列ステップが前記N個の第2時系列ステップにおける1番目の第2時系列ステップである場合、前記第2時系列ステップの前の第2時系列ステップの出力データが前記第1初期入力データに基づいて決定することによって取得されたものであり、
前記N個の第2時系列ステップにおける最後の第2時系列ステップの出力データに基づき、前記第2初期入力データを決定し、
前記N個の第2時系列ステップのすべての出力データに基づき、前記第2アノテーションベクトル集合を決定する操作を実現するように実行されることを特徴とする
請求項17に記載の端末。 - 前記命令、前記プログラム、前記コードセット又は前記命令セットは、前記プロセッサによりロードされ、
第2訓練待ちエンコーダ、第2訓練待ちガイドネットワークモデル、訓練待ちレビューアー、第3訓練待ちガイドネットワークモデル及び第2訓練待ちデコーダを組み合わせて、第2カスケードネットワークモデルを取得し、
複数のサンプル画像及び前記複数のサンプル画像の表現語句に基づき、勾配降下法で前記第2カスケードネットワークモデルに対して訓練して、前記エンコーダ、前記第1ガイドネットワークモデル、前記レビューアー、前記第2ガイドネットワークモデル及び前記デコーダを取得する操作を実現するように実行されることを特徴とする
請求項17又は18に記載の端末。 - コンピュータ可読記憶媒体であって、
少なくとも1つの命令、少なくとも1つのプログラム、コードセット又は命令セットが記憶され、前記命令、前記プログラム、前記コードセット又は前記命令セットは、プロセッサによりロードされ、請求項1〜10のいずれか1項に記載の画像認識方法を実現するように実行されることを特徴とする、前記コンピュータ可読記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710814187.2 | 2017-09-11 | ||
CN201710814187.2A CN108304846B (zh) | 2017-09-11 | 2017-09-11 | 图像识别方法、装置及存储介质 |
PCT/CN2018/105009 WO2019047971A1 (zh) | 2017-09-11 | 2018-09-11 | 图像识别方法、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020533696A true JP2020533696A (ja) | 2020-11-19 |
JP6972319B2 JP6972319B2 (ja) | 2021-11-24 |
Family
ID=62869573
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020514506A Active JP6972319B2 (ja) | 2017-09-11 | 2018-09-11 | 画像認識方法、端末及び記憶媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10956771B2 (ja) |
EP (1) | EP3611663A4 (ja) |
JP (1) | JP6972319B2 (ja) |
KR (1) | KR102270394B1 (ja) |
CN (2) | CN110490213B (ja) |
WO (1) | WO2019047971A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022510282A (ja) * | 2018-11-30 | 2022-01-26 | 株式会社ソニー・インタラクティブエンタテインメント | 画像データを自然言語の説明に変換するためのシステム及び方法 |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110490213B (zh) * | 2017-09-11 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置及存储介质 |
CN109146156B (zh) * | 2018-08-03 | 2021-12-03 | 大连理工大学 | 一种用于预测充电桩***充电量的方法 |
EP3726521A4 (en) * | 2018-10-19 | 2021-11-10 | Sony Group Corporation | INFORMATION PROCESSING METHODS, INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING PROGRAM |
CN109559576B (zh) * | 2018-11-16 | 2020-07-28 | 中南大学 | 一种儿童伴学机器人及其早教***自学习方法 |
CN109495214B (zh) * | 2018-11-26 | 2020-03-24 | 电子科技大学 | 基于一维Inception结构的信道编码类型识别方法 |
CN109670548B (zh) * | 2018-12-20 | 2023-01-06 | 电子科技大学 | 基于改进lstm-cnn的多尺寸输入har算法 |
CN109711546B (zh) * | 2018-12-21 | 2021-04-06 | 深圳市商汤科技有限公司 | 神经网络训练方法及装置、电子设备和存储介质 |
CN111476838A (zh) * | 2019-01-23 | 2020-07-31 | 华为技术有限公司 | 图像分析方法以及*** |
CN110009018B (zh) * | 2019-03-25 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 一种图像生成方法、装置以及相关设备 |
CN110222840B (zh) * | 2019-05-17 | 2023-05-05 | 中山大学 | 一种基于注意力机制的集群资源预测方法和装置 |
CN110276283B (zh) * | 2019-06-10 | 2021-05-25 | 腾讯医疗健康(深圳)有限公司 | 图片识别方法、目标识别模型训练方法及装置 |
CN110478204A (zh) * | 2019-07-25 | 2019-11-22 | 李高轩 | 一种结合图像识别的导盲眼镜及其构成的导盲*** |
CN110517759B (zh) * | 2019-08-29 | 2022-03-25 | 腾讯医疗健康(深圳)有限公司 | 一种待标注图像确定的方法、模型训练的方法及装置 |
KR102134893B1 (ko) * | 2019-11-07 | 2020-07-16 | 국방과학연구소 | 사전 압축된 텍스트 데이터의 압축 방식을 식별하는 시스템 및 방법 |
CN111767019A (zh) * | 2019-11-28 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 页面处理方法和装置 |
CN111275110B (zh) * | 2020-01-20 | 2023-06-09 | 北京百度网讯科技有限公司 | 图像描述的方法、装置、电子设备及存储介质 |
CN111310647A (zh) * | 2020-02-12 | 2020-06-19 | 北京云住养科技有限公司 | 自动识别跌倒模型的生成方法和装置 |
US11093794B1 (en) * | 2020-02-13 | 2021-08-17 | United States Of America As Represented By The Secretary Of The Navy | Noise-driven coupled dynamic pattern recognition device for low power applications |
CN111753825A (zh) * | 2020-03-27 | 2020-10-09 | 北京京东尚科信息技术有限公司 | 图像描述生成方法、装置、***、介质及电子设备 |
EP3916633A1 (de) * | 2020-05-25 | 2021-12-01 | Sick Ag | Kamera und verfahren zum verarbeiten von bilddaten |
CN111723729B (zh) * | 2020-06-18 | 2022-08-05 | 四川千图禾科技有限公司 | 基于知识图谱的监控视频犬类姿态和行为智能识别方法 |
US11455146B2 (en) * | 2020-06-22 | 2022-09-27 | Bank Of America Corporation | Generating a pseudo-code from a text summarization based on a convolutional neural network |
CN111767727B (zh) * | 2020-06-24 | 2024-02-06 | 北京奇艺世纪科技有限公司 | 数据处理方法及装置 |
EP4176449A1 (en) * | 2020-07-06 | 2023-05-10 | Harrison-AI Pty Ltd | Method and system for automated generation of text captions from medical images |
CN112016400B (zh) * | 2020-08-04 | 2021-06-29 | 香港理工大学深圳研究院 | 一种基于深度学习的单类目标检测方法、设备及存储介质 |
CN112614175A (zh) * | 2020-12-21 | 2021-04-06 | 苏州拓驰信息技术有限公司 | 基于特征去相关的用于封孔剂注射器的注射参数确定方法 |
CN112785494B (zh) * | 2021-01-26 | 2023-06-16 | 网易(杭州)网络有限公司 | 一种三维模型构建方法、装置、电子设备和存储介质 |
CN112800247B (zh) * | 2021-04-09 | 2021-06-18 | 华中科技大学 | 基于知识图谱共享的语义编/解码方法、设备和通信*** |
CN113205051B (zh) * | 2021-05-10 | 2022-01-25 | 中国科学院空天信息创新研究院 | 基于高空间分辨率遥感影像的储油罐提取方法 |
CN113569868B (zh) * | 2021-06-11 | 2023-09-19 | 北京旷视科技有限公司 | 一种目标检测方法、装置及电子设备 |
CN113486868B (zh) * | 2021-09-07 | 2022-02-11 | 中南大学 | 一种电机故障诊断方法及*** |
CN116167990B (zh) * | 2023-01-28 | 2024-06-25 | 阿里巴巴(中国)有限公司 | 基于图像的目标识别、神经网络模型处理方法 |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9743078B2 (en) * | 2004-07-30 | 2017-08-22 | Euclid Discoveries, Llc | Standards-compliant model-based video encoding and decoding |
US8582666B2 (en) * | 2006-12-18 | 2013-11-12 | Koninklijke Philips N.V. | Image compression and decompression |
US8254444B2 (en) * | 2007-05-14 | 2012-08-28 | Samsung Electronics Co., Ltd. | System and method for phase adaptive occlusion detection based on motion vector field in digital video |
WO2009110160A1 (ja) * | 2008-03-07 | 2009-09-11 | 株式会社 東芝 | 動画像符号化/復号化方法及び装置 |
US8165354B1 (en) * | 2008-03-18 | 2012-04-24 | Google Inc. | Face recognition with discriminative face alignment |
CN102577393B (zh) * | 2009-10-20 | 2015-03-25 | 夏普株式会社 | 运动图像编码装置、运动图像解码装置、运动图像编码/解码***、运动图像编码方法及运动图像解码方法 |
EP2495973B1 (en) * | 2009-10-30 | 2019-02-27 | Sun Patent Trust | Decoding method, decoder apparatus, encoding method, and encoder apparatus |
US9582431B2 (en) * | 2010-03-22 | 2017-02-28 | Seagate Technology Llc | Storage address space to NVM address, span, and length mapping/converting |
WO2011121894A1 (ja) * | 2010-03-31 | 2011-10-06 | 三菱電機株式会社 | 画像符号化装置、画像復号装置、画像符号化方法及び画像復号方法 |
JP2012253482A (ja) * | 2011-06-01 | 2012-12-20 | Sony Corp | 画像処理装置および方法、記録媒体、並びにプログラム |
US8918320B2 (en) * | 2012-01-03 | 2014-12-23 | Nokia Corporation | Methods, apparatuses and computer program products for joint use of speech and text-based features for sentiment detection |
CN104254877B (zh) * | 2012-04-23 | 2018-12-14 | 意大利电信股份公司 | 用于图像分析的方法和*** |
US9183460B2 (en) * | 2012-11-30 | 2015-11-10 | Google Inc. | Detecting modified images |
CN102982799A (zh) * | 2012-12-20 | 2013-03-20 | 中国科学院自动化研究所 | 一种融合引导概率的语音识别优化解码方法 |
US9349072B2 (en) * | 2013-03-11 | 2016-05-24 | Microsoft Technology Licensing, Llc | Local feature based image compression |
CN104918046B (zh) * | 2014-03-13 | 2019-11-05 | 中兴通讯股份有限公司 | 一种局部描述子压缩方法和装置 |
US10909329B2 (en) | 2015-05-21 | 2021-02-02 | Baidu Usa Llc | Multilingual image question answering |
CN105139385B (zh) * | 2015-08-12 | 2018-04-17 | 西安电子科技大学 | 基于深层自动编码器重构的图像视觉显著性区域检测方法 |
ITUB20153724A1 (it) * | 2015-09-18 | 2017-03-18 | Sisvel Tech S R L | Metodi e apparati per codificare e decodificare immagini o flussi video digitali |
US10423874B2 (en) * | 2015-10-02 | 2019-09-24 | Baidu Usa Llc | Intelligent image captioning |
US10402697B2 (en) * | 2016-08-01 | 2019-09-03 | Nvidia Corporation | Fusing multilayer and multimodal deep neural networks for video classification |
CN106446782A (zh) * | 2016-08-29 | 2017-02-22 | 北京小米移动软件有限公司 | 图像识别方法及装置 |
CN106548145A (zh) * | 2016-10-31 | 2017-03-29 | 北京小米移动软件有限公司 | 图像识别方法及装置 |
IT201600122898A1 (it) * | 2016-12-02 | 2018-06-02 | Ecole Polytechnique Fed Lausanne Epfl | Metodi e apparati per codificare e decodificare immagini o flussi video digitali |
CN106845411B (zh) * | 2017-01-19 | 2020-06-30 | 清华大学 | 一种基于深度学习和概率图模型的视频描述生成方法 |
CN107038221B (zh) * | 2017-03-22 | 2020-11-17 | 杭州电子科技大学 | 一种基于语义信息引导的视频内容描述方法 |
US10783393B2 (en) * | 2017-06-20 | 2020-09-22 | Nvidia Corporation | Semi-supervised learning for landmark localization |
CN110490213B (zh) * | 2017-09-11 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 图像识别方法、装置及存储介质 |
WO2019081623A1 (en) * | 2017-10-25 | 2019-05-02 | Deepmind Technologies Limited | SELF-REGRESSIVE NEURAL NETWORK SYSTEMS INCLUDING A SOFTWARE ATTENTION MECHANISM USING SUPPORT DATA CORRECTIVES |
KR102174777B1 (ko) * | 2018-01-23 | 2020-11-06 | 주식회사 날비컴퍼니 | 이미지의 품질 향상을 위하여 이미지를 처리하는 방법 및 장치 |
CN110072142B (zh) * | 2018-01-24 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 视频描述生成方法、装置、视频播放方法、装置和存储介质 |
US10671855B2 (en) * | 2018-04-10 | 2020-06-02 | Adobe Inc. | Video object segmentation by reference-guided mask propagation |
US10824909B2 (en) * | 2018-05-15 | 2020-11-03 | Toyota Research Institute, Inc. | Systems and methods for conditional image translation |
CN110163048B (zh) * | 2018-07-10 | 2023-06-02 | 腾讯科技(深圳)有限公司 | 手部关键点的识别模型训练方法、识别方法及设备 |
US20200104940A1 (en) * | 2018-10-01 | 2020-04-02 | Ramanathan Krishnan | Artificial intelligence enabled assessment of damage to automobiles |
-
2017
- 2017-09-11 CN CN201910848729.7A patent/CN110490213B/zh active Active
- 2017-09-11 CN CN201710814187.2A patent/CN108304846B/zh active Active
-
2018
- 2018-09-11 JP JP2020514506A patent/JP6972319B2/ja active Active
- 2018-09-11 EP EP18853742.7A patent/EP3611663A4/en active Pending
- 2018-09-11 WO PCT/CN2018/105009 patent/WO2019047971A1/zh unknown
- 2018-09-11 KR KR1020197036824A patent/KR102270394B1/ko active IP Right Grant
-
2019
- 2019-08-27 US US16/552,738 patent/US10956771B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022510282A (ja) * | 2018-11-30 | 2022-01-26 | 株式会社ソニー・インタラクティブエンタテインメント | 画像データを自然言語の説明に変換するためのシステム及び方法 |
JP7101315B2 (ja) | 2018-11-30 | 2022-07-14 | 株式会社ソニー・インタラクティブエンタテインメント | 画像データを自然言語の説明に変換するためのシステム及び方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2019047971A1 (zh) | 2019-03-14 |
CN108304846A (zh) | 2018-07-20 |
CN108304846B (zh) | 2021-10-22 |
CN110490213B (zh) | 2021-10-29 |
EP3611663A4 (en) | 2020-12-23 |
KR102270394B1 (ko) | 2021-06-30 |
CN110490213A (zh) | 2019-11-22 |
EP3611663A1 (en) | 2020-02-19 |
US20190385004A1 (en) | 2019-12-19 |
US10956771B2 (en) | 2021-03-23 |
JP6972319B2 (ja) | 2021-11-24 |
KR20200007022A (ko) | 2020-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6972319B2 (ja) | 画像認識方法、端末及び記憶媒体 | |
JP7179273B2 (ja) | 翻訳モデルのトレーニング方法、語句翻訳の方法、機器、記憶媒体及びコンピュータプログラム | |
US11416681B2 (en) | Method and apparatus for determining a reply statement to a statement based on a sum of a probability of the reply statement being output in response to the statement and a second probability in which the statement is output in response to the statement and further based on a terminator | |
KR102360659B1 (ko) | 기계번역 방법, 장치, 컴퓨터 기기 및 기억매체 | |
RU2643500C2 (ru) | Способ и устройство для обучения классификатора и распознавания типа | |
CN104217717B (zh) | 构建语言模型的方法及装置 | |
CN109447234A (zh) | 一种模型训练方法、合成说话表情的方法和相关装置 | |
CN109543195A (zh) | 一种文本翻译的方法、信息处理的方法以及装置 | |
CN110570840B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN108984535B (zh) | 语句翻译的方法、翻译模型训练的方法、设备及存储介质 | |
CN111816159A (zh) | 一种语种识别方法以及相关装置 | |
CN110852109A (zh) | 语料生成方法、语料生成装置、和存储介质 | |
CN113821589A (zh) | 一种文本标签的确定方法及装置、计算机设备和存储介质 | |
CN107291704A (zh) | 处理方法和装置、用于处理的装置 | |
CN113948060A (zh) | 一种网络训练方法、数据处理方法及相关设备 | |
KR20140116642A (ko) | 음성 인식 기반의 기능 제어 방법 및 장치 | |
WO2022227507A1 (zh) | 唤醒程度识别模型训练方法及语音唤醒程度获取方法 | |
CN117273019A (zh) | 对话模型的训练方法、对话生成方法、装置和设备 | |
CN111816168A (zh) | 一种模型训练的方法、语音播放的方法、装置及存储介质 | |
CN111723783B (zh) | 一种内容识别方法和相关装置 | |
CN113569043A (zh) | 一种文本类别确定方法和相关装置 | |
CN113806532B (zh) | 比喻句式判断模型的训练方法、装置、介质及设备 | |
US20230359352A1 (en) | Method for providing clipboard function, and electronic device supporting same | |
CN116564311B (zh) | 设备控制方法、装置、电子设备及可读存储介质 | |
KR20240020141A (ko) | 언어 모델에 기초하여 사용자 발화를 처리하는 방법 및 전자 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200317 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210817 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6972319 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |