JP2021136004A - 画像認識方法、装置、電子デバイスおよび媒体 - Google Patents

画像認識方法、装置、電子デバイスおよび媒体 Download PDF

Info

Publication number
JP2021136004A
JP2021136004A JP2020159199A JP2020159199A JP2021136004A JP 2021136004 A JP2021136004 A JP 2021136004A JP 2020159199 A JP2020159199 A JP 2020159199A JP 2020159199 A JP2020159199 A JP 2020159199A JP 2021136004 A JP2021136004 A JP 2021136004A
Authority
JP
Japan
Prior art keywords
image
recognition
target
front image
client
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020159199A
Other languages
English (en)
Other versions
JP7096302B2 (ja
Inventor
チャン、ミャオ
Miao Zhang
ワン、チュン
Qun Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2021136004A publication Critical patent/JP2021136004A/ja
Application granted granted Critical
Publication of JP7096302B2 publication Critical patent/JP7096302B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】画像認識結果の情報量を増加させ、ユーザエクスペリエンスを向上させる、画像認識方法、装置、電子デバイス及び媒体を提供する。【解決手段】画像認識方法は、クライアントから送信された認識対象画像を取得し、認識対象画像が背面画像であるか否かを判定し、認識対象画像が背面画像であると判定される場合、少なくとも1つの次元の観点から認識対象画像の特徴情報を決定し、特徴情報に基づいて、認識対象画像と対応するターゲット正面画像を決定し、ターゲット正面画像をクライアントに返送して、クライアントに表示する。【選択図】図1B

Description

本願の実施例は、コンピュータ技術、具体的には画像処理技術、特に画像認識方法、装置、電子デバイスおよび媒体に関する。
従来の画像検索技術は、キーワードを入力してインターネット上で関連する画像リソースを検索するものである。技術の発展に伴い、新しい画像認識技術によれば、ユーザは、画像をアップロードしたり、画像のurlアドレスを入力したりすることにより、インターネット上でこの画像に類似する他の画像リソースを検索できると同時に、この画像に関連する情報を見つけることができる。
しかし、いくつかのシナリオでは、ユーザが人物の背面画像をアップロードして認識することによって取得するのはすべて人物の背面に関連する情報であるため、画像認識結果に含まれる情報が少なく、ユーザの画像認識要求を満たすことができず、画像認識結果が快適ではなく、ユーザエクスペリエンスが不十分である。
本願の実施例は、画像認識結果の情報量を増加させ、ユーザエクスペリエンスを向上させるために使用される、画像認識方法、装置、電子デバイスおよび媒体を提供する。
第一様態では、本願の実施例は、画像認識方法を開示する。この画像認識方法は、サーバに適用されており、
クライアントから送信された認識対象画像を取得し、前記認識対象画像が背面画像であるか否かを判定するステップと、
前記認識対象画像が背面画像であると判定される場合、少なくとも1つの次元の観点から前記認識対象画像の特徴情報を決定するステップと、
前記特徴情報に基づいて、前記認識対象画像と対応するターゲット正面画像を決定し、前記ターゲット正面画像を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像を表示できるようにするステップと、を含む。
本願の上記実施例は、ユーザから送信された認識対象画像が背面画像であるか否かを判定し、そうである場合、少なくとも1つの次元の観点から認識対象画像の特徴情報を決定し、特徴情報に基づいて、認識対象画像と対応するターゲット正面画像を決定し、最終的にターゲット正面画像をクライアントに返送してユーザに表示することにより、画像認識結果の情報量を増加させ、ユーザエクスペリエンスを向上させるという技術的効果を実現するという利点または有益な効果を有する。
任意選択的には、前記方法は、
前記認識対象画像を認識し、前記認識対象画像の画像認識結果情報を取得し、前記認識対象画像の画像認識結果情報を前記クライアントに返送して、前記クライアントが前記認識対象画像の画像認識結果情報を表示できるようにするステップをさらに含む。
本願の上記実施例は、認識対象画像を認識し、認識対象画像の画像認識結果情報を決定し、それをクライアントに返送して、クライアントが認識対象画像の画像認識結果情報をユーザに表示できるようにすることにより、ユーザが認識対象画像に関連する情報を取得して認識対象画像を認識できるという技術的効果を実現するという利点または有益な効果を有する。
任意選択的には、前記特徴情報に基づいて、前記認識対象画像と対応するターゲット正面画像を決定するステップは、少なくとも1つの次元の観点から前記特徴情報を画像ライブラリ内の各候補正面画像の特徴情報と対応させ、対応に成功した特徴情報と対応する候補正面画像をターゲット正面画像として決定するステップを含む。ここで、次元は、肌の色、体型、髪型、服装、およびシナリオのうちの少なくとも1つを含む。
本願の上記実施例は、少なくとも1つの次元の観点から認識対象画像の特徴情報を画像ライブラリ内の各候補正面画像の特徴情報と対応させ、対応に成功した特徴情報と対応する候補正面画像をターゲット正面画像として決定することにより、認識対象画像の特徴情報に基づいて認識対象画像と対応するターゲット正面画像を画像ライブラリから決定するという技術的効果を実現し、後続プロセスにおいてこのターゲット正面画像をクライアントに返送してユーザに表示するための基礎を築くという利点または有益な効果を有する。
任意選択的には、前記認識対象画像と対応するターゲット正面画像を決定した後、前記方法は、
前記ターゲット正面画像を認識し、前記ターゲット正面画像に関連する画像認識結果情報を取得し、前記ターゲット正面画像に関連する画像認識結果情報を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像に関連する画像認識結果情報を表示できるようにするステップをさらに含む。本願の上記実施例は、ターゲット正面画像を認識し、ターゲット正面画像の画像認識結果情報を決定し、それをクライアントに返送して、クライアントがターゲット正面画像の画像認識結果情報をユーザに表示できるようにすることにより、ユーザがターゲット正面画像に関連する情報を取得してターゲット正面画像を認識できるという技術的効果を実現するという利点または有益な効果を有する。
第二様態では、本願の実施例は、画像認識方法を提供する。この画像認識方法は、クライアントに適用されており、
認識対象画像をサーバに送信して、サーバが前記認識対象画像に基づいて前記認識対象画像と対応するターゲット正面画像を決定できるようにするステップと、
サーバから送信された前記ターゲット正面画像を取得し、視覚化領域に前記ターゲット正面画像を表示するステップと、を含む。
本願の上記実施例は、認識対象画像をサーバに送信して、サーバが認識対象画像と対応するターゲット正面画像を決定できるようにし、サーバから送信されたターゲット正面画像を取得し、視覚化領域にターゲット正面画像を表示することにより、画像認識結果の情報量を増加させ、ユーザエクスペリエンスを向上させるという技術的効果を実現するという利点または有益な効果を有する。
任意選択的には、サーバから送信された前記ターゲット正面画像を取得する前に、前記方法は、
サーバから送信された前記認識対象画像の画像認識結果情報を取得し、前記視覚化領域に前記認識対象画像の画像認識結果情報を表示するステップをさらに含む。
本願の上記実施例は、サーバから送信された認識対象画像の画像認識結果情報を取得し、視覚化領域に前記認識対象画像の画像認識結果情報を表示することにより、ユーザがクライアントを介して視覚化領域で認識対象画像の画像認識結果情報を閲覧して認識対象画像を認識できるという技術的効果を実現するという利点または有益な効果を有する。
任意選択的には、サーバから送信された前記ターゲット正面画像を取得し、視覚化領域に前記ターゲット正面画像を表示するステップは、
視覚化領域の切り替えボタンに対するユーザのタッチ操作が検出される場合、サーバから送信された前記ターゲット正面画像を取得し、前記視覚化領域に前記認識対象画像を動画切り替えの方式により切り替えて前記ターゲット正面画像として表示するステップを含む。
本願の上記実施例は、ユーザが切り替えボタンをタッチすると、サーバから送信されたターゲット正面画像を取得し、視覚化領域に認識対象画像を動画切り替えの方式により切り替えて前記ターゲット正面画像として表示することにより、画像認識結果および対話からユーザに快適感を与え、ユーザエクスペリエンスを向上させるという利点または有益な効果を有する。
任意選択的には、前記方法は、
サーバから送信された前記ターゲット正面画像の画像認識結果情報を取得し、前記視覚化領域に前記ターゲット正面画像の画像認識結果情報を表示するステップをさらに含む。
本願の上記実施例は、サーバから送信されたターゲット正面画像の画像認識結果情報を取得し、視覚化領域に前記ターゲット正面画像の画像認識結果情報を表示することにより、ユーザがクライアントを介して視覚化領域でターゲット正面画像の画像認識結果情報を閲覧して認識対象画像の画像認識結果情報だけでなく、認識対象画像と対応するターゲット正面画像の画像認識結果情報も認識できるようにし、画像認識結果の情報量を増加させ、ユーザエクスペリエンスを向上させるという技術的効果を実現するという利点または有益な効果を有する。
第三様態では、本願の実施例は、画像認識装置をさらに開示する。この画像認識装置は、サーバに設置されており、
クライアントから送信された認識対象画像を取得し、前記認識対象画像が背面画像であるか否かを判定するために使用される認識対象画像取得モジュールと、
前記認識対象画像が背面画像であると判定される場合、少なくとも1つの次元の観点から前記認識対象画像の特徴情報を決定するために使用される特徴情報決定モジュールと、
前記特徴情報に基づいて、前記認識対象画像と対応するターゲット正面画像を決定し、前記ターゲット正面画像を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像を表示できるようにするために使用されるターゲット正面画像決定モジュールと、を含む。
第四様態では、本願の実施例は、画像認識装置をさらに開示する。この画像認識装置は、クライアントに設置されており、
ユーザがアップロードした認識対象画像をサーバに送信して、サーバが前記認識対象画像と対応するターゲット正面画像を決定できるようにするために使用される認識対象画像送信モジュールと、
サーバから送信された前記ターゲット正面画像を取得し、視覚化領域に前記ターゲット正面画像を表示するために使用されるターゲット正面画像表示モジュールと、を含む。
第五様態では、本願の実施例は、電子デバイスをさらに開示する。この電子デバイスは、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサが本願の実施例のいずれか1つに記載の画像認識方法を実行できるように前記少なくとも1つのプロセッサによって実行される、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されている。
第六様態では、本願の実施例は、コンピュータ命令を記憶する非一時的コンピュータ可読記憶媒体をさらに開示する。前記コンピュータ命令は、本願の実施例のいずれか1つに記載の画像認識方法を前記コンピュータに実行させるために使用される。
第七態様では、本願の実施例は、コンピュータプログラムをさらに開示する。前記コンピュータプログラムは、プロセッサによって実行されると、本願の実施例のいずれか1つに記載の画像認識方法を実施する。
上記任意の実施形態の他の効果は、具体的な実施例と併せて以下に説明される。
添付の図面は、本実施例をよりよく理解するために使用されており、本願を限定するものではない。ここで、
本願の実施例1に係る従来の画像認識結果の概略図である。 本願の実施例1に係る画像認識方法の概略フローチャートである。 本願の実施例1に係る認識対象画像の次元情報の概略図である。 本願の実施例2に係る画像認識方法の概略フローチャートである。 本願の実施例2に係るターゲット正面画像の概略図である。 本願の実施例3に係る画像認識方法の概略フローチャートである。 本願の実施例3に係る認識対象画像アップロードページの概略図である。 本願の実施例4に係る画像認識方法の概略フローチャートである。 本願の実施例4に係るガイド切り替えボタンの概略図である。 本願の実施例4に係る、ターゲット正面画像を動画切り替えの方式により表示することを示す概略図である。 本願の実施例5に係る画像認識装置の概略構造図である。 本願の実施例6に係る画像認識装置の概略構造図である。 本願の実施例に係る画像認識方法を実施するための電子デバイスのブロック図である。
本願の例示的な実施例は、添付の図面を参照して以下に説明されており、この説明は、理解を容易にするために本願の実施例の様々な詳細を含み、単なる例示と見なされるべきである。従って、本願の範囲および精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更および修正を行うことができることは、当業者に理解されるであろう。同様に、明瞭性と簡潔性の観点から、公知の機能と構造に関する説明は、以下の説明において省略される。
<実施例1>
従来の画像認識技術では、ユーザが人物の背面画像をアップロードして認識することによって取得するのはすべて人物の背面に関連する情報である。図1Aは、従来の画像認識結果の概略図であり、ここで、100はユーザがアップロードした背面画像を表し、101はこの人物の背面画像に関連する情報を表す。
図1Bは、本願の実施例1に係る画像認識方法の概略フローチャートである。本実施例は、ユーザが送信された背面画像と対応する正面画像を閲覧したい場合に適用可能である。この方法はサーバに適用されており、本願の実施例に係るサーバに設置された画像認識装置によって実行され得る。この装置は、ソフトウェアおよび/またはハードウェアによって実装され得る。図1Bに示すように、この方法は、以下のステップを含み得る。
S101、クライアントから送信された認識対象画像を取得し、前記認識対象画像が背面画像であるか否かを判定する。
ここで、サーバは、VC++またはdelphiなどで書き込むことを含むが、これらに限定されず、socketインターフェースを介して、クライアントから送信されたデータを受信することが好ましい。認識対象画像のフォーマットは、RAWフォーマット、BMPフォーマット、JPEGフォーマット、PNGフォーマットなどを含むが、これらに限定されない。背面画像は、実在の人物の背面画像、アニメキャラクターの背面画像、映画キャラクターの背面画像、または動物の背面画像などを含むが、これらに限定されない。
具体的には、サーバは、ユーザから送信された認識対象画像を取得した後、最初に所定のターゲット検出アルゴリズムに基づいて認識対象画像内のオブジェクトがターゲットオブジェクトであるか否かを判定する。ここで、ターゲットオブジェクトは人物または動物などを含み、ターゲット検出アルゴリズムはYOLOアルゴリズム、R−CNNアルゴリズム、またはFast−RCNNアルゴリズムなどを含むが、これらに限定されない。認識対象画像内のオブジェクトがターゲットオブジェクトである場合、前記認識対象画像の特徴検出を実行して、認識対象画像にターゲット特徴が含まれるか否かを判定する。ここで、ターゲット特徴は目、口、鼻、眉、歯、または瞳孔などを含むが、これらに限定されない。認識対象画像にターゲット特徴が含まれていないと判定される場合、認識対象画像が背面画像であると判定する。それに応じて、認識対象画像にターゲット特徴が含まれると判定される場合、認識対象画像が背面画像ではないと判定する。
クライアントから送信された認識対象画像を取得し、認識対象画像が背面画像であるか否かを判定することにより、後続プロセスにおいて少なくとも1つの次元の観点から認識対象画像の特徴情報を決定するための基礎を築き、すべての認識対象画像の特徴情報を決定することによる計算量が多すぎるという問題を避ける。
S102、前記認識対象画像が背面画像であると判定される場合、少なくとも1つの次元の観点から前記認識対象画像の特徴情報を決定する。
ここで、前記次元は、肌の色、体型、髪型、服装、およびシナリオのうちの少なくとも1つを含むが、これらに限定されない。各次元は、異なる特徴情報を含む。例えば、「肌の色」の次元は、白色、小麦色、または黒色などの特徴情報を含むが、これらに限定されない。「体型」の次元は、痩せ型、中等型、小太り型、太り型などの特徴情報を含むが、これらに限定されない。「髪型」の次元は、短髪、中長髪、または長髪などの特徴情報を含むが、これらに限定されない。「服装」の次元は、ミニスカート、ロングスカート、チョッキ、またはジャケットなどの特徴情報を含むが、これらに限定されない。「シナリオ」の次元は、海辺、ビーチ、地下鉄、またはオフィスなどの特徴情報を含むが、これらに限定されない。
具体的には、サーバは、認識対象画像を事前に確立された特徴情報認識モデルに入力して、少なくとも1つの次元の観点から認識対象画像の特徴情報を取得する。ここで、特徴情報認識モデルは、ニューラルネットワークモデルであり、大量の背面画像をトレーニングサンプル画像として取得し、各トレーニングサンプル画像に特徴情報を手動でラベル付けして、少なくとも1つの次元の観点から各トレーニングサンプル画像の特徴情報を取得し、最終的に各トレーニングサンプル画像および対応する特徴情報をトレーニングすることによって得られる。図1Cは、認識対象画像の次元情報の概略図であり、ここで、102は認識対象画像を表し、103はこの認識対象画像の次元情報を表す。
認識対象画像が背面画像であると判定される場合、少なくとも1つの次元の観点から認識対象画像の特徴情報を決定することにより、後続プロセスにおいて認識対象画像と対応するターゲット正面画像を決定するためのデータ基礎を築き、認識対象画像と対応するターゲット正面画像の最終決定がスムーズに完了できることを確保する。
S103、前記特徴情報に基づいて、前記認識対象画像と対応するターゲット正面画像を決定し、前記ターゲット正面画像を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像を表示できるようにする。
具体的には、サーバは、前記特徴情報に基づいて画像ライブラリから検索して、前記認識対象画像と対応するターゲット正面画像を決定する。ここで、画像ライブラリは、多くのオンラインコミュニティ、オンラインフォーラム、およびウェブページから取得された正面画像、および、特徴情報認識モデルによって決定された各正面画像と対応する特徴情報を含み、各正面画像および対応する特徴情報は関連付けられて画像ライブラリに記憶されており、記憶形式はKVキーと値のペアの形式を含む。ここで、キー値Keyは正面画像であり、データ値Valueは特徴情報である。サーバは、ターゲット正面画像を決定した後、このターゲット正面画像をクライアントに返送して、クライアントが、ユーザが視聴できるようにこのターゲット正面画像を画面上の所定の視覚化領域に表示できるようにする。
特徴情報に基づいて、認識対象画像と対応するターゲット正面画像を決定し、ターゲット正面画像をクライアントに返送して、クライアントがターゲット正面画像を表示できるようにすることにより、画像認識結果から快適感をユーザに与え、ユーザエクスペリエンスを向上させる。
本願の実施例に係る技術的解決手段は、ユーザから送信された認識対象画像が背面画像であるか否かを判定し、そうである場合、少なくとも1つの次元の観点から認識対象画像の特徴情報を決定し、特徴情報に基づいて、認識対象画像と対応するターゲット正面画像を決定し、最終的にターゲット正面画像をクライアントに返送してユーザに表示することにより、画像認識結果の情報量を増加させ、ユーザエクスペリエンスを向上させるという技術的効果を実現する。
<実施例2>
図2Aは、本願の実施例2に係る画像認識方法の概略フローチャートである。本実施例は、上記の実施例1に係る具体的な実施形態である。図2Aに示すように、この方法は、以下のステップを含み得る。
S201、クライアントから送信された認識対象画像を取得し、前記認識対象画像を認識し、前記認識対象画像の画像認識結果情報を取得し、前記認識対象画像の画像認識結果情報を前記クライアントに返送して、前記クライアントが前記認識対象画像の画像認識結果情報を表示できるようにする。
ここで、認識対象画像の画像認識結果情報は、従来の画像認識技術を用いて認識対象画像を認識することによって取得される。
具体的には、サーバは、ユーザから送信された認識対象画像を取得した後、SIFTアルゴリズム、指紋関数アルゴリズム、またはハッシュ関数アルゴリズムなどの所定の特徴抽出アルゴリズムに基づいて、認識対象画像の特徴抽出を実行し、認識対象画像の画像特徴を取得し、ワンホットエンコードまたはラベルエンコードなどを含むエンコード方式により画像特徴をエンコードして、認識対象画像の特徴コードを取得し、最終的に特徴コードに応じて画像ライブラリでグローバル類似度を計算し、必要なロバスト性に応じて閾値を設定し、類似度がこの閾値を超える画像を類似画像として決定し、類似画像の所定の関連情報を認識対象画像の画像認識結果情報としてクライアントに返送して、クライアントが視覚化領域で前記認識対象画像の画像認識結果情報をユーザに表示できるようにする。ここで、認識対象画像の画像認識結果情報は、画像ソース情報、人物服装情報、物品情報、シナリオ情報(風景や景勝地など)などを含むが、これらに限定されない。
認識対象画像を認識し、認識対象画像の画像認識結果情報を決定し、それをクライアントに返送して、クライアントが認識対象画像の画像認識結果情報をユーザに表示できるようにすることにより、ユーザが認識対象画像に関連する情報を取得して認識対象画像を認識できるという技術的効果を実現する。
S202、前記認識対象画像が背面画像であるか否かを判定し、前記認識対象画像が背面画像であると判定される場合、少なくとも1つの次元の観点から前記認識対象画像の特徴情報を決定する。
S203、少なくとも1つの次元の観点から前記特徴情報を画像ライブラリ内の各候補正面画像の特徴情報と対応させ、対応に成功した特徴情報と対応する候補正面画像をターゲット正面画像として決定する。
ここで、次元は、肌の色、体型、髪型、服装、およびシナリオのうちの少なくとも1つを含む。
例えば、認識対象画像の特徴情報が「肌の色:白色」、「体型:中等型」、「髪型:中長髪」、「服装:白いロングスカート」、および「シナリオ:海辺」を含み、候補正面画像Aの特徴情報が「肌の色:白色」、「体型:中等型」、「髪型:中長髪」、「服装:白いロングスカート」、および「シナリオ:ビーチ」を含むと仮定すると、認識対象画像の特徴情報における「海辺」が候補正面画像Aの特徴情報における「ビーチ」と異なるため、候補正面画像Aは、認識対象画像のターゲット正面画像ではない。候補正面画像Bの特徴情報が「肌の色:白色」、「体型:中等型」、「髪型:中長髪」、「服装:白いロングスカート」、および「シナリオ:海辺」を含み、認識対象画像の特徴情報が候補正面画像Bの特徴情報と全く同じである場合、即ち、対応が成功する場合、候補正面画像Bを認識対象画像のターゲット正面画像として決定する。図2Bに示すように、図2Bは、ターゲット正面画像の概略図であり、ここで、200は認識対象画像を表し、201は特徴情報との対応が失敗した候補正面画像Aを表し、202は特徴情報との対応が成功した候補正面画像B、即ちターゲット正面画像を表す。
ステップS204、前記ターゲット正面画像を認識し、前記ターゲット正面画像の画像認識結果情報を取得し、前記ターゲット正面画像の画像認識結果情報および前記ターゲット正面画像を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像の画像認識結果情報および前記ターゲット正面画像を表示できるようにする。
具体的には、サーバは、SIFTアルゴリズム、指紋関数アルゴリズム、またはハッシュ関数アルゴリズムなどの所定の特徴抽出アルゴリズムに基づいて、ターゲット正面画像の特徴抽出を実行し、ターゲット正面画像の画像特徴を取得し、ワンホットエンコードまたはラベルエンコードなどを含むエンコード方式により画像特徴をエンコードして、ターゲット正面画像の特徴コードを取得し、最終的に特徴コードに応じて画像ライブラリでグローバル類似度を計算し、必要なロバスト性に応じて閾値を設定し、類似度がこの閾値を超える画像を類似画像として決定し、類似画像の所定の関連情報をターゲット正面画像の画像認識結果情報として決定し、最終的にターゲット正面画像の画像認識結果情報およびターゲット正面画像をクライアントに返送して、クライアントが視覚化領域で前記ターゲット正面画像の画像認識結果情報および前記ターゲット正面画像をユーザに表示できるようにする。ここで、ターゲット正面画像の画像認識結果情報は、画像ソース情報、人物服装情報、物品情報、シナリオ情報(風景や景勝地など)などを含むが、これらに限定されない。
本願の実施例に係る技術的解決手段は、少なくとも1つの次元の観点から前記特徴情報を画像ライブラリ内の各候補正面画像の特徴情報と対応させ、対応に成功した特徴情報と対応する候補正面画像をターゲット正面画像として決定し、前記ターゲット正面画像を認識し、前記ターゲット正面画像の画像認識結果情報を決定し、前記ターゲット正面画像の画像認識結果情報および前記ターゲット正面画像を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像の画像認識結果情報および前記ターゲット正面画像を表示できるようにすることにより、正面画像を背面画像に基づいて表示する技術的効果を実現し、画像認識結果情報が認識対象画像の画像認識結果情報を含むだけでなく、認識対象画像と対応するターゲット正面画像の画像認識結果情報も含むようにし、画像認識結果の情報量を増加させ、画像認識結果から快適感をユーザに与え、ユーザエクスペリエンスを向上させる。
<実施例3>
図3Aは、本願の実施例3に係る画像認識方法の概略フローチャートである。本実施例は、ユーザが、送信された背面画像と対応する正面画像を閲覧したい場合に適用可能である。この方法はクライアントに適用されており、本願の実施例に係るクライアントに設置された画像認識装置によって実行され得る。この装置は、ソフトウェアおよび/またはハードウェアによって実装され得る。図3Aに示すように、この方法は、以下のステップを含み得る。
ステップS301、認識対象画像をサーバに送信して、サーバが前記認識対象画像に基づいて前記認識対象画像と対応するターゲット正面画像を決定できるようにする。
ここで、クライアントは、端末にインストールされたAPPまたはアプレットを含むが、これらに限定されない。
具体的には、ユーザは、クライアントの認識対象画像アップロードページにアクセスし、このアップロードページを介して、端末に記憶された認識対象画像をサーバに送信する。ここで、端末は、スマートフォンやタブレットコンピュータなどのモバイル端末、およびパーソナルコンピュータやオールインワンコンピュータなどの固定端末を含む。図3Bは、認識対象画像アップロードページの概略図であり、ここで、300はアップロードボタンを表す。ユーザがこのアップロードボタンをクリックすると、ユーザは、端末に記憶された認識対象画像のいずれか1つを認識対象画像として選択してサーバに送信して、サーバが前記認識対象画像に基づいて前記認識対象画像と対応するターゲット正面画像を決定できるようにする。
ステップS302、サーバから送信された前記ターゲット正面画像を取得し、視覚化領域に前記ターゲット正面画像を表示する。
ここで、クライアントには、画像情報、文字情報、ビデオ情報などの情報をユーザに表示できる視覚化領域が設置される。
具体的には、クライアントは、サーバから送信された前記ターゲット正面画像を取得し、このターゲット正面画像を視覚化領域にレンダリングして、ユーザが視覚化領域で認識対象画像と対応するターゲット正面画像を直接検索できるようにする。
本願の実施例に係る技術的解決手段は、認識対象画像をサーバに送信し、サーバから送信された認識対象画像と対応するターゲット正面画像を取得し、視覚化領域に前記ターゲット正面画像を表示する。それにより、正面画像を背面画像に基づいて認識する技術的効果を実現し、画像認識結果の情報量を増加させ、ユーザエクスペリエンスを向上させるという技術的効果を実現する。
<実施例4>
図4Aは、本願の実施例4に係る画像認識方法の概略フローチャートである。本実施例は、上記の実施例3に係る具体的な実施形態である。図4Aに示すように、この方法は、以下のステップを含み得る。
ステップS401、認識対象画像をサーバに送信し、サーバから送信された前記認識対象画像の画像認識結果情報を取得し、前記視覚化領域に前記認識対象画像の画像認識結果情報を表示する。
ステップS402、視覚化領域の切り替えボタンに対するユーザのタッチ操作が検出される場合、サーバから送信された前記ターゲット正面画像の画像認識結果情報および前記ターゲット正面画像を取得する。
具体的には、クライアントは、ユーザがクライアントを介して認識対象画像をサーバに送信すると、クライアント画面の視覚化領域にユーザがアップロードした認識対象画像を表示し、クライアントの視覚化領域に切り替えボタンを予め生成し、ユーザが切り替えボタンをクリックすると、要求をサーバに送信して、前記ターゲット正面画像の画像認識結果情報および前記ターゲット正面画像をクライアントに送信するようにサーバを制御する。
例えば、図4Bは、切り替えボタンの概略図であり、ここで、400は認識対象画像を表し、401はガイド切り替えボタンを表す。
S403、前記視覚化領域に前記認識対象画像を動画切り替えの方式により切り替えて前記ターゲット正面画像として表示し、前記視覚化領域に前記ターゲット正面画像の画像認識結果情報を表示する。
具体的には、クライアントは、視覚化領域に、最初に表示された認識対象画像を動画切り替えの方式により切り替えてターゲット正面画像として表示する。ここで、動画切り替えの方式はスムーズフェード、カットアウト、ディゾルブ、水平ブラインドなどを含むが、これらに限定されない。ターゲット正面画像の周囲にターゲット正面画像の画像認識結果情報を表示する。
例えば、図4Cは、ターゲット正面画像を動画切り替えの方式により表示することを示す概略図であり、ここで、400は認識対象画像を表し、402はターゲット正面画像を表す。
本願の実施例に係る技術的解決手段は、ユーザが切り替えバタンをタッチする場合、視覚化領域に認識対象画像を動画切り替えの方式により切り替えてターゲット正面画像として表示し、視覚化領域にターゲット正面画像の画像認識結果情報を表示することにより、画像認識結果の情報量および画像認識プロセスの楽しさを増加させ、快適感をユーザに与え、ユーザエクスペリエンスを向上させる。
<実施例5>
図5は、本願の実施例5に係る画像認識装置50の概略構造図である。この装置は、サーバに設置されており、本願の実施例1および実施例2のいずれか1つに係る画像認識方法を実行することができ、この方法の実行に必要な機能モジュールおよび有益な効果を有する。図5に示すように、この装置は、
クライアントから送信された認識対象画像を取得し、前記認識対象画像が背面画像であるか否かを判定するために使用される認識対象画像取得モジュール51と、
前記認識対象画像が背面画像であると判定される場合、少なくとも1つの次元の観点から前記認識対象画像の特徴情報を決定するために使用される特徴情報決定モジュール52と、
前記特徴情報に基づいて、前記認識対象画像と対応するターゲット正面画像を決定し、前記ターゲット正面画像を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像を表示できるようにするために使用されるターゲット正面画像決定モジュール53と、を含み得る。
上記実施例によれば、前記装置は、認識対象画像認識モジュールをさらに含む。この認識対象画像認識モジュールは、具体的には、
前記認識対象画像を認識し、前記認識対象画像の画像認識結果情報を取得し、前記認識対象画像の画像認識結果情報を前記クライアントに返送して、前記クライアントが前記認識対象画像の画像認識結果情報を表示できるようにするステップをさらに含む。上記実施例によれば、前記ターゲット正面画像決定モジュール53は、具体的には、
少なくとも1つの次元の観点から前記特徴情報を画像ライブラリ内の各候補正面画像の特徴情報と対応させ、対応に成功した特徴情報と対応する候補正面画像をターゲット正面画像として決定するために使用される。ここで、次元は、肌の色、体型、髪型、服装、およびシナリオのうちの少なくとも1つを含む。上記実施例によれば、前記装置は、ターゲット正面画像認識モジュールをさらに含む。このターゲット正面画像認識モジュールは、具体的には、
前記ターゲット正面画像を認識し、前記ターゲット正面画像の画像認識結果情報を取得し、前記ターゲット正面画像の画像認識結果情報を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像の画像認識結果情報を表示できるようにするために使用される。
本願の実施例に係る画像認識装置50は、本願の実施例1および実施例2のいずれか1つに係る画像認識方法を実行することができ、この方法の実行に必要な機能モジュールおよび有益な効果を有する。本実施例で詳細に説明されていない技術的詳細については、本願の実施例1および実施例2のいずれか1つに係る画像認識方法を参照されたい。
<実施例6>
図6は、本願の実施例6に係る画像認識装置60の概略構造図である。この装置は、クライアントに設置されており、本願の実施例3および実施例4のいずれか1つに係る画像認識方法を実行することができ、この方法の実行に必要な機能モジュールおよび有益な効果を有する。図6に示すように、この装置は、
ユーザがアップロードした認識対象画像をサーバに送信して、サーバが前記認識対象画像と対応するターゲット正面画像を決定できるようにするために使用される認識対象画像送信モジュール61と、
サーバから送信された前記ターゲット正面画像を取得し、視覚化領域に前記ターゲット正面画像を表示するために使用されるターゲット正面画像表示モジュール62と、を含み得る。
上記実施例によれば、前記装置は、第一関連情報取得モジュールをさらに含む。この第一関連情報取得モジュールは、具体的には、
サーバから送信された前記認識対象画像の画像認識結果情報を取得し、前記視覚化領域に前記認識対象画像の画像認識結果情報を表示するために使用される。
上記実施例によれば、前記ターゲット正面画像表示モジュール62は、具体的には、
視覚化領域におけるユーザの切り替えボタンのタッチ操作を検出する場合、サーバから送信された前記ターゲット正面画像を取得し、前記視覚化領域に前記認識対象画像を動画切り替えの形態により切り替えて前記ターゲット正面画像として表示するために使用される。
上記実施例によれば、前記装置は、第二関連情報取得モジュールをさらに含む。この第二関連情報取得モジュールは、具体的には、
サーバから送信された前記ターゲット正面画像の画像認識結果情報を取得し、前記視覚化領域に前記ターゲット正面画像の画像認識結果情報を表示するために使用される。
本願の実施例に係る画像認識装置60は、本願の実施例3および実施例4のいずれか1つに係る画像認識方法を実行することができ、この方法の実行に必要な機能モジュールおよび有益な効果を有する。本実施例で詳細に説明されていない技術的詳細については、本願の実施例3および実施例4のいずれか1つに係る画像認識方法を参照されたい。
本願の実施例によれば、本願は、電子デバイスおよび可読記憶媒体をさらに提供する。
図7に示すように、それは、本願の実施例に係る画像認識方法を実施するための電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子デバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル電子デバイス、およびその他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを示すこともできる。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は単なる例示であり、本明細書に説明および/または請求される本願の実施形態を限定することを意図したものではない。
図7に示すように、この電子デバイスは、1つまたは複数のプロセッサ701と、メモリ702と、高速インターフェースおよび低速インターフェースを含む、様々なコンポーネントを接続するためのインターフェースとを含む。様々なコンポーネントは、異なるバスを介して互いに接続されており、パブリックマザーボードに取り付けられ得るか、または必要に応じて他の方法で取り付けられ得る。プロセッサは、GUIのグラフィック情報が外部入力/出力装置(例えば、インターフェースに結合された表示電子デバイス)に表示されるようにメモリ内またはメモリ上に記憶される命令を含む、電子デバイスで実行された命令を処理することができる。他の実施形態では、複数のプロセッサおよび/または複数本のバスは、必要に応じて、複数のメモリと共に使用され得る。同様に、それは、(例えば、サーバアレイ、ブレードサーバ群、またはマルチプロセッサシステムとして)いくつかの必要な操作を提供する複数の電子デバイスに接続され得る。図7には、プロセッサ701が例として挙げられる。
メモリ702は、本願に係る非一時的コンピュータ可読記憶媒体である。ここで、前記メモリには、前記少なくとも1つのプロセッサが本願に係る画像認識方法を実行できるように、少なくとも1つのプロセッサによって実行され得る命令が記憶されている。本願の非一時的コンピュータ可読記憶媒体には、本願に係る画像認識方法をコンピュータに実行させるために使用されるコンピュータ命令が記憶されている。
非一時的コンピュータ可読記憶媒体として、メモリ702は、非一時的ソフトウェアプログラムと、非一時的コンピュータ実行可能プログラムと、本願の実施例に係る画像認識方法と対応するプログラム命令/モジュール(例えば、図5に示す認識対象画像取得モジュール51、特徴情報決定モジュール52、およびターゲット正面画像決定モジュール53、また例えば、図6に示す認識対象画像送信モジュール61、およびターゲット正面画像表示モジュール62)などのモジュールと、を記憶するために使用され得る。プロセッサ701は、メモリ702に記憶された非一時的ソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行する、即ち、上記方法実施例における画像認識方法を実施する。
メモリ702は、オペレーティングシステムおよび少なくとも1つの機能に必要なアプリケーションプログラムが記憶され得るプログラム記憶領域と、画像を認識するための電子デバイスによって作成されたデータなどが記憶され得るデータ記憶領域とを含み得る。さらに、メモリ702は、高速ランダムアクセスメモリを含み得、また、少なくとも1つの磁気ディスクメモリ、フラッシュメモリ、または他の非一時的ソリッドステートメモリなどの非一時的メモリを含み得る。いくつかの実施例では、メモリ702は、任意選択で、プロセッサ701に対して遠隔的に設定されたメモリを含み得、これらの遠隔メモリは、ネットワークを介して、画像を認識するための電子デバイスに接続され得る。上記ネットワークの例には、インターネット、企業イントラネット、ブロックチェーンネットワーク、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせが含まれるが、これらに限定されない。
画像認識方法を実施するための電子デバイスは、入力装置703および出力装置704をさらに含み得る。プロセッサ701、メモリ702、入力装置703、および出力装置704は、バスまたは他の手段を介して接続され得るが、図7にはバスによる接続が例として挙げられる。
入力装置703は、入力された数字または文字情報を受信し、画像を認識するための電子デバイスのユーザ設定および機能制御に関連するキー信号入力を生成することができるもの、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、1つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置704は、表示装置、補助照明装置(例えば、LED)、触覚フィードバック装置(例えば、振動モータ)などを含み得る。この表示装置は、液晶ディスプレイ(LDC)、発光ダイオード(LED)ディスプレイ、およびプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示電子デバイスは、タッチスクリーンであり得る。
本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組み合わせで実装され得る。これらの様々な実施形態は、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置からデータおよび命令を受信したり、この記憶システム、この少なくとも1つの入力装置、およびこの少なくとも1つの出力装置にデータおよび命令を送信したりすることができる専用又は汎用のプログラマブルプロセッサであり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行および/または解釈され得る1つまたは複数のコンピュータプログラムに実装されることを含み得る。
これらの計算プログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる)は、プログラマブルプロセッサの機械命令を含み、高水準手続き型またはオブジェクト指向型のプログラミング言語、および/またはアセンブリ/機械言語で実装され得る。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受信する機械可読媒体を含む、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、電子デバイス、および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するための任意の信号を指す。
ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、情報をユーザに表示するための表示装置(例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタ)と、ユーザが入力をコンピュータに提供することを可能にするキーボードとポインティングデバイス(例えば、マウスまたはトラックボール)とを備えたコンピュータに実装され得る。他のタイプの装置は、ユーザとの対話を提供するためにも使用されており、例えば、任意の形態の感覚フィードバック(例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック)をユーザに提供したり、任意の形態(音響入力、音声入力、触覚入力を含む形態)を利用してユーザからの入力を受信したりするために使用され得る。
本明細書に記載のシステムおよび技術は、バックエンドコンポーネント(例えば、データサーバ)を含むコンピュータシステム、またはミドルウェアコンポーネント(例えば、アプリケーションサーバ)を含むコンピュータシステム、またはフロントエンドコンポーネント(例えば、ユーザが本明細書に記載のシステムおよび技術の実施形態と対話することを可能にするグラフィカルユーザインターフェースまたはウェブブラウザを備えたユーザコンピュータ)を含むコンピュータシステム、または、このバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムに実装され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体(例えば、通信ネットワーク)を介して互いに接続され得る。通信ネットワークの例には、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、ブロックチェーンネットワーク、およびインターネットが含まれる。
コンピュータシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは通常、互いに遠く離れており、通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータで実行され、クライアント−サーバの関係を有するコンピュータプログラムによって生成される。
本願の実施例に係る技術的解決手段は、ユーザから送信された認識対象画像が背面画像であるか否かを判定し、そうである場合、少なくとも1つの次元の観点から認識対象画像の特徴情報を決定し、特徴情報に基づいて、認識対象画像と対応するターゲット正面画像を決定し、最終的にターゲット正面画像をクライアントに返送してユーザに表示することにより、画像認識結果の情報量を増加させ、ユーザエクスペリエンスを向上させるという技術的効果を実現する。
ステップの並べ替え、追加、または削除は、上記の様々な形態のプロセスによって実行され得ることを理解されたい。例えば、本願に記載の各ステップは、本願に開示された技術的解決手段の所望の結果が達成できる限り、並行して、順次、または異なる順序で実行され得るが、本明細書に限定されない。
上記の具体的な実施形態は、本願の保護範囲を限定するものではない。設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的組み合わせおよび置換を行うことができることは、当業者にとって明らかであろう。本願の精神と原則の範囲内で行われた修正、同等置換、改良などは、本願の保護範囲に含まれるべきである。

Claims (14)

  1. サーバに適用されており、
    クライアントから送信された認識対象画像を取得し、前記認識対象画像が背面画像であるか否かを判定するステップと、
    前記認識対象画像が背面画像であると判定される場合、少なくとも1つの次元の観点から前記認識対象画像の特徴情報を決定するステップと、
    前記特徴情報に基づいて、前記認識対象画像と対応するターゲット正面画像を決定し、前記ターゲット正面画像を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像を表示できるようにするステップと、を含むことを特徴とする、画像認識方法。
  2. 前記認識対象画像を認識し、前記認識対象画像の画像認識結果情報を取得し、前記認識対象画像の画像認識結果情報を前記クライアントに返送して、前記クライアントが前記認識対象画像の画像認識結果情報を表示できるようにするステップをさらに含むことを特徴とする、請求項1に記載の方法。
  3. 前記特徴情報に基づいて、前記認識対象画像と対応するターゲット正面画像を決定するステップは、
    少なくとも1つの次元の観点から前記特徴情報を画像ライブラリ内の各候補正面画像の特徴情報と対応させ、対応に成功した特徴情報と対応する候補正面画像をターゲット正面画像として決定するステップを含むことを特徴とする、請求項1に記載の方法。
  4. 前記次元は、肌の色、体型、髪型、服装、およびシナリオのうちの少なくとも1つを含むことを特徴とする、請求項3に記載の方法。
  5. 前記認識対象画像と対応するターゲット正面画像を決定した後、
    前記ターゲット正面画像を認識し、前記ターゲット正面画像の画像認識結果情報を取得し、前記ターゲット正面画像の画像認識結果情報を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像の画像認識結果情報を表示できるようにするステップをさらに含むことを特徴とする、請求項1に記載の方法。
  6. クライアントに適用されており、
    認識対象画像をサーバに送信して、サーバが前記認識対象画像に基づいて前記認識対象画像と対応するターゲット正面画像を決定できるようにするステップと、
    サーバから送信された前記ターゲット正面画像を取得し、視覚化領域に前記ターゲット正面画像を表示するステップと、を含むことを特徴とする、画像認識方法。
  7. サーバから送信された前記ターゲット正面画像を取得する前に、
    サーバから送信された前記認識対象画像の画像認識結果情報を取得し、前記視覚化領域に前記認識対象画像の画像認識結果情報を表示するステップをさらに含むことを特徴とする、請求項6に記載の方法。
  8. サーバから送信された前記ターゲット正面画像を取得し、視覚化領域に前記ターゲット正面画像を表示するステップは、
    視覚化領域の切り替えボタンに対するユーザのタッチ操作が検出される場合、サーバから送信された前記ターゲット正面画像を取得し、前記視覚化領域に前記認識対象画像を動画切り替えの方式により切り替えて前記ターゲット正面画像として表示するステップを含むことを特徴とする、請求項6に記載の方法。
  9. サーバから送信された前記ターゲット正面画像の画像認識結果情報を取得し、前記視覚化領域に前記ターゲット正面画像の画像認識結果情報を表示するステップをさらに含むことを特徴とする、請求項6に記載の方法。
  10. サーバに設置されており、
    クライアントから送信された認識対象画像を取得し、前記認識対象画像が背面画像であるか否かを判定するために使用される認識対象画像取得モジュールと、
    前記認識対象画像が背面画像であると判定される場合、少なくとも1つの次元の観点から前記認識対象画像の特徴情報を決定するために使用される特徴情報決定モジュールと、
    前記特徴情報に基づいて、前記認識対象画像と対応するターゲット正面画像を決定し、前記ターゲット正面画像を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像を表示できるようにするために使用されるターゲット正面画像決定モジュールと、を含むことを特徴とする、画像認識装置。
  11. クライアントに設置されており、
    ユーザがアップロードした認識対象画像をサーバに送信して、サーバが前記認識対象画像と対応するターゲット正面画像を決定できるようにするために使用される認識対象画像送信モジュールと、
    サーバから送信された前記ターゲット正面画像を取得し、視覚化領域に前記ターゲット正面画像を表示するために使用されるターゲット正面画像表示モジュールと、を含むことを特徴とする、画像認識装置。
  12. 少なくとも1つのプロセッサと、
    前記少なくとも1つのプロセッサに通信可能に接続されたメモリと、を含み、
    前記メモリには、前記少なくとも1つのプロセッサが請求項1〜5のいずれか一項に記載の画像認識方法および/または請求項6〜9のいずれか一項に記載の画像認識方法を実行できるように前記少なくとも1つのプロセッサによって実行される、前記少なくとも1つのプロセッサによって実行可能な命令が記憶されていることを特徴とする、電子デバイス。
  13. コンピュータ命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令が請求項1〜5のいずれか一項に記載の画像認識方法および/または請求項6〜9のいずれか一項に記載の画像認識方法を前記コンピュータに実行させるために使用されることを特徴とする、非一時的コンピュータ可読記憶媒体。
  14. プロセッサによって実行されると、請求項1〜5のいずれか一項に記載の画像認識方法および/または請求項6〜9のいずれか一項に記載の画像認識方法を実施する、コンピュータプログラム。
JP2020159199A 2020-02-21 2020-09-24 画像認識方法、装置、電子デバイスおよび媒体 Active JP7096302B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010108757.8A CN111259183B (zh) 2020-02-21 2020-02-21 图像识图方法、装置、电子设备和介质
CN202010108757.8 2020-02-21

Publications (2)

Publication Number Publication Date
JP2021136004A true JP2021136004A (ja) 2021-09-13
JP7096302B2 JP7096302B2 (ja) 2022-07-05

Family

ID=70945713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020159199A Active JP7096302B2 (ja) 2020-02-21 2020-09-24 画像認識方法、装置、電子デバイスおよび媒体

Country Status (5)

Country Link
US (1) US11789997B2 (ja)
EP (1) EP3869393B1 (ja)
JP (1) JP7096302B2 (ja)
KR (1) KR102642866B1 (ja)
CN (1) CN111259183B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709922B (zh) * 2020-06-10 2023-07-04 北京百度网讯科技有限公司 图像质量比较方法、装置、设备以及存储介质
CN112115224B (zh) * 2020-09-24 2024-03-08 北京百度网讯科技有限公司 地图数据的辅助质检方法、装置、电子设备及存储介质
CN114155024A (zh) * 2021-11-30 2022-03-08 北京京东振世信息技术有限公司 确定目标物品的方法、装置、设备及介质
CN114741019B (zh) * 2022-03-31 2024-07-09 上海小度技术有限公司 数字藏品展示方法、装置、设备、存储介质及程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218373A (ja) * 2009-03-18 2010-09-30 Olympus Corp サーバシステム、端末装置、プログラム、情報記憶媒体及び画像検索方法
JP2014109864A (ja) * 2012-11-30 2014-06-12 Canon Marketing Japan Inc 情報処理装置、情報処理システム、その制御方法、及びプログラム
JP2016134921A (ja) * 2015-01-19 2016-07-25 株式会社リコー 線形パノラマ画像連結のためのプレビュー画像取得ユーザインタフェース
JP2017062633A (ja) * 2015-09-24 2017-03-30 グローリー株式会社 画像照合装置及び画像照合方法
JP2018190398A (ja) * 2017-05-01 2018-11-29 株式会社リコー 誘導画像キャプチャユーザインタフェース
JP2019159537A (ja) * 2018-03-09 2019-09-19 オムロン株式会社 画像検索装置、画像検索方法、電子機器及びその制御方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101820503B1 (ko) * 2011-03-10 2018-01-22 에스케이플래닛 주식회사 얼굴 인식 추론 기반 서비스 시스템, 그의 얼굴 인식 추론 방법 및 기록 매체
US9189876B2 (en) * 2012-03-06 2015-11-17 Apple Inc. Fanning user interface controls for a media editing application
KR101983288B1 (ko) * 2012-11-22 2019-05-29 삼성전자주식회사 카메라 촬영 제어장치 및 방법
US20140279310A1 (en) * 2013-03-14 2014-09-18 Kokopay, Inc. Electronic Payment System Operative with Existing Accounting Software and Existing Remote Deposit Capture and Mobile RDC Software
US10475226B2 (en) * 2013-03-15 2019-11-12 Crayola Llc Coloring kit for capturing and animating two-dimensional colored creation
CN103605971B (zh) * 2013-12-04 2017-05-24 深圳市捷顺科技实业股份有限公司 一种捕获人脸图像的方法及装置
US9510196B2 (en) * 2014-03-17 2016-11-29 Qualcomm Incorporated Method and apparatus for authenticating a user on a mobile device
CN103984931B (zh) * 2014-05-27 2017-11-07 联想(北京)有限公司 一种信息处理方法及第一电子设备
CN106156578B (zh) * 2015-04-22 2020-02-14 深圳市腾讯计算机***有限公司 身份验证方法和装置
US9860451B2 (en) * 2015-06-07 2018-01-02 Apple Inc. Devices and methods for capturing and interacting with enhanced digital images
KR20170091913A (ko) * 2016-02-02 2017-08-10 삼성전자주식회사 영상 서비스 제공 방법 및 장치
US10366144B2 (en) * 2016-04-01 2019-07-30 Ebay Inc. Analyzing and linking a set of images by identifying objects in each image to determine a primary image and a secondary image
CN106384087A (zh) * 2016-09-05 2017-02-08 大连理工大学 一种基于多层网络人体特征的身份识别方法
JP6262889B2 (ja) * 2017-01-12 2018-01-17 ヤフー株式会社 情報処理装置、情報処理方法及びプログラム
US10362340B2 (en) * 2017-04-06 2019-07-23 Burst, Inc. Techniques for creation of auto-montages for media content
CN108933723B (zh) * 2017-05-19 2020-11-06 腾讯科技(深圳)有限公司 消息展示方法、装置及终端
CN109784130B (zh) * 2017-11-15 2023-04-28 株式会社日立制作所 行人重识别方法及其装置和设备
US10709335B2 (en) * 2017-12-31 2020-07-14 Google Llc Infant monitoring system with observation-based system control and feedback loops
CN109002761A (zh) * 2018-06-13 2018-12-14 中山大学新华学院 一种基于深度卷积神经网络的行人重识别监控***
CN108960209B (zh) * 2018-08-09 2023-07-21 腾讯科技(深圳)有限公司 身份识别方法、装置及计算机可读存储介质
CN110069652A (zh) * 2018-08-30 2019-07-30 Oppo广东移动通信有限公司 提示方法、装置、存储介质及穿戴式设备
CN109492614A (zh) * 2018-11-29 2019-03-19 上海道枢信息技术有限公司 一种基于安防视频识别面部特征的方法及***
CN109784243B (zh) * 2018-12-29 2021-07-09 网易(杭州)网络有限公司 身份确定方法及装置、神经网络训练方法及装置、介质
CN109829418B (zh) * 2019-01-28 2021-01-05 北京影谱科技股份有限公司 一种基于背影特征的打卡方法、装置和***
CN110163082A (zh) * 2019-04-02 2019-08-23 腾讯科技(深圳)有限公司 一种图像识别网络模型训练方法、图像识别方法及装置
CN110136236B (zh) * 2019-05-17 2022-11-29 腾讯科技(深圳)有限公司 三维角色的个性化脸部显示方法、装置、设备及存储介质
CN110222789B (zh) * 2019-06-14 2023-05-26 腾讯科技(深圳)有限公司 图像识别方法及存储介质
CN110796079A (zh) * 2019-10-29 2020-02-14 深圳龙岗智能视听研究院 基于人脸深度特征和人体局部深度特征的多相机访客识别的方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010218373A (ja) * 2009-03-18 2010-09-30 Olympus Corp サーバシステム、端末装置、プログラム、情報記憶媒体及び画像検索方法
JP2014109864A (ja) * 2012-11-30 2014-06-12 Canon Marketing Japan Inc 情報処理装置、情報処理システム、その制御方法、及びプログラム
JP2016134921A (ja) * 2015-01-19 2016-07-25 株式会社リコー 線形パノラマ画像連結のためのプレビュー画像取得ユーザインタフェース
JP2017062633A (ja) * 2015-09-24 2017-03-30 グローリー株式会社 画像照合装置及び画像照合方法
JP2018190398A (ja) * 2017-05-01 2018-11-29 株式会社リコー 誘導画像キャプチャユーザインタフェース
JP2019159537A (ja) * 2018-03-09 2019-09-19 オムロン株式会社 画像検索装置、画像検索方法、電子機器及びその制御方法

Also Published As

Publication number Publication date
EP3869393A1 (en) 2021-08-25
JP7096302B2 (ja) 2022-07-05
KR102642866B1 (ko) 2024-03-04
CN111259183A (zh) 2020-06-09
KR20210106914A (ko) 2021-08-31
CN111259183B (zh) 2023-08-01
US11789997B2 (en) 2023-10-17
US20210264142A1 (en) 2021-08-26
EP3869393B1 (en) 2023-03-15

Similar Documents

Publication Publication Date Title
JP7096302B2 (ja) 画像認識方法、装置、電子デバイスおよび媒体
KR102510640B1 (ko) 비디오 검색 방법, 장치, 기기 및 매체
KR101737725B1 (ko) 컨텐츠 생성 툴
US20150339348A1 (en) Search method and device
CN111552888A (zh) 内容推荐方法、装置、设备及存储介质
JP7324838B2 (ja) 符号化方法並びにその、装置、機器及びコンピュータプログラム
CN112364799A (zh) 一种手势识别方法及装置
CN112487242A (zh) 用于识别视频的方法、装置、电子设备及可读存储介质
EP2947584A1 (en) Multimodal search method and device
CN116955784A (zh) 内容显示方法、装置、设备、介质和程序产品
KR102408256B1 (ko) 검색을 수행하는 방법 및 장치
KR102206486B1 (ko) 입력 어플리케이션을 이용한 번역 서비스 제공 방법 및 이를 이용하는 단말장치
CN108629824B (zh) 图像生成方法、装置、电子设备及计算机可读介质
CN113542257B (zh) 视频处理方法、视频处理装置、电子设备和存储介质
CN112000828B (zh) 搜索表情图片的方法、装置、电子设备和可读存储介质
WO2024152669A1 (zh) 内容搜索方法、装置、计算机设备、存储介质和计算机程序产品
CN111385489B (zh) 一种短视频封面的制作方法、装置、设备和存储介质
US20240146673A1 (en) Method for correcting profile image in online communication service and apparatus therefor
CN117290534A (zh) 故事相册的生成方法、装置及电子设备
CN116663574A (zh) 多模态对话翻译方法、装置、电子设备及存储介质
JP2023039767A (ja) 表示装置、表示方法、表示システム
JP2023041614A (ja) 表示装置、表示方法、表示システム
CN116521023A (zh) 输入法动效的显示方法、装置、电子设备及存储介质
CN110968786A (zh) 一种视觉信息推荐方法、装置、设备及存储介质
CN115481644A (zh) 文本翻译方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220506

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220617

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220623

R150 Certificate of patent or registration of utility model

Ref document number: 7096302

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150