JP2021136004A

JP2021136004A - 画像認識方法、装置、電子デバイスおよび媒体

Info

Publication number: JP2021136004A
Application number: JP2020159199A
Authority: JP
Inventors: チャン、ミャオ; Miao Zhang; ワン、チュン; Qun Wang
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-02-21
Filing date: 2020-09-24
Publication date: 2021-09-13
Anticipated expiration: 2040-09-24
Also published as: EP3869393A1; JP7096302B2; KR102642866B1; CN111259183A; KR20210106914A; CN111259183B; US11789997B2; US20210264142A1; EP3869393B1

Abstract

【課題】画像認識結果の情報量を増加させ、ユーザエクスペリエンスを向上させる、画像認識方法、装置、電子デバイス及び媒体を提供する。【解決手段】画像認識方法は、クライアントから送信された認識対象画像を取得し、認識対象画像が背面画像であるか否かを判定し、認識対象画像が背面画像であると判定される場合、少なくとも１つの次元の観点から認識対象画像の特徴情報を決定し、特徴情報に基づいて、認識対象画像と対応するターゲット正面画像を決定し、ターゲット正面画像をクライアントに返送して、クライアントに表示する。【選択図】図１Ｂ

Description

本願の実施例は、コンピュータ技術、具体的には画像処理技術、特に画像認識方法、装置、電子デバイスおよび媒体に関する。

従来の画像検索技術は、キーワードを入力してインターネット上で関連する画像リソースを検索するものである。技術の発展に伴い、新しい画像認識技術によれば、ユーザは、画像をアップロードしたり、画像のｕｒｌアドレスを入力したりすることにより、インターネット上でこの画像に類似する他の画像リソースを検索できると同時に、この画像に関連する情報を見つけることができる。

しかし、いくつかのシナリオでは、ユーザが人物の背面画像をアップロードして認識することによって取得するのはすべて人物の背面に関連する情報であるため、画像認識結果に含まれる情報が少なく、ユーザの画像認識要求を満たすことができず、画像認識結果が快適ではなく、ユーザエクスペリエンスが不十分である。

本願の実施例は、画像認識結果の情報量を増加させ、ユーザエクスペリエンスを向上させるために使用される、画像認識方法、装置、電子デバイスおよび媒体を提供する。

第一様態では、本願の実施例は、画像認識方法を開示する。この画像認識方法は、サーバに適用されており、
クライアントから送信された認識対象画像を取得し、前記認識対象画像が背面画像であるか否かを判定するステップと、
前記認識対象画像が背面画像であると判定される場合、少なくとも１つの次元の観点から前記認識対象画像の特徴情報を決定するステップと、
前記特徴情報に基づいて、前記認識対象画像と対応するターゲット正面画像を決定し、前記ターゲット正面画像を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像を表示できるようにするステップと、を含む。

本願の上記実施例は、ユーザから送信された認識対象画像が背面画像であるか否かを判定し、そうである場合、少なくとも１つの次元の観点から認識対象画像の特徴情報を決定し、特徴情報に基づいて、認識対象画像と対応するターゲット正面画像を決定し、最終的にターゲット正面画像をクライアントに返送してユーザに表示することにより、画像認識結果の情報量を増加させ、ユーザエクスペリエンスを向上させるという技術的効果を実現するという利点または有益な効果を有する。

任意選択的には、前記方法は、
前記認識対象画像を認識し、前記認識対象画像の画像認識結果情報を取得し、前記認識対象画像の画像認識結果情報を前記クライアントに返送して、前記クライアントが前記認識対象画像の画像認識結果情報を表示できるようにするステップをさらに含む。

本願の上記実施例は、認識対象画像を認識し、認識対象画像の画像認識結果情報を決定し、それをクライアントに返送して、クライアントが認識対象画像の画像認識結果情報をユーザに表示できるようにすることにより、ユーザが認識対象画像に関連する情報を取得して認識対象画像を認識できるという技術的効果を実現するという利点または有益な効果を有する。

任意選択的には、前記特徴情報に基づいて、前記認識対象画像と対応するターゲット正面画像を決定するステップは、少なくとも１つの次元の観点から前記特徴情報を画像ライブラリ内の各候補正面画像の特徴情報と対応させ、対応に成功した特徴情報と対応する候補正面画像をターゲット正面画像として決定するステップを含む。ここで、次元は、肌の色、体型、髪型、服装、およびシナリオのうちの少なくとも１つを含む。

本願の上記実施例は、少なくとも１つの次元の観点から認識対象画像の特徴情報を画像ライブラリ内の各候補正面画像の特徴情報と対応させ、対応に成功した特徴情報と対応する候補正面画像をターゲット正面画像として決定することにより、認識対象画像の特徴情報に基づいて認識対象画像と対応するターゲット正面画像を画像ライブラリから決定するという技術的効果を実現し、後続プロセスにおいてこのターゲット正面画像をクライアントに返送してユーザに表示するための基礎を築くという利点または有益な効果を有する。

任意選択的には、前記認識対象画像と対応するターゲット正面画像を決定した後、前記方法は、
前記ターゲット正面画像を認識し、前記ターゲット正面画像に関連する画像認識結果情報を取得し、前記ターゲット正面画像に関連する画像認識結果情報を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像に関連する画像認識結果情報を表示できるようにするステップをさらに含む。本願の上記実施例は、ターゲット正面画像を認識し、ターゲット正面画像の画像認識結果情報を決定し、それをクライアントに返送して、クライアントがターゲット正面画像の画像認識結果情報をユーザに表示できるようにすることにより、ユーザがターゲット正面画像に関連する情報を取得してターゲット正面画像を認識できるという技術的効果を実現するという利点または有益な効果を有する。

第二様態では、本願の実施例は、画像認識方法を提供する。この画像認識方法は、クライアントに適用されており、
認識対象画像をサーバに送信して、サーバが前記認識対象画像に基づいて前記認識対象画像と対応するターゲット正面画像を決定できるようにするステップと、
サーバから送信された前記ターゲット正面画像を取得し、視覚化領域に前記ターゲット正面画像を表示するステップと、を含む。

本願の上記実施例は、認識対象画像をサーバに送信して、サーバが認識対象画像と対応するターゲット正面画像を決定できるようにし、サーバから送信されたターゲット正面画像を取得し、視覚化領域にターゲット正面画像を表示することにより、画像認識結果の情報量を増加させ、ユーザエクスペリエンスを向上させるという技術的効果を実現するという利点または有益な効果を有する。

任意選択的には、サーバから送信された前記ターゲット正面画像を取得する前に、前記方法は、
サーバから送信された前記認識対象画像の画像認識結果情報を取得し、前記視覚化領域に前記認識対象画像の画像認識結果情報を表示するステップをさらに含む。

本願の上記実施例は、サーバから送信された認識対象画像の画像認識結果情報を取得し、視覚化領域に前記認識対象画像の画像認識結果情報を表示することにより、ユーザがクライアントを介して視覚化領域で認識対象画像の画像認識結果情報を閲覧して認識対象画像を認識できるという技術的効果を実現するという利点または有益な効果を有する。

任意選択的には、サーバから送信された前記ターゲット正面画像を取得し、視覚化領域に前記ターゲット正面画像を表示するステップは、
視覚化領域の切り替えボタンに対するユーザのタッチ操作が検出される場合、サーバから送信された前記ターゲット正面画像を取得し、前記視覚化領域に前記認識対象画像を動画切り替えの方式により切り替えて前記ターゲット正面画像として表示するステップを含む。

本願の上記実施例は、ユーザが切り替えボタンをタッチすると、サーバから送信されたターゲット正面画像を取得し、視覚化領域に認識対象画像を動画切り替えの方式により切り替えて前記ターゲット正面画像として表示することにより、画像認識結果および対話からユーザに快適感を与え、ユーザエクスペリエンスを向上させるという利点または有益な効果を有する。

任意選択的には、前記方法は、
サーバから送信された前記ターゲット正面画像の画像認識結果情報を取得し、前記視覚化領域に前記ターゲット正面画像の画像認識結果情報を表示するステップをさらに含む。

本願の上記実施例は、サーバから送信されたターゲット正面画像の画像認識結果情報を取得し、視覚化領域に前記ターゲット正面画像の画像認識結果情報を表示することにより、ユーザがクライアントを介して視覚化領域でターゲット正面画像の画像認識結果情報を閲覧して認識対象画像の画像認識結果情報だけでなく、認識対象画像と対応するターゲット正面画像の画像認識結果情報も認識できるようにし、画像認識結果の情報量を増加させ、ユーザエクスペリエンスを向上させるという技術的効果を実現するという利点または有益な効果を有する。

第三様態では、本願の実施例は、画像認識装置をさらに開示する。この画像認識装置は、サーバに設置されており、
クライアントから送信された認識対象画像を取得し、前記認識対象画像が背面画像であるか否かを判定するために使用される認識対象画像取得モジュールと、
前記認識対象画像が背面画像であると判定される場合、少なくとも１つの次元の観点から前記認識対象画像の特徴情報を決定するために使用される特徴情報決定モジュールと、
前記特徴情報に基づいて、前記認識対象画像と対応するターゲット正面画像を決定し、前記ターゲット正面画像を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像を表示できるようにするために使用されるターゲット正面画像決定モジュールと、を含む。

第四様態では、本願の実施例は、画像認識装置をさらに開示する。この画像認識装置は、クライアントに設置されており、
ユーザがアップロードした認識対象画像をサーバに送信して、サーバが前記認識対象画像と対応するターゲット正面画像を決定できるようにするために使用される認識対象画像送信モジュールと、
サーバから送信された前記ターゲット正面画像を取得し、視覚化領域に前記ターゲット正面画像を表示するために使用されるターゲット正面画像表示モジュールと、を含む。

第五様態では、本願の実施例は、電子デバイスをさらに開示する。この電子デバイスは、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサが本願の実施例のいずれか１つに記載の画像認識方法を実行できるように前記少なくとも１つのプロセッサによって実行される、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されている。

第六様態では、本願の実施例は、コンピュータ命令を記憶する非一時的コンピュータ可読記憶媒体をさらに開示する。前記コンピュータ命令は、本願の実施例のいずれか１つに記載の画像認識方法を前記コンピュータに実行させるために使用される。

第七態様では、本願の実施例は、コンピュータプログラムをさらに開示する。前記コンピュータプログラムは、プロセッサによって実行されると、本願の実施例のいずれか１つに記載の画像認識方法を実施する。

上記任意の実施形態の他の効果は、具体的な実施例と併せて以下に説明される。

添付の図面は、本実施例をよりよく理解するために使用されており、本願を限定するものではない。ここで、
本願の実施例１に係る従来の画像認識結果の概略図である。本願の実施例１に係る画像認識方法の概略フローチャートである。本願の実施例１に係る認識対象画像の次元情報の概略図である。本願の実施例２に係る画像認識方法の概略フローチャートである。本願の実施例２に係るターゲット正面画像の概略図である。本願の実施例３に係る画像認識方法の概略フローチャートである。本願の実施例３に係る認識対象画像アップロードページの概略図である。本願の実施例４に係る画像認識方法の概略フローチャートである。本願の実施例４に係るガイド切り替えボタンの概略図である。本願の実施例４に係る、ターゲット正面画像を動画切り替えの方式により表示することを示す概略図である。本願の実施例５に係る画像認識装置の概略構造図である。本願の実施例６に係る画像認識装置の概略構造図である。本願の実施例に係る画像認識方法を実施するための電子デバイスのブロック図である。

本願の例示的な実施例は、添付の図面を参照して以下に説明されており、この説明は、理解を容易にするために本願の実施例の様々な詳細を含み、単なる例示と見なされるべきである。従って、本願の範囲および精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更および修正を行うことができることは、当業者に理解されるであろう。同様に、明瞭性と簡潔性の観点から、公知の機能と構造に関する説明は、以下の説明において省略される。

＜実施例１＞
従来の画像認識技術では、ユーザが人物の背面画像をアップロードして認識することによって取得するのはすべて人物の背面に関連する情報である。図１Ａは、従来の画像認識結果の概略図であり、ここで、１００はユーザがアップロードした背面画像を表し、１０１はこの人物の背面画像に関連する情報を表す。

図１Ｂは、本願の実施例１に係る画像認識方法の概略フローチャートである。本実施例は、ユーザが送信された背面画像と対応する正面画像を閲覧したい場合に適用可能である。この方法はサーバに適用されており、本願の実施例に係るサーバに設置された画像認識装置によって実行され得る。この装置は、ソフトウェアおよび／またはハードウェアによって実装され得る。図１Ｂに示すように、この方法は、以下のステップを含み得る。

Ｓ１０１、クライアントから送信された認識対象画像を取得し、前記認識対象画像が背面画像であるか否かを判定する。

ここで、サーバは、ＶＣ＋＋またはｄｅｌｐｈｉなどで書き込むことを含むが、これらに限定されず、ｓｏｃｋｅｔインターフェースを介して、クライアントから送信されたデータを受信することが好ましい。認識対象画像のフォーマットは、ＲＡＷフォーマット、ＢＭＰフォーマット、ＪＰＥＧフォーマット、ＰＮＧフォーマットなどを含むが、これらに限定されない。背面画像は、実在の人物の背面画像、アニメキャラクターの背面画像、映画キャラクターの背面画像、または動物の背面画像などを含むが、これらに限定されない。

具体的には、サーバは、ユーザから送信された認識対象画像を取得した後、最初に所定のターゲット検出アルゴリズムに基づいて認識対象画像内のオブジェクトがターゲットオブジェクトであるか否かを判定する。ここで、ターゲットオブジェクトは人物または動物などを含み、ターゲット検出アルゴリズムはＹＯＬＯアルゴリズム、Ｒ−ＣＮＮアルゴリズム、またはＦａｓｔ−ＲＣＮＮアルゴリズムなどを含むが、これらに限定されない。認識対象画像内のオブジェクトがターゲットオブジェクトである場合、前記認識対象画像の特徴検出を実行して、認識対象画像にターゲット特徴が含まれるか否かを判定する。ここで、ターゲット特徴は目、口、鼻、眉、歯、または瞳孔などを含むが、これらに限定されない。認識対象画像にターゲット特徴が含まれていないと判定される場合、認識対象画像が背面画像であると判定する。それに応じて、認識対象画像にターゲット特徴が含まれると判定される場合、認識対象画像が背面画像ではないと判定する。

クライアントから送信された認識対象画像を取得し、認識対象画像が背面画像であるか否かを判定することにより、後続プロセスにおいて少なくとも１つの次元の観点から認識対象画像の特徴情報を決定するための基礎を築き、すべての認識対象画像の特徴情報を決定することによる計算量が多すぎるという問題を避ける。

Ｓ１０２、前記認識対象画像が背面画像であると判定される場合、少なくとも１つの次元の観点から前記認識対象画像の特徴情報を決定する。

ここで、前記次元は、肌の色、体型、髪型、服装、およびシナリオのうちの少なくとも１つを含むが、これらに限定されない。各次元は、異なる特徴情報を含む。例えば、「肌の色」の次元は、白色、小麦色、または黒色などの特徴情報を含むが、これらに限定されない。「体型」の次元は、痩せ型、中等型、小太り型、太り型などの特徴情報を含むが、これらに限定されない。「髪型」の次元は、短髪、中長髪、または長髪などの特徴情報を含むが、これらに限定されない。「服装」の次元は、ミニスカート、ロングスカート、チョッキ、またはジャケットなどの特徴情報を含むが、これらに限定されない。「シナリオ」の次元は、海辺、ビーチ、地下鉄、またはオフィスなどの特徴情報を含むが、これらに限定されない。

具体的には、サーバは、認識対象画像を事前に確立された特徴情報認識モデルに入力して、少なくとも１つの次元の観点から認識対象画像の特徴情報を取得する。ここで、特徴情報認識モデルは、ニューラルネットワークモデルであり、大量の背面画像をトレーニングサンプル画像として取得し、各トレーニングサンプル画像に特徴情報を手動でラベル付けして、少なくとも１つの次元の観点から各トレーニングサンプル画像の特徴情報を取得し、最終的に各トレーニングサンプル画像および対応する特徴情報をトレーニングすることによって得られる。図１Ｃは、認識対象画像の次元情報の概略図であり、ここで、１０２は認識対象画像を表し、１０３はこの認識対象画像の次元情報を表す。

認識対象画像が背面画像であると判定される場合、少なくとも１つの次元の観点から認識対象画像の特徴情報を決定することにより、後続プロセスにおいて認識対象画像と対応するターゲット正面画像を決定するためのデータ基礎を築き、認識対象画像と対応するターゲット正面画像の最終決定がスムーズに完了できることを確保する。

Ｓ１０３、前記特徴情報に基づいて、前記認識対象画像と対応するターゲット正面画像を決定し、前記ターゲット正面画像を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像を表示できるようにする。

具体的には、サーバは、前記特徴情報に基づいて画像ライブラリから検索して、前記認識対象画像と対応するターゲット正面画像を決定する。ここで、画像ライブラリは、多くのオンラインコミュニティ、オンラインフォーラム、およびウェブページから取得された正面画像、および、特徴情報認識モデルによって決定された各正面画像と対応する特徴情報を含み、各正面画像および対応する特徴情報は関連付けられて画像ライブラリに記憶されており、記憶形式はＫＶキーと値のペアの形式を含む。ここで、キー値Ｋｅｙは正面画像であり、データ値Ｖａｌｕｅは特徴情報である。サーバは、ターゲット正面画像を決定した後、このターゲット正面画像をクライアントに返送して、クライアントが、ユーザが視聴できるようにこのターゲット正面画像を画面上の所定の視覚化領域に表示できるようにする。

特徴情報に基づいて、認識対象画像と対応するターゲット正面画像を決定し、ターゲット正面画像をクライアントに返送して、クライアントがターゲット正面画像を表示できるようにすることにより、画像認識結果から快適感をユーザに与え、ユーザエクスペリエンスを向上させる。

本願の実施例に係る技術的解決手段は、ユーザから送信された認識対象画像が背面画像であるか否かを判定し、そうである場合、少なくとも１つの次元の観点から認識対象画像の特徴情報を決定し、特徴情報に基づいて、認識対象画像と対応するターゲット正面画像を決定し、最終的にターゲット正面画像をクライアントに返送してユーザに表示することにより、画像認識結果の情報量を増加させ、ユーザエクスペリエンスを向上させるという技術的効果を実現する。

＜実施例２＞
図２Ａは、本願の実施例２に係る画像認識方法の概略フローチャートである。本実施例は、上記の実施例１に係る具体的な実施形態である。図２Ａに示すように、この方法は、以下のステップを含み得る。

Ｓ２０１、クライアントから送信された認識対象画像を取得し、前記認識対象画像を認識し、前記認識対象画像の画像認識結果情報を取得し、前記認識対象画像の画像認識結果情報を前記クライアントに返送して、前記クライアントが前記認識対象画像の画像認識結果情報を表示できるようにする。

ここで、認識対象画像の画像認識結果情報は、従来の画像認識技術を用いて認識対象画像を認識することによって取得される。

具体的には、サーバは、ユーザから送信された認識対象画像を取得した後、ＳＩＦＴアルゴリズム、指紋関数アルゴリズム、またはハッシュ関数アルゴリズムなどの所定の特徴抽出アルゴリズムに基づいて、認識対象画像の特徴抽出を実行し、認識対象画像の画像特徴を取得し、ワンホットエンコードまたはラベルエンコードなどを含むエンコード方式により画像特徴をエンコードして、認識対象画像の特徴コードを取得し、最終的に特徴コードに応じて画像ライブラリでグローバル類似度を計算し、必要なロバスト性に応じて閾値を設定し、類似度がこの閾値を超える画像を類似画像として決定し、類似画像の所定の関連情報を認識対象画像の画像認識結果情報としてクライアントに返送して、クライアントが視覚化領域で前記認識対象画像の画像認識結果情報をユーザに表示できるようにする。ここで、認識対象画像の画像認識結果情報は、画像ソース情報、人物服装情報、物品情報、シナリオ情報（風景や景勝地など）などを含むが、これらに限定されない。

認識対象画像を認識し、認識対象画像の画像認識結果情報を決定し、それをクライアントに返送して、クライアントが認識対象画像の画像認識結果情報をユーザに表示できるようにすることにより、ユーザが認識対象画像に関連する情報を取得して認識対象画像を認識できるという技術的効果を実現する。

Ｓ２０２、前記認識対象画像が背面画像であるか否かを判定し、前記認識対象画像が背面画像であると判定される場合、少なくとも１つの次元の観点から前記認識対象画像の特徴情報を決定する。

Ｓ２０３、少なくとも１つの次元の観点から前記特徴情報を画像ライブラリ内の各候補正面画像の特徴情報と対応させ、対応に成功した特徴情報と対応する候補正面画像をターゲット正面画像として決定する。

ここで、次元は、肌の色、体型、髪型、服装、およびシナリオのうちの少なくとも１つを含む。

例えば、認識対象画像の特徴情報が「肌の色：白色」、「体型：中等型」、「髪型：中長髪」、「服装：白いロングスカート」、および「シナリオ：海辺」を含み、候補正面画像Ａの特徴情報が「肌の色：白色」、「体型：中等型」、「髪型：中長髪」、「服装：白いロングスカート」、および「シナリオ：ビーチ」を含むと仮定すると、認識対象画像の特徴情報における「海辺」が候補正面画像Ａの特徴情報における「ビーチ」と異なるため、候補正面画像Ａは、認識対象画像のターゲット正面画像ではない。候補正面画像Ｂの特徴情報が「肌の色：白色」、「体型：中等型」、「髪型：中長髪」、「服装：白いロングスカート」、および「シナリオ：海辺」を含み、認識対象画像の特徴情報が候補正面画像Ｂの特徴情報と全く同じである場合、即ち、対応が成功する場合、候補正面画像Ｂを認識対象画像のターゲット正面画像として決定する。図２Ｂに示すように、図２Ｂは、ターゲット正面画像の概略図であり、ここで、２００は認識対象画像を表し、２０１は特徴情報との対応が失敗した候補正面画像Ａを表し、２０２は特徴情報との対応が成功した候補正面画像Ｂ、即ちターゲット正面画像を表す。

ステップＳ２０４、前記ターゲット正面画像を認識し、前記ターゲット正面画像の画像認識結果情報を取得し、前記ターゲット正面画像の画像認識結果情報および前記ターゲット正面画像を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像の画像認識結果情報および前記ターゲット正面画像を表示できるようにする。

具体的には、サーバは、ＳＩＦＴアルゴリズム、指紋関数アルゴリズム、またはハッシュ関数アルゴリズムなどの所定の特徴抽出アルゴリズムに基づいて、ターゲット正面画像の特徴抽出を実行し、ターゲット正面画像の画像特徴を取得し、ワンホットエンコードまたはラベルエンコードなどを含むエンコード方式により画像特徴をエンコードして、ターゲット正面画像の特徴コードを取得し、最終的に特徴コードに応じて画像ライブラリでグローバル類似度を計算し、必要なロバスト性に応じて閾値を設定し、類似度がこの閾値を超える画像を類似画像として決定し、類似画像の所定の関連情報をターゲット正面画像の画像認識結果情報として決定し、最終的にターゲット正面画像の画像認識結果情報およびターゲット正面画像をクライアントに返送して、クライアントが視覚化領域で前記ターゲット正面画像の画像認識結果情報および前記ターゲット正面画像をユーザに表示できるようにする。ここで、ターゲット正面画像の画像認識結果情報は、画像ソース情報、人物服装情報、物品情報、シナリオ情報（風景や景勝地など）などを含むが、これらに限定されない。

本願の実施例に係る技術的解決手段は、少なくとも１つの次元の観点から前記特徴情報を画像ライブラリ内の各候補正面画像の特徴情報と対応させ、対応に成功した特徴情報と対応する候補正面画像をターゲット正面画像として決定し、前記ターゲット正面画像を認識し、前記ターゲット正面画像の画像認識結果情報を決定し、前記ターゲット正面画像の画像認識結果情報および前記ターゲット正面画像を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像の画像認識結果情報および前記ターゲット正面画像を表示できるようにすることにより、正面画像を背面画像に基づいて表示する技術的効果を実現し、画像認識結果情報が認識対象画像の画像認識結果情報を含むだけでなく、認識対象画像と対応するターゲット正面画像の画像認識結果情報も含むようにし、画像認識結果の情報量を増加させ、画像認識結果から快適感をユーザに与え、ユーザエクスペリエンスを向上させる。

＜実施例３＞
図３Ａは、本願の実施例３に係る画像認識方法の概略フローチャートである。本実施例は、ユーザが、送信された背面画像と対応する正面画像を閲覧したい場合に適用可能である。この方法はクライアントに適用されており、本願の実施例に係るクライアントに設置された画像認識装置によって実行され得る。この装置は、ソフトウェアおよび／またはハードウェアによって実装され得る。図３Ａに示すように、この方法は、以下のステップを含み得る。

ステップＳ３０１、認識対象画像をサーバに送信して、サーバが前記認識対象画像に基づいて前記認識対象画像と対応するターゲット正面画像を決定できるようにする。

ここで、クライアントは、端末にインストールされたＡＰＰまたはアプレットを含むが、これらに限定されない。

具体的には、ユーザは、クライアントの認識対象画像アップロードページにアクセスし、このアップロードページを介して、端末に記憶された認識対象画像をサーバに送信する。ここで、端末は、スマートフォンやタブレットコンピュータなどのモバイル端末、およびパーソナルコンピュータやオールインワンコンピュータなどの固定端末を含む。図３Ｂは、認識対象画像アップロードページの概略図であり、ここで、３００はアップロードボタンを表す。ユーザがこのアップロードボタンをクリックすると、ユーザは、端末に記憶された認識対象画像のいずれか１つを認識対象画像として選択してサーバに送信して、サーバが前記認識対象画像に基づいて前記認識対象画像と対応するターゲット正面画像を決定できるようにする。

ステップＳ３０２、サーバから送信された前記ターゲット正面画像を取得し、視覚化領域に前記ターゲット正面画像を表示する。

ここで、クライアントには、画像情報、文字情報、ビデオ情報などの情報をユーザに表示できる視覚化領域が設置される。

具体的には、クライアントは、サーバから送信された前記ターゲット正面画像を取得し、このターゲット正面画像を視覚化領域にレンダリングして、ユーザが視覚化領域で認識対象画像と対応するターゲット正面画像を直接検索できるようにする。

本願の実施例に係る技術的解決手段は、認識対象画像をサーバに送信し、サーバから送信された認識対象画像と対応するターゲット正面画像を取得し、視覚化領域に前記ターゲット正面画像を表示する。それにより、正面画像を背面画像に基づいて認識する技術的効果を実現し、画像認識結果の情報量を増加させ、ユーザエクスペリエンスを向上させるという技術的効果を実現する。

＜実施例４＞
図４Ａは、本願の実施例４に係る画像認識方法の概略フローチャートである。本実施例は、上記の実施例３に係る具体的な実施形態である。図４Ａに示すように、この方法は、以下のステップを含み得る。

ステップＳ４０１、認識対象画像をサーバに送信し、サーバから送信された前記認識対象画像の画像認識結果情報を取得し、前記視覚化領域に前記認識対象画像の画像認識結果情報を表示する。

ステップＳ４０２、視覚化領域の切り替えボタンに対するユーザのタッチ操作が検出される場合、サーバから送信された前記ターゲット正面画像の画像認識結果情報および前記ターゲット正面画像を取得する。

具体的には、クライアントは、ユーザがクライアントを介して認識対象画像をサーバに送信すると、クライアント画面の視覚化領域にユーザがアップロードした認識対象画像を表示し、クライアントの視覚化領域に切り替えボタンを予め生成し、ユーザが切り替えボタンをクリックすると、要求をサーバに送信して、前記ターゲット正面画像の画像認識結果情報および前記ターゲット正面画像をクライアントに送信するようにサーバを制御する。

例えば、図４Ｂは、切り替えボタンの概略図であり、ここで、４００は認識対象画像を表し、４０１はガイド切り替えボタンを表す。

Ｓ４０３、前記視覚化領域に前記認識対象画像を動画切り替えの方式により切り替えて前記ターゲット正面画像として表示し、前記視覚化領域に前記ターゲット正面画像の画像認識結果情報を表示する。

具体的には、クライアントは、視覚化領域に、最初に表示された認識対象画像を動画切り替えの方式により切り替えてターゲット正面画像として表示する。ここで、動画切り替えの方式はスムーズフェード、カットアウト、ディゾルブ、水平ブラインドなどを含むが、これらに限定されない。ターゲット正面画像の周囲にターゲット正面画像の画像認識結果情報を表示する。

例えば、図４Ｃは、ターゲット正面画像を動画切り替えの方式により表示することを示す概略図であり、ここで、４００は認識対象画像を表し、４０２はターゲット正面画像を表す。

本願の実施例に係る技術的解決手段は、ユーザが切り替えバタンをタッチする場合、視覚化領域に認識対象画像を動画切り替えの方式により切り替えてターゲット正面画像として表示し、視覚化領域にターゲット正面画像の画像認識結果情報を表示することにより、画像認識結果の情報量および画像認識プロセスの楽しさを増加させ、快適感をユーザに与え、ユーザエクスペリエンスを向上させる。

＜実施例５＞
図５は、本願の実施例５に係る画像認識装置５０の概略構造図である。この装置は、サーバに設置されており、本願の実施例１および実施例２のいずれか１つに係る画像認識方法を実行することができ、この方法の実行に必要な機能モジュールおよび有益な効果を有する。図５に示すように、この装置は、
クライアントから送信された認識対象画像を取得し、前記認識対象画像が背面画像であるか否かを判定するために使用される認識対象画像取得モジュール５１と、
前記認識対象画像が背面画像であると判定される場合、少なくとも１つの次元の観点から前記認識対象画像の特徴情報を決定するために使用される特徴情報決定モジュール５２と、
前記特徴情報に基づいて、前記認識対象画像と対応するターゲット正面画像を決定し、前記ターゲット正面画像を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像を表示できるようにするために使用されるターゲット正面画像決定モジュール５３と、を含み得る。

上記実施例によれば、前記装置は、認識対象画像認識モジュールをさらに含む。この認識対象画像認識モジュールは、具体的には、
前記認識対象画像を認識し、前記認識対象画像の画像認識結果情報を取得し、前記認識対象画像の画像認識結果情報を前記クライアントに返送して、前記クライアントが前記認識対象画像の画像認識結果情報を表示できるようにするステップをさらに含む。上記実施例によれば、前記ターゲット正面画像決定モジュール５３は、具体的には、
少なくとも１つの次元の観点から前記特徴情報を画像ライブラリ内の各候補正面画像の特徴情報と対応させ、対応に成功した特徴情報と対応する候補正面画像をターゲット正面画像として決定するために使用される。ここで、次元は、肌の色、体型、髪型、服装、およびシナリオのうちの少なくとも１つを含む。上記実施例によれば、前記装置は、ターゲット正面画像認識モジュールをさらに含む。このターゲット正面画像認識モジュールは、具体的には、
前記ターゲット正面画像を認識し、前記ターゲット正面画像の画像認識結果情報を取得し、前記ターゲット正面画像の画像認識結果情報を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像の画像認識結果情報を表示できるようにするために使用される。

本願の実施例に係る画像認識装置５０は、本願の実施例１および実施例２のいずれか１つに係る画像認識方法を実行することができ、この方法の実行に必要な機能モジュールおよび有益な効果を有する。本実施例で詳細に説明されていない技術的詳細については、本願の実施例１および実施例２のいずれか１つに係る画像認識方法を参照されたい。

＜実施例６＞
図６は、本願の実施例６に係る画像認識装置６０の概略構造図である。この装置は、クライアントに設置されており、本願の実施例３および実施例４のいずれか１つに係る画像認識方法を実行することができ、この方法の実行に必要な機能モジュールおよび有益な効果を有する。図６に示すように、この装置は、
ユーザがアップロードした認識対象画像をサーバに送信して、サーバが前記認識対象画像と対応するターゲット正面画像を決定できるようにするために使用される認識対象画像送信モジュール６１と、
サーバから送信された前記ターゲット正面画像を取得し、視覚化領域に前記ターゲット正面画像を表示するために使用されるターゲット正面画像表示モジュール６２と、を含み得る。

上記実施例によれば、前記装置は、第一関連情報取得モジュールをさらに含む。この第一関連情報取得モジュールは、具体的には、
サーバから送信された前記認識対象画像の画像認識結果情報を取得し、前記視覚化領域に前記認識対象画像の画像認識結果情報を表示するために使用される。

上記実施例によれば、前記ターゲット正面画像表示モジュール６２は、具体的には、
視覚化領域におけるユーザの切り替えボタンのタッチ操作を検出する場合、サーバから送信された前記ターゲット正面画像を取得し、前記視覚化領域に前記認識対象画像を動画切り替えの形態により切り替えて前記ターゲット正面画像として表示するために使用される。

上記実施例によれば、前記装置は、第二関連情報取得モジュールをさらに含む。この第二関連情報取得モジュールは、具体的には、
サーバから送信された前記ターゲット正面画像の画像認識結果情報を取得し、前記視覚化領域に前記ターゲット正面画像の画像認識結果情報を表示するために使用される。

本願の実施例に係る画像認識装置６０は、本願の実施例３および実施例４のいずれか１つに係る画像認識方法を実行することができ、この方法の実行に必要な機能モジュールおよび有益な効果を有する。本実施例で詳細に説明されていない技術的詳細については、本願の実施例３および実施例４のいずれか１つに係る画像認識方法を参照されたい。

本願の実施例によれば、本願は、電子デバイスおよび可読記憶媒体をさらに提供する。

図７に示すように、それは、本願の実施例に係る画像認識方法を実施するための電子デバイスのブロック図である。電子デバイスは、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、およびその他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図する。電子デバイスは、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル電子デバイス、およびその他の同様のコンピューティングデバイスなど、様々な形態のモバイルデバイスを示すこともできる。本明細書に示されるコンポーネント、それらの接続と関係、およびそれらの機能は単なる例示であり、本明細書に説明および／または請求される本願の実施形態を限定することを意図したものではない。

図７に示すように、この電子デバイスは、１つまたは複数のプロセッサ７０１と、メモリ７０２と、高速インターフェースおよび低速インターフェースを含む、様々なコンポーネントを接続するためのインターフェースとを含む。様々なコンポーネントは、異なるバスを介して互いに接続されており、パブリックマザーボードに取り付けられ得るか、または必要に応じて他の方法で取り付けられ得る。プロセッサは、ＧＵＩのグラフィック情報が外部入力／出力装置（例えば、インターフェースに結合された表示電子デバイス）に表示されるようにメモリ内またはメモリ上に記憶される命令を含む、電子デバイスで実行された命令を処理することができる。他の実施形態では、複数のプロセッサおよび／または複数本のバスは、必要に応じて、複数のメモリと共に使用され得る。同様に、それは、（例えば、サーバアレイ、ブレードサーバ群、またはマルチプロセッサシステムとして）いくつかの必要な操作を提供する複数の電子デバイスに接続され得る。図７には、プロセッサ７０１が例として挙げられる。

メモリ７０２は、本願に係る非一時的コンピュータ可読記憶媒体である。ここで、前記メモリには、前記少なくとも１つのプロセッサが本願に係る画像認識方法を実行できるように、少なくとも１つのプロセッサによって実行され得る命令が記憶されている。本願の非一時的コンピュータ可読記憶媒体には、本願に係る画像認識方法をコンピュータに実行させるために使用されるコンピュータ命令が記憶されている。

非一時的コンピュータ可読記憶媒体として、メモリ７０２は、非一時的ソフトウェアプログラムと、非一時的コンピュータ実行可能プログラムと、本願の実施例に係る画像認識方法と対応するプログラム命令／モジュール（例えば、図５に示す認識対象画像取得モジュール５１、特徴情報決定モジュール５２、およびターゲット正面画像決定モジュール５３、また例えば、図６に示す認識対象画像送信モジュール６１、およびターゲット正面画像表示モジュール６２）などのモジュールと、を記憶するために使用され得る。プロセッサ７０１は、メモリ７０２に記憶された非一時的ソフトウェアプログラム、命令、およびモジュールを実行することにより、サーバの様々な機能アプリケーションおよびデータ処理を実行する、即ち、上記方法実施例における画像認識方法を実施する。

メモリ７０２は、オペレーティングシステムおよび少なくとも１つの機能に必要なアプリケーションプログラムが記憶され得るプログラム記憶領域と、画像を認識するための電子デバイスによって作成されたデータなどが記憶され得るデータ記憶領域とを含み得る。さらに、メモリ７０２は、高速ランダムアクセスメモリを含み得、また、少なくとも１つの磁気ディスクメモリ、フラッシュメモリ、または他の非一時的ソリッドステートメモリなどの非一時的メモリを含み得る。いくつかの実施例では、メモリ７０２は、任意選択で、プロセッサ７０１に対して遠隔的に設定されたメモリを含み得、これらの遠隔メモリは、ネットワークを介して、画像を認識するための電子デバイスに接続され得る。上記ネットワークの例には、インターネット、企業イントラネット、ブロックチェーンネットワーク、ローカルエリアネットワーク、モバイル通信ネットワーク、およびそれらの組み合わせが含まれるが、これらに限定されない。

画像認識方法を実施するための電子デバイスは、入力装置７０３および出力装置７０４をさらに含み得る。プロセッサ７０１、メモリ７０２、入力装置７０３、および出力装置７０４は、バスまたは他の手段を介して接続され得るが、図７にはバスによる接続が例として挙げられる。

入力装置７０３は、入力された数字または文字情報を受信し、画像を認識するための電子デバイスのユーザ設定および機能制御に関連するキー信号入力を生成することができるもの、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、ポインティングスティック、１つまたは複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置７０４は、表示装置、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含み得る。この表示装置は、液晶ディスプレイ（ＬＤＣ）、発光ダイオード（ＬＥＤ）ディスプレイ、およびプラズマディスプレイを含み得るが、これらに限定されない。いくつかの実施形態では、表示電子デバイスは、タッチスクリーンであり得る。

本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実装され得る。これらの様々な実施形態は、記憶システム、少なくとも１つの入力装置、および少なくとも１つの出力装置からデータおよび命令を受信したり、この記憶システム、この少なくとも１つの入力装置、およびこの少なくとも１つの出力装置にデータおよび命令を送信したりすることができる専用又は汎用のプログラマブルプロセッサであり得る少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行および／または解釈され得る１つまたは複数のコンピュータプログラムに実装されることを含み得る。

これらの計算プログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高水準手続き型またはオブジェクト指向型のプログラミング言語、および／またはアセンブリ／機械言語で実装され得る。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号としての機械命令を受信する機械可読媒体を含む、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意のコンピュータプログラム製品、電子デバイス、および／または装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとの対話を提供するために、本明細書に記載のシステムおよび技術は、情報をユーザに表示するための表示装置（例えば、ＣＲＴ（陰極線管）またはＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザが入力をコンピュータに提供することを可能にするキーボードとポインティングデバイス（例えば、マウスまたはトラックボール）とを備えたコンピュータに実装され得る。他のタイプの装置は、ユーザとの対話を提供するためにも使用されており、例えば、任意の形態の感覚フィードバック（例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバック）をユーザに提供したり、任意の形態（音響入力、音声入力、触覚入力を含む形態）を利用してユーザからの入力を受信したりするために使用され得る。

本明細書に記載のシステムおよび技術は、バックエンドコンポーネント（例えば、データサーバ）を含むコンピュータシステム、またはミドルウェアコンポーネント（例えば、アプリケーションサーバ）を含むコンピュータシステム、またはフロントエンドコンポーネント（例えば、ユーザが本明細書に記載のシステムおよび技術の実施形態と対話することを可能にするグラフィカルユーザインターフェースまたはウェブブラウザを備えたユーザコンピュータ）を含むコンピュータシステム、または、このバックエンドコンポーネント、ミドルウェアコンポーネントまたはフロントエンドコンポーネントの任意の組み合わせを含むコンピュータシステムに実装され得る。システムのコンポーネントは、デジタルデータ通信の任意の形態または媒体（例えば、通信ネットワーク）を介して互いに接続され得る。通信ネットワークの例には、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、ブロックチェーンネットワーク、およびインターネットが含まれる。

コンピュータシステムは、クライアントおよびサーバを含み得る。クライアントおよびサーバは通常、互いに遠く離れており、通信ネットワークを介して対話する。クライアントとサーバとの関係は、対応するコンピュータで実行され、クライアント−サーバの関係を有するコンピュータプログラムによって生成される。

ステップの並べ替え、追加、または削除は、上記の様々な形態のプロセスによって実行され得ることを理解されたい。例えば、本願に記載の各ステップは、本願に開示された技術的解決手段の所望の結果が達成できる限り、並行して、順次、または異なる順序で実行され得るが、本明細書に限定されない。

上記の具体的な実施形態は、本願の保護範囲を限定するものではない。設計要件および他の要因に応じて、様々な修正、組み合わせ、副次的組み合わせおよび置換を行うことができることは、当業者にとって明らかであろう。本願の精神と原則の範囲内で行われた修正、同等置換、改良などは、本願の保護範囲に含まれるべきである。

Claims

サーバに適用されており、
クライアントから送信された認識対象画像を取得し、前記認識対象画像が背面画像であるか否かを判定するステップと、
前記認識対象画像が背面画像であると判定される場合、少なくとも１つの次元の観点から前記認識対象画像の特徴情報を決定するステップと、
前記特徴情報に基づいて、前記認識対象画像と対応するターゲット正面画像を決定し、前記ターゲット正面画像を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像を表示できるようにするステップと、を含むことを特徴とする、画像認識方法。
前記認識対象画像を認識し、前記認識対象画像の画像認識結果情報を取得し、前記認識対象画像の画像認識結果情報を前記クライアントに返送して、前記クライアントが前記認識対象画像の画像認識結果情報を表示できるようにするステップをさらに含むことを特徴とする、請求項１に記載の方法。
前記特徴情報に基づいて、前記認識対象画像と対応するターゲット正面画像を決定するステップは、
少なくとも１つの次元の観点から前記特徴情報を画像ライブラリ内の各候補正面画像の特徴情報と対応させ、対応に成功した特徴情報と対応する候補正面画像をターゲット正面画像として決定するステップを含むことを特徴とする、請求項１に記載の方法。
前記次元は、肌の色、体型、髪型、服装、およびシナリオのうちの少なくとも１つを含むことを特徴とする、請求項３に記載の方法。
前記認識対象画像と対応するターゲット正面画像を決定した後、
前記ターゲット正面画像を認識し、前記ターゲット正面画像の画像認識結果情報を取得し、前記ターゲット正面画像の画像認識結果情報を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像の画像認識結果情報を表示できるようにするステップをさらに含むことを特徴とする、請求項１に記載の方法。
クライアントに適用されており、
認識対象画像をサーバに送信して、サーバが前記認識対象画像に基づいて前記認識対象画像と対応するターゲット正面画像を決定できるようにするステップと、
サーバから送信された前記ターゲット正面画像を取得し、視覚化領域に前記ターゲット正面画像を表示するステップと、を含むことを特徴とする、画像認識方法。
サーバから送信された前記ターゲット正面画像を取得する前に、
サーバから送信された前記認識対象画像の画像認識結果情報を取得し、前記視覚化領域に前記認識対象画像の画像認識結果情報を表示するステップをさらに含むことを特徴とする、請求項６に記載の方法。
サーバから送信された前記ターゲット正面画像を取得し、視覚化領域に前記ターゲット正面画像を表示するステップは、
視覚化領域の切り替えボタンに対するユーザのタッチ操作が検出される場合、サーバから送信された前記ターゲット正面画像を取得し、前記視覚化領域に前記認識対象画像を動画切り替えの方式により切り替えて前記ターゲット正面画像として表示するステップを含むことを特徴とする、請求項６に記載の方法。
サーバから送信された前記ターゲット正面画像の画像認識結果情報を取得し、前記視覚化領域に前記ターゲット正面画像の画像認識結果情報を表示するステップをさらに含むことを特徴とする、請求項６に記載の方法。
サーバに設置されており、
クライアントから送信された認識対象画像を取得し、前記認識対象画像が背面画像であるか否かを判定するために使用される認識対象画像取得モジュールと、
前記認識対象画像が背面画像であると判定される場合、少なくとも１つの次元の観点から前記認識対象画像の特徴情報を決定するために使用される特徴情報決定モジュールと、
前記特徴情報に基づいて、前記認識対象画像と対応するターゲット正面画像を決定し、前記ターゲット正面画像を前記クライアントに返送して、前記クライアントが前記ターゲット正面画像を表示できるようにするために使用されるターゲット正面画像決定モジュールと、を含むことを特徴とする、画像認識装置。
クライアントに設置されており、
ユーザがアップロードした認識対象画像をサーバに送信して、サーバが前記認識対象画像と対応するターゲット正面画像を決定できるようにするために使用される認識対象画像送信モジュールと、
サーバから送信された前記ターゲット正面画像を取得し、視覚化領域に前記ターゲット正面画像を表示するために使用されるターゲット正面画像表示モジュールと、を含むことを特徴とする、画像認識装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信可能に接続されたメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサが請求項１〜５のいずれか一項に記載の画像認識方法および／または請求項６〜９のいずれか一項に記載の画像認識方法を実行できるように前記少なくとも１つのプロセッサによって実行される、前記少なくとも１つのプロセッサによって実行可能な命令が記憶されていることを特徴とする、電子デバイス。
コンピュータ命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令が請求項１〜５のいずれか一項に記載の画像認識方法および／または請求項６〜９のいずれか一項に記載の画像認識方法を前記コンピュータに実行させるために使用されることを特徴とする、非一時的コンピュータ可読記憶媒体。
プロセッサによって実行されると、請求項１〜５のいずれか一項に記載の画像認識方法および／または請求項６〜９のいずれか一項に記載の画像認識方法を実施する、コンピュータプログラム。