JP2023510443A - ラベリング方法及び装置、電子機器並びに記憶媒体 - Google Patents

ラベリング方法及び装置、電子機器並びに記憶媒体 Download PDF

Info

Publication number
JP2023510443A
JP2023510443A JP2022520125A JP2022520125A JP2023510443A JP 2023510443 A JP2023510443 A JP 2023510443A JP 2022520125 A JP2022520125 A JP 2022520125A JP 2022520125 A JP2022520125 A JP 2022520125A JP 2023510443 A JP2023510443 A JP 2023510443A
Authority
JP
Japan
Prior art keywords
labeling
target image
user
line segment
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2022520125A
Other languages
English (en)
Inventor
ツーフン ルオ
フアピン チョン
コンフエイ フア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2023510443A publication Critical patent/JP2023510443A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

Figure 2023510443000001
本開示は、ラベリング方法及び装置、電子機器並びに記憶媒体に関する。前記方法は、対象画像に対する第1ラベリング操作であって、前記対象画像において第1画像領域を示す第1描画図形を描画するための前記第1ラベリング操作を受け付けることと、前記対象画像における第2描画図形と前記第1描画図形とが少なくとも一部重複する場合に、前記第1描画図形を調整して前記第1ラベリング操作に対応するラベリング結果を得ることと、を含む。
【選択図】図1

Description

本開示は、コンピュータ技術分野に関し、特に、ラベリング方法及び装置、電子機器並びに記憶媒体に関する。
人工知能分野において、ニューラルネットワークをトレーニングすることにより画像に含まれる情報を自動的に認識し理解することができる。ニューラルネットワークのトレーニングの過程で、ラベリング済みの画像によりトレーニングを行う場合が多い。
画像に対するラベリングの過程で、画像上において図形を描画することによりラベリング領域を決定する場合が多い。
本開示は、ラベリングの技術的手段を提供する。
本開示の一方面によれば、
対象画像に対する第1ラベリング操作であって、前記対象画像において第1画像領域を示す第1描画図形を描画するための前記第1ラベリング操作を受け付けることと、
前記対象画像における第2描画図形と前記第1描画図形とが少なくとも一部重複する場合に、前記第1描画図形を調整して前記第1ラベリング操作に対応するラベリング結果を得ることと、
を含むラベリング方法を提供する。
可能な一実現形態では、前記方法は、前記第1描画図形を調整する前に、更に、
前記対象画像における少なくとも1つの先描画図形のうち、前記第1描画図形と重複する部分がある描画図形が存在するか否かを検出することを含む。
可能な一実現形態では、前記方法は、前記第1描画図形を調整する前に、更に、
前記第1描画図形を調整するように指示するための第1ユーザ指令を受け付けることを含む。
可能な一実現形態では、前記した、前記第1描画図形を調整して前記第1ラベリング操作に対応するラベリング結果を得ることは、
前記第1描画図形において前記第2描画図形と重複する部分を除去した描画図形を、前記第1ラベリング操作に対応するラベリング結果とすることを含む。
可能な一実現形態では、前記した、前記第1描画図形を調整して前記第1ラベリング操作に対応するラベリング結果を得ることは、
前記第1描画図形と前記第2描画図形が枠図形である場合に、前記第1描画図形と前記第2描画図形の位置に基づいて、前記第2描画図形の前記第1描画図形内に位置する第1線分要素及び前記第1描画図形の前記第2描画図形外に位置する第2線分要素を決定することと、
前記第1線分要素と前記第2線分要素から構成される描画図形を前記第1ラベリング操作に対応するラベリング結果とすることと、を含む。
可能な一実現形態では、前記方法は、対象画像に対する第1ラベリング操作を受け付けた後に、更に、
前記対象画像及び前記対象画像における前記第1描画図形を含む複数の描画図形を表示画面に表示することと、
前記複数の描画図形から前記第1描画図形を選択するための第2ユーザ指令を受け付けることと、
前記表示画面における前記第2ユーザ指令によって指示される位置及び前記表示画面における前記複数の描画図形の位置に基づいて、選択される前記第1描画図形を決定することと、を含む。
可能な一実現形態では、前記対象画像は、ウェブページ画面に表示される。
可能な一実現形態では、前記第1ラベリング操作は、前記対象画像に対してセマンティックセグメンテーション・ラベリングを行うためのものである。
本開示の一方面によれば、
対象画像に対する第1ラベリング操作であって、前記対象画像において第1画像領域を示す第1描画図形を描画するための前記第1ラベリング操作を受け付ける受付モジュールと、
前記対象画像における第2描画図形と前記第1描画図形とが少なくとも一部重複する場合に、前記第1描画図形を調整して前記第1ラベリング操作に対応するラベリング結果を得る調整モジュールと、を備えるラベリング装置を提供する。
可能な一実現形態では、前記装置は、前記対象画像における少なくとも1つの先描画図形のうち、前記第1描画図形と重複する部分がある描画図形が存在するか否かを検出する検出モジュールを更に備える。
可能な一実現形態では、前記装置は、前記第1描画図形を調整するように指示するための第1ユーザ指令を受け付ける第1ユーザ指令受付モジュールを更に備える。
可能な一実現形態では、前記調整モジュールは、前記第1描画図形において前記第2描画図形と重複する部分を除去した描画図形を、前記第1ラベリング操作に対応するラベリング結果とする。
可能な一実現形態では、前記調整モジュールは、前記第1描画図形と前記第2描画図形が枠図形である場合に、前記第1描画図形と前記第2描画図形の位置に基づいて、前記第2描画図形の前記第1描画図形内に位置する第1線分要素及び前記第1描画図形の前記第2描画図形外に位置する第2線分要素を決定するとともに、前記第1線分要素と前記第2線分要素から構成される描画図形を前記第1ラベリング操作に対応するラベリング結果とする。
可能な一実現形態では、前記装置は、
前記対象画像及び前記対象画像における前記第1描画図形を含む複数の描画図形を表示画面に表示する表示モジュールと、
前記複数の描画図形から前記第1描画図形を選択するための第2ユーザ指令を受け付ける第2ユーザ指令受付モジュールと、
前記表示画面における前記第2ユーザ指令によって指示される位置及び前記表示画面における前記複数の描画図形の位置に基づいて、選択される前記第1描画図形を決定する決定モジュールと、を更に備える。
可能な一実現形態では、前記対象画像は、ウェブページ画面に表示される。
可能な一実現形態では、前記第1ラベリング操作は、前記対象画像に対してセマンティックセグメンテーション・ラベリングを行うためのものである。
本開示の一方面によれば、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリに記憶されている命令を呼び出して上記方法を実行するように構成される電子機器を提供する。
本開示の一方面によれば、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体だって、前記コンピュータプログラム命令はプロセッサによって実行されると上記方法を実現するコンピュータ読み取り可能な記憶媒体を提供する。
本開示の一方面によれば、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードが電子機器において実行されると、前記電子機器におけるプロセッサが上記方法を実行するコンピュータプログラムを提供する。
本開示の実施例では、対象画像に対するラベリングの過程で、ユーザによる対象画像に対する第1ラベリング操作で描画した第1描画図形について、対象画像における第2描画図形と第1描画図形とが少なくとも一部重複する場合に、第1描画図形を自動的に調整して第1ラベリング操作に対応するラベリング結果を得ることができる。人手による第1描画図形の調整と比較して、対象画像に対するラベリングの効率が向上し、ラベリングにかかる時間が節約される。特に、第2描画図形の外部輪郭が比較的複雑である場合について、ユーザが同じ輪郭部分を別途手動調整する必要がなく、ユーザが一部のラベリングを繰り返すことによる資源消費が減少される。
なお、以上の概略的な説明及び次の詳細な説明は、例示的及び解釈的なものに過ぎず、本開示を限定するものではない。以下、図面を参考しながら例示的な実施例を詳細に説明することによって、本開示の他の特徴及び方面は明確になる。
ここで、本明細書の一部として組み込まれる図面は、本開示の実施例に適し、明細書と共に本開示の技術的解決手段の説明に用いられる。
本開示の実施例に係るラベリング方法のフローチャートを示す。 本開示の実施例に係る描画図形の模式図を示す。 本開示の実施例に係るラベリング結果の模式図を示す。 本開示の実施例に係る描画図形の模式図を示す。 本開示の実施例に係るラベリング結果の模式図を示す。 本開示の実施例に係るラベリング方法のフローチャートを示す。 本開示の実施例に係るラベリング装置のブロック図を示す。 本開示の実施例に係る電子機器のブロック図を示す。 本開示の実施例に係る電子機器のブロック図を示す。
以下に、図面を参照しながら本開示の様々な例示的な実施例、特徴および方面を詳細に説明する。図面における同じ符号は同じまたは類似する機能の要素を示す。図面において実施例の様々な方面を示したが、特に断らない限り、比例に基づいて図面を描く必要がない。
ここでの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は他の実施例より好ましいまたは優れるものであると理解すべきではない。
本明細書における用語「及び/又は」は、単に関連対象との関連関係を記述するものであり、3つの関係が存在可能であることを示し、例えば、A及び/又はBは、Aのみが存在し、AとBの両方が存在し、Bのみが存在するという3つの場合を示してもよい。また、本明細書における用語「少なくとも1つ」は複数のうちのいずれか1つ、又は複数のうちの少なくとも2つの任意の組み合わせを示し、例えば、A、B、Cのうちの少なくとも1つを含むことは、A、B及びCからなる集合から選択されるいずれか1つ又は複数の要素を含むことを示してもよい選択される。
また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者が熟知している方法、手段、要素および回路について詳細な説明を行わない。
図1は、本開示の実施例に係るラベリング方法のフローチャートを示す。図1に示すように、前記ラベリング方法は、ステップS11とステップS12とを含む。
ステップS11において、対象画像に対する第1ラベリング操作であって、前記対象画像において第1画像領域を示す第1描画図形を描画するための前記第1ラベリング操作を受け付ける。
対象画像は、ラベリングすべき画像であってよく、該画像は任意の形式の画像であってよく、本開示の実施例ではこれについて限定しない。対象画像は、機械学習を行うためのサンプル画像であってよく、サンプル画像は、ラベリング後に機械学習の教師あり学習に利用可能である。
ラベリング者などのユーザは、第1ラベリング操作により対象画像の第1画像領域をラベリングすることができる。いくつかの実施例では、ユーザは、図形を描画することにより、ラベリングすべき第1画像領域を決定することができる。ユーザによって描画される図形は、多角形であってよく、円形であってもよく、描画される図形は、規則又は不規則なものであってよいが、本開示の実施例ではこれについて限定しない。ユーザは、第1画像領域にラベリング情報を付加することにより、決定された第1画像領域における画像情報にセマンティック意味を与えることができる。
例えば、人が芝地の上に立つ対象画像の内容である場合、ユーザが芝地をラベリングする過程で、芝地が位置する画像領域の形状に合致する描画図形を描画した後に、描画した該描画図形に「芝地」というラベリング情報を付加して、選定された画像領域に「芝地」のセマンティックを与えることができる。
ステップS12において、前記対象画像における第2描画図形と前記第1描画図形とが少なくとも一部重複する場合に、前記第1描画図形を調整して前記第1ラベリング操作に対応するラベリング結果を得る。
第2描画図形は、ユーザによって描画される図形であってもよいし、他の方法により得られる図形であってもよい。例えば、ニューラルネットワークにより対象画像に対して画像認識を行って描画される図形であってもよい。
可能な一実施形態では、第2描画図形は、ユーザによって指定される描画図形であってよい。すなわち、第1描画図形とユーザによって指定される第2描画図形とが少なくとも一部重複する場合に、第1描画図形を自動的に調整する。ユーザは、対象画像における描画図形に対して選定操作を行うことにより第2描画図形を指定してもよいし、描画図形のマークなどの情報を選定することにより第2描画図形を指定してもよい。第2描画図形を指定する具体的な実現形態について、本開示の実施例では限定しない。
可能な一実施形態では、第2描画図形は、対象画像に含まれる描画図形のうち1枚又は複数枚であってもよい。例えば、第2描画図形は、対象画像に含まれる描画図形のうち、少なくとも一部が第1描画図形と重複する描画図形であってよい。このように、対象画像に少なくとも一部が第1描画図形と重複する描画図形が存在する場合に、第1描画図形を自動的に調整するので、ユーザによる指定の必要がなく、ユーザの使用の利便性が向上する。
第1描画図形と第2描画図形とが少なくとも一部重複する場合は、第2描画図形と第1描画図形とで示される画像領域のうち少なくとも一部の領域が同じである場合であってよい。例えば、図2を参照すると、対象画像の画面内容は、人が芝地の上に立つことであり、下方の多角形(第1描画図形)で示される領域が芝地領域であり、最左側の多角形(第2描画図形)で示される領域が人物像であり、人物像の脚部が芝地の一部を遮蔽し、人物像の脚部以外の部分が芝地を遮蔽していない。第1描画図形には、芝地が位置する画像領域が含まれるとともに、芝地の一部を遮蔽する脚部が位置する画像領域も含まれ、第2描画図形には、人物像が位置する画像領域が含まれる。第1描画図形と第2描画図形とは少なくとも一部が重複することが明らかである。
第1描画図形と第2描画図形とが少なくとも一部重複する場合に、第1描画図形を自動的に調整してよい。具体的な調整方法は複数あるようにしてよい。例えば、重複部分を第1描画図形から除去し、重複部分が除去された第1描画図形を得るようにしてもよいし、第1描画図形において重複部分を減少しもよい。例えば、図3を参照すると、第1描画図形において重複部分が除去して得られた調整後の第1描画図形は、図3に示すように第2描画図形における芝地を遮蔽する脚部が含まれなくなった。
第1描画図形の調整終了後に、調整後の第1描画図形でラベリングされた画像領域を第1ラベリング操作でラベリングされた画像領域として、前記第1ラベリング操作に対応するラベリング結果を得るようにしてよい。ラベリング後の対象画像は、機械学習の教師あり学習に利用可能である。本開示の実施例では、第1描画図形において重複部分を除去又は減少することにより、第1描画図形において外乱情報が除去又は減少されるので、機械学習により得られたニューラルネットワークの精度を向上させることができる。
本開示の実施例では、対象画像に対するラベリングの過程で、ユーザによる対象画像に対する第1ラベリング操作で描画した第1描画図形について、対象画像における第2描画図形と第1描画図形とが少なくとも一部重複する場合に、第1描画図形を自動的に調整して第1ラベリング操作に対応するラベリング結果を得ることができる。人手による第1描画図形の調整と比較して、対象画像に対するラベリングの効率が向上し、ラベリングにかかる時間が節約される。
本開示で提供されるマーキング方法は複数あるようにしてもよい。可能な一実施形態では、前記方法は、前記第1描画図形を調整する前に、更に、前記対象画像における少なくとも1つの先描画図形のうち、前記第1描画図形と重複する部分がある描画図形が存在するか否かを検出することを含む。
先描画図形は、第1描画図形より先に描画された図形であってよい。該先描画図形は、ユーザによって描画される図形であってもよいし、他の方法により得られる図形、例えばニューラルネットワークにより対象画像に対して画像認識を行って描画される図形であってもよい。ここで、先描画図形がユーザによって描画される図形である場合を例とし、ユーザが先描画図形を描画してから第1描画図形を描画すると、該先描画図形に第1描画図形と重複する部分があるか否かを検出することができる。
いくつかの実施例では、本実現形態における検出ステップは、第1描画図形の描画が終了したと確認された場合に行ってよい。つまり、第1描画図形の描画終了後に、ユーザ指令を受け付ける必要がなく、ユーザによる他の操作を行う必要もなく、この検出ステップの実行をトリガーするようにしてよい。このように、ユーザの操作が少なく、利便性が高い。
本実現形態では、具体的な検出過程は複数あるようにしてよい。例えば、少なくとも1つの先描画図形と第1描画図形の対象画像における位置座標に基づいて、対象画像における少なくとも1つの先描画図形のうち、第1描画図形と重複する部分がある描画図形が存在するか否かを検出してよい。
本開示の実施例で描画された図形は、枠図形であってもよく、充填図形であってもよい。ここで、枠図形は、枠のラインのみを含む図形であってよく、充填図形は、枠と枠内に充填された内容とを含む図形であってよい。
先描画図形と第1描画図形がいずれも枠図形である場合に、先描画図形の座標と第1描画図形の座標に基づいて、第1描画図形の枠内に先描画図形の少なくとも一部の枠が存在するか否かを判定し、第1描画図形の枠内に先描画図形の少なくとも一部の枠が存在すると決定した場合に、先描画図形のうち第1描画図形と重複する部分がある描画図形が存在すると決定してよい。また、第1描画図形の枠内に先描画図形を構成するドットセットのうち少なくとも一部があるか否かを判定し、第1描画図形の枠内に先描画図形を構成するドットセットのうち少なくとも一部があると決定した場合に、先描画図形のうち第1描画図形と重複する部分がある描画図形が存在すると決定してもよい。
先描画図形と第1描画図形がいずれも充填図形である場合に、先描画図形と第1描画図形に座標が同じ画素点があるか否かを判定して、先描画図形と第1描画図形に座標が同じ画素点があると決定した場合に、先描画図形のうち第1描画図形と重複する部分がある描画図形が存在すると決定してよい。
可能な一実現形態では、前記方法は、前記第1描画図形を調整する前に、更に、前記第1描画図形を調整するように指示するための第1ユーザ指令を受け付けることを含む。
ユーザが第1ユーザ指令を発することによって、第1描画図形を調整するように端末機器又はサーバに指示する。例えば、ユーザが端末機器のアプリケーションプログラムにおける特定のコントロールを操作することによって、該第1ユーザ指令を発してよい。例えば、第1描画図形の描画終了後に、ユーザがアプリケーションプログラム操作画面における特定のコントロールに対して指定操作を実行することによって、第1ユーザ指令を発してよい。このコントロールは、タッチボタンの形として画面に表示されるものであってよく、この指定操作は、クリック操作又は他の操作であってよい。指定操作が検出されると、アプリケーションプログラムがトリガーされて第1描画図形を自動的に調整することになる。いくつかの実施例では、ユーザがネットワーク接続により(例えば特定のURLリンクを介してサーバに接続されることにより)第1ユーザ指令を発してもよく、他の方法により第1ユーザ指令を発してもよく、本開示ではこれについて限定しない。
いくつかの実施例では、第1ユーザ指令を受け付けた後に、対象画像における少なくとも1つの先描画図形のうち、第1描画図形と重複する部分がある描画図形が存在するか否かを検出し、対象画像に第1描画図形と重複する部分がある描画図形が存在すると検出した場合に、第1描画図形を自動的に調整してよい。
あるいは、いくつかの実施例では、対象画像における少なくとも1つの先描画図形のうち、第1描画図形と重複する部分がある描画図形が存在するか否かを先に検出し、対象画像に第1描画図形と重複する部分がある描画図形が存在すると検出した場合に、端末機器のユーザインターフェイスにおいてユーザへの提示を発し、第1描画図形と重複する第2描画図形が存在することをユーザに提示し、ユーザにより第1描画図形を自動的に調整するか否かを選択してもよい。このとき、ユーザが、第1描画図形を自動的に調整するように指示するための第1ユーザ指令を発することができる。
対象画像に第1描画図形と重複する部分がある描画図形が存在すると検出した場合に、重複部分がある第1描画図形及び第2描画図形について、ユーザの観察の便宜上、他の描画図形とは異なる表示形態で表示してよい。例えば、重複部分がある第1描画図形及び第2描画図形を赤い枠で表示し、他の描画図形をグレー枠で表示してよい。
可能な一実施形態では、前記した、前記第1描画図形を調整して前記第1ラベリング操作に対応するラベリング結果を得ることは、前記第1描画図形において前記第2描画図形と重複する部分を除去した描画図形を、前記第1ラベリング操作に対応するラベリング結果とすることを含む。
本開示の実施例では、第1描画図形と第2描画図形との重複部分で示される画像領域のセマンティックは、第2描画図形で示される画像領域のセマンティックと同じであるが、第1画像領域のうち重複部分以外の画像領域のセマンティックと異なるようにしてもよい。この場合には、第1描画図形において第2描画図形と重複する部分を第1描画図形から除去した描画図形を、第1ラベリング操作に対応するラベリング結果としてよい。このようにして得られたラベリング結果として、第1画像領域において第2画像領域とセマンティックが同じ画像領域が除去されたので、得られた第1描画図形で示される第1画像領域のセマンティックがより正確となり、機械学習により得られたニューラルネットワークの精度を向上させることができる。また、ユーザが第1描画図形を手動調整する必要がなく、ユーザ操作が少なく、利便性が高く、対象画像に対するラベリングの効率が向上し、ラベリングにかかる時間が節約される。
可能な一実施形態では、前記した、前記第1描画図形を調整して前記第1ラベリング操作に対応するラベリング結果を得ることは、前記第1描画図形と前記第2描画図形が枠図形である場合に、前記第1描画図形と前記第2描画図形の位置に基づいて、前記第2描画図形の前記第1描画図形内に位置する第1線分要素及び前記第1描画図形の前記第2描画図形外に位置する第2線分要素を決定することと、前記第1線分要素と前記第2線分要素から構成される描画図形を前記第1ラベリング操作に対応するラベリング結果とすることと、を含む。
描画図形の位置は、描画図形を構成する線分要素の座標で表わされてもよいし、描画図形を構成する点の座標で表わされてもよい。
いくつかの実施例では、描画図形は多角形であってよい。多角形は、線分要素から構成される図形と見なしてよい。線分要素の位置は、線分の端点の座標で表してよい。例えば、線分要素は、(x,y,x,y)で表わされてよく、(x,y)及び(x,y)はそれぞれ線分要素の2つの頂点の座標を表す。すると、描画図形を構成する複数の線分要素の座標は、描画図形の位置を表すことができる。
いくつかの実施例では、描画図形の枠は一連のドットセットから構成される。例えば、描画図形を、画素点から構成される集合と見なしてよく、描画図形を構成する画素点の座標は描画図形の位置を表すことができる。
ユーザによる図形描画の過程で、描画中に図形を描画するための描画ツールの対象画像における座標を検出すれば、描画図形を構成する画素点の座標及び/又は線分要素の端点の座標が得られる。ここでの描画ツールは、ドローイングペン、ドローイングブラシなどのツールであってよい。描画ツールの対象画像における座標は、マウスを移動させることで変更してもよいし、表示スクリーン/タッチパネルなどに対するタッチなどにより変更してもよい。
第2描画図形及び第1描画図形の画素点の座標に基づいて、第2描画図形の第1描画図形内に位置する第1線分要素及び第1描画図形の第2描画図形外に位置する第2線分要素を決定してよい。また、第2描画図形及び第1描画図形の線分要素の端点の座標に基づいて、第2描画図形の第1描画図形内に位置する第1線分要素及び第1描画図形の第2描画図形外に位置する第2線分要素を決定してもよい。
具体的には、第1描画図形を構成する第1画素点の座標範囲は、(xmin~xmax,ymin~ymax)と記してよい。第2描画図形のある画素点の座標のx値とy値がこの座標範囲内である場合、この画素点は第1描画図形内にあると判断でき、そうでない場合、この画素点は第1描画図形外にあると判断できる。これによって、第2描画図形の第1描画図形内に位置する第1線分要素及び第1描画図形の第2描画図形外に位置する第2線分要素を決定することができる。
あるいは、第2描画図形の線分要素の端点の座標のx値とy値のいずれも上記の座標範囲内である場合、この端点は第1描画図形内にあると判断でき、そうでない場合、この端点は第1描画図形外にあると判断できる。また、第1描画図形と第2描画図形との線分要素の交差点を決定し、この交差点、及び第1描画図形内に位置する第2描画図形の線分要素の端点と第1描画図形外に位置する第2描画図形の線分要素の端点に基づいて、第2描画図形の第1描画図形内に位置する第1線分要素及び第1描画図形の第2描画図形外に位置する第2線分要素を決定することができる。
第1線分要素及び第2線分要素を決定した後、第1線分要素と第2線分要素から構成される描画図形を第1ラベリング操作に対応するラベリング結果とすることができる。
例えば、図4に示すような第1描画図形P1及び第2描画図形P2について、P1の線分要素の集合は{a,a,b,a,a,b}で表わされ、P2の線分要素の集合は{b,b,b,b,b,b,b}で表わされ、ここで、a-a、b-bはいずれも線分の端点である。ここで、P1の線分要素{b,a,a}はP2内にあり、{b,b,b,b,b,b}はP2外にある。図5に示すように、線分要素{b,a,a}と{b,b,b,b,b,b}とから構成される描画図形を第1ラベリング操作に対応するラベリング結果とし、第2描画図形の線分要素の集合をそのまま保持するようにしてよい。
本開示の実施例では、第1描画図形と第2描画図形が枠図形である場合に、第1描画図形と第2描画図形の位置に基づいて、第2描画図形の第1描画図形内に位置する第1線分要素及び第1描画図形の第2描画図形外に位置する第2線分要素を決定することによって、第1線分要素と第2線分要素から構成される描画図形を第1ラベリング操作に対応するラベリング結果とすることができ、第1ラベリング操作のラベリング結果を速く得ることができ、ラベリング操作の効率が向上し、ユーザ体験が良い。
可能な一実施形態では、前記方法は、前記対象画像に対する第1ラベリング操作を受け付けた後に、更に、前記対象画像及び前記対象画像における前記第1描画図形を含む複数の描画図形を表示画面に表示することと、前記複数の描画図形から前記第1描画図形を選択するための第2ユーザ指令を受け付けることと、前記表示画面における前記第2ユーザ指令によって指示される位置及び前記表示画面における前記複数の描画図形の位置に基づいて、選択される前記第1描画図形を決定することと、を含む。
ユーザが第2ユーザ指令を発することによって、前記複数の描画図形から前記第1描画図形を選択する。例えば、ユーザが対象画像における描画図形に対して選定操作を行うことにより、第1描画図形を選択してよい。具体的には、ユーザは第2ユーザ指令をトリガーすると、第2ユーザ指令のトリガーのときに表示画面においてマウス又はタッチ点で示された位置を決定することができる。表示画面における複数の描画図形の位置は、図形描画終了後に決定してもよい。第2ユーザ指令によって指示される位置が第1描画図形内部にある場合に、選択される第1描画図形を決定することができる。これによって、第2ユーザ指令により選択される第1描画図形を決定することができる。
あるいは、ユーザが描画図形のマークなどの情報を選定することによって、第1描画図形を選択してもよい。本開示では詳細な説明を省略する。
本開示の実施例では、ユーザが第2ユーザ指令を発することによって、第1描画図形に対する指定操作を実現する。ユーザによる調整すべき描画図形の調整の便宜を図るために、調整すべき第1描画図形をユーザが自ら指定してよい。これによって、機械学習により得られたニューラルネットワークの精度が向上し、多様なユーザニーズを満足でき、ユーザ体験が良い。
人工知能分野において、セマンティックセグメンテーションは、コンピュータビジョンの分野における1つの重要な研究内容である。画像セマンティックセグメンテーションは、多くの応用シーン、例えば対象認識、対象検出などの分野に適用可能である。セマンティックセグメンテーションにより、画像を異なるセマンティック情報を有する領域に分割することができる。例えば、1枚の画像に対してセマンティックセグメンテーションを行うことにより、画像中の物体にセマンティックラベル(例えば空、芝地、人、木、小動物など)を付加することができる。
画像に対するラベリングの過程で、画像に図形を描画してラベリングされた領域を示す。通常、同じセマンティックを有する領域を多角形で選択する。セマンティックセグメンテーション対象となる画像において、複数のものが互いを遮蔽する場合がある。例えば、対象画像の内容は、人が芝地の上に立つことであり、画像中の人の脚部が芝地の一部を遮蔽する場合がある。遮蔽部分のエッジはセマンティックセグメンテーションの境界線であり、境界線両側はセマンティックが異なる。画像中のセマンティックが異なるセマンティックユニットに対してラベリングを行う過程で、境界線両側の領域のそれぞれに対してラベリングを行う場合、境界線について2回ラベリングしてよい。境界線の形状が通常不規則なものであるため、2回のラベリングを行う場合、画像ラベリングの効率が低い。
セマンティックセグメンテーションの応用シーンにおいて、本開示は、可能な一実現形態を提供する。この実現形態において、第1ラベリング操作は、前記対象画像に対してセマンティックセグメンテーション・ラベリングを行うためのものである。第1描画図形と第2描画図形との重複部分で示される画像領域のセマンティックは、第2描画図形で示される画像領域のセマンティックと同じであるが、第1画像領域のうち重複部分以外の画像領域のセマンティックと異なるようにしてもよい。例えば、上記の例を参照し、第1画像領域は、芝地が位置する領域であるが、芝地を遮蔽する脚部を含み、第2画像領域は、画像中の人が位置する領域である。この場合には、重複部分を第1描画図形から除去して、得られた第1描画図形で示される第1画像領域のセマンティックがより正確で、機械学習により得られたニューラルネットワークの精度を向上させることができる。また、ユーザによる第2描画図形の描画の終了後に、ユーザが第2描画図形を描画することにより2つのセマンティックユニット間の境界線をラベリングした場合に、第1描画図形の描画の過程で、ユーザが2つのセマンティックユニット間の境界線を再描画する必要がなく、ユーザが第1描画図形を手動調整する必要もなく、ユーザ操作が少なく、利便性が高く、対象画像に対するラベリングの効率が向上し、ラベリングにかかる時間が節約される。
可能な一実現形態では、前記対象画像は、ウェブページ画面に表示される。このウェブページ画面は、例えばHTML5言語でエンコードされたウェブページ画面であってよい。すると、図形描画の過程で、HTML5におけるキャンバス(Canvas)により図形を描画することにより、対象画像に対するラベリングを実現してよい。
以下、対象画像がウェブページ画面に表示されることを例とし、第1ラベリング操作が前記対象画像に対してセマンティックセグメンテーション・ラベリングを行うためのものである場合を本開示の具体的な応用シーンとして、本開示に係るラベリング方法を例示的に説明する。この部分で詳しく説明しない内容について、以上の関連記載を参照すればよい。また、この部分における内容は、以上の内容に対する例示的な説明としても利用可能である。
図6を参照すると、本開示に係る1つの可能な応用シーンにおいて、本開示に係るラベリング方法は、ステップ201~ステップ206を含む。
ステップ201において、ウェブページ画面に対象画像を表示する。
ステップ202において、HTML5におけるキャンバス(Canvas)により対象画像において図形を描画し、複数の描画図形を得る。
描画図形は多角形であってよい。図形描画の具体的な過程は以下のとおりである。
まず、JavaScript言語におけるマウスアップイベント(mouseup)により多角形の点の作成を実現する。具体的には、ユーザがマウスの左ボタンをクリックした(左ボタンを押してから離した)後、左ボタンが離されたユーザ操作に応じて、キャンバスは新たな図形の開始点を作成したり、新たに作成した図形に新たな多角形の頂点を与えたりすることができる。ユーザがマウスの右ボタンをクリックした(右ボタンを押してから離した)後、右ボタンが離されたユーザ操作に応じて、キャンバスは図形の開始点と終了点とを接続し、作成した多角形の閉鎖を実現することができる。
JavaScript言語におけるマウス移動イベント(mousemove)のコールバックイベントのeイベント属性により、ブラウザ内のマウスの位置をキャプチャして、対象画像におけるユーザ操作の位置を決定し、これによってユーザが描画した描画図形の対象画像における位置を決定する。
描画図形は複数あり、描画図形は、ラベリングすべき対象画像中の領域についてユーザが描画した図形である。
ステップ203において、選択操作指令を受け付け、選択操作指令に基づいて第1描画図形を決定する。
選択操作指令は、複数の描画図形から調整処理すべき図形を選択するために用いられる。選択操作指令は、前述した第2ユーザ指令である。ここで、調整すべき図形を第1描画図形という。
ウェブページ画面における選択操作指令によって指示される位置及びウェブページ画面における複数の描画図形の位置に基づいて、ウェブページ画面における選択操作指令によって指示される位置が第1描画図形内部にあると決定した場合に、選択される第1描画図形を決定することができる。
ステップ204において、調整操作指令を受け付ける。
調整操作指令は、ウェブページ画面における第1描画図形を調整処理するように指示するためのものであり、調整操作指令は前述した第1ユーザ指令である。
ステップ205において、調整操作指令に応じて、対象画像における複数の描画図形のうち、第1描画図形と重複する部分がある第2描画図形が存在するか否かを検出する。
第1描画図形と第2描画図形とは重複する部分が存在している。例えば、対象画像の内容は、人が芝地の上に立つことであり、画像中の人の脚部は、芝地の一部を遮蔽している。ユーザによって描画される第1描画図形は、芝地が位置する領域であってよい。芝生のエッジが通常、不規則な形状ではなく直線に近いので、ユーザが第1描画図形を速く描画しやすくなるように、芝地内の人の脚部の位置する領域が第1描画図形に含まれ、第2描画図形が人の位置する領域であるようにしてもよい。
ステップ206において、第1描画図形において第2描画図形と重複する部分を第1描画図形から除去して調整結果を得る。
第1描画図形が枠図形である場合に、第1描画図形と第2描画図形の位置に基づいて、第2描画図形の第1描画図形内に位置する第1線分要素及び第1描画図形の第2描画図形外に位置する線分要素を決定することができる。そして、第1線分要素と、第1描画図形の第2描画図形外に位置する線分要素から構成される図形を、第1描画図形に対する調整結果とする。調整後の第1描画図形は、対象画像の第1画像領域のセマンティック情報をラベリングすることに用いられる。
また、第1描画図形と第2描画図形の位置に基づいて、第1描画図形の第2描画図形内に位置する第2線分要素を決定し、該第2線分要素を除去する。このように、第2描画図形内部には他の線分要素がなくなった。
第1描画図形に対する調整結果は、第1描画図形に対して、第2描画図形内の領域が除去されたものであり、対象画像内のセマンティックユニットに対するラベリングに用いられ、かつユーザが第2描画図形を描画することにより2つのセマンティックユニット間の境界線をラベリングした場合に、その中のもう一つのセマンティックユニットの描画の過程で、ユーザが2つのセマンティックユニット間の境界線を再描画する必要がなく、ラベリング効率が向上し、ラベリングにかかる時間が節約される。
可能な一実現形態では、上記ラベリング方法は、ユーザ側装置(User Equipment,UE)、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント(Personal Digital Assistant,PDA)、手持ち機器、計算装置、車載装置、ウェアラブル装置等の端末装置又はサーバなどの電子機器により実行されてもよく、プロセッサによりメモリに記憶されたコンピュータ読み取り可能な命令を呼び出すことで実現されてもよく、又は、サーバによって実行されてもよい。
本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの実行順序がその機能と内部の論理によって具体的に決定されることが理解すべきである。
なお、本開示では、ラベリング装置、電子機器、コンピュータ読み取り可能な記憶媒体、プログラムが更に提供される。これらはいずれも本開示に係るラベリング方法のいずれか1つを実現するために利用できる。対応する技術的解決手段と説明は、方法の対応する記載を参照すればよく、詳細な説明を省略する。
図7は、本開示の実施例に係るラベリング装置のブロック図を示す。図7に示すように、上記装置は、
対象画像に対する第1ラベリング操作であって、前記対象画像において第1画像領域を示す第1描画図形を描画するための前記第1ラベリング操作を受け付ける受付モジュール301と、
前記対象画像における第2描画図形と前記第1描画図形とが少なくとも一部重複する場合に、前記第1描画図形を調整して前記第1ラベリング操作に対応するラベリング結果を得る調整モジュール302と、を備える。
可能な一実現形態では、前記装置は、前記対象画像における少なくとも1つの先描画図形のうち、前記第1描画図形と重複する部分がある描画図形が存在するか否かを検出する検出モジュールを更に備える。
可能な一実現形態では、前記装置は、前記第1描画図形を調整するように指示するための第1ユーザ指令を受け付ける第1ユーザ指令受付モジュールを更に備える。
可能な一実現形態では、前記調整モジュール302は、前記第1描画図形において前記第2描画図形と重複する部分を除去した描画図形を、前記第1ラベリング操作に対応するラベリング結果とする。
可能な一実現形態では、前記調整モジュール302は、前記第1描画図形と前記第2描画図形が枠図形である場合に、前記第1描画図形と前記第2描画図形の位置に基づいて、前記第2描画図形の前記第1描画図形内に位置する第1線分要素及び前記第1描画図形の前記第2描画図形外に位置する第2線分要素を決定することと、前記第1線分要素と前記第2線分要素から構成される描画図形を前記第1ラベリング操作に対応するラベリング結果とすることとに用いられる。
可能な一実現形態では、前記装置は、
前記対象画像及び前記対象画像における前記第1描画図形を含む複数の描画図形を表示画面に表示する表示モジュールと、
前記複数の描画図形から前記第1描画図形を選択するための第2ユーザ指令を受け付ける第2ユーザ指令受付モジュールと、
前記表示画面における前記第2ユーザ指令によって指示される位置及び前記表示画面における前記複数の描画図形の位置に基づいて、選択される前記第1描画図形を決定する決定モジュールと、を更に備える。
可能な一実現形態では、前記対象画像は、ウェブページ画面に表示される。
可能な一実現形態では、前記第1ラベリング操作は、前記対象画像に対してセマンティックセグメンテーション・ラベリングを行うためのものである。
いくつかの実施例では、本開示の実施例に係る装置が備える機能又はモジュールは、上述した方法の実施例に説明される方法を実行するために利用でき、その具体的な実現及び技術的効果について、上述した方法の実施例の説明を参照すればよく、簡素化のために、ここで詳細な説明を省略する。
本開示の実施例では、コンピュータプログラム命令が記憶されているコンピュータ可読記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、上記の方法を実現させるコンピュータ可読記憶媒体がさらに提供される。当該コンピュータ可読記憶媒体は、不揮発性のコンピュータ可読記憶媒体であってもよい。
本開示の実施例では、プロセッサと、プロセッサにより実行可能な命令を記憶するメモリと、を含み、前記プロセッサは、前記メモリに記憶されている命令を呼び出して上記方法を実行するように構成される電子機器がさらに提供される。
本開示の実施例では、コンピュータ読み取り可能なコードを含み、コンピュータ読み取り可能なコードが機器において実行されると、機器におけるプロセッサが上記のいずれかの実施例に係るラベリング方法を実現するための命令を実行するコンピュータプログラム製品がさらに提供される。
本開示の実施例では、コンピュータ読み取り可能な命令が記憶されているコンピュータプログラム製品であって、命令は実行されると、上記のいずれかの実施例に係るラベリング方法の操作をコンピュータに実行させる別のコンピュータプログラム製品がさらに提供される。
電子機器は、端末、サーバ又は他の形態の機器として提供されてもよい。
図8は、本開示の実施例に係る電子機器800を示すブロック図である。例えば、電子機器800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタント等の端末であってもよい。
図8を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)のインタフェース812、センサコンポーネント814、および通信コンポーネント816のうちの一つ以上を含んでもよい。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
メモリ804は電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は前面カメラおよび/または背面カメラを含む。電子機器800が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび/または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、一つのマイク(MIC)を含み、マイク(MIC)は、電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。
センサコンポーネント814は電子機器800の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、例えば電子機器800の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント814はさらに、相補型金属酸化膜半導体(CMOS)または電荷結合素子(CCD)イメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
通信コンポーネント816は電子機器800と他の機器との有線または無線通信を実現するように構成される。電子機器800は通信規格に基づく無線ネットワーク、例えば無線ネットワーク(WiFi)、第2世代移動通信技術(2G)または第3世代移動通信技術(3G)、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは、無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(BT)技術および他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタルシグナルプロセッサ(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。
例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は、電子機器800のプロセッサ820によって実行されと、上記方法を実行させることができる。
図9は、本開示の実施例に係る電子機器1900を示すブロック図である。例えば、電子機器1900はサーバとして提供されてもよい。図9を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されているアプリケーションプログラムは、それぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は命令を実行することによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成される電源コンポーネント1926、電子機器1900をネットワークに接続するように構成される有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されいるオペレーティングシステム、例えばウィンドウズサーバオペレーティングシステム(Windows ServerTM)、アップル社より発行されるグラフィカルユーザインターフェースに基づくオペレーティングシステム(Mac OS XTM)、マルチユーザマルチプロセスのコンピュータオペレーティングシステム(UnixTM)、フリーおよびオープンソースコードのUnix系オペレーティングシステム(LinuxTM)、オープンソースコードのUnix系オペレーティングシステム(FreeBSDTM)または類似するものに基づいて動作できる。
例示的な実施例では、さらに、不揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は、電子機器1900の処理コンポーネント1922によって実行されと、上記方法を実行させることができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令が有しているコンピュータ可読記憶媒体を含んでもよい。
コンピュータ可読記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュメモリ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算/処理機器内のコンピュータ可読記憶媒体に記憶させる。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することににより、本開示の各方面を実現するようにしてもよい。
ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現ように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各方面を実現する命令を有する製品を含む。
コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
当該コンピュータプログラム製品は、ハードウェア、ソフトウェア、又はそれらの組み合わせによって具体的に実現できる。選択可能的な一実施例では、前記コンピュータプログラム製品はコンピュータ記憶媒体として具現化される。選択可能的な別の実施例では、コンピュータプログラム製品はソフトウェア製品、例えば、ソフトウェア開発キット(Software Development Kit、略称SDK)等として具現化される。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

Claims (12)

  1. 対象画像に対する第1ラベリング操作であって、前記対象画像において第1画像領域を示す第1描画図形を描画するための第1ラベリング操作を受け付けることと、
    前記対象画像における第2描画図形と前記第1描画図形とが少なくとも一部重複する場合に、前記第1描画図形を調整して前記第1ラベリング操作に対応するラベリング結果を得ることと、
    を含むことを特徴とするラベリング方法。
  2. 前記第1描画図形を調整する前に、更に、
    前記対象画像における少なくとも1つの先描画図形のうち、前記第1描画図形と重複する部分がある描画図形が存在するか否かを検出することを含むことを特徴とする請求項1に記載のラベリング方法。
  3. 前記第1描画図形を調整する前に、更に、
    前記第1描画図形を調整するように指示するための第1ユーザ指令を受け付けることを含むことを特徴とする請求項1又は2に記載のラベリング方法。
  4. 前記した、前記第1描画図形を調整して前記第1ラベリング操作に対応するラベリング結果を得ることは、
    前記第1描画図形において前記第2描画図形と重複する部分を除去した描画図形を、前記第1ラベリング操作に対応するラベリング結果とすることを含むことを特徴とする請求項1~3のいずれか一項に記載のラベリング方法。
  5. 前記した、前記第1描画図形を調整して前記第1ラベリング操作に対応するラベリング結果を得ることは、
    前記第1描画図形と前記第2描画図形が枠図形である場合に、前記第1描画図形と前記第2描画図形の位置に基づいて、前記第2描画図形の前記第1描画図形内に位置する第1線分要素及び前記第1描画図形の前記第2描画図形外に位置する第2線分要素を決定することと、
    前記第1線分要素と前記第2線分要素から構成される描画図形を前記第1ラベリング操作に対応するラベリング結果とすることと、を含むことを特徴とする請求項1~4のいずれか一項に記載のラベリング方法。
  6. 前記対象画像に対する第1ラベリング操作を受け付けた後に、更に、
    前記対象画像及び前記対象画像における前記第1描画図形を含む複数の描画図形を表示画面に表示することと、
    前記複数の描画図形から前記第1描画図形を選択するための第2ユーザ指令を受け付けることと、
    前記表示画面における前記第2ユーザ指令によって指示される位置及び前記表示画面における前記複数の描画図形の位置に基づいて、選択される前記第1描画図形を決定することと、を含むことを特徴とする請求項1~5のいずれか一項に記載のラベリング方法。
  7. 前記対象画像は、ウェブページ画面に表示されることを特徴とする請求項1~6のいずれか一項に記載のラベリング方法。
  8. 前記第1ラベリング操作は、前記対象画像に対してセマンティックセグメンテーション・ラベリングを行うためのものであることを特徴とする請求項1~7のいずれか一項に記載のラベリング方法。
  9. 対象画像に対する第1ラベリング操作であって、前記対象画像において第1画像領域を示す第1描画図形を描画するための第1ラベリング操作を受け付ける受付モジュールと、
    前記対象画像における第2描画図形と前記第1描画図形とが少なくとも一部重複する場合に、前記第1描画図形を調整して前記第1ラベリング操作に対応するラベリング結果を得る調整モジュールと、
    を備えることを特徴とするラベリング装置。
  10. プロセッサと、
    プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
    前記プロセッサは、前記メモリに記憶されている命令を呼び出して請求項1~8のいずれか一項に記載のラベリング方法を実行するように構成されることを特徴とする電子機器。
  11. コンピュータプログラム命令が記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令はプロセッサによって実行されると、請求項1~8のいずれか一項に記載のラベリング方法を実現することを特徴とするコンピュータ読み取り可能な記憶媒体。
  12. コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードが電子機器において実行されると、前記電子機器におけるプロセッサが請求項1~8のいずれか一項に記載のラベリング方法を実現するための命令を実行することを特徴とするコンピュータプログラム。
JP2022520125A 2020-12-22 2021-04-14 ラベリング方法及び装置、電子機器並びに記憶媒体 Withdrawn JP2023510443A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011529117.0A CN112508020A (zh) 2020-12-22 2020-12-22 标注方法及装置、电子设备和存储介质
CN202011529117.0 2020-12-22
PCT/CN2021/087285 WO2022134390A1 (zh) 2020-12-22 2021-04-14 标注方法及装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
JP2023510443A true JP2023510443A (ja) 2023-03-14

Family

ID=74923349

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022520125A Withdrawn JP2023510443A (ja) 2020-12-22 2021-04-14 ラベリング方法及び装置、電子機器並びに記憶媒体

Country Status (4)

Country Link
JP (1) JP2023510443A (ja)
KR (1) KR20220093091A (ja)
CN (1) CN112508020A (ja)
WO (1) WO2022134390A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508020A (zh) * 2020-12-22 2021-03-16 深圳市商汤科技有限公司 标注方法及装置、电子设备和存储介质
CN115344937B (zh) * 2022-10-20 2023-03-17 三一筑工科技股份有限公司 一种钢筋标注方法、装置、电子设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110660313A (zh) * 2018-06-29 2020-01-07 百度在线网络技术(北京)有限公司 信息呈现方法和装置
US10733742B2 (en) * 2018-09-26 2020-08-04 International Business Machines Corporation Image labeling
CN111666936A (zh) * 2019-03-08 2020-09-15 北京市商汤科技开发有限公司 标注方法及装置和***、电子设备和存储介质
CN110286992A (zh) * 2019-07-02 2019-09-27 中国工商银行股份有限公司 界面图形重绘的方法及装置
CN110796201B (zh) * 2019-10-31 2023-07-11 达闼机器人股份有限公司 一种标注框的修正方法、电子设备及存储介质
CN111027543B (zh) * 2019-11-25 2023-04-07 北京云测信息技术有限公司 一种图像标注方法及装置
CN111814885B (zh) * 2020-07-10 2021-06-22 云从科技集团股份有限公司 一种管理图像框的方法、***、设备及介质
CN112508020A (zh) * 2020-12-22 2021-03-16 深圳市商汤科技有限公司 标注方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112508020A (zh) 2021-03-16
WO2022134390A1 (zh) 2022-06-30
KR20220093091A (ko) 2022-07-05

Similar Documents

Publication Publication Date Title
US20230393721A1 (en) Method and Apparatus for Dynamically Displaying Icon Based on Background Image
EP3091426B1 (en) User terminal device providing user interaction and method therefor
WO2020038168A1 (zh) 内容分享方法、装置、终端及存储介质
US20200007944A1 (en) Method and apparatus for displaying interactive attributes during multimedia playback
WO2016192325A1 (zh) 视频文件的标识处理方法及装置
CN112907760B (zh) 三维对象的标注方法及装置、工具、电子设备和存储介质
JP7181375B2 (ja) 目標対象の動作認識方法、装置及び電子機器
US11734804B2 (en) Face image processing method and apparatus, electronic device, and storage medium
WO2023045207A1 (zh) 任务处理方法及装置、电子设备、存储介质和计算机程序
CN112099707A (zh) 显示方法、装置和电子设备
EP2921969A1 (en) Method and apparatus for centering and zooming webpage and electronic device
US20210165670A1 (en) Method, apparatus for adding shortcut plug-in, and intelligent device
WO2023051356A1 (zh) 一种虚拟对象的显示方法及装置、电子设备和存储介质
JP2023510443A (ja) ラベリング方法及び装置、電子機器並びに記憶媒体
CN110989905A (zh) 信息处理方法及装置、电子设备和存储介质
CN112306235A (zh) 一种手势操作方法、装置、设备和存储介质
CN110929616B (zh) 一种人手识别方法、装置、电子设备和存储介质
WO2022068721A1 (zh) 截屏方法、装置及电子设备
CN114205524B (zh) 显示控制方法和终端
US11810336B2 (en) Object display method and apparatus, electronic device, and computer readable storage medium
CN107977147B (zh) 滑动轨迹显示方法及装置
WO2023097981A1 (zh) 一种对象显示方法及电子设备
CN114116106A (zh) 图表显示方法及装置、电子设备和存储介质
CN112529976B (zh) 目标显示方法及装置、电子设备和存储介质
CN114266305A (zh) 对象识别方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220330

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20221221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20221221