WO2020255226A1 - 物体らしさ推定装置、物体らしさ推定方法、及び物体らしさ推定プログラム - Google Patents

物体らしさ推定装置、物体らしさ推定方法、及び物体らしさ推定プログラム Download PDF

Info

Publication number
WO2020255226A1
WO2020255226A1 PCT/JP2019/023975 JP2019023975W WO2020255226A1 WO 2020255226 A1 WO2020255226 A1 WO 2020255226A1 JP 2019023975 W JP2019023975 W JP 2019023975W WO 2020255226 A1 WO2020255226 A1 WO 2020255226A1
Authority
WO
WIPO (PCT)
Prior art keywords
edge
likeness
visible light
candidate
depth image
Prior art date
Application number
PCT/JP2019/023975
Other languages
English (en)
French (fr)
Inventor
峻司 細野
島村 潤
淳 嵯峨田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2019/023975 priority Critical patent/WO2020255226A1/ja
Publication of WO2020255226A1 publication Critical patent/WO2020255226A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation

Definitions

  • the technology of the present disclosure relates to an object-likeness estimation device, an object-likeness estimation method, and an object-likeness estimation program.
  • Object candidate area estimation is a technology that outputs a plurality of areas containing only a single object from an image (Fig. 8). By performing object recognition as shown in FIG. 8 for each candidate area output by the object candidate area estimation, the position and type of the object in the image can be estimated, that is, the object can be detected, and the object can be detected in the image.
  • a wide range of industrial applications can be expected, such as recognition of multiple household items and signboards.
  • the object candidate region estimation can be realized by an algorithm that does not require learning data
  • the object detection can be realized only by the learning data for object recognition (the image with the object label).
  • object detection can be realized with less preparation cost than general object detection learning data, for example, an image to which an object label and position information are attached.
  • the object-likeness is calculated, and some areas are determined in descending order of object-likeness. Is output as a candidate area (see FIG. 10).
  • the object-likeness is the degree to which the region captures a single object in just proportion.
  • Non-Patent Document 1 which is a high-speed and high-precision technique, the appearance of an object is calculated on the assumption that the more visible light edges are included in the rectangular edge region, the more likely it is to be an object. In this method, it is implicitly assumed that the edge obtained by edge detection is the boundary between objects (object boundary).
  • Non-Patent Document 1 it is considered that a large number of extra candidate regions are still output by simply applying Non-Patent Document 1 to an RGB-D image in which a depth image or a visible light image and a depth image are combined. This is because the index that the rectangular edge region contains many edges is also established in the region including a plurality of objects (FIG. 12).
  • Non-Patent Documents 2 and 3 are also based on the idea that the more edges extracted from an RGB-D image are included in the rectangular edge region, the more likely it is to be an object. There is. Therefore, there is a problem that an area including a plurality of objects is still output as a candidate area.
  • the disclosed technique has been made in view of the above points, and provides an object-likeness estimation device, an object-likeness estimation method, and an object-likeness estimation program capable of accurately estimating the object-likeness of the candidate region. With the goal.
  • the first aspect of the present disclosure is an object-likeness estimation device, which captures a single object for a candidate region of an input corresponding pair of depth image and visible light image, which is a candidate region in which the object appears. It is an object-likeness estimation device that estimates the degree of object-likeness, and is a region setting unit for setting the candidate area for the pair of the depth image and the visible light image, and the depth image and the visible light image. An edge detection unit that performs edge detection for detecting each edge, an edge of the edge of the candidate region in the depth image, an edge of the edge of the candidate region in the visible light image, and the candidate in the depth image. It is configured to include an object-likeness calculation unit for calculating the object-likeness of the candidate region using the edge of the central portion of the region.
  • the second aspect of the present disclosure is an object-likeness estimation method, in which a single object is captured for a candidate region of the input corresponding pair of depth image and visible light image, which is a candidate region in which the object appears. It is an object-likeness estimation method for estimating the object-likeness indicating the degree of the image, in which the area setting unit sets the candidate area for the pair of the depth image and the visible light image, and the edge detection unit sets the depth image. And edge detection for detecting each edge of the visible light image is performed, and the object-likeness calculation unit determines the edge of the edge of the candidate region in the depth image and the edge of the edge of the candidate region in the visible light image. And the edge of the central portion of the candidate region in the depth image are used to calculate the object-likeness of the candidate region.
  • a third aspect of the present disclosure is an object-likeness estimation program that captures a single object for a candidate area of the input corresponding pair of depth and visible light images that is a candidate for the area in which the object appears. It is an object-likeness estimation program for estimating the degree of object-likeness, in which a candidate region is set for a pair of the depth image and the visible light image, and each of the depth image and the visible light image is set. Edge detection is performed to detect edges, and the edge of the edge of the candidate region in the depth image, the edge of the edge of the candidate region in the visible light image, and the edge of the center of the candidate region in the depth image. It is a program for causing a computer to calculate the object-likeness of the candidate region by using and.
  • An object-like region (a region where the object-likeness should be high) is considered to be a region circumscribing a single object boundary, and when it is embodied, as shown in FIG. 1, a certain region has the following three conditions. When the condition is satisfied, it is considered to be an object-like area.
  • -Condition 1 The central area does not include the object boundary.
  • -Condition 2 The edge area must include the object boundary.
  • -Condition 3 The object boundary in the edge region should be evenly distributed.
  • the object-likeness is calculated so that the object-likeness becomes high when all the above conditions are satisfied.
  • the visible light edge and the depth edge are simply integrated, as shown in FIG. 2, the visible light edge (pattern of the object) is included in the central region, so that even the region where the object is captured looks like an object. Will be low.
  • the visible light edge and the depth edge are adaptively integrated as shown in FIG.
  • visible light edges are detected from the pattern of the object in addition to the object boundary. That is, while there is a tendency for erroneous detection to increase, the depth edge is likely to be detected only from the object boundary, but is difficult to detect when the objects are in close contact with each other. That is, it is considered that detection omissions tend to increase.
  • the edge used for the determination of the above condition 1 regarding the central area has a depth so as not to unreasonably reduce the object-likeness due to the influence of the pattern.
  • the above conditions are embodied as follows, and the object-likeness is calculated.
  • -Condition 1' The central area does not include the depth edge.
  • -Condition 2' The edge region must include a visible light edge or a depth edge.
  • -Condition 3' The visible light edge or depth edge of the edge region should be uniformly distributed.
  • FIG. 4 is a block diagram showing a hardware configuration of the object-likeness estimation device 10 of the present embodiment.
  • the object-likeness estimation device 10 includes a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12, a RAM (Random Access Memory) 13, a storage 14, an input unit 15, a display unit 16, and communication. It has an interface (I / F) 17. Each configuration is communicably connected to each other via a bus 19.
  • CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • storage 14 an input unit 15, a display unit 16, and communication. It has an interface (I / F) 17.
  • I / F interface
  • the CPU 11 is a central arithmetic processing unit that executes various programs and controls each part. That is, the CPU 11 reads the program from the ROM 12 or the storage 14, and executes the program using the RAM 13 as a work area. The CPU 11 controls each of the above configurations and performs various arithmetic processes according to the program stored in the ROM 12 or the storage 14.
  • the ROM 12 or the storage 14 stores an object-likeness estimation program for estimating the object-likeness of the candidate area.
  • the object-likeness estimation program may be one program, or may be a program group composed of a plurality of programs or modules.
  • the ROM 12 stores various programs and various data.
  • the RAM 13 temporarily stores a program or data as a work area.
  • the storage 14 is composed of an HDD (Hard Disk Drive) or an SSD (Solid State Drive), and stores various programs including an operating system and various data.
  • the input unit 15 includes a pointing device such as a mouse and a keyboard, and is used for performing various inputs.
  • the input unit 15 accepts a pair of a corresponding visible light image and a depth image as an input.
  • a corresponding visible light image and a depth image is pre-aligned.
  • the display unit 16 is, for example, a liquid crystal display and displays various types of information.
  • the display unit 16 may adopt a touch panel method and function as an input unit 15.
  • the communication interface 17 is an interface for communicating with other devices, and for example, standards such as Ethernet (registered trademark), FDDI, and Wi-Fi (registered trademark) are used.
  • FIG. 5 is a block diagram showing an example of the functional configuration of the object-likeness estimation device 10.
  • the object-likeness estimation device 10 includes an area setting unit 20, an edge detection unit 22, and an object-likeness calculation unit 24, as shown in FIG.
  • the area setting unit 20 sets a plurality of candidate areas for the corresponding pair of depth image and visible light image. Specifically, the area setting unit 20 sets rectangles having various positions, sizes, and aspect ratios on the image as candidate areas. For example, a rectangle having 300 pixels on each side is scanned at intervals of 50% of the vertical and horizontal widths of the rectangle, then the vertical is similarly scanned with half the number of pixels, and then the horizontal is similarly scanned with half the number of pixels. By repeating the process a certain number of times, a plurality of candidate areas are set.
  • the edge detection unit 22 detects each edge of the depth image and the visible light image.
  • a significant edge detection method can be used. For example, the method described in Reference 1 can be used. In this method, the edge likelihood of how much each pixel seems to be an edge can be estimated by a real value of 0 to 1.
  • the object-likeness calculation unit 24 determines the edge of the edge of the candidate region in the depth image, the edge of the edge of the candidate region in the visible light image, and the edge of the center of the candidate region in the depth image. It is used to calculate the object-likeness of the candidate region.
  • the object-likeness calculation unit 24 calculates the object-likeness, which is the degree to which a certain area captures a single object for each candidate area set by the area setting unit 20.
  • the object-likeness which is the degree to which a certain area captures a single object for each candidate area set by the area setting unit 20.
  • the object-likeness S (b) for a certain candidate area b is defined by the following equation.
  • b out, b in represent respectively the edge region, the central region, for example, inside the area when the placement area of the height, a rectangle and alpha times (0 ⁇ ⁇ 1), respectively a width in the region center , The other area is set as the edge.
  • 1 / ⁇ ( ⁇ d ( b in)) term are those multiplied by the standard sigmoid function zeta ( ⁇ ) to the density of the depth edges in the central region b in, showing the establishment degree of condition 1 '.
  • ⁇ ( ⁇ rgbd (b out )) is the edge density calculated from the visible light edge and the depth edge in the edge region b out , and indicates the degree of establishment of condition 2'.
  • urgbd (b out ) is the uniformity of the visible light edge and the depth edge included in the edge region b out , and indicates the degree of establishment of the condition 3'.
  • w is a weight of how much importance is given to condition 3', and an arbitrary real value is specified in advance. That is, the higher the degree of satisfying the conditions 1'to 3', the greater the object-likeness.
  • the edge density ⁇ d (b) of the depth with respect to a certain candidate region b is calculated by the following formula.
  • b w indicates the width of the candidate area b
  • b h indicates the height of the candidate area b
  • (p, q) ⁇ b indicates the position of a pixel in the candidate area b.
  • the E d (p, q) denotes the position where the input depth-edge image (p, q) of the pixel value (edge likelihood).
  • is a parameter that adjusts the degree of normalization according to the size of the rectangle.
  • ⁇ rgb (b) is the density of visible light edges calculated in the same manner as ⁇ d (b).
  • edge uniformity urgbd (b out ) is calculated as follows.
  • b out k represents each region where b out is K-divided. Represents the average edge density of each divided region.
  • FIG. 6 shows a case where the edge region is divided into four and the object-likeness is calculated.
  • the object-likeness calculation unit 24 determines the edge density and edge uniformity of the edge portion of the candidate region in the depth image and the edge density and edge of the edge portion of the candidate region in the visible light image for each of the candidate regions.
  • the object-likeness of the candidate region is calculated using the uniformity and the edge density of the central portion of the candidate region in the depth image.
  • the edge uniformity is calculated by the variance of the edge density of the depth image or the edge density of the visible light image, whichever is larger, in each region when the edge of the candidate region is divided into an arbitrary number of regions. Will be done. Further, the dispersion of the edge density is determined by the edge density of the depth image or the edge density of the visible light image in each region when the edge is divided, and the edge density in each region where the edge is divided. It is calculated using the average of the larger edge densities.
  • the object-likeness calculation unit 24 has a high edge density at the edge of the candidate region in the depth image or an edge density at the edge of the candidate region in the visible light image, and the edge density at the center of the candidate region in the depth image. It is calculated so that the lower the value and the more uniform the edge of the edge of the candidate region in the depth image or the edge of the edge of the candidate region in the visible light image, the higher the object-likeness.
  • FIG. 7 is a flowchart showing the flow of the object-likeness estimation process by the object-likeness estimation device 10.
  • the object-likeness estimation process is performed by the CPU 11 reading the object-likeness estimation program from the ROM 12 or the storage 14, expanding the program into the RAM 13 and executing the program. Further, the corresponding pair of visible light image and depth image is input to the object-likeness estimation device 10.
  • step S100 the CPU 11 sets a plurality of candidate areas for the corresponding pair of depth image and visible light image as the area setting unit 20.
  • step S102 the CPU 11 detects the edges of the depth image and the visible light image as the edge detection unit 22.
  • step S104 the CPU 11 calculates the object-likeness for each candidate area set by the area setting unit 20 as the object-likeness calculation unit 24. Then, the CPU 11 outputs the candidate areas having the highest n object-likeness on the display unit 16, and ends the object-likeness estimation process.
  • the object-likeness estimation device has the edge of the edge of the candidate region in the depth image, the edge of the edge of the candidate region in the visible light image, and the depth image.
  • the object-likeness of the candidate region is calculated by using the edge at the center of the candidate region.
  • processors other than the CPU may execute various processes executed by the CPU reading software (program) in the above embodiment.
  • the processors include PLD (Programmable Logic Device) whose circuit configuration can be changed after manufacturing FPGA (Field-Programmable Gate Array), and ASIC (Application Specific Integrated Circuit) for executing ASIC (Application Special Integrated Circuit).
  • PLD Programmable Logic Device
  • FPGA Field-Programmable Gate Array
  • ASIC Application Specific Integrated Circuit
  • An example is a dedicated electric circuit or the like, which is a processor having a circuit configuration designed exclusively for the purpose.
  • the object-likeness estimation process may be executed by one of these various processors, or a combination of two or more processors of the same type or different types (for example, a plurality of FPGAs, and a CPU and an FPGA). It may be executed by combination etc.).
  • the hardware structure of these various processors is, more specifically, an electric circuit in which circuit elements such as semiconductor elements are combined.
  • the program is a non-temporary storage medium such as a CD-ROM (Compact Disk Read Only Memory), a DVD-ROM (Digital entirely Disk Online Memory), and a USB (Universal Serial Bus) memory. It may be provided in the form. Further, the program may be downloaded from an external device via a network.
  • the candidate area is set. Edge detection is performed to detect each edge of the depth image and the visible light image. Using the edge of the edge of the candidate region in the depth image, the edge of the edge of the candidate region in the visible light image, and the edge of the center of the candidate region in the depth image, the candidate region Calculate the object-likeness, Object-likeness estimation device.
  • (Appendix 2) Executes object-likeness estimation processing that estimates the object-likeness that indicates the degree to which a single object is captured for the candidate area that is a candidate for the area in which the object appears in the input pair of depth image and visible light image.
  • a non-temporary storage medium that stores a program that can be executed by a computer.
  • the object-likeness estimation process is For the pair of the depth image and the visible light image, the candidate area is set. Edge detection is performed to detect each edge of the depth image and the visible light image.
  • the candidate region Calculate the object-likeness, Non-temporary storage medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

領域設定部20が、深度画像及び可視光画像のペアについて、候補領域を設定する。エッジ検出部22が、深度画像及び可視光画像の各々のエッジを検出するエッジ検出を行う。物体らしさ算出部24が、深度画像における候補領域の縁部のエッジと、可視光画像における候補領域の縁部のエッジと、深度画像における候補領域の中央部のエッジとを用いて、候補領域の物体らしさを算出する。

Description

物体らしさ推定装置、物体らしさ推定方法、及び物体らしさ推定プログラム
 本開示の技術は、物体らしさ推定装置、物体らしさ推定方法、及び物体らしさ推定プログラムに関する。
 物体候補領域推定とは、画像から単一の物体のみが含まれる領域を複数出力する技術である(図8)。物体候補領域推定で出力された各候補領域について、図8に示すように物体認識を行なうことで、画像中の物体の位置と種類を推定すること、すなわち物体検出することができ、画像中に複数存在する家庭用品や看板の認識等、幅広い産業応用が期待できる。
 このとき、候補領域推定で出力された各領域に、画像認識を施すことを考えると、物体候補領域推定が高速に動作することはさることながら、個々の物体を正確に捉えていない余分な候補領域は、物体認識精度や、処理速度の低下につながると考えられる。このため、極力少数の候補領域で物体を正確に捉えることも求められる。さらに、学習データ不要なアルゴリズムで物体候補領域推定を実現できれば、物体認識用の学習データ(物体ラベルが付与された画像)のみで物体検出を実現することができる。また、一般的な物体検出の学習データ、例えば、物体ラベルと位置情報が付与された画像よりも少ない準備コストで物体検出を実現できる。
 また、一般的な物体候補領域推定では、図9に示すように、画像からスライディングウィンドウ等で切出された各領域(矩形)について、物体らしさを算出し、物体らしさの高い順に幾つかの領域を候補領域として出力する(図10参照)。ここで、物体らしさとは、領域が単一の物体を過不足無く捉えている度合いのことである。
 物体らしさを算出する際には、物体らしさが、単一の物体領域を過不足無く捉えたときにのみ高くなることが重要である。
 公知の学習データ不要な物体候補領域技術の多くは、ある領域(矩形)に対して「物体らしさ」を算出し、物体らしさが高くなる領域を候補領域として出力している。例えば、高速かつ高精度な技術である非特許文献1では、矩形の縁領域に可視光エッジを多く含む程物体らしいという仮定のもと、物体らしさを算出している。この手法では、エッジ検出によって得られたエッジが物体と物体間の境界(物体境界)であると暗に仮定している。
C. L. Zitnick and P. Dollar, "Edge boxes: locating object proposals from edges, in Proc. on European Conf. on Computer Vision," 2014. J. Liu, T. Ren, B-K. Bao, J. Bei, "Depth-aware layered edge for object proposal," in Proc. on Int. Conf. on Multimedia and Expo, 2016. J. Liu, T. Ren, Y. Wang, S.-H. Zhong, J. Bei, S. Chen, "Object proposal on rgb-d images via elastic edge boxes," Neurocomputing, vol.236, no.2, pp.134-146, 2017.
 しかし、輝度値の局所的な変化が大きな点に検出されやすい可視光エッジは、物体間の境界からだけでなく、物体の模様からも検出されることが多い(図11)。一般に、可視光画像から物体間の境界と物体の模様を弁別することは容易ではく、既存手法にもそのような機構は含まれていないため、模様から生じるエッジを手掛かりとした候補領域を出力してしまうこととなる。すなわち、画像中の物体を網羅的に検出するために、多くの候補領域を出力しなければならないという問題がある。
 この問題を解決するアプローチの一つとして、物体境界による変化に反応し、一方で模様の影響を受けないセンサの活用が考えられる。例えば、物体境界には深度差が生じやすく、また、家庭用品等の表面が滑らかな物体表面には深度差が生じにくいことから、深度センサにより物体境界を比較的に容易に取得できると考えられる。しかしながら単に非特許文献1を深度画像や可視光画像と深度画像を組み合わせたRGB-D画像に適用するだけでは、依然多くの余分な候補領域が出力されると考えられる。これは、矩形の縁領域にエッジを多く含むという指標が、複数の物体を含む領域においても成立してしまうからである(図12)。
 深度画像の活用を前提とした公知の技術(例えば、非特許文献2、非特許文献3)も矩形の縁領域にRGB-D画像から抽出されたエッジを多く含むほど物体らしいという考えに基づいている。そのため、依然複数の物体を含む領域も候補領域として出力されてしまうという問題がある。
 開示の技術は、上記の点に鑑みてなされたものであり、精度よく、候補領域の物体らしさを推定することができる物体らしさ推定装置、物体らしさ推定方法、および物体らしさ推定プログラムを提供することを目的とする。
 本開示の第1態様は、物体らしさ推定装置であって、入力された、対応する深度画像及び可視光画像のペアの、物体が写る領域の候補である候補領域について、単一の物体を捉えている度合いを示す物体らしさを推定する物体らしさ推定装置であって、前記深度画像及び前記可視光画像のペアについて、前記候補領域を設定する領域設定部と、前記深度画像及び前記可視光画像の各々のエッジを検出するエッジ検出を行うエッジ検出部と、前記深度画像における前記候補領域の縁部のエッジと、前記可視光画像における前記候補領域の縁部のエッジと、前記深度画像における前記候補領域の中央部のエッジとを用いて、前記候補領域の前記物体らしさを算出する物体らしさ算出部と、を含んで構成される。
 本開示の第2態様は、物体らしさ推定方法であって、入力された、対応する深度画像及び可視光画像のペアの、物体が写る領域の候補である候補領域について、単一の物体を捉えている度合いを示す物体らしさを推定する物体らしさ推定方法であって、領域設定部が、前記深度画像及び前記可視光画像のペアについて、前記候補領域を設定し、エッジ検出部が、前記深度画像及び前記可視光画像の各々のエッジを検出するエッジ検出を行い、物体らしさ算出部が、前記深度画像における前記候補領域の縁部のエッジと、前記可視光画像における前記候補領域の縁部のエッジと、前記深度画像における前記候補領域の中央部のエッジとを用いて、前記候補領域の前記物体らしさを算出する。
 本開示の第3態様は、物体らしさ推定プログラムであって、入力された、対応する深度画像及び可視光画像のペアの、物体が写る領域の候補である候補領域について、単一の物体を捉えている度合いを示す物体らしさを推定するための物体らしさ推定プログラムであって、前記深度画像及び前記可視光画像のペアについて、前記候補領域を設定し、前記深度画像及び前記可視光画像の各々のエッジを検出するエッジ検出を行い、前記深度画像における前記候補領域の縁部のエッジと、前記可視光画像における前記候補領域の縁部のエッジと、前記深度画像における前記候補領域の中央部のエッジとを用いて、前記候補領域の前記物体らしさを算出することをコンピュータに実行させるためのプログラムである。
 開示の技術によれば、精度よく、単一の物体を捉えている度合いを示す物体らしさを推定することができる。
中央領域及び縁領域における物体境界のパターンに応じた物体らしさを説明するための図である。 可視光エッジと深度エッジとを単純に統合した場合の処理の概要を示す図である。 本実施形態の物体らしさ推定装置の処理の概要を示す図である。 本実施形態の物体らしさ推定装置として機能するコンピュータの一例の概略ブロック図である。 本実施形態の物体らしさ推定装置の構成を示すブロック図である。 物体らしさの算出方法を説明するための図である。 本実施形態の物体らしさ推定装置の物体らしさ推定処理ルーチンを示すフローチャートである。 従来の物体らしさ推定の一例を示す図である。 従来の物体らしさ推定の一例を示す図である。 従来の物体らしさ推定の一例を示す図である。 従来の物体らしさ推定による失敗例を示す図である。 従来の物体らしさ推定による失敗例を示す図である。
 以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
<本実施形態の概要>
 物体らしい領域(物体らしさが高くなるべき領域)とは、単一の物体境界に外接する領域であると考えられ、それを具体化すると、図1に示すように、ある領域が以下3つの条件を満たす場合に、物体らしい領域である、と考えられる。
・条件1:中央領域に物体境界を含まないこと。
・条件2:縁領域に物体境界を含むこと。
・条件3:縁領域の物体境界は均一に分布すること。
 そこで本実施形態では、上記条件がすべて満たされた場合に物体らしさが高くなるよう、物体らしさを算出する。
 ここで、可視光エッジと深度エッジを単純に統合する場合、図2に示すように、中央領域に可視光エッジ(物体の模様)が含まれるため、物体を捉えた領域であっても物体らしさが低くなる。
 画像から物体境界を取得するため、本実施形態では、図3に示すように、可視光エッジと深度エッジを適応的に統合する。表面が滑らかな物体について考えると、可視光エッジは、物体境界以外にも物体の模様から検出される。つまり誤検出が多くなる傾向がある一方、深度エッジは物体境界のみから検出されやすいが、物体が密接している場合には検出されにくい。つまり検出漏れが多くなる傾向があると考えられる。さらに、物体候補領域推定には網羅性が比較的重要視されることを鑑みると、中央領域に関する上記条件1の判定に用いるエッジには、模様の影響により不当に物体らしさが下がらないよう、深度エッジのみを用いることが好ましいと考えられる。また、縁領域に関する上記条件2、条件3の判定には、物体境界の取り漏らしを減らすため、可視光エッジと深度エッジ両方を用いることが望ましいと考えられる。つまり、本実施形態では、上記条件を以下のように具体化し、物体らしさを算出する。
・条件1’:中央領域に深度エッジを含まないこと。
・条件2’:縁領域に可視光エッジもしくは深度エッジを含むこと。
・条件3’:縁領域の可視光エッジもしくは深度エッジは均一に分布すること。
<本実施形態に係る物体らしさ推定装置の構成>
 図4は、本実施形態の物体らしさ推定装置10のハードウェア構成を示すブロック図である。
 図4に示すように、物体らしさ推定装置10は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13、ストレージ14、入力部15、表示部16及び通信インタフェース(I/F)17を有する。各構成は、バス19を介して相互に通信可能に接続されている。
 CPU11は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU11は、ROM12又はストレージ14からプログラムを読み出し、RAM13を作業領域としてプログラムを実行する。CPU11は、ROM12又はストレージ14に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ROM12又はストレージ14には、候補領域の物体らしさを推定するための物体らしさ推定プログラムが格納されている。物体らしさ推定プログラムは、1つのプログラムであっても良いし、複数のプログラム又はモジュールで構成されるプログラム群であっても良い。
 ROM12は、各種プログラム及び各種データを格納する。RAM13は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ14は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。
 入力部15は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。
 入力部15は、対応する可視光画像と深度画像のペアを、入力として受け付ける。ここで、対応する可視光画像と深度画像のペアは、事前に位置合わせされているものとする。
 表示部16は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部16は、タッチパネル方式を採用して、入力部15として機能しても良い。
 通信インタフェース17は、他の機器と通信するためのインタフェースであり、例えば、イーサネット(登録商標)、FDDI、Wi-Fi(登録商標)等の規格が用いられる。
 次に、物体らしさ推定装置10の機能構成について説明する。図5は、物体らしさ推定装置10の機能構成の例を示すブロック図である。
 物体らしさ推定装置10は、機能的には、図5に示すように、領域設定部20、エッジ検出部22、及び物体らしさ算出部24を備えている。
 領域設定部20は、対応する深度画像及び可視光画像のペアについて、候補領域を複数設定する。具体的には、領域設定部20は、画像上の様々な位置、大きさ、及びアスペクト比の矩形を候補領域として設定する。例えば、一辺が300画素の矩形を矩形の縦横幅50%の間隔で走査し、その後、縦を半分の画素数として同様に走査し、その後、横を半分の画素数として同様に走査する、といった処理を一定回数繰り返すことにより、複数の候補領域を設定する。
 エッジ検出部22は、深度画像及び可視光画像の各々のエッジを検出する。エッジ検出方法には有為なものを用いることができる。例えば、参考文献1に記載されている方法を用いることができる。この方法では、各画素がどの程度エッジらしいかというエッジ尤度を0~1の実数値で推定することができる。
[参考文献1]P. Dollar and C. L. Zitnick, “Structured forests for fast edge detection,” in Proc. IEEE Int Conf. on Computer Vision, 2013.
 物体らしさ算出部24は、候補領域の各々について、深度画像における候補領域の縁部のエッジと、可視光画像における候補領域の縁部のエッジと、深度画像における候補領域の中央部のエッジとを用いて、候補領域の前記物体らしさを算出する。
 以下に、物体らしさ算出部24による算出原理について説明する。
 物体らしさ算出部24は、領域設定部20で設定された各候補領域について、ある領域が単一の物体を捉えている度合いである、物体らしさを算出する。以下では、先述した条件1’~条件3’を満たしている度合いを算出すために、各候補領域の中央領域、縁領域のエッジ密度とその均一性を用いる方法について説明する。
 ある候補領域bに対する物体らしさS(b)は下記式で定義される。
Figure JPOXMLDOC01-appb-M000001
 ここで、bout、binはそれぞれ縁領域、中央領域を表し、例えば、領域の高さ、幅をそれぞれα倍(0<α<1)した矩形を領域中央に配置した際の領域を内部、それ以外の領域を縁部として設定される。また、1/ζ(φ(bin))の項は中央領域bin中の深度エッジの密度に標準シグモイド関数ζ(・)を掛けたものであり、条件1’の成立度合いを示す。また、ζ(φrgbd(bout))の項は縁領域bout中の可視光エッジと深度エッジにより算出されたエッジ密度であり、条件2’の成立度合いを示す。さらにurgbd(bout)は縁領域boutに含まれる可視光エッジと深度エッジの均一性であり、条件3’の成立度合いをしめす。wは条件3’をどの程度重視するかの重みであり、任意の実数値を事前に指定する。つまり、条件1’~3’を満たしている度合いが高いほど、物体らしさが大きくなる。以降、各項についてその詳細を説明する。
 ある候補領域bに対する深度のエッジ密度φ(b)は下記式で算出する。
Figure JPOXMLDOC01-appb-M000002
 ここで、bは候補領域bの幅を示し、bは候補領域bの高さを示し、(p,q)∈bは候補領域b中の画素の位置を表す。またE(p,q)は入力された深度エッジ画像のある位置(p,q)の画素値(エッジ尤度)を示す。さらにκは矩形の大きさによる正規化の度合いを調整するパラメータである。次に、ある候補領域bに対する可視光および深度エッジの密度は下記式で定義する。
Figure JPOXMLDOC01-appb-M000003
 ここで、φrgb(b)は、φ(b)と同様に算出された可視光エッジの密度である。最後に、エッジの均一性urgbd(bout)は下記により算出する。
Figure JPOXMLDOC01-appb-M000004
 ここで、bout kはboutがK分割された各領域を表し、
Figure JPOXMLDOC01-appb-I000005

は分割された各領域のエッジ密度の平均を表す。例えば、縁領域を4分割し、物体らしさを算出する場合を図6に示す。
 以上説明した原理に従って、物体らしさ算出部24は、候補領域の各々について、深度画像における候補領域の縁部のエッジ密度及びエッジ均一性と、可視光画像における候補領域の縁部のエッジ密度及びエッジ均一性と、深度画像における候補領域の中央部のエッジ密度とを用いて、候補領域の前記物体らしさを算出する。
 エッジ均一性は、候補領域の縁部を任意の数の領域に分割した際の各領域の、深度画像のエッジ密度と可視光画像のエッジ密度との何れか大きい方のエッジ密度の分散により算出される。また、エッジ密度の分散は、縁部を分割した際の各領域における、深度画像のエッジ密度と可視光画像のエッジ密度との何れか大きい方のエッジ密度と、縁部を分割した各領域における何れか大きい方のエッジ密度の平均とを用いて算出される。
 以上より、物体らしさ算出部24は、深度画像における候補領域の縁部のエッジ密度又は可視光画像における候補領域の縁部のエッジ密度が高く、かつ、深度画像における候補領域の中央部のエッジ密度が低く、かつ、深度画像における候補領域の縁部のエッジ又は可視光画像における候補領域の縁部のエッジが均一であるほど、物体らしさが高くなるように算出する。
<本実施形態に係る物体らしさ推定装置の作用>
 次に、本実施形態に係る物体らしさ推定装置10の作用について説明する。
 図7は、物体らしさ推定装置10による物体らしさ推定処理の流れを示すフローチャートである。CPU11がROM12又はストレージ14から物体らしさ推定プログラムを読み出して、RAM13に展開して実行することにより、物体らしさ推定処理が行なわれる。また、物体らしさ推定装置10に、対応する可視光画像及び深度画像のペアが入力される。
 ステップS100で、CPU11は、領域設定部20として、対応する深度画像及び可視光画像のペアについて、候補領域を複数設定する。
 ステップS102で、CPU11は、エッジ検出部22として、深度画像及び可視光画像の各々のエッジを検出する。
 ステップS104で、CPU11は、物体らしさ算出部24として、領域設定部20で設定された各候補領域について、物体らしさを算出する。そして、CPU11は、物体らしさが上位n個の候補領域を、表示部16により出力し、物体らしさ推定処理を終了する。
 以上説明したように、本実施形態に係る物体らしさ推定装置は、前記深度画像における前記候補領域の縁部のエッジと、前記可視光画像における前記候補領域の縁部のエッジと、前記深度画像における前記候補領域の中央部のエッジとを用いて、前記候補領域の前記物体らしさを算出する。これにより、精度よく、単一の物体を捉えている度合いを示す物体らしさを推定することができる。また、画像から単一の物体のみが含まれる領域を少ない候補数で推定することができる。
 なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
 上記実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した各種処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、物体らしさ推定処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
 また、上記各実施形態では、物体らしさ推定プログラムがストレージ14に予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。
 以上の実施形態に関し、更に以下の付記を開示する。
 (付記項1)
 入力された、対応する深度画像及び可視光画像のペアの、物体が写る領域の候補である候補領域について、単一の物体を捉えている度合いを示す物体らしさを推定する物体らしさ推定装置であって、
 メモリと、
 前記メモリに接続された少なくとも1つのプロセッサと、
 を含み、
 前記プロセッサは、
 前記深度画像及び前記可視光画像のペアについて、前記候補領域を設定し、
 前記深度画像及び前記可視光画像の各々のエッジを検出するエッジ検出を行い、
 前記深度画像における前記候補領域の縁部のエッジと、前記可視光画像における前記候補領域の縁部のエッジと、前記深度画像における前記候補領域の中央部のエッジとを用いて、前記候補領域の前記物体らしさを算出する、
物体らしさ推定装置。
 (付記項2)
 入力された、対応する深度画像及び可視光画像のペアの、物体が写る領域の候補である候補領域について、単一の物体を捉えている度合いを示す物体らしさを推定する物体らしさ推定処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
 前記物体らしさ推定処理は、
 前記深度画像及び前記可視光画像のペアについて、前記候補領域を設定し、
 前記深度画像及び前記可視光画像の各々のエッジを検出するエッジ検出を行い、
 前記深度画像における前記候補領域の縁部のエッジと、前記可視光画像における前記候補領域の縁部のエッジと、前記深度画像における前記候補領域の中央部のエッジとを用いて、前記候補領域の前記物体らしさを算出する、
 非一時的記憶媒体。
10   物体らしさ推定装置
20   領域設定部
22   エッジ検出部
24   物体らしさ算出部

Claims (7)

  1.  入力された、対応する深度画像及び可視光画像のペアの、物体が写る領域の候補である候補領域について、単一の物体を捉えている度合いを示す物体らしさを推定する物体らしさ推定装置であって、
     前記深度画像及び前記可視光画像のペアについて、前記候補領域を設定する領域設定部と、
     前記深度画像及び前記可視光画像の各々のエッジを検出するエッジ検出を行うエッジ検出部と、
     前記深度画像における前記候補領域の縁部のエッジと、前記可視光画像における前記候補領域の縁部のエッジと、前記深度画像における前記候補領域の中央部のエッジとを用いて、前記候補領域の前記物体らしさを算出する物体らしさ算出部と、
     を含む物体らしさ推定装置。
  2.  前記物体らしさ算出部は、前記深度画像における前記候補領域の縁部のエッジ密度及びエッジ均一性と、前記可視光画像における前記候補領域の縁部のエッジ密度及びエッジ均一性と、前記深度画像における前記候補領域の中央部のエッジ密度とを用いて、前記候補領域の前記物体らしさを算出する請求項1記載の物体らしさ推定装置。
  3.  前記エッジ均一性は、前記候補領域の縁部を任意の数の領域に分割した際の各領域の、前記深度画像のエッジ密度と前記可視光画像のエッジ密度との何れか大きい方のエッジ密度の分散により算出される請求項2記載の物体らしさ推定装置。
  4.  前記エッジ密度の分散は、前記縁部を分割した際の各領域における、前記深度画像のエッジ密度と前記可視光画像のエッジ密度との何れか大きい方のエッジ密度と、前記各領域における前記何れか大きい方のエッジ密度の平均とを用いて算出される請求項3記載の物体らしさ推定装置。
  5.  前記物体らしさ算出部は、
     前記深度画像における前記候補領域の縁部のエッジ密度又は前記可視光画像における前記候補領域の縁部のエッジ密度が高く、かつ、
     前記深度画像における前記候補領域の中央部のエッジ密度が低く、かつ、
     前記深度画像における前記候補領域の縁部のエッジ又は前記可視光画像における前記候補領域の縁部のエッジが均一であるほど、前記物体らしさが高くなるように算出する請求項2~請求項4の何れか1項記載の物体らしさ推定装置。
  6.  入力された、対応する深度画像及び可視光画像のペアの、物体が写る領域の候補である候補領域について、単一の物体を捉えている度合いを示す物体らしさを推定する物体らしさ推定方法であって、
     領域設定部が、前記深度画像及び前記可視光画像のペアについて、前記候補領域を設定し、
     エッジ検出部が、前記深度画像及び前記可視光画像の各々のエッジを検出するエッジ検出を行い、
     物体らしさ算出部が、前記深度画像における前記候補領域の縁部のエッジと、前記可視光画像における前記候補領域の縁部のエッジと、前記深度画像における前記候補領域の中央部のエッジとを用いて、前記候補領域の前記物体らしさを算出する
     物体らしさ推定方法。
  7.  入力された、対応する深度画像及び可視光画像のペアの、物体が写る領域の候補である候補領域について、単一の物体を捉えている度合いを示す物体らしさを推定するための物体らしさ推定プログラムであって、
     前記深度画像及び前記可視光画像のペアについて、前記候補領域を設定し、
     前記深度画像及び前記可視光画像の各々のエッジを検出するエッジ検出を行い、
     前記深度画像における前記候補領域の縁部のエッジと、前記可視光画像における前記候補領域の縁部のエッジと、前記深度画像における前記候補領域の中央部のエッジとを用いて、前記候補領域の前記物体らしさを算出する
     ことをコンピュータに実行させるための物体らしさ推定プログラム。
PCT/JP2019/023975 2019-06-17 2019-06-17 物体らしさ推定装置、物体らしさ推定方法、及び物体らしさ推定プログラム WO2020255226A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/023975 WO2020255226A1 (ja) 2019-06-17 2019-06-17 物体らしさ推定装置、物体らしさ推定方法、及び物体らしさ推定プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/023975 WO2020255226A1 (ja) 2019-06-17 2019-06-17 物体らしさ推定装置、物体らしさ推定方法、及び物体らしさ推定プログラム

Publications (1)

Publication Number Publication Date
WO2020255226A1 true WO2020255226A1 (ja) 2020-12-24

Family

ID=74037637

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/023975 WO2020255226A1 (ja) 2019-06-17 2019-06-17 物体らしさ推定装置、物体らしさ推定方法、及び物体らしさ推定プログラム

Country Status (1)

Country Link
WO (1) WO2020255226A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017017431A (ja) * 2015-06-29 2017-01-19 キヤノン株式会社 画像処理装置、情報処理方法及びプログラム
JP2017117341A (ja) * 2015-12-25 2017-06-29 富士通株式会社 物体検出方法、装置、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017017431A (ja) * 2015-06-29 2017-01-19 キヤノン株式会社 画像処理装置、情報処理方法及びプログラム
JP2017117341A (ja) * 2015-12-25 2017-06-29 富士通株式会社 物体検出方法、装置、及びプログラム

Similar Documents

Publication Publication Date Title
US20200007855A1 (en) Stereo Correspondence and Depth Sensors
US9928439B2 (en) Facilitating text identification and editing in images
US9135710B2 (en) Depth map stereo correspondence techniques
US9208547B2 (en) Stereo correspondence smoothness tool
US10169673B2 (en) Region-of-interest detection apparatus, region-of-interest detection method, and recording medium
JP6230442B2 (ja) 算出装置、方法及びプログラム
US9357123B1 (en) Image defocus blur estimation
EP4020391A1 (en) Method and system for automatic characterization of a three-dimensional (3d) point cloud
CN110298858A (zh) 一种图像裁剪方法及装置
WO2015065520A1 (en) Image processor comprising gesture recognition system with computationally-efficient static hand pose recognition
US10089764B2 (en) Variable patch shape synthesis
JP3919808B1 (ja) グリッド方位、変倍、平行移動及び変調の推定に関する処理方法、装置、プログラム、コンピュータ可読媒体
US9959479B2 (en) Image classification for adjustment
Malpica et al. Range image quality assessment by structural similarity
US20150154172A1 (en) Handwritten document processing apparatus and method
WO2020255226A1 (ja) 物体らしさ推定装置、物体らしさ推定方法、及び物体らしさ推定プログラム
US8692804B2 (en) Optical touch system and method
WO2019230965A1 (ja) 物体らしさ推定装置、方法、およびプログラム
JP2014186550A (ja) 画像処理装置、画像処理方法および画像処理プログラム
US10430920B2 (en) Content-conforming stamp tool
US10846878B2 (en) Multi-axis equal spacing smart guides
WO2016142965A1 (ja) 映像処理装置、映像処理方法及び映像処理プログラムを記憶する記録媒体
JP2020071716A (ja) 異常判定方法、特徴量算出方法、外観検査装置
JP5970512B2 (ja) 情報処理方法、情報処理装置、及びプログラム
US10885683B1 (en) Detecting salient geometric constructs from raster representations of sketches

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19933726

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19933726

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP