WO2022130555A1 - 3次元情報推定方法、3次元情報推定装置およびプログラム - Google Patents

3次元情報推定方法、3次元情報推定装置およびプログラム Download PDF

Info

Publication number
WO2022130555A1
WO2022130555A1 PCT/JP2020/047092 JP2020047092W WO2022130555A1 WO 2022130555 A1 WO2022130555 A1 WO 2022130555A1 JP 2020047092 W JP2020047092 W JP 2020047092W WO 2022130555 A1 WO2022130555 A1 WO 2022130555A1
Authority
WO
WIPO (PCT)
Prior art keywords
event
event information
information
time
estimation
Prior art date
Application number
PCT/JP2020/047092
Other languages
English (en)
French (fr)
Inventor
志織 杉本
隆行 黒住
英明 木全
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2022569414A priority Critical patent/JP7376839B2/ja
Priority to PCT/JP2020/047092 priority patent/WO2022130555A1/ja
Publication of WO2022130555A1 publication Critical patent/WO2022130555A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images

Definitions

  • the present invention relates to a three-dimensional information estimation method, a three-dimensional information estimation device, and a program technology.
  • an event-based vision sensor that asynchronously detects the change in the brightness of each pixel and outputs the coordinates, time, and code of the amount of change as event data only for the pixel whose brightness value has changed.
  • a camera equipped with a normal image sensor may be referred to as a frame camera
  • a camera equipped with an event-based vision sensor may be referred to as an event camera.
  • the frame camera outputs the luminance value integrated for each pixel for each frame.
  • the integration time that is, the exposure time and the dynamic range of the signal are the same for all pixels. Therefore, when very bright pixels and dark pixels are mixed, overexposure, clipping, quantization error, and the like occur. In addition, when the brightness of the scene changes drastically due to the influence of lighting, the exposure time cannot be adjusted and overexposure or underexposure may occur.
  • the event camera asynchronously outputs event data every time the brightness change of each pixel exceeds a certain threshold value, problems such as overexposure, clipping, and quantization error do not occur. Further, the event data output from the event camera is very sparse data as compared with the image output from the frame camera. Therefore, the memory for storing the event data and the transmission band for transmitting the event data can be reduced, and a very high time resolution can be achieved. For the same reason, the amount of calculation and power consumption required for shooting and data processing can be suppressed to a very low level as compared with a frame camera.
  • SLAM Simultaneous Localization and Mapping
  • a stationary subject is photographed while moving the camera, and the correspondence between the frames is obtained for the local feature points obtained in each frame, thereby estimating the movement amount of the camera and the three-dimensional position of the feature points.
  • the feature amount is extracted for each pixel of the image and the inter-frame correspondence is estimated for all the feature amounts, so that a very high calculation cost is required.
  • many operations are required to estimate the three-dimensional position in consideration of this.
  • the range of corresponding point search can be made very narrow because the number of data to be processed is small and the time resolution is high. Therefore, when the SLAM method is performed using the event camera, high-speed and stable three-dimensional information can be estimated as compared with the case where the SLAM method is performed using the frame camera.
  • the SLAM method cannot estimate 3D information for the animal body.
  • the stereo method Since event cameras do not have a shutter function, it is difficult to synchronize different event cameras. Further, the event vision sensor is provided with a dormant period during which measurement with the pixel cannot be performed for a certain period after the event is output. Therefore, when the measurement start timings of different event cameras are not the same, the event data pattern is different. In this case, it is difficult to find the correspondence of the patterns.
  • an object of the present invention is to provide a technique for estimating three-dimensional information of an animal body.
  • One aspect of the present invention is a three-dimensional information estimation method in a three-dimensional information estimation device that collects a light beam emitted from one point on the surface of a subject at a plurality of positions on an event-based vision sensor, and is the event-based.
  • An event information acquisition step for acquiring event information including This is a three-dimensional information estimation method including an estimation step for estimating a distance to a subject based on the positions of pixels included in each of the two event information associated with the corresponding step.
  • One aspect of the present invention is a three-dimensional information estimation device that collects a light beam emitted from one point on the surface of a subject at a plurality of positions on an event-based vision sensor, and is one of the pixels of the event-based vision sensor.
  • the event information including the position of the pixel in which the amount of change in the brightness value exceeds a certain value and the time when the amount of change in the brightness value exceeds a certain value is acquired.
  • the corresponding unit that associates the two event information with each other based on the time included in the event information, and the corresponding unit corresponds to the corresponding unit.
  • It is a three-dimensional information estimation device including an estimation unit that estimates a distance to a subject based on the positions of pixels included in each of the two attached event information.
  • One aspect of the present invention is a program for causing a computer to execute a three-dimensional information estimation method.
  • FIG. 1 is a block diagram showing the configuration of the three-dimensional information estimation device 100 in the embodiment.
  • the three-dimensional information estimation device 100 includes an imaging unit 110 and an event processing unit 120.
  • the image pickup unit 110 outputs event data to the event processing unit 120.
  • the event means that the amount of change in the brightness value of the pixel of the event-based vision sensor (hereinafter referred to as “event sensor”) exceeds a certain value.
  • the amount of change per predetermined time is used as the amount of change.
  • the event data also includes the position of the pixel in which the event occurred, the time when the amount of change in the luminance value exceeds a certain value (hereinafter, also referred to as "time stamp"), and the code information indicating the increase / decrease in the luminance value.
  • the code information indicating the increase / decrease of the luminance value shows a plus when the luminance value increases, and shows a minus when the luminance value decreases.
  • events occur without synchronization at each pixel, so event data is also output each time.
  • the event processing unit 120 is composed of an event information acquisition unit 121, a corresponding unit 122, an estimation unit 123, and an event information storage unit 124.
  • the event information acquisition unit 121 acquires the event information output from the image pickup unit 110.
  • the event information acquisition unit 121 stores the acquired event information in the event information storage unit 124.
  • the event information acquisition unit 121 may perform arbitrary filter processing to remove noise.
  • the correspondence unit 122 associates two event information based on the time stamp among the event information stored in the event information storage unit 124 by the event information acquisition unit 121.
  • the associated event information is also expressed as an event set. The method of mapping will be described later.
  • the estimation unit 123 estimates the distance from the three-dimensional information estimation device 100 to the subject based on the positions of the pixels included in each of the two associated event information. From this estimated distance, the three-dimensional information of the subject can be estimated.
  • the three-dimensional information estimation device 100 may output the estimated distance to a higher-level device such as a PC (Personal Computer).
  • FIG. 2 is a diagram showing a schematic configuration of the image pickup unit 110.
  • the image pickup unit 110 includes a lens 111, a mask unit 112, and an event sensor 113. Further, FIG. 2 shows the subject 115 and the focal surface 116.
  • the lens 111 and the mask portion 112 are drawn separately for the sake of clarity, but the actual distance between the lens 111 and the mask portion 112 is almost zero. Further, D, D', C, L, L', and R shown in FIG. 2 will be used in a later description.
  • the mask portion 112 is provided with a plurality of openings 112A and 112B (two in FIG. 2).
  • FIG. 3 is a view of the mask portion 112 as viewed from the optical axis direction.
  • FIG. 3 shows the mask portion 112 and the openings 112A and 112B.
  • the openings 112A and 112B are drawn larger than the actual size. That is, in reality, the diameters of the openings 112A and 112B with respect to the diameter of the mask portion 112 are much smaller than those shown in FIG.
  • the reflected light on the surface of the subject 115 passes through the lens 111, the openings 112A, and 112B, and is collected by the event sensor 113.
  • the openings 112A and 112B allow the imaging unit 110 to focus the light rays emitted from one point on the surface of the subject at a plurality of positions on the event sensor 113.
  • the light beam emitted from one point on the surface of the subject includes not only the light ray emitted by the subject itself but also the light ray reflected on the surface of the subject.
  • the positions of the pixels included in the event information are expressed in XY coordinates in which the event sensor 113 is regarded as two-dimensional coordinates. For example, the coordinates of the pixels located 5 pixels to the right and 3 pixels upward from the pixel corresponding to the origin are (5, 3). Given the pixel pitch p, the distance from the origin (0,0) to, for example, (7,0) is 7p.
  • the light beam emitted from one point of the subject passes through either the openings 112A or 112B and reaches two points on the event sensor 113. If the amount of change in the luminance value exceeds a certain value in the pixels corresponding to the two points on the event sensor 113 reached at this time, the event will occur at the same time or substantially at the same time.
  • Correspondence unit 122 associates such two event information.
  • the timing of associating the event information may be the timing at which new event information is stored in the event information storage unit 124, or the timing at which the event information arrives at regular intervals.
  • the corresponding unit 122 groups the event information including the same code information from the event information generated at a certain time t from the event information, and performs matching to associate the event information from these. Since there are two code information, it may be grouped into two, plus and minus. This group is also referred to as a candidate event group.
  • the difference in time stamps may be within a predetermined range, for example, within a range of an appropriate time threshold value around time t. In this case, when the time threshold value is, for example, T, the time stamp difference is within 2T because the time around time t is from time t ⁇ T to time t + T.
  • time stamp may be different between the events that occurred on different lines.
  • a time threshold may be set in consideration of these deviations, or the opening may be arranged on a horizontal or vertical line so that the event information of the corresponding event is output at the same timing. good.
  • the event information satisfies the time condition (hereinafter, also referred to as “time condition”) included in the event information, and is further grouped by the code information condition (hereinafter, also referred to as “code condition”). .. Therefore, a candidate event group can be obtained when there are a plurality of event information satisfying the time condition and there are a plurality of event information belonging to the same group by grouping according to the code condition.
  • time condition also referred to as “time condition”
  • code condition hereinafter, also referred to as “code condition”.
  • the corresponding unit 122 performs matching in order to determine an event set in the candidate event group. For each candidate event group, a sequential event set may be determined, or optimization may be performed so as to determine all event sets at the same time.
  • the matching method may be any method.
  • the simplest matching method is to arbitrarily select two event information from the candidate event group and use them as an event set.
  • the candidate event group may be narrowed down by another method.
  • narrowing down there is a method of defining an epipolar line based on the arrangement of openings when matching a certain event information, and using only the event information generated on the epipolar line as a candidate. In this case, since it is sufficient to process only the event information generated on the epipolar line, the processing amount can be reduced.
  • template matching performed in general image processing, a cross-correlation method, a method using a neural network, and the like can be considered.
  • the event information that occurred at the same position as or near the position included in the event information belonging to the candidate event group and at the time before and after the type stamp included in the event information may be used for matching.
  • a constraint condition may be given to the event information used for matching based on the event set determined by using the event information generated at the time before and after and the already estimated three-dimensional information.
  • the code information has a correspondence relationship between the positive event set and the negative event set
  • matching may be performed between the positive candidate event group and the negative event candidate group. For example, matching may be performed using event information in which the code information having the same time stamp is positive and event information in which the code information is negative.
  • the event information may be output from X at a timing different from the event information output from X_A and X_B. At this time, the number of event data output within a certain time from the timing when the event information is output from X and the change pattern of the luminance value are considered to be related to the combination of the two light change patterns.
  • X_A and X_B for which the above relationship is established can be associated with each other. Since the code information may differ between the change in the luminance value corresponding to A and the change in the luminance value corresponding to B, matching is performed using two groups of positive candidate events and negative event candidates. May be good.
  • the distance between the lens 111 and the opening 112A is set to 0, and similarly, the distance between the lens 111 and the opening 112B is set to 0.
  • f be the focal length of the lens 111
  • L be the distance between the lens 111 and the event sensor 113.
  • D be the distance from the lens 111 to the in-focus position.
  • A be the distance between the opening 112A and the opening 112B.
  • D' be the distance between the subject 115 and the lens 111.
  • the 3D information estimation device 100 estimates the distance from the 3D information estimation device 100 to the subject.
  • FIGS. 4 and 5 are flowcharts showing the flow of three-dimensional information estimation processing.
  • the flowcharts shown in FIGS. 4 and 5 show a processing flow when the timing of associating the event information is the timing of storing new event information in the event information storage unit 124.
  • step S101 when an event occurs (step S101: YES), the event information acquisition unit 121 acquires the event information output from the image pickup unit 110 (step S102). The event information acquisition unit 121 stores the acquired event information in the event information storage unit 124 (step S103). The event information acquisition unit 121 transmits an event occurrence MSG (message) indicating that an event has occurred to the corresponding unit 122 (step S104), and returns to the process of step S101.
  • MSG message
  • the existence of a plurality of event information satisfying the above-mentioned time condition is expressed as the existence of the time condition satisfaction information. Further, the existence of a plurality of event information belonging to the same group due to grouping by the code condition is expressed as the existence of the code condition satisfaction information.
  • step S201 when the corresponding unit 122 receives the event occurrence MSG from the event information acquisition unit 121 (step S201: YES), the corresponding unit 122 determines whether or not the time condition satisfaction information exists (step S202). .. If the time condition satisfaction information does not exist (step S202: NO), the corresponding unit 122 ends the process.
  • step S203 determines whether or not the code condition satisfaction information exists. If the code condition satisfaction information does not exist (step S203: NO), the corresponding unit 122 ends the process.
  • step S204 the corresponding unit 122 performs the matching described above (step S204).
  • the estimation unit 123 estimates the distance from the three-dimensional information estimation device 100 to the subject using the above (4) (step S205), and ends the process.
  • the distance from the 3D information estimation device 100 to the subject is estimated, so that the 3D information of the subject can be estimated.
  • the mask portion 112 having the openings 112A and 112B may be located between the lens 111 and the subject. Further, when the lens 111 is composed of a plurality of lenses, the mask portion 112 may be located between the lenses. Further, the subject may be in front of the focal plane.
  • a laser scanning projector may be used as the illumination to irradiate the subject. Since the laser scanning projector moves the laser irradiation position at high speed, even if it seems to be illuminated over a wide area to the naked eye, in reality, only one point is illuminated at all times. Therefore, since there are at most two event information at any time t, they are determined as they are as an event set.
  • the subject may be illuminated with discrete dot patterns using any projector.
  • the arrangement and dot pattern of the openings so that the distance between the set of points that reach the event sensor from one of the dots through the opening is sufficiently smaller than the distance between the adjacent dots. Matching can be performed without considering that the arrival points overlap. Further, since more event information can be obtained by switching such lighting at high speed, more dense three-dimensional information can be obtained.
  • the mask portion 112 has two openings 112A and 112B, but may have three or more openings.
  • As the arrangement position of the opening for example, a position where the centers of the openings are all on the same straight line can be mentioned.
  • the apex of the triangle can be mentioned as the arrangement position of the openings.
  • a microlens array or other optical element may be used to allow a plurality of images to reach the event sensor.
  • a camera equipped with a normal image sensor (hereinafter referred to as a “frame camera”) is provided with an opening similar to that of the present embodiment, the image sensor superimposes and observes two images, so that each opening is observed. Three-dimensional information estimation is impossible unless the images are separated by associating them with different color channels.
  • the camera provided with the event sensor (hereinafter referred to as “event camera”) observes the amount of change in brightness generated when the subject, lighting, and event camera move. Therefore, since the event occurs only in a limited part, it is unlikely that the events corresponding to the two images are superimposed.
  • the event processing unit 120 may be configured by using a processor such as a CPU (Central Processing Unit) and a memory. In this case, the event processing unit 120 functions as the event processing unit 120 by executing the program by the processor. All or part of each function of the event processing unit 120 may be realized by using hardware such as ASIC (Application Specific Integrated Circuit), PLD (Programmable Logic Device), and FPGA (Field Programmable Gate Array). ..
  • the above program may be recorded on a computer-readable recording medium.
  • Computer-readable recording media include, for example, flexible disks, magneto-optical disks, ROMs, CD-ROMs, portable media such as semiconductor storage devices (for example, SSD: Solid State Drive), hard disks and semiconductor storage built in computer systems. It is a storage device such as a device.
  • the above program may be transmitted over a telecommunication line.
  • the present invention is applicable to a three-dimensional information estimation device equipped with an event-based vision sensor.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Processing (AREA)

Abstract

本発明の一態様は、イベントベースビジョンセンサの画素のうち、輝度値の変化量が一定値を超えた場合に、輝度値の変化量が一定値を超えた画素の位置と、輝度値の変化量が一定値を超えた時刻とを含むイベント情報を取得するイベント情報取得ステップと、イベント情報取得ステップにより取得された複数のイベント情報のうち、イベント情報に含まれる時刻に基づいて2つのイベント情報を対応付ける対応ステップと、対応ステップにより対応付けられた2つのイベント情報のそれぞれに含まれる画素の位置に基づき、被写体までの距離を推定する推定ステップと、を備えた3次元情報推定方法である。

Description

3次元情報推定方法、3次元情報推定装置およびプログラム
 本発明は、3次元情報推定方法、3次元情報推定装置およびプログラムの技術に関する。
 各画素の輝度変化を非同期で検出し、輝度値が変化した画素についてのみ、その座標、時間、及び変化量の符号をイベントデータとして出力するイベントベースビジョンセンサがある。以下では通常のイメージセンサを備えるカメラをフレームカメラ、イベントベースビジョンセンサを備えるカメラをイベントカメラと表現することがある。
 フレームカメラは、各画素に積算された輝度値をフレームごとに出力する。フレームカメラにおいて、積算時間すなわち露光時間と信号のダイナミックレンジは全ての画素で同じである。そのため、非常に明るい画素と暗い画素が混在している場合、白飛び、黒つぶれや量子化誤差等が生じる。また、照明の影響などでシーンの明度が激しく変化する場合、露光時間の調整ができずに白飛びや黒つぶれが生じることもある。
 一方、イベントカメラは、各画素の輝度変化が一定のしきい値を超える度に非同期でイベントデータを出力するため、白飛び、黒つぶれ、量子化誤差等の問題が生じない。また、イベントカメラから出力されるイベントデータはフレームカメラから出力される画像に比べて非常に疎なデータである。そのためイベントデータを記憶するメモリや、イベントデータを伝送するための伝送帯域が少なく済み、非常に高い時間分解能を達成することができる。同様の理由により、撮影やデータ処理に要する演算量や消費電力量は、フレームカメラと比較して非常に低く抑えることができる。
 以上より、イベントカメラを用いることで、光量が少ない状況や照明の変化が激しい状況において安定的に、低電力で、また非常に高い時間分解能でマシンビジョンを行うことができる。
 イベントカメラを用いた3次元位置推定方法として、SLAM(Simultaneous Localization and Mapping)法がある(非特許文献1参照)。SLAM法では、カメラを動かしながら静止した被写体を撮影し、各フレームで求めた局所特徴点についてフレーム間での対応関係を求めることで、カメラの移動量と特徴点の3次元位置を推定する。
 フレームカメラを用いてSLAM法を行う場合、画像の各画素について特徴量を抽出し、全ての特徴量についてフレーム間対応の推定をするため、非常に高い演算コストがかかる。また、対応関係の誤推定が多く生じることから、これを考慮して3次元位置の推定を行うために、多くの演算が必要となる。
 イベントカメラを用いてSLAM法を行う場合、処理対象のデータ数を少なく、また時間分解能が高いことで対応点探索を行う範囲を非常に狭くできる。よって、イベントカメラを用いてSLAM法を行う場合には、フレームカメラを用いてSLAM法を行う場合と比較して、高速で安定した3次元情報を推定できる。
フリー百科事典「ウィキペディア(Wikipedia)」、"SLAM"[令和2年12月2日検索]、インターネット(URL: https://ja.wikipedia.org/wiki/SLAM)
 しかしながら、SLAM法では動物体に対して3次元情報を推定できない。動物体に対して3次元情報を推定する場合は、ステレオ法を用いることが考えられる。イベントカメラはシャッター機能を持たないため、異なるイベントカメラ同士で同期を行うことは難しい。またイベントビジョンセンサにはイベント出力後一定期間その画素での測定を行うことができない休眠期間が設けられている。そのため、異なるイベントカメラ同士で測定開始タイミングが同時でない場合は、イベントデータのパターンが異なる。この場合、パターンの対応関係を求めることは難しい。
 このように、イベントカメラを用いて動物体の3次元情報を推定することは困難であるという課題があった。
 上記事情に鑑み、本発明は、動物体の3次元情報を推定する技術の提供を目的としている。
 本発明の一態様は、被写体表面上の1点から発せられた光線をイベントベースビジョンセンサ上の複数の位置に集光させる3次元情報推定装置における3次元情報推定方法であって、前記イベントベースビジョンセンサの画素のうち、輝度値の変化量が一定値を超えた場合に、輝度値の変化量が一定値を超えた画素の位置と、輝度値の変化量が一定値を超えた時刻とを含むイベント情報を取得するイベント情報取得ステップと、前記イベント情報取得ステップにより取得された複数の前記イベント情報のうち、前記イベント情報に含まれる時刻に基づいて2つの前記イベント情報を対応付ける対応ステップと、前記対応ステップにより対応付けられた2つの前記イベント情報のそれぞれに含まれる画素の位置に基づき、被写体までの距離を推定する推定ステップと、を備えた3次元情報推定方法である。
 本発明の一態様は、被写体表面上の1点から発せられた光線をイベントベースビジョンセンサ上の複数の位置に集光させる3次元情報推定装置であって、前記イベントベースビジョンセンサの画素のうち、輝度値の変化量が一定値を超えた場合に、輝度値の変化量が一定値を超えた画素の位置と、輝度値の変化量が一定値を超えた時刻とを含むイベント情報を取得するイベント情報取得部と、前記イベント情報取得部により取得された複数の前記イベント情報のうち、前記イベント情報に含まれる時刻に基づいて2つの前記イベント情報を対応付ける対応部と、前記対応部により対応付けられた2つの前記イベント情報のそれぞれに含まれる画素の位置に基づき、被写体までの距離を推定する推定部と、を備えた3次元情報推定装置である。
 本発明の一態様は、3次元情報推定方法をコンピュータに実行させるためのプログラムである。
 本発明により、動物体の3次元情報を推定することが可能となる。
3次元情報推定装置の構成を示すブロック図である。 撮像部の概略構成を示す図である マスク部を光軸方向から見た図である。 3次元情報推定処理の流れを示すフローチャートである。 3次元情報推定処理の流れを示すフローチャートである。
 本発明の実施形態について、図面を参照して詳細に説明する。
 図1は、実施形態における3次元情報推定装置100の構成を示すブロック図である。3次元情報推定装置100は、撮像部110、およびイベント処理部120で構成される。撮像部110は、イベントが発生した時に、イベントデータをイベント処理部120に出力する。ここで、イベントとは、イベントベースビジョンセンサ(以下、「イベントセンサ」という)の画素の輝度値の変化量が一定値を超えたことを示す。本実施形態では、変化量として、所定時間当たりの変化量を用いている。
 またイベントデータは、イベントが発生した画素の位置、輝度値の変化量が一定値を超えた時刻(以下、「タイムスタンプ」ともいう)、および輝度値の増減を示す符号情報を含む。輝度値の増減を示す符号情報は、輝度値が増加した場合にはプラスを示し、減少した場合にマイナスを示す。一般的な被写体では、イベントは各画素で同期することなく発生するため、イベントデータもその都度出力される。
 イベント処理部120は、イベント情報取得部121、対応部122、推定部123、およびイベント情報記憶部124で構成される。イベント情報取得部121は、撮像部110から出力されたイベント情報を取得する。イベント情報取得部121は、取得したイベント情報をイベント情報記憶部124に記憶する。なお、イベント情報取得部121は、任意のフィルタ処理を行ってノイズ除去を行ってもよい。
 対応部122は、イベント情報取得部121によりイベント情報記憶部124に記憶されたイベント情報のうち、タイムスタンプに基づいて2つのイベント情報を対応付ける。対応付けられたイベント情報をイベントセットとも表現する。対応付けの方法については後述する。
 推定部123は、対応付けられた2つのイベント情報のそれぞれに含まれる画素の位置に基づき、3次元情報推定装置100から被写体までの距離を推定する。この推定された距離により、被写体の3次元情報を推定できる。3次元情報推定装置100は、推定した距離を、例えばPC(Personal Computer)などの上位装置に出力してもよい。
 図2は、撮像部110の概略構成を示す図である。撮像部110は、レンズ111、マスク部112、およびイベントセンサ113で構成される。また、図2には、被写体115、および合焦面116が示されている。なお、図2では、説明を分かりやすくするためにレンズ111とマスク部112とが離して描かれているが、実際のレンズ111とマスク部112との距離は、ほぼ零である。また、図2に記載されているD、D'、C、L、L'、Rについては、後の説明で用いられる。
 マスク部112には、複数(図2では2つ)の開口部112A、112Bが設けられている。図3は、マスク部112を光軸方向から見た図である。図3には、マスク部112と、開口部112A、112Bが示されている。なお、開口部112A、112Bは実際の大きさよりも大きく描かれている。すなわち、実際には、マスク部112の直径に対する開口部112A、112Bの直径は、図3に示されている場合よりもはるかに小さい。
 図2において、被写体115の表面における反射光は、レンズ111、開口部112A、112Bを通過してイベントセンサ113に集光される。このように、開口部112A、112Bにより、撮像部110は、被写体表面上の1点から発せられた光線をイベントセンサ113上の複数の位置に集光させる。なお、被写体表面上の1点から発せられた光線とは、被写体自らが発する光線の他に、被写体表面に反射した光線も含む。イベント情報に含まれる画素の位置は、イベントセンサ113を2次元座標とみなしたXY座標で表現される。例えば、原点に対応する画素から右方向に5画素、上方向に3画素に位置する画素の座標は(5、3)となる。画素のピッチpが与えられると、原点(0、0)から例えば(7、0)の距離は、7pとなる。
 ここで、対応部122の対応付けの方法について説明する。図2に示されるように、被写体のある1点から出た光線は、開口部112A、112Bのいずれかを通過してイベントセンサ113上の2点に到達する。このとき到達したイベントセンサ113上の2点に対応する画素において、輝度値の変化量が一定値を超えた場合、同時刻またはほぼ同時刻にイベントが発生することとなる。対応部122は、このような2つのイベント情報を対応付ける。イベント情報を対応付けるタイミングは、イベント情報記憶部124に新たなイベント情報が記憶されたタイミングでもよいし、一定時間ごとに到来するタイミングであっても良い。
 対応部122は、イベント情報から、ある時刻tに発生したイベント情報のうち、同一の符号情報を含むイベント情報をグループ化し、これらからイベント情報を対応付けるマッチングを行う。符号情報は2つあるので、プラスとマイナスの2つにグループ化されることもある。このグループを候補イベント群とも表現する。
 なお、時刻tに発生したイベント情報として、タイムスタンプが時刻tと完全一致するイベント情報だけとしてもよいし、タイムスタンプの差が所定範囲内のイベント情報だけとしてもよい。なお、タイムスタンプの差が所定範囲内として、例えば時刻t周辺の適当な時間しきい値の範囲に収まることが挙げられる。この場合、時間しきい値を例えばTの場合、時刻t周辺は、時刻t-Tから時刻t+Tまでであることから、タイムスタンプの差は2T以内となる。
 イベントセンサ113の仕様によっては、センサ上の水平またや垂直のラインごとにイベント情報を出力する。そのため、異なるラインで発生したイベントの間でタイムスタンプにずれが生じることがある。これらのずれを考慮して時間しきい値を設けてもよいし、開口部を水平または垂直のライン上に配置することで、対応するイベントのイベント情報が同じタイミングで出力されるようにしてもよい。
 このように、イベント情報は、当該イベント情報に含まれる時刻に関する条件(以下、「時刻条件」ともいう)を満たし、さらに符号情報に関する条件(以下、「符号条件」ともいう)によりグループ化される。したがって、時刻条件を満たすイベント情報が複数存在し、かつ符号条件によるグループ化によって同じグループに属するイベント情報が複数存在した場合に候補イベント群が得られる。
 次に、対応部122は、候補イベント群の中でイベントセットを決定するために、マッチングを行う。各候補イベント群に対し、逐次イベントセットを決定しても良いし、全てのイベントセットを同時に決定するような最適化を行ってもよい。
 マッチングの方法はどのような方法でも良い。最も単純なマッチングの方法は、候補イベント群の中から任意に2つのイベント情報を選択し、それらイベントセットとする方法である。また、例えば、候補イベント群を更に別の方法で絞り込んでもよい。絞り込む例として、あるイベント情報についてマッチングを行う際に開口部の配置に基づいてエピポーラ線を定義し、エピポーラ線上で発生したイベント情報のみを候補とする方法が上がられる。この場合、エピポーラ線上で発生したイベント情報のみに対して処理を行えばよいので、処理量を削減することができる。その他のマッチングの方法として、一般的な画像処理で行われるテンプレートマッチングや、相互相関法、ニューラルネットワークを使う方法などが考えられる。
 なお、候補イベント群に属するイベント情報に含まれる位置と同じ位置またはその近傍の位置で、イベント情報に含まれるタイプスタンプの前後の時刻で発生したイベント情報をマッチングで使用してもよい。前後の時刻で発生したイベント情報を用いて決定されたイベントセットや既に推定された3次元情報に基づいて、マッチングに用いるイベント情報に拘束条件を与えてもよい。また、符号情報がプラスのイベントセットとマイナスのイベントセットの間に対応関係があるとして、プラスの候補イベント群とマイナスのイベント候補群の2つでマッチングを行ってもよい。例えば、タイムスタンプが一致する符号情報がプラスのイベント情報と符号情報がマイナスのイベント情報とを用いてマッチングを行ってもよい。
 なお、被写体上の点Aと点Bから出た光がイベントセンサ113に到達した際に、到達点のどちらかが重なる場合を考慮したマッチングを行うこともできる。重なった点をX、重なっていない方の点をX_A、X_Bとする。Xでは2つの光の光量の合計に応じて輝度値が変化する。このため、X_A、X_Bからイベント情報が出力するとは異なるタイミングでXからイベント情報が出力されることもある。このとき、Xからイベント情報が出力されるタイミングから一定時間内に出力されるイベントデータの個数と、輝度値の変化パターンは、2つの光の変化パターンを合成したものと関係するものとみなす。これにより、前記関係が成立するX_A、X_Bを対応付けることができる。Aに対応する輝度値の変化とBに対応する輝度値の変化において、符号情報が異なることもあり得るため、プラスの候補イベント群とマイナスのイベント候補群の2つを用いてマッチングを行ってもよい。
 上述した図2を用いて、3次元情報推定装置100から被写体までの距離の推定方法について説明する。まず、図2おいて、レンズ111と開口部112Aとの距離を0とし、同様にレンズ111と開口部112Bとの距離を0とする。レンズ111の焦点距離をf、レンズ111とイベントセンサ113との距離をLとする。レンズ111から合焦位置までの距離をDとする。開口部112Aと開口部112Bとの間の距離をAとする。被写体115とレンズ111と距離をD'とする。
 開口部112Aと開口部112Bのそれぞれを通過した光線が交差する面とレンズとの距離をL'とし、それぞれの光線がイベントセンサ113に到達した点同士の距離をCとする。なお、上述したように開口部112A、112Bの大きさはごく小さいことから、イベントセンサ113上に到達した点のボケはごく小さく、互いに重ならないものとする。このときレンズの結像公式に基づくと下記(1)が成り立つ。
Figure JPOXMLDOC01-appb-M000001
 また、R、C、L'、Lの間には下記(2)が成り立つ。
Figure JPOXMLDOC01-appb-M000002
 上記(1)(2)から、下記(3)に示されるようにD'が求まる。
Figure JPOXMLDOC01-appb-M000003
 よっては、画素のピッチをpとし、光線がイベントセンサ113に到達した点同士間の座標上での距離をΔxとすると、上記(3)は、下記(4)となる。
Figure JPOXMLDOC01-appb-M000004
 この(4)に示した数式を用いて、3次元情報推定装置100は、3次元情報推定装置100から被写体までの距離を推定する。
 以上説明した3次元情報推定装置100により実行される処理の流れをフローチャートを用いて説明する。図4、図5は、3次元情報推定処理の流れを示すフローチャートである。なお、図4、図5に示されるフローチャートは、イベント情報を対応付けるタイミングを、イベント情報記憶部124に新たなイベント情報が記憶されたタイミングとした場合の処理の流れを示す。
 図4において、イベント情報取得部121は、イベントが発生すると(ステップS101:YES)、撮像部110から出力されるイベント情報を取得する(ステップS102)。イベント情報取得部121は、取得したイベント情報をイベント情報記憶部124に記憶する(ステップS103)。イベント情報取得部121は、イベントが発生したことを示すイベント発生MSG(メッセージ)を対応部122に送信し(ステップS104)、ステップS101の処理に戻る。
 次に、図5のフローチャートについて説明する。なお、図5のフローチャートでは、上述した時刻条件を満たすイベント情報が複数存在することを、時刻条件満足情報が存在する、と表現する。また、符号条件によるグループ化によって同じグループに属するイベント情報が複数存在することを、符号条件満足情報が存在する、と表現する。
 図5において、対応部122は、イベント情報取得部121からイベント発生MSGを受信すると(ステップS201:YES)、対応部122は、時刻条件満足情報が存在するか否かを判定する(ステップS202)。時刻条件満足情報が存在しない場合には(ステップS202:NO)、対応部122は、処理を終了する。
 時刻条件満足情報が存在する場合には(ステップS202:YES)、対応部122は、符号条件満足情報が存在するか否かを判定する(ステップS203)。符号条件満足情報が存在しない場合には(ステップS203:NO)、対応部122は、処理を終了する。符号条件満足情報が存在する場合には(ステップS203:YES)、対応部122は、上述したマッチングを行う(ステップS204)。推定部123は、上記(4)を用いて3次元情報推定装置100から被写体までの距離を推定し(ステップS205)、処理を終了する。
 以上説明した3次元情報推定処理が、イベントが発生するたびに実行されることで、3次元情報推定装置100から被写体までの距離が推定されることから、被写体の3次元情報を推定できる。
 上述した実施形態において、開口部112A、112Bを有するマスク部112は、レンズ111と被写体の間にあるものとしてもよい。また、レンズ111が複数のレンズで構成される場合、マスク部112は、レンズとレンズの間にあるものとしてもよい。さらに、被写体が合焦面より手前にあるものとしてもよい。
 また、被写体に照射する照明としてレーザー走査式プロジェクタを用いてもよい。レーザー走査式プロジェクタではレーザーの照射位置を高速で動かすため、肉眼では広い範囲に照明があたっているように見える場合でも、実際は常に1点にしか照明があたっていない。したがっていずれの時刻tにおいても、イベント情報は高々2つしか存在しないため、それらがそのままイベントセットとして決定される。
 また、任意のプロジェクタを利用して離散的なドットパターンの照明を被写体に照射してもよい。ドットの一つから開口部を通してイベントセンサ上に到達する点のセット同士の距離が、隣り合うドットとの距離よりも十分に小さくなるように、開口部の配置とドットパターンを設計することで、到達点が重なることを考慮せずにマッチングを行うことができる。また、このような照明を高速で切り替えることによってより多くのイベント情報が得られるため、より密な3次元情報を得ることができる。
 また、本実施形態では、マスク部112は、2つの開口部112A、112Bを有しているが、3つ以上の開口部を有するようにしてもよい。開口部の配置位置として、例えば開口部の中心が全て同一直線上となる位置が挙げられる。開口部が3つの場合には、開口部の配置位置として、三角形の頂点が挙げられる。
 また、開口部に代えて、マイクロレンズアレイやその他の光学素子を使用して複数の像をイベントセンサ上に到達させるようにしてもよい。
 なお、通常のイメージセンサを備えるカメラ(以下、「フレームカメラ」という)に、本実施形態と同様の開口部を設ける場合、イメージセンサにおいて2つの像が重畳して観測されるため、各開口部を互いに異なるカラーチャンネルに対応させて像を分離するなどしない限り3次元情報推定は不可能である。
 一方、本実施形態の3次元情報推定装置100と同様に、イベントセンサを備えるカメラ(以下、「イベントカメラ」という)は被写体、照明、イベントカメラが動いた際に発生する輝度の変化量を観測するため、限られた部分でしかイベントが発生しないことから2つの像に対応するイベントが重畳する可能性が低い。
 また、フレームカメラの出力画像でマッチングを行う場合、基本的に一画素の輝度情報でのマッチングは困難であるため、空間的に隣接した画素の輝度情報も使用するブロックマッチングを行う。イベントカメラでは一画素について輝度の変化を非常に高い分解能で観測するため、その変化パターンである時系列データを使用することで隣接画素の情報を使用せずにマッチングを行うことができる。したがって、イベントセンサでは、2つの像に対応するイベントの発生位置がごく近くに位置などの理由でブロックマッチングが不可能であっても探索が容易である。
 以上の理由により、イベントカメラに複数の開口部を設けることで、フレームカメラでの同様の構成では不可能な、単一のチャンネルで3次元情報を推定することができる。
 イベント処理部120は、CPU(Central Processing Unit)等のプロセッサーとメモリとを用いて構成されてもよい。この場合、イベント処理部120は、プロセッサーがプログラムを実行することによって、イベント処理部120として機能する。なお、イベント処理部120の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されても良い。上記のプログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM、半導体記憶装置(例えばSSD:Solid State Drive)等の可搬媒体、コンピュータシステムに内蔵されるハードディスクや半導体記憶装置等の記憶装置である。上記のプログラムは、電気通信回線を介して送信されてもよい。
 以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
 本発明は、イベントベースビジョンセンサを備えた3次元情報推定装置に適用可能である。
100…3次元情報推定装置、110…撮像部、111…レンズ、112…マスク部、112A、112B…開口部、113…イベントセンサ、115…被写体、116…合焦面、120…イベント処理部、121…イベント情報取得部、122…対応部、123…推定部、124…イベント情報記憶部

Claims (6)

  1.  被写体表面上の1点から発せられた光線をイベントベースビジョンセンサ上の複数の位置に集光させる3次元情報推定装置における3次元情報推定方法であって、
     前記イベントベースビジョンセンサの画素のうち、輝度値の変化量が一定値を超えた場合に、輝度値の変化量が一定値を超えた画素の位置と、輝度値の変化量が一定値を超えた時刻とを含むイベント情報を取得するイベント情報取得ステップと、
     前記イベント情報取得ステップにより取得された複数の前記イベント情報のうち、前記イベント情報に含まれる時刻に基づいて2つの前記イベント情報を対応付ける対応ステップと、
     前記対応ステップにより対応付けられた2つの前記イベント情報のそれぞれに含まれる画素の位置に基づき、被写体までの距離を推定する推定ステップと、
     を備えた3次元情報推定方法。
  2.  前記イベント情報は、輝度値の増減を示す符号情報を含み、
     前記対応ステップは、同一の符号情報を含む前記イベント情報から2つの前記イベント情報を対応付ける請求項1に記載の3次元情報推定方法。
  3.  前記対応ステップは、前記イベント情報に含まれる時刻が同じ時刻、または前記イベント情報に含まれる時刻の差が所定範囲内の2つの前記イベント情報を対応付ける請求項1または請求項2に記載の3次元情報推定方法。
  4.  前記推定ステップは、2つの前記イベント情報のそれぞれに含まれる画素の位置の距離を用いて被写体までの距離を推定する請求項1から請求項3のいずれか1項に記載の3次元情報推定方法。
  5.  被写体表面上の1点から発せられた光線をイベントベースビジョンセンサ上の複数の位置に集光させる3次元情報推定装置であって、
     前記イベントベースビジョンセンサの画素のうち、輝度値の変化量が一定値を超えた場合に、輝度値の変化量が一定値を超えた画素の位置と、輝度値の変化量が一定値を超えた時刻とを含むイベント情報を取得するイベント情報取得部と、
     前記イベント情報取得部により取得された複数の前記イベント情報のうち、前記イベント情報に含まれる時刻に基づいて2つの前記イベント情報を対応付ける対応部と、
     前記対応部により対応付けられた2つの前記イベント情報のそれぞれに含まれる画素の位置に基づき、被写体までの距離を推定する推定部と、
     を備えた3次元情報推定装置。
  6.  請求項1から請求項4のいずれか1項に記載の3次元情報推定方法をコンピュータに実行させるためのプログラム。
PCT/JP2020/047092 2020-12-17 2020-12-17 3次元情報推定方法、3次元情報推定装置およびプログラム WO2022130555A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022569414A JP7376839B2 (ja) 2020-12-17 2020-12-17 3次元情報推定方法、3次元情報推定装置およびプログラム
PCT/JP2020/047092 WO2022130555A1 (ja) 2020-12-17 2020-12-17 3次元情報推定方法、3次元情報推定装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/047092 WO2022130555A1 (ja) 2020-12-17 2020-12-17 3次元情報推定方法、3次元情報推定装置およびプログラム

Publications (1)

Publication Number Publication Date
WO2022130555A1 true WO2022130555A1 (ja) 2022-06-23

Family

ID=82059231

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/047092 WO2022130555A1 (ja) 2020-12-17 2020-12-17 3次元情報推定方法、3次元情報推定装置およびプログラム

Country Status (2)

Country Link
JP (1) JP7376839B2 (ja)
WO (1) WO2022130555A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017522669A (ja) * 2014-07-24 2017-08-10 ユニヴァーシテト チューリッヒ シーンのキーポイントを追跡する方法
JP2018522348A (ja) * 2015-11-02 2018-08-09 三菱電機株式会社 センサーの3次元姿勢を推定する方法及びシステム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017522669A (ja) * 2014-07-24 2017-08-10 ユニヴァーシテト チューリッヒ シーンのキーポイントを追跡する方法
JP2018522348A (ja) * 2015-11-02 2018-08-09 三菱電機株式会社 センサーの3次元姿勢を推定する方法及びシステム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ANTONI, ROSINOL VIDAL: "Ultimate SLAM? Combining Events, Images, and IMU for Robust Visual SLAM in HDR and High-Speed Scenarios", IEEE ROBOTICS AND AUTOMATION LETTERS, vol. 3, no. 2, April 2018 (2018-04-01), pages 994 - 1001, XP081307192 *
JAVIER, HIDALGO CARRIO: "Learning Monocular Dense Depth from Events", IEEE INTERNATIONAL CONFERENCE ON 3D VISION, 22 October 2020 (2020-10-22), pages 1 - 10, XP033880254 *

Also Published As

Publication number Publication date
JP7376839B2 (ja) 2023-11-09
JPWO2022130555A1 (ja) 2022-06-23

Similar Documents

Publication Publication Date Title
KR101223046B1 (ko) 정지장면의 연속프레임 영상에 기반한 영상분할장치 및 방법
JP6786225B2 (ja) 画像処理装置、撮像装置および画像処理プログラム
JP2019016275A (ja) 画像処理方法、画像処理プログラム、記憶媒体、画像処理装置、および撮像装置
KR101737518B1 (ko) 구조광 기반 3차원 카메라의 최적 노출 시간 및 횟수 결정 방법과 시스템
TW201421419A (zh) 用於深度假影之消除之影像處理方法及設備
JP6239855B2 (ja) 焦点調節装置、焦点調節方法およびプログラム、並びに撮像装置
CN104065859A (zh) 一种全景深图像的获取方法及摄像装置
WO2019184184A1 (zh) 目标图像获取***与方法
US20140118556A1 (en) Detection system
US11803982B2 (en) Image processing device and three-dimensional measuring system
JP2020036310A (ja) 画像処理方法、画像処理装置、撮像装置、レンズ装置、プログラム、記憶媒体、および、画像処理システム
JP2016075658A (ja) 情報処理システムおよび情報処理方法
CN110390645A (zh) 用于立体瞬时图像序列的改善3d数据重构的***和方法
US11348271B2 (en) Image processing device and three-dimensional measuring system
JP6877936B2 (ja) 処理装置、処理システム、撮像装置、処理方法、プログラム、および記録媒体
JP2013126135A (ja) ステレオ画像生成装置、ステレオ画像生成方法及びステレオ画像生成用コンピュータプログラム
WO2022130555A1 (ja) 3次元情報推定方法、3次元情報推定装置およびプログラム
JP2004133919A (ja) 擬似3次元画像生成装置および生成方法並びにそのためのプログラムおよび記録媒体
JP6395429B2 (ja) 画像処理装置、その制御方法及び記憶媒体
JP2017158018A (ja) 画像処理装置およびその制御方法、撮像装置
JP6642998B2 (ja) 像ズレ量算出装置、撮像装置、および像ズレ量算出方法
JP6362070B2 (ja) 画像処理装置、撮像装置、画像処理方法、プログラム、および、記憶媒体
US11295464B2 (en) Shape measurement device, control method, and recording medium
JP2020030569A (ja) 画像処理方法、画像処理装置、撮像装置、レンズ装置、プログラム、および、記憶媒体
JP2023035612A (ja) 推定装置、方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20965943

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022569414

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20965943

Country of ref document: EP

Kind code of ref document: A1