WO2015135323A1 - 一种摄像机跟踪方法及装置 - Google Patents

一种摄像机跟踪方法及装置 Download PDF

Info

Publication number
WO2015135323A1
WO2015135323A1 PCT/CN2014/089389 CN2014089389W WO2015135323A1 WO 2015135323 A1 WO2015135323 A1 WO 2015135323A1 CN 2014089389 W CN2014089389 W CN 2014089389W WO 2015135323 A1 WO2015135323 A1 WO 2015135323A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
coordinate system
matching feature
feature points
camera
Prior art date
Application number
PCT/CN2014/089389
Other languages
English (en)
French (fr)
Inventor
鲁亚东
章国锋
鲍虎军
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Publication of WO2015135323A1 publication Critical patent/WO2015135323A1/zh
Priority to US15/263,668 priority Critical patent/US20160379375A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C11/00Photogrammetry or videogrammetry, e.g. stereogrammetry; Photographic surveying
    • G01C11/04Interpretation of pictures
    • G01C11/06Interpretation of pictures by comparison of two or more pictures of the same area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • G06T2207/10021Stereoscopic video; Stereoscopic image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Definitions

  • the present invention relates to the field of computer vision, and in particular, to a camera tracking method and apparatus.
  • Camera tracking is one of the most basic problems in the field of computer vision. According to the video sequence captured by the camera, the three-dimensional position of the feature points in the shooting scene and the camera motion parameters corresponding to each frame of the image are estimated.
  • camera tracking technology has a wide range of applications, such as robot navigation, intelligent positioning, virtual and real combination, augmented reality, 3D scene browsing, etc.; in order to adapt to the application of camera tracking in various fields, after decades of efforts, some cameras Tracking systems have also been introduced, such as PTAM (Parallel Tracking and Mapping), ACTS (Automatic Camera Tracking System) and so on.
  • FIG. 1 is a schematic diagram of camera tracking based on a monocular video sequence in the prior art, such as As shown in FIG.
  • the relative positions (R 12 , t 12 ) between the two initial frame images corresponding to the cameras are estimated by using the matching points (x 1,1 , x 1,2 ) of the initial frame 1 image and the initial frame 2 image;
  • the initialization matching point (x 1,1 ,x 1,2 ) corresponds to the three-dimensional position of the scene point X 1 ; when tracking the subsequent frame, the corresponding relationship between the known three-dimensional point position and the two-dimensional point in the subsequent frame image is used to solve the subsequent Camera motion parameters of the frame; however, there is an error in the relative position (R 12, t 12 ) between the cameras initialized in the camera tracking based on the monocular video sequence, and these errors are passed to the estimation of subsequent frames via the uncertainty of the scene. Therefore, the error accumulates in the tracking of subsequent frames, which is difficult to eliminate and the tracking accuracy is low.
  • Embodiments of the present invention provide a camera tracking method and device, which use a binocular video image for camera tracking, which improves tracking accuracy.
  • an embodiment of the present invention provides a camera tracking method, including:
  • an image set of a current frame wherein the image set includes a first image and a second image, the first image and the second image being respectively at a same time by the first camera and the second camera of the binocular camera The image taken;
  • the random sampling consistency algorithm RANSAC and the LM algorithm are used to optimize the motion parameters of the binocular camera in the next frame.
  • the first image and the second image in the image set of the current frame are acquired according to a principle that the depths of adjacent scenes on the image are similar in depth
  • the set of matching feature points including:
  • the number of votes corresponding to each side is counted, and the set of matching feature points corresponding to the feature points connected by the positive side is used as the matching feature point set between the first image and the second image.
  • the acquiring a candidate matching feature point set between the first image and the second image include:
  • the estimating, according to the attribute parameter of the binocular camera and the preset model, respectively, the scene point corresponding to each pair of matching feature points is locally in the current frame.
  • the three-dimensional position of the coordinate system and the three-dimensional position of the next frame local coordinate system including:
  • the three-dimensional position of the scene point corresponding to the matching feature point in the current frame local coordinate system and the three-dimensional position of the next frame local coordinate system Estimating the motion parameters of the binocular camera in the next frame by using the centroid coordinates for the invariance of the rigid transform, including:
  • centroid coordinate is used to represent the three-dimensional position of the scene point corresponding to the matching feature point in the next frame local coordinate system: among them, The coordinates of the control point in the next frame local coordinate system;
  • the random sampling consistency algorithm RANSAC and the LM algorithm are used to optimize motion parameters of the binocular camera in a next frame, including:
  • the recalculated motion parameters are taken as initial values, according to the optimization formula:
  • the motion parameters (R t , T t ) of the binocular camera in the next frame are calculated.
  • an embodiment of the present invention provides a camera tracking method, including:
  • the video sequence comprises at least two frames of images, the image set comprising a first image and a second image, the first image and the second image being respectively the first by a binocular camera An image taken at the same time by the camera and the second camera;
  • the method according to the third possible implementation manner of the first aspect separately estimates a three-dimensional position of a scene point corresponding to each pair of matching feature points in a local coordinate system of each frame;
  • the motion parameters of the camera in each frame are optimized according to the three-dimensional position of the scene point corresponding to each pair of matching feature points in each frame of the local coordinate system and the motion parameters of the binocular camera in each frame.
  • the scene point corresponding to each pair of matching feature points is in a three-dimensional position of each frame local coordinate system and the binocular camera is in each frame Motion parameters that optimize camera motion parameters at each frame, including:
  • an embodiment of the present invention provides a camera tracking device, including:
  • a first acquisition module an image set for acquiring a current frame; wherein the image set includes a first image and a second image, the first image and the second image are respectively a first camera by a binocular camera An image taken at the same time as the second camera;
  • An extracting module configured to respectively extract feature points of the first image and the second image in the image set of the current frame acquired by the first acquiring module; wherein the number of feature points of the first image and the second image The number of feature points is equal;
  • a second acquiring module configured to acquire a matching feature between the first image and the second image in the image set of the current frame from the feature points extracted by the extraction module according to the principle that the depths of the adjacent regions on the image are similar Point set
  • a first estimating module configured to estimate, according to the attribute parameter of the binocular camera and the preset model, a scene point corresponding to each pair of matching feature points in the matched feature point set acquired by the second acquiring module, respectively, in a current frame local coordinate system The three-dimensional position and the three-dimensional position of the next frame local coordinate system;
  • a second estimation module a three-dimensional position of the scene point corresponding to the matching feature point estimated by the first estimation module in the current frame local coordinate system and a three-dimensional position of the next frame local coordinate system, using the centroid coordinate for the rigid transformation Immutation estimates the motion parameters of the binocular camera in the next frame;
  • the optimization module is configured to optimize the motion parameter of the camera in the next frame estimated by the second estimation module by using a random sampling consistency algorithm RANSAC and an LM algorithm.
  • the second acquiring module is specifically configured to:
  • the number of votes corresponding to each side is counted, and the set of matching feature points corresponding to the feature points connected by the positive side is used as the matching feature point set between the first image and the second image.
  • the second acquiring module is specifically configured to:
  • the first estimating module is specifically configured to:
  • the second estimating module is specifically configured to:
  • centroid coordinate is used to represent the three-dimensional position of the scene point corresponding to the matching feature point in the next frame local coordinate system: among them, The coordinates of the control point in the local coordinate system of the next frame;
  • the optimization module is specifically configured to:
  • the recalculated motion parameters are taken as initial values, according to the optimization formula:
  • the motion parameters (R t , T t ) of the binocular camera in the next frame are calculated.
  • an embodiment of the present invention provides a camera tracking device, including:
  • a first acquiring module configured to acquire a video sequence; wherein the video sequence includes at least two frames of images, the image set includes a first image and a second image, and the first image and the second image are respectively An image taken at the same time by the first camera and the second camera of the binocular camera;
  • a second acquiring module configured to respectively acquire a matching feature point set between the first image and the second image in each image set;
  • a first estimating module configured to separately estimate a three-dimensional position of a scene point corresponding to each pair of matching feature points in a local coordinate system of each frame;
  • a second estimation module configured to separately estimate motion parameters of the binocular camera in each frame
  • the optimization module is configured to optimize the motion parameter of the camera in each frame according to the three-dimensional position of the scene point corresponding to each pair of matching feature points in each frame of the local coordinate system and the motion parameters of the binocular camera in each frame.
  • the optimization module is specifically configured to:
  • an embodiment of the present invention provides a camera tracking apparatus, including:
  • Binocular camera an image set for acquiring a current frame; wherein the image set includes a first image and a second image, the first image and the second image being respectively a first camera and a camera by a binocular camera An image taken by the second camera at the same time;
  • a processor respectively for extracting feature points of the first image and the second image in the image set of the current frame acquired by the binocular camera; wherein the number of feature points of the first image and the second image The number of feature points is equal;
  • the random sampling consistency algorithm RANSAC and the LM algorithm are used to optimize the motion parameters of the camera estimated by the processor in the next frame.
  • the processor is specifically configured to:
  • the number of votes corresponding to each side is counted, and the set of matching feature points corresponding to the feature points connected by the positive side is used as the matching feature point set between the first image and the second image.
  • the processor is specifically configured to:
  • the processor is specifically configured to:
  • I t, ieft (x), I t, and right (x) are respectively the first image in the current frame image set
  • the second image respectively has a luminance value at x
  • W is a preset constant for indicating a partial window size.
  • the processor is specifically configured to:
  • centroid coordinate is used to represent the three-dimensional position of the scene point corresponding to the matching feature point in the next frame local coordinate system: among them, The coordinates of the control point in the next frame local coordinate system;
  • the processor is specifically configured to:
  • the recalculated motion parameters are taken as initial values, according to the optimization formula:
  • the motion parameters (R t , T t ) of the binocular camera in the next frame are calculated.
  • an embodiment of the present invention provides a camera tracking device, including:
  • Binocular camera for acquiring a video sequence; wherein the video sequence includes at least two frames of images, the image set includes a first image and a second image, and the first image and the second image are respectively An image taken by the first camera and the second camera of the binocular camera at the same time;
  • a processor configured to respectively acquire a matching feature point set between the first image and the second image in each image set;
  • the motion parameters of the camera in each frame are optimized according to the three-dimensional position of the scene point corresponding to each pair of matching feature points in each frame of the local coordinate system and the motion parameters of the binocular camera in each frame.
  • the processor is specifically configured to:
  • an embodiment of the present invention provides a camera tracking method and apparatus, which acquires an image set of a current frame, where the image set includes a first image and a second image.
  • the first image and the second image are respectively images captured by the first camera and the second camera of the binocular camera at the same time; respectively extracting the first image and the second image of the image set of the current frame a feature point; wherein the number of feature points of the first image is equal to the number of feature points of the second image; acquiring the image set of the current frame according to a principle that the depth of the adjacent region of the image is similar a set of matching feature points between an image and a second image; estimating, according to the attribute parameters of the binocular camera and the preset model, respectively, the three-dimensional position of the scene point corresponding to each pair of matching feature points in the current frame local coordinate system and The three-dimensional position of a frame local coordinate system; based on the three-dimensional position of the scene point corresponding to the matching feature point in the current frame local coordinate
  • FIG. 1 is a schematic diagram of camera tracking based on a monocular video sequence in the prior art
  • FIG. 2 is a flowchart of a camera tracking method according to an embodiment of the present invention.
  • FIG. 3 is a flowchart of a camera tracking method according to an embodiment of the present invention.
  • FIG. 4 is a structural diagram of a camera tracking device according to an embodiment of the present invention.
  • FIG. 5 is a structural diagram of a camera tracking device according to an embodiment of the present invention.
  • FIG. 6 is a structural diagram of a camera tracking device according to an embodiment of the present invention.
  • FIG. 7 is a structural diagram of a camera tracking device according to an embodiment of the present invention.
  • FIG. 1 is a flowchart of a method for tracking a camera according to an embodiment of the present invention. As shown in FIG. 2, the following steps may be included:
  • the image set includes a first image and a second image, where the first image and the second image are respectively a first camera and a second camera of a binocular camera Images taken at the same time.
  • the image set of the current frame belongs to a video sequence captured by the binocular camera; the video sequence is a set of image sets captured by a binocular camera over a period of time.
  • the feature point generally refers to a point where the gray level changes sharply in the image, including a maximum point of curvature change on the contour of the object, an intersection of the straight line, an isolated point on the monotonous background, and the like;
  • the feature points of the first image and the second image in the image set of the current frame are respectively extracted by using a scale-invariant feature transform (STFI) algorithm, and the process of extracting the feature points in the first image is For example:
  • STFI scale-invariant feature transform
  • is the scale coordinate
  • the large scale corresponds to the profile of the image
  • the small scale Should be the detailed features of the image
  • the DoG operator is defined as the difference of Gaussian kernels of two different scales:
  • the edge response points among all the candidate feature points and the feature points with poor contrast and stability are removed, and the remaining feature points are used as feature points of the first image.
  • a scale factor m and a main rotation direction ⁇ are assigned to each feature point by using a gradient direction distribution characteristic of the pixel of the feature point domain, so that the operator has scale and rotation invariance;
  • the coordinate axis of the plane coordinate system is rotated to the main direction of the feature point, and a square image area with a side length of 20 s and aligned with ⁇ is sampled around the feature point x, and the area is equally divided into 16 4 ⁇
  • Dx and dy respectively represent Haar wavelets in the x and y directions (the filter width is 2 s).
  • the acquiring a set of matching feature points between the first image and the second image in the image set of the current frame according to the principle that the scenes of the adjacent regions on the image are similar in depth may include:
  • the first image corresponding to the candidate feature point set is obtained.
  • the 100 feature points x left, 1 ⁇ x left any three feature points in 100 are connected into a triangle, and each connection cannot cross each other during the connection process, forming a network composed of multiple triangles. Grid.
  • the first preset threshold is set according to experimental experience, which is not limited by the present invention; if the ratio of the height of the triangle to the bottom is less than the first preset threshold, the depth of the scene corresponding to the triangle vertex is determined. The change is not large, and may conform to the principle that the depths of adjacent scenes on the image are similar. If the ratio of the height of the triangle to the bottom is greater than or equal to the first preset threshold, the depth of the scene corresponding to the triangle vertex varies greatly, possibly It does not conform to the principle that the depth of adjacent scenes on the image is similar, and the matching feature points cannot be selected according to the principle.
  • the second preset threshold is also set according to experimental experience, which is not limited by the present invention; if the difference between the parallaxes between the two feature points is less than the second preset threshold, it means that between the two feature points The depth of the scene is similar; if the difference of the parallax between the two feature points is greater than or equal to the second preset threshold, it means that the scene depth between the two feature points changes greatly, and there is a mismatch.
  • the feature points of all edges with positive votes are: x left, 20 ⁇ x left, 80 , which will match the feature points (x left, 20 , x right, 20 ) ⁇ (x left, 80, x right, a set of 80 ) as a set of matching feature points between the first image and the second image.
  • the acquiring the candidate matching feature point set between the first image and the second image includes:
  • the three-dimensional position of the scene point corresponding to each pair of matching feature points in the current frame local coordinate system and the three-dimensional position of the next frame local coordinate system are respectively estimated according to the attribute parameters of the binocular camera and the preset model.
  • the iterative algorithm is used to solve the optimization formula 2, and the specific process is as follows:
  • g t+1, left (x), g t+1, and right (x) are the image gradients of the left and right images of the t+1 frame at x, respectively.
  • a Gaussian pyramid is built on the image using a Graphic Processing Unit (GPU), and the formula is first solved on the low resolution image. Further optimization is performed on the high resolution image; the number of pyramid layers is set to 2 in the experiment.
  • GPU Graphic Processing Unit
  • the scene point corresponding to the matching feature point is in a current frame office
  • the three-dimensional position of the coordinate system of the part and the three-dimensional position of the local coordinate system of the next frame are used to estimate the motion parameters of the binocular camera in the next frame by using the centroid coordinates for the invariance of the rigid transformation, which may include:
  • the random sampling consistency algorithm RANSAC and the LM algorithm are used to optimize the motion parameters of the binocular camera in the next frame, which may include:
  • the recalculated motion parameters are taken as initial values, according to the optimization formula:
  • the motion parameters (R t , T t ) of the binocular camera in the next frame are calculated; wherein n′ is the number of interior points obtained by the RANSAC algorithm.
  • an embodiment of the present invention provides a camera tracking method, which acquires an image set of a current frame, where the image set includes a first image and a second image, and the first image and the second image are respectively First camera and second camera by binocular camera An image taken at the same time; respectively extracting feature points of the first image and the second image in the image set of the current frame; wherein the number of feature points of the first image and the feature points of the second image Obtaining an equal number; acquiring a matching feature point set between the first image and the second image in the image set of the current frame according to a principle that the depths of adjacent scenes on the image are similar; according to the attribute parameters of the binocular camera and the pre- The model is respectively used to estimate the three-dimensional position of the scene point corresponding to each pair of matching feature points in the current frame local coordinate system and the three-dimensional position of the next frame local coordinate system; according to the scene point corresponding to the matching feature point in the current frame local coordinate system The three-dimensional position and the three-
  • FIG. 3 is a flowchart of a method for tracking a camera according to an embodiment of the present invention. As shown in FIG. 3, the following steps may be included:
  • the image set includes a first image and a second image, where the first image and the second image are respectively by a binocular camera An image taken at the same time by the first camera and the second camera.
  • the method for acquiring a matching feature point set between the first image and the second image in each frame image set and the matching feature between the first image and the second image in the current frame image set are obtained in the first embodiment.
  • the method of the point set is the same and will not be described here.
  • the method for estimating the three-dimensional position of the scene point corresponding to each pair of matching feature points in the local coordinate system of each frame is the same as step 204 in the first embodiment, and is no longer ⁇ Said.
  • the method for estimating the motion parameter of the binocular camera in each frame is the same as the method for calculating the motion parameter of the binocular camera in the next frame in Embodiment 1, and details are not described herein again.
  • the three-dimensional position of the scene point corresponding to each pair of matching feature points in each frame of the local coordinate system and the motion parameters of the binocular camera in each frame are used to optimize the motion parameters of the camera in each frame, including: Optimization formula:
  • an embodiment of the present invention provides a camera tracking method, which acquires a video sequence, where the video sequence includes at least two frames of images, the image set includes a first image and a second image, and the first image And the second image is an image captured by the first camera and the second camera of the binocular camera at the same time; respectively acquiring a matching feature point set between the first image and the second image in each frame image set; respectively Estimating the three-dimensional position of the scene point corresponding to each pair of matching feature points in each frame local coordinate system; estimating the motion parameters of each binocular camera in each frame separately; according to the scene points corresponding to each pair of matching feature points in each frame local coordinate system The three-dimensional position and the motion parameters of the binocular camera in each frame optimize the camera's motion parameters in each frame. In this way, the binocular video image is used for camera tracking, which improves the tracking accuracy; and avoids the defect that the tracking precision is low in the camera tracking based on the monocular video sequence in the prior art.
  • FIG. 4 is a structural diagram of a camera tracking device 40 according to an embodiment of the present invention. As shown in FIG. 4, the method includes:
  • a first acquisition module 401 an image set for acquiring a current frame; wherein the image set includes a first image and a second image, the first image and the second image being respectively the first by a binocular camera An image taken at the same time by the camera and the second camera.
  • the image set of the current frame belongs to a video sequence captured by the binocular camera; the video sequence is a set of image sets captured by a binocular camera over a period of time.
  • the extracting module 402 is configured to respectively extract feature points of the first image and the second image in the image set of the current frame acquired by the first acquiring module 401; wherein the number of feature points of the first image and the number The number of feature points of the two images is equal.
  • the feature point generally refers to a point where the gray level changes sharply in the image, including the maximum point of curvature change on the contour of the object, the intersection of the straight line, the orphan point on the monotonous background, and the like.
  • the second obtaining module 403 is configured to acquire, between the first image and the second image in the image set of the current frame, from the feature points extracted by the extraction module 402 according to the principle that the depths of the adjacent regions on the image are similar. Match feature point sets.
  • a first estimating module 404 configured to estimate, according to the attribute parameter of the binocular camera and the preset model, respectively, the scene point corresponding to each pair of matching feature points in the matching feature point set acquired by the second acquiring module 403 is locally in the current frame The three-dimensional position of the coordinate system and the three-dimensional position of the local coordinate system of the next frame.
  • a second estimation module 405 configured to use the centroid coordinate for the rigid transformation according to the three-dimensional position of the scene point corresponding to the matching feature point estimated by the first estimation module in the current frame local coordinate system and the three-dimensional position of the next frame local coordinate system The invariance estimates the motion parameters of the binocular camera in the next frame.
  • the optimization module 406 is configured to optimize the motion parameter of the camera in the next frame estimated by the second estimation module by using a random sampling consistency algorithm RANSAC and an LM algorithm.
  • the extracting module 402 is specifically configured to: respectively extract feature points of the first image and the second image in the image set of the current frame by using an STFI algorithm, and take a process of extracting feature points in the first image as an example. Be explained:
  • is the scale coordinate
  • the large scale corresponds to the profile feature of the image
  • the small scale corresponds to the detail feature of the image
  • the DoG operator is defined as the difference of the Gaussian kernel of two different scales:
  • the edge response points among all the candidate feature points and the feature points with poor contrast and stability are removed, and the remaining feature points are used as feature points of the first image.
  • a scale factor m and a main rotation direction ⁇ are assigned to each feature point by using a gradient direction distribution characteristic of the pixel of the feature point domain, so that the operator has scale and rotation invariance;
  • the coordinate axis of the plane coordinate system is rotated to the main direction of the feature point, and a square image area with a side length of 20 s and aligned with ⁇ is sampled around the feature point x, and the area is equally divided into 16 4 ⁇ 4 sub-regions, calculate ⁇ dx, ⁇
  • four components, then the feature point x corresponds to a description number 16 16 ⁇ 4 64 ⁇ ; where dx, dy respectively represent Haar wavelet corresponding in the x, y direction (filter width For 2s).
  • the second obtaining module 403 is specifically configured to:
  • the first image corresponding to the candidate feature point set is obtained.
  • the 100 feature points x left, 1 ⁇ x left any three feature points in 100 are connected into a triangle, and each connection cannot cross each other during the connection process, forming a network composed of multiple triangles. Grid.
  • the first preset threshold is set according to experimental experience, which is not limited by the present invention; if the ratio of the height of the triangle to the bottom is less than the first preset threshold, the depth of the scene corresponding to the triangle vertex is determined. The change is not large, and may conform to the principle that the depths of adjacent scenes on the image are similar. If the ratio of the height of the triangle to the bottom is greater than or equal to the first preset threshold, the depth of the scene corresponding to the triangle vertex varies greatly, possibly It does not conform to the principle that the depth of adjacent scenes on the image is similar, and the matching feature points cannot be selected according to the principle.
  • the second preset threshold is also set according to experimental experience, which is not limited by the present invention; if the difference between the parallaxes between the two feature points is less than the second preset threshold, it means that between the two feature points The depth of the scene is similar; if the parallax between two feature points If the difference is greater than or equal to the second preset threshold, it indicates that the scene depth between the two feature points changes greatly, and there is a mismatch.
  • all feature points with positive votes are: x left, 20 ⁇ x left, 80 , which will match feature points (x left, 20 , x right, 20 ) ⁇ (x left, 80 , x right, a set of 80 ) as a set of matching feature points between the first image and the second image.
  • the acquiring the candidate matching feature point set between the first image and the second image includes:
  • the first estimating module 404 is specifically configured to:
  • the iterative algorithm is used to solve the optimization formula 2, and the specific process is as follows:
  • X t+1 at this time is a three-dimensional position of the scene point corresponding to the matching feature point in the local coordinate system of the next frame.
  • g t+1, left (x), g t+1, and right (x) are the image gradients of the left and right images of the t+1 frame at x, respectively.
  • a Gaussian pyramid is built on the image using a Graphic Processing Unit (GPU), and the formula is first solved on the low resolution image. Further optimization on the high resolution image, the number of pyramid layers is set to 2 in the experiment.
  • GPU Graphic Processing Unit
  • the second estimation module 405 is specifically configured to:
  • optimization module 406 is specifically configured to:
  • the recalculated motion parameters are taken as initial values, according to the optimization formula:
  • the motion parameters (R t , T t ) of the binocular camera in the next frame are calculated; wherein n′ is the number of interior points obtained by the RANSAC algorithm.
  • an embodiment of the present invention provides a camera tracking device 40, which acquires a video sequence; wherein the video sequence includes at least two frames of images, the image set includes a first image and a second image, the first The image and the second image are respectively images captured by the first camera and the second camera of the binocular camera at the same time; respectively acquiring a matching feature point set between the first image and the second image in each frame image set; Estimating, respectively, a three-dimensional position of a scene point corresponding to each pair of matching feature points in a local coordinate system of each frame; respectively estimating motion parameters of each binocular camera in each frame; corresponding to each pair of matching feature points The scene point is in the three-dimensional position of the local coordinate system of each frame and the motion parameters of the binocular camera in each frame, and the motion parameters of the camera in each frame are optimized.
  • the binocular video image is used for camera tracking, which improves the tracking accuracy; and avoids the defect that the tracking precision is low in the camera tracking based
  • FIG. 5 is a structural diagram of a camera tracking device 50 according to an embodiment of the present invention. As shown in FIG. 5, the method includes:
  • a first acquiring module 501 configured to acquire a video sequence, where the video sequence includes at least two frames of images, the image set includes a first image and a second image, where the first image and the second image are respectively An image taken at the same time by the first camera and the second camera of the binocular camera.
  • the second obtaining module 502 is configured to separately acquire a set of matching feature points between the first image and the second image in each image set.
  • the first estimating module 503 is configured to separately estimate a three-dimensional position of the scene point corresponding to each pair of matching feature points in each frame local coordinate system.
  • the second estimation module 504 is configured to separately estimate motion parameters of the binocular camera in each frame.
  • the optimization module 505 is configured to optimize the motion parameter of the camera in each frame according to the three-dimensional position of the scene point corresponding to each pair of matching feature points in each frame of the local coordinate system and the motion parameters of the binocular camera in each frame.
  • the second obtaining module 502 is specifically configured to acquire each frame by using the same method as the method for acquiring a matching feature point set between the first image and the second image in the current frame image set in the first embodiment.
  • a method for matching feature point sets between a first image and a second image in an image set is not described herein again.
  • the first estimation module 503 is specifically configured to estimate the three-dimensional position of the scene point corresponding to each pair of matching feature points in the local coordinate system of each frame in the same manner as the step 204 in the first embodiment, and details are not described herein again.
  • the second estimation module 504 is specifically configured to estimate the binocular phase by the same method as the method for calculating the motion parameter of the binocular camera in the next frame in the first embodiment.
  • the motion parameters of the machine in each frame will not be described here.
  • optimization module 505 is specifically configured to:
  • an embodiment of the present invention provides a camera tracking device 50, which acquires a video sequence; wherein the video sequence includes at least two frames of image sets, the image set includes a first image and a second image, the first The image and the second image are respectively images captured by the first camera and the second camera of the binocular camera at the same time; respectively acquiring a matching feature point set between the first image and the second image in each frame image set; Estimating the three-dimensional position of the scene point corresponding to each pair of matching feature points in each frame local coordinate system; respectively estimating the motion parameters of the binocular camera in each frame; and the local coordinates of each scene corresponding to the scene points corresponding to each pair of matching feature points The three-dimensional position of the system and the motion parameters of the binocular camera in each frame optimize the camera's motion parameters in each frame. In this way, the binocular video image is used for camera tracking, which improves the tracking accuracy; and avoids the defect that the tracking precision is low in the camera tracking based on the monocular video
  • FIG. 6 is a structural diagram of a camera tracking device 60 according to an embodiment of the present invention.
  • the camera tracking device 60 may include: a processor 601, a memory 602, a binocular camera 603, and at least one communication bus 604. For the connection and mutual communication between these devices;
  • the processor 601 may be a central processing unit (English: central processing unit, referred to as CPU).
  • the memory 602 may be a volatile memory (English: volatile memory), such as random access memory (English: random-access memory, abbreviation: RAM); or non-volatile memory (English: non-volatile memory), for example Read-only memory (English: read-only memory, abbreviation: ROM), flash memory (English: Flash memory), hard disk drive (English: hard disk drive, HDD) or solid state drive (English: solid-state drive, abbreviated: SSD); or a combination of the above types of memory, and provides instructions and data to the processor 1001.
  • volatile memory such as random access memory (English: random-access memory, abbreviation: RAM); or non-volatile memory (English: non-volatile memory), for example Read-only memory (English: read-only memory, abbreviation: ROM), flash memory (English: Flash memory), hard disk drive (English: hard disk drive, HDD) or solid state drive (English: solid-state drive, abbreviated: SSD); or a combination of the above types of memory, and provides instructions and
  • Binocular camera 603 an image set for acquiring a current frame; wherein the image set includes a first image and a second image, the first image and the second image being respectively a first camera by a binocular camera An image taken at the same time as the second camera.
  • the image set of the current frame belongs to a video sequence captured by the binocular camera; the video sequence is a set of image sets captured by a binocular camera over a period of time.
  • the processor 601 is configured to separately extract feature points of the first image and the second image in the image set of the current frame acquired by the binocular camera 603; wherein the number of feature points of the first image and the second The number of feature points of the image is equal;
  • the random sampling consistency algorithm RANSAC and the LM algorithm are used to optimize the motion parameters of the camera estimated by the second estimation module in the next frame.
  • the feature point generally refers to a point where the gray level changes sharply in the image, including the maximum point of curvature change on the contour of the object, the intersection of the straight line, the orphan point on the monotonous background, and the like.
  • the processor 601 is specifically configured to: separately extract feature points of the first image and the second image in the image set of the current frame by using an STFI algorithm, and take a process of extracting feature points in the first image as an example. Be explained:
  • Gaussian difference The operator searches on the full scale and the image position to initially determine the key position and the scale.
  • the scale space of the first image at different scales is defined as the image I(x, y) and the Gaussian kernel G (x, y, Convolution of ⁇ ):
  • is the scale coordinate
  • the large scale corresponds to the profile feature of the image
  • the small scale corresponds to the detail feature of the image
  • the DoG operator is defined as the difference of the Gaussian kernel of two different scales:
  • the edge response points among all the candidate feature points and the feature points with poor contrast and stability are removed, and the remaining feature points are used as feature points of the first image.
  • a scale factor m and a main rotation direction ⁇ are assigned to each feature point by using a gradient direction distribution characteristic of the pixel of the feature point domain, so that the operator has scale and rotation invariance;
  • the coordinate axis of the plane coordinate system is rotated to the main direction of the feature point, and a square image area with a side length of 20 s and aligned with ⁇ is sampled around the feature point x, and the area is equally divided into 16 4 ⁇ 4 sub-regions, calculate ⁇ dx, ⁇
  • four components, then the feature point x corresponds to a description number 16 16 ⁇ 4 64 ⁇ ; where dx, dy respectively represent Haar wavelet corresponding in the x, y direction (filter width For 2s).
  • processor 601 is specifically configured to:
  • the first image corresponding to the candidate feature point set is obtained.
  • the 100 feature points x left, 1 ⁇ x left any three feature points in 100 are connected into a triangle, and each connection cannot cross each other during the connection process, forming a network composed of multiple triangles. Grid.
  • the first preset threshold is set according to experimental experience, which is not limited by the present invention; if the ratio of the height of the triangle to the bottom is less than the first preset threshold, the depth of the scene corresponding to the triangle vertex is determined. The change is not large, and may conform to the principle that the depths of adjacent scenes on the image are similar. If the ratio of the height of the triangle to the bottom is greater than or equal to the first preset threshold, the depth of the scene corresponding to the triangle vertex varies greatly, possibly It does not conform to the principle that the depth of adjacent scenes on the image is similar, and the matching feature points cannot be selected according to the principle.
  • the second preset threshold is also set according to experimental experience, which is not limited by the present invention; if the difference between the parallaxes between the two feature points is less than the second preset threshold, it means that between the two feature points The depth of the scene is similar; if the parallax between two feature points If the difference is greater than or equal to the second preset threshold, it indicates that the scene depth between the two feature points changes greatly, and there is a mismatch.
  • the feature points of all edges with positive votes are: x left, 20 ⁇ x left, 80 , which will match the feature points (x left, 20 , x right, 20 ) ⁇ (x left, 80, x right, a set of 80 ) as a set of matching feature points between the first image and the second image.
  • the acquiring the candidate matching feature point set between the first image and the second image includes:
  • processor 601 is specifically configured to:
  • the iterative algorithm is used to solve the optimization formula 2, and the specific process is as follows:
  • g t+1, left (x), g t+1, and right (x) are the image gradients of the left and right images of the t+1 frame at x, respectively.
  • a Gaussian pyramid is built on the image using a Graphic Processing Unit (GPU), and the formula is first solved on the low resolution image. Further optimization on the high resolution image, the number of pyramid layers is set to 2 in the experiment.
  • GPU Graphic Processing Unit
  • processor 601 is specifically configured to:
  • processor 601 is specifically configured to:
  • the recalculated motion parameters are taken as initial values, according to the optimization formula:
  • the motion parameters (R t , T t ) of the binocular camera in the next frame are calculated; wherein n′ is the number of interior points obtained by the RANSAC algorithm.
  • an embodiment of the present invention provides a camera tracking device 60, which acquires a video sequence, where the video sequence includes at least two frames of images, the image set includes a first image and a second image, the first The image and the second image are respectively images captured by the first camera and the second camera of the binocular camera at the same time; respectively acquiring a matching feature point set between the first image and the second image in each frame image set; Estimating, respectively, a three-dimensional position of a scene point corresponding to each pair of matching feature points in a local coordinate system of each frame; respectively estimating motion parameters of each binocular camera in each frame; corresponding to each pair of matching feature points The scene point is in the three-dimensional position of the local coordinate system of each frame and the motion parameters of the binocular camera in each frame, and the motion parameters of the camera in each frame are optimized.
  • the binocular video image is used for camera tracking, which improves the tracking accuracy; and avoids the defect that the tracking precision is low in the camera tracking based on
  • FIG. 7 is a structural diagram of a camera tracking device 70 according to an embodiment of the present invention.
  • the camera tracking device may include: a processor 701, a memory 702, a binocular camera 703, and at least one communication bus 704. Used to implement connections and mutual communication between these devices;
  • the processor 701 may be a central processing unit (English: central processing unit, referred to as CPU);
  • the memory 702 may be a volatile memory (English: volatile memory), such as random access memory (English: random-access memory, abbreviation: RAM); or non-volatile memory (English: non-volatile memory), for example Read-only memory (English: read-only memory, abbreviation: ROM), flash memory (English: flash memory), hard disk (English: hard disk drive, abbreviation: HDD) or solid state drive (English: solid-state drive, abbreviation :SSD); or a combination of the above types of memory, and providing instructions and data to the processor 1001;
  • volatile memory such as random access memory (English: random-access memory, abbreviation: RAM); or non-volatile memory (English: non-volatile memory), for example Read-only memory (English: read-only memory, abbreviation: ROM), flash memory (English: flash memory), hard disk (English: hard disk drive, abbreviation: HDD) or solid state drive (English: solid-state drive, abbreviation :SSD); or
  • Binocular camera 703 for acquiring a video sequence; wherein the video sequence includes at least two frames of images, the image set includes a first image and a second image, the first image and the second image are respectively An image taken at the same time by the first camera and the second camera of the binocular camera.
  • the processor 701 is configured to separately acquire a matching feature point set between the first image and the second image in each image set.
  • the processor 701 is specifically configured to acquire the image concentration of each frame in the same manner as the method for acquiring the matching feature point set between the first image and the second image in the current frame image set in the first embodiment.
  • the method for matching feature point sets between the first image and the second image is not described here.
  • the processor 701 is specifically configured to estimate the three-dimensional position of the scene point corresponding to each pair of matching feature points in the local coordinate system of each frame in the same manner as the step 204 in the first embodiment, and details are not described herein again.
  • the processor 701 is specifically configured to estimate motion parameters of the binocular camera in each frame in the same manner as the method for calculating the motion parameters of the binocular camera in the next frame in the first embodiment, and details are not described herein again. .
  • processor 701 is specifically configured to:
  • an embodiment of the present invention provides a camera tracking device 70, which acquires a video sequence, where the video sequence includes at least two frames of images, the image set includes a first image and a second image, the first The image and the second image are respectively images captured by the first camera and the second camera of the binocular camera at the same time; respectively acquiring a matching feature point set between the first image and the second image in each frame image set; Estimating the three-dimensional position of the scene point corresponding to each pair of matching feature points in each frame local coordinate system; respectively estimating the motion parameters of the binocular camera in each frame; and the local coordinates of each scene corresponding to the scene points corresponding to each pair of matching feature points The three-dimensional position of the system and the motion parameters of the binocular camera in each frame optimize the camera's motion parameters in each frame. In this way, the binocular video image is used for camera tracking, which improves the tracking accuracy; and avoids the defect that the tracking precision is low in the camera tracking based on the monocular video sequence in
  • the disclosed system The apparatus and method can be implemented in other ways.
  • the device embodiments described above are merely illustrative.
  • the division of the unit is only a logical function division.
  • there may be another division manner for example, multiple units or components may be combined or Can be integrated into another system, or some features can be ignored or not executed.
  • the mutual coupling or direct coupling or communication connection shown or discussed may be an indirect coupling or communication connection through some interface, device or unit, and may be electrical or otherwise.
  • the units described as separate components may or may not be physically separated, and the components displayed as units may or may not be physical units, that is, may be located in one place, or may be distributed to multiple network units. Some or all of the units may be selected according to actual needs to achieve the purpose of the solution of the embodiment.
  • each functional unit in each embodiment of the present invention may be integrated into one processing unit, or each unit may be physically included separately, or two or more units may be integrated into one unit.
  • the above integrated unit can be implemented in the form of hardware or in the form of hardware plus software functional units.
  • the above-described integrated unit implemented in the form of a software functional unit can be stored in a computer readable storage medium.
  • the software functional units described above are stored in a storage medium and include instructions for causing a computer device (which may be a personal computer, server, or network device, etc.) to perform portions of the steps of the methods described in various embodiments of the present invention.
  • the foregoing storage medium includes: a U disk, a mobile hard disk, a read-only memory (ROM), a random access memory (RAM), a magnetic disk, or an optical disk, and the like, and the program code can be stored. Medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种摄像机跟踪方法及装置,采用双目视频图像进行摄像机跟踪,提高了跟踪精度。本发明实施例提供的摄像机跟踪方法包括:获取当前帧的图像集;分别提取所述当前帧的图像集中每个图像的特征点;根据图像上相邻区域场景深度相近的原则,获取所述当前帧的图像集的匹配特征点集;根据所述双目相机的属性参数以及预设模型,分别估计每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置;根据所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置,利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数,并优化双目相机在下一帧的运动参数。

Description

一种摄像机跟踪方法及装置
本申请要求于2014年03月14日提交中国专利局、申请号为201410096332.4、发明名称为“一种摄像机跟踪方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及计算机视觉领域,尤其涉及一种摄像机跟踪方法及装置。
背景技术
摄像机跟踪(Camera tracking)是计算机视觉领域中的最基本的问题之一,根据摄像机拍摄的视频序列,估计拍摄场景中特征点的三维位置及每帧图像对应的相机运动参数;随着科技的快速进步,摄像机跟踪技术的应用领域十分广泛,如机器人导航、智能定位、虚实结合、增强现实、三维场景浏览等;为了适应摄像机跟踪在各个领域中的应用,经过几十年的努力研究,一些摄像机跟踪***也相继推出,如PTAM(Parallel Tracking and Mapping)、ACTS(Automatic Camera Tracking System)等。
在实际应用中,PTAM、ACTS***针对单目视频序列进行摄像机跟踪,在摄像机跟踪的过程中需要选取两帧作为初始帧,图1为现有技术中基于单目视频序列的摄像机跟踪示意图,如图1所示,利用初始帧1图像和初始帧2图像的匹配点(x1,1,x1,2)估计两初始帧图像对应相机间的相对位置(R12,t12);通过三角化初始化匹配点(x1,1,x1,2)对应场景点X1的三维位置;在跟踪后续帧时,利用已知的三维点位置与后续帧图像中二维点的对应关系求解后续帧的相机运动参数;但是,基于单目视频序列的摄像机跟踪中初始化的相机间的相对位置(R12,t12)估计存在误差,这些误差经由场景的不确定性传递至后续帧的估计中,使得误差在后续帧的跟踪中不断积累,难以消除,跟踪精度较低。
发明内容
本发明实施例提供一种摄像机跟踪方法及装置,采用双目视频图像进行摄像机跟踪,提高了跟踪精度。
为达到上述目的,本发明采用的技术方案是,
第一方面,本发明实施例提供一种摄像机跟踪方法,包括:
获取当前帧的图像集;其中,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像;
分别提取所述当前帧的图像集中的第一图像和第二图像的特征点;其中,所述第一图像的特征点的数量和所述第二图像的特征点的数量相等;
根据图像上相邻区域场景深度相近的原则,获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集;
根据所述双目相机的属性参数以及预设模型,分别估计每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置;
根据所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置,利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数;
采用随机采样一致性算法RANSAC以及LM算法优化所述双目相机在下一帧的运动参数。
在第一方面的第一种可能的实现方式中,结合第一方面,所述根据图像上相邻区域场景深度相近的原则,获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集,包括:
获取所述第一图像与所述第二图像之间的候选匹配特征点集;
对所述候选匹配特征点集中对应的所述第一图像中的特征点作Delaunay三角化;
遍历每个高与底边之比小于第一预设阈值的三角形的每条边,若存在第一条边,其连接的两个特征点(x1,x2)的视差之差|d(x1)-d(x2)|小 于第二预设阈值,则为所述第一条边增加一票;否则减少一票;其中,所述特征点x的视差为:d(x)=uleft-uright,uleft为特征点x在所述第一图像的平面坐标系中的横坐标,uright为所述第二图像中与特征点x匹配的特征点在第二图像的平面坐标系中的横坐标;
统计每条边对应的票数,将票数为正的边连接的特征点对应的匹配特征点的集合作为所述第一图像与所述第二图像之间的匹配特征点集。
在第一方面的第二种可能的实现方式中,结合第一方面的第一种可能的实现方式,所述获取所述第一图像与所述第二图像之间的候选匹配特征点集,包括:
遍历所述第一图像中的特征点,根据所述第一图像中的特征点在二维平面坐标系中的位置xleft=(uleft,vleft)T,在所述第二图像u∈[uleft-a,uleft],v∈[vleft-b,vleft+b]的区域内,搜索使
Figure PCTCN2014089389-appb-000001
最小的点xright=(uright,vrightt)T;以及,根据所述第二图像中的特征点在二维平面坐标系中的位置xright=(uright,vright)T,在所述第一图像u∈[uright,uright+a],v∈[vright-b,vright+b]的区域内,搜索使
Figure PCTCN2014089389-appb-000002
最小的点x′left;若x′left=xleft,则将(xleft,xright)作为一对匹配特征点;其中,所述χleft为所述第一图像中的特征点xleft的描述量,所述χright为所述第二图像中的特征点xright的描述量;a和b为预设常数,
将使x′left=xleft的所有匹配特征点组成的集合作为所述第一图像与所述第二图像之间的候选匹配特征点集。
在第一方面的第三种可能的实现方式中,结合第一方面,所述根据所述双目相机的属性参数以及预设模型,分别估计每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置,包括:
根据所述匹配特征点(xt,left,xt,right)与所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置Xt之间的对应关系:
Figure PCTCN2014089389-appb-000003
Figure PCTCN2014089389-appb-000004
Figure PCTCN2014089389-appb-000005
获取所述匹配特征点(xt,left,xt,right)对应的场景点在当前帧局部坐标系的三维位置Xt;其中,所述当前帧为t帧,fx、fy、(cx,cy)T、b为所述双目相机的属性参数,fx和fy分别为沿图像二维平面坐标系的x、y方向以像素为单位的焦距,(cx,cy)T为所述双目相机中心在所述第一图像对应的二维平面坐标系中的投影位置,b为所述双目相机的第一相机与第二相机的中心距离;Xt为三维分量,Xt[k]表示Xt的第k维分量;
初始化Xt+1=Xt,根据优化公式:
Figure PCTCN2014089389-appb-000006
计算所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置;其中,It,left(x)、It,right(x)分别为所述当前帧图像集合中的第一图像和第二图像分别在x处的亮度值,W为预设常数,用于表示局部窗口尺寸。
在第一方面的第四种可能的实现方式中,结合第一方面,所述根据所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置,利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数,包括:
将所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置在世界坐标系内表示:
Figure PCTCN2014089389-appb-000007
计算出Xi的质心坐标 (αi1,αi2,αi3,αi4)T;其中,Cj(j=1,Λ,4)为世界坐标系内任意四个不同面的控制点;
用所述质心坐标表示所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置:
Figure PCTCN2014089389-appb-000008
其中,
Figure PCTCN2014089389-appb-000009
为所述控制点在下一帧局部坐标系内坐标;
根据匹配特征点与匹配特征点对应的场景点在当前帧局部坐标系的三维位置之间的对应关系:
Figure PCTCN2014089389-appb-000010
求解所述控制点在下一帧局部坐标系内坐标
Figure PCTCN2014089389-appb-000011
获取所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置;
根据所述匹配特征点对应的场景点在当前帧世界坐标系内的三维位置与所述匹配点对应的场景点在下一帧局部坐标系的三维位置之间的对应关系:Xt=RtX+Tt,估计所述双目相机在下一帧的运动参数(Rt,Tt);其中Rt为一个3x3的旋转矩阵,Tt为一个3维向量。
在第一方面的第五种可能的实现方式中,结合第一方面,所述采用随机采样一致性算法RANSAC以及LM算法优化所述双目相机在下一帧的运动参数,包括:
根据匹配特征点在前后两帧局部图像窗口间的相似度,对所述匹配特征点集中包含的匹配特征点进行排序;
按照相似度从大到小的顺序依次采样四对匹配特征点,估计所述双目相机在下一帧的运动参数(Rt,Tt);
用估计的所述双目相机在下一帧的运动参数,分别计算所述匹 配特征点集中每对匹配特征点的投影误差,将投影误差小于第二预设阈值的匹配特征点作为内点;
将上述过程重复k次,选择内点数量最多对应的四对匹配特征点,重新计算所述双目相机在下一帧的运动参数;
将重新计算出的运动参数作为初始值,根据优化公式:
Figure PCTCN2014089389-appb-000012
计算出所述双目相机在下一帧的运动参数(Rt,Tt)。
第二方面,本发明实施例提供一种摄像机跟踪方法,其特征在于,包括:
获取视频序列;其中,所述视频序列包含至少两帧图像集,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像;
分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集;
根据第一方面的第三种可能的实现方式所述的方法分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置;
根据第一方面至第一方面的第五种可能的实现方式中任一种实现方式所述的方法分别估计所述双目相机在每帧的运动参数;
根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数,优化相机在每帧的运动参数。
在第二方面的第一种可能的实现方式中,结合第二方面,所述根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数,优化相机在每帧的运动参数,包括:
根据优化公式:
Figure PCTCN2014089389-appb-000013
优化相机在每帧的运动参数;其中,N为匹配特征点集中包含的匹配特征点对应的场景点的个数, M为帧数,
Figure PCTCN2014089389-appb-000014
π(X)=(πleft(X)[1],πleft(X)[2],πright(X)[1])T
第三方面,本发明实施例提供一种摄像机跟踪装置,包括:
第一获取模块:用于获取当前帧的图像集;其中,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像;
提取模块:用于分别提取所述第一获取模块获取的当前帧的图像集中的第一图像和第二图像的特征点;其中,所述第一图像的特征点的数量和所述第二图像的特征点的数量相等;
第二获取模块:用于根据图像上相邻区域场景深度相近的原则,从所述提取模块提取的特征点中获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集;
第一估计模块:用于根据所述双目相机的属性参数以及预设模型,分别估计所述第二获取模块获取的匹配特征点集中每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置;
第二估计模块:用于根据所述第一估计模块估计的匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置,利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数;
优化模块:用于采用随机采样一致性算法RANSAC以及LM算法优化所述第二估计模块估计的所述相机在下一帧的运动参数。
在第三方面的第一种可能的实现方式中,结合第三方面,所述第二获取模块具体用于:
获取所述第一图像与所述第二图像之间的候选匹配特征点集;
对所述候选匹配特征点集中对应的所述第一图像中的特征点作Delaunay三角化;
遍历每个高与底边之比小于第一预设阈值的三角形的每条边,若存在第一条边,其连接的两个特征点(x1,x2)的视差之差|d(x1)-d(x2)|小于第二预设阈值,则为所述第一条边增加一票;否则减少一票;其中, 所述特征点x的视差为:d(x)=uleft-uright,uleft为特征点x在所述第一图像的平面坐标系中的横坐标,uright为所述第二图像中与特征点x匹配的特征点在第二图像的平面坐标系中的横坐标;
统计每条边对应的票数,将票数为正的边连接的特征点对应的匹配特征点的集合作为所述第一图像与所述第二图像之间的匹配特征点集。
在第三方面的第二种可能的实现方式中,结合第三方面的第一种可能的实现方式,所述第二获取模块具体用于:
遍历所述第一图像中的特征点,根据所述第一图像中的特征点在二维平面坐标系中的位置xleft=(uleft,vleft)T,在所述第二图像u∈[uleft-a,uleft],v∈[vleft-b,vleft+b]的区域内,搜索使
Figure PCTCN2014089389-appb-000015
最小的点xright=(uright,vrightt)T;以及,根据所述第二图像中的特征点在二维平面坐标系中的位置xright=(uright,vright)T,在所述第一图像u∈[uright,uright+a],v∈[vright-b,vright+b]的区域内,搜索使
Figure PCTCN2014089389-appb-000016
最小的点x′left;若x′left=xleft,则将(xleft,xright)作为一对匹配特征点;其中,所述χleft为所述第一图像中的特征点xleft的描述量,所述χright为所述第二图像中的特征点xright的描述量;a和b为预设常数,
将使x′reft=xleft的所有匹配特征点组成的集合作为所述第一图像与所述第二图像之间的候选匹配特征点集。
在第三方面的第三种可能的实现方式中,结合第三方面,所述第一估计模块具体用于:
根据所述匹配特征点(xt,left,xt,right)与所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置Xt之间的对应关系:
Figure PCTCN2014089389-appb-000017
Figure PCTCN2014089389-appb-000018
Figure PCTCN2014089389-appb-000019
获取所述匹配特征点(xt,left,xt,right)对应的场景点在当前帧局部坐标系的三维位置Xt;其中,所述当前帧为t帧,fx、fy、(cx,cy)T、b为所述双目相机的属性参数,fx和fy分别为沿图像二维平面坐标系的x、y方向以像素为单位的焦距,(cx,cy)T为所述双目相机中心在所述第一图像对应的二维平面坐标系中的投影位置,b为所述双目相机的第一相机与第二相机的中心距离;Xt为三维分量,Xt[k]表示Xt的第k维分量;
初始化Xt+1=Xt,根据优化公式:
Figure PCTCN2014089389-appb-000020
计算所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置;其中,It,left(x)、It,right(x)分别为所述当前帧图像集合中的第一图像和第二图像分别在x处的亮度值,W为预设常数,用于表示局部窗口尺寸。
在第三方面的第四种可能的实现方式中,结合第三方面,所述第二估计模块具体用于:
将所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置在世界坐标系内表示:
Figure PCTCN2014089389-appb-000021
计算出Xi的质心坐标(αi1,αi2,αi3,αi4)T;其中,Cj(j=1,Λ,4)为世界坐标系内任意四个不同面的控制点;
用所述质心坐标表示所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置:
Figure PCTCN2014089389-appb-000022
其中,
Figure PCTCN2014089389-appb-000023
为所述控制点在 下一帧局部坐标系内坐标;
根据匹配特征点与匹配特征点对应的场景点在当前帧局部坐标系的三维位置之间的对应关系:
Figure PCTCN2014089389-appb-000024
求解所述控制点在下一帧局部坐标系内坐标
Figure PCTCN2014089389-appb-000025
获取所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置;
根据所述匹配特征点对应的场景点在当前帧世界坐标系内的三维位置与所述匹配点对应的场景点在下一帧局部坐标系的三维位置之间的对应关系:Xt=RtX+Tt,估计所述双目相机在下一帧的运动参数(Rt,Tt);其中Rt为一个3x3的旋转矩阵,Tt为一个3维向量。
在第三方面的第五种可能的实现方式中,结合第三方面,所述优化模块具体用于:
根据匹配特征点在前后两帧局部图像窗口间的相似度,对所述匹配特征点集中包含的匹配特征点进行排序;
按照相似度从大到小的顺序依次采样四对匹配特征点,估计所述双目相机在下一帧的运动参数(Rt,Tt);
用估计的所述双目相机在下一帧的运动参数,分别计算所述匹配特征点集中每对匹配特征点的投影误差,将投影误差小于第二预设阈值的匹配特征点作为内点;
将上述过程重复k次,选择内点数量最多对应的四对匹配特征点,重新计算所述双目相机在下一帧的运动参数;
将重新计算出的运动参数作为初始值,根据优化公式:
Figure PCTCN2014089389-appb-000026
计算出所述双目相机在下一帧的运动参数(Rt,Tt)。
第四方面,本发明实施例提供一种摄像机跟踪装置,包括:
第一获取模块:用于获取视频序列;其中,所述视频序列包含至少两帧图像集,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像;
第二获取模块:用于分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集;
第一估计模块:用于分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置;
第二估计模块:用于分别估计所述双目相机在每帧的运动参数;
优化模块:用于根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数,优化相机在每帧的运动参数。
在第四方面的第一种可能的实现方式中,结合第四方面,所述优化模块具体用于:
根据优化公式:
Figure PCTCN2014089389-appb-000027
优化相机在每帧的运动参数;其中,N为匹配特征点集中包含的匹配特征点对应的场景点的个数,M为帧数,
Figure PCTCN2014089389-appb-000028
π(X)=(πleft(X)[1],πleft(X)[2],πright(X)[1])T
第五方面,本发明实施例提供一种摄像机跟踪装置,包括:
双目相机:用于获取当前帧的图像集;其中,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像;
处理器:用于分别提取所述双目相机获取的当前帧的图像集中的第一图像和第二图像的特征点;其中,所述第一图像的特征点的数量和所述第二图像的特征点的数量相等;
根据图像上相邻区域场景深度相近的原则,从所述处理器提取的特征点中获取所述当前帧的图像集中的第一图像与第二图像之间 的匹配特征点集;
根据所述双目相机的属性参数以及预设模型,分别估计所述处理器获取的匹配特征点集中每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置;
根据所述处理器估计的匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置,利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数;
采用随机采样一致性算法RANSAC以及LM算法优化所述处理器估计的所述相机在下一帧的运动参数。
在第五方面的第一种可能的实现方式中,结合第五方面,所述处理器具体用于:
获取所述第一图像与所述第二图像之间的候选匹配特征点集;
对所述候选匹配特征点集中对应的所述第一图像中的特征点作Delaunay三角化;
遍历每个高与底边之比小于第一预设阈值的三角形的每条边,若存在第一条边,其连接的两个特征点(x1,x2)的视差之差|d(x1)-d(x2)|小于第二预设阈值,则为所述第一条边增加一票;否则减少一票;其中,所述特征点x的视差为:d(x)=uleft-uright,uleft为特征点x在所述第一图像的平面坐标系中的横坐标,uright为所述第二图像中与特征点x匹配的特征点在第二图像的平面坐标系中的横坐标;
统计每条边对应的票数,将票数为正的边连接的特征点对应的匹配特征点的集合作为所述第一图像与所述第二图像之间的匹配特征点集。
在第五方面的第二种可能的实现方式中,结合第五方面的第一种可能的实现方式,所述处理器具体用于:
遍历所述第一图像中的特征点,根据所述第一图像中的特征点在二维平面坐标系中的位置xleft=(uleft,vleft)T,在所述第二图像u∈[uleft-a,uleft],v∈[vleft-b,vleft+b]的区域内,搜索使
Figure PCTCN2014089389-appb-000029
最小的点xright=(uright,vrightt)T;以及,根据所述第二图像中的特征点在二维平面坐标系中的位置xright=(uright,vright)T,在所述第一图像u∈[uright,uright+a],v∈[vright-b,vright+b]的区域 内,搜索使
Figure PCTCN2014089389-appb-000030
最小的点x′left;若x′left=xleft,则将(xleft,xright)作为一对匹配特征点;其中,所述χleft为所述第一图像中的特征点xleft的描述量,所述χright为所述第二图像中的特征点xright的描述量;a和b为预设常数,
将使x′left=xleft的所有匹配特征点组成的集合作为所述第一图像与所述第二图像之间的候选匹配特征点集。
在第五方面的第三种可能的实现方式中,结合第五方面,所述处理器具体用于:
根据所述匹配特征点(xt,left,xt,right)与所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置Xt之间的对应关系:
Figure PCTCN2014089389-appb-000031
Figure PCTCN2014089389-appb-000032
Figure PCTCN2014089389-appb-000033
获取所述匹配特征点(xt,left,xt,right)对应的场景点在当前帧局部坐标系的三维位置Xt;其中,所述当前帧为t帧,fx、fy、(cx,cy)T、b为所述双目相机的属性参数,fx和fy分别为沿图像二维平面坐标系的x、y方向以像素为单位的焦距,(cx,cy)T为所述双目相机中心在所述第一图像对应的二维平面坐标系中的投影位置,b为所述双目相机的第一相机与第二相机的中心距离;Xt为三维分量,Xt[k]表示Xt的第k维分量;
初始化Xt+1=Xt,根据优化公式:
Figure PCTCN2014089389-appb-000034
计算所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置;其中,It,ieft(x)、It,right(x)分别为所述当前帧图像集合中的第一图像和第二图像分别在x处的亮度值,W为预设常数,用于表示局部窗口尺寸。
在第五方面的第四种可能的实现方式中,结合第五方面,所述处理器具体用于:
将所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置在世界坐标系内表示:
Figure PCTCN2014089389-appb-000035
计算出Xi的质心坐标(αi1,αi2,αi3,αi4)T;其中,Cj(j=1,Λ,4)为世界坐标系内任意四个不同面的控制点;
用所述质心坐标表示所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置:
Figure PCTCN2014089389-appb-000036
其中,
Figure PCTCN2014089389-appb-000037
为所述控制点在下一帧局部坐标系内坐标;
根据匹配特征点与匹配特征点对应的场景点在当前帧局部坐标系的三维位置之间的对应关系:
Figure PCTCN2014089389-appb-000038
求解所述控制点在下一帧局部坐标系内坐标
Figure PCTCN2014089389-appb-000039
获取所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置;
根据所述匹配特征点对应的场景点在当前帧世界坐标系内的三维位置与所述匹配点对应的场景点在下一帧局部坐标系的三维位置之间的对应关系:Xt=RtX+Tt,估计所述双目相机在下一帧的运动参数(Rt,Tt);其中Rt为一个3x3的旋转矩阵,Tt为一个3维向量。
在第五方面的第五种可能的实现方式中,结合第五方面,所述处理器具体用于:
根据匹配特征点在前后两帧局部图像窗口间的相似度,对所述匹配特征点集中包含的匹配特征点进行排序;
按照相似度从大到小的顺序依次采样四对匹配特征点,估计所述双目相机在下一帧的运动参数(Rt,Tt);
用估计的所述双目相机在下一帧的运动参数,分别计算所述匹配特征点集中每对匹配特征点的投影误差,将投影误差小于第二预 设阈值的匹配特征点作为内点;
将上述过程重复k次,选择内点数量最多对应的四对匹配特征点,重新计算所述双目相机在下一帧的运动参数;
将重新计算出的运动参数作为初始值,根据优化公式:
Figure PCTCN2014089389-appb-000040
计算出所述双目相机在下一帧的运动参数(Rt,Tt)。
第六方面,本发明实施例提供一种摄像机跟踪装置,包括:
双目相机:用于获取视频序列;其中,所述视频序列包含至少两帧图像集,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像;
处理器:用于分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集;
分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置;
分别估计所述双目相机在每帧的运动参数;
根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数,优化相机在每帧的运动参数。
在第六方面的第一种可能的实现方式中,结合第六方面,所述处理器具体用于:
根据优化公式:
Figure PCTCN2014089389-appb-000041
优化相机在每帧的运动参数;其中,N为匹配特征点集中包含的匹配特征点对应的场景点的个数,M为帧数,
Figure PCTCN2014089389-appb-000042
π(X)=(πleft(X)[1],πleft(X)[2],πright(X)[1])T
由上可知,本发明实施例提供一种摄像机跟踪方法及装置,获取当前帧的图像集;其中,所述图像集包含第一图像和第二图像, 所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像;分别提取所述当前帧的图像集中的第一图像和第二图像的特征点;其中,所述第一图像的特征点的数量和所述第二图像的特征点的数量相等;根据图像上相邻区域场景深度相近的原则,获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集;根据所述双目相机的属性参数以及预设模型,分别估计每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置;根据所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置,利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数;采用随机采样一致性算法RANSAC以及LM算法优化所述双目相机在下一帧的运动参数。如此,采用双目视频图像进行摄像机跟踪,提高了跟踪精度;避免现有技术基于单目视频序列的摄像机跟踪中跟踪精度较低的缺陷。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为有技术中基于单目视频序列的摄像机跟踪示意图;
图2为本发明实施例提供的一种摄像机跟踪方法的流程图;
图3为本发明实施例提供的一种摄像机跟踪方法的流程图;
图4为本发明实施例提供的一种摄像机跟踪装置的结构图;
图5为本发明实施例提供的一种摄像机跟踪装置的结构图;
图6为本发明实施例提供的一种摄像机跟踪装置的结构图;
图7为本发明实施例提供的一种摄像机跟踪装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术 方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本发明实施例提供的一种摄像机跟踪方法的流程图,如图2所示,可以包括以下步骤:
201:获取当前帧的图像集;其中,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像。
其中,所述当前帧的图像集属于所述双目相机拍摄的视频序列;所述视频序列为双目相机在一段时间内拍摄的图像集的集合。
202:分别提取所述当前帧的图像集中的第一图像和第二图像的特征点;其中,所述第一图像的特征点的数量和所述第二图像的特征点的数量相等。
其中,所述特征点通常指图像中灰度变化剧烈的点,包括物体轮廓上的曲率变化最大点、直线的交点、单调背景上的孤点等;
优选的,可以采用STFI(Scale-invariant feature transform)算法分别提取所述当前帧的图像集中的第一图像和第二图像的特征点,下面以提取所述第一图像中的特征点的过程为例进行说明:
1)检测尺度空间极值,获取候选特征点。通过高斯差分(DoG)算子在全尺度和图像位置上搜索以初步确定关键点位置和所在尺度,所述第一图像在不同尺度下的尺度空间定义为图像I(x,y)与高斯核G(x,y,σ)的卷积:
Figure PCTCN2014089389-appb-000043
L(x,y,σ)=G(x,y,σ)×I(x,y)
其中,σ是尺度坐标,大尺度对应图像的概貌特征,小尺度对 应于图像的细节特征;DoG算子定义为两个不同尺度的高斯核的差分:
D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ)在图像的尺度空间内遍历所有的点,判断其与领域内点的大小关系,若存在第一点的值大于或小于领域内所有点的值,则所述第一点为候选特征点。
2)对所有候选特征点进行筛选,获取所述第一图像中的特征点。
优选的,去除所有候选特征点中的边缘响应点以及对比度和稳定性差的特征点,将剩余的特征点作为所述第一图像的特征点。
3)分别对所述第一图像中的每个特征点进行方向分配。
优选的,利用特征点领域像素的梯度方向分布特性为每个特征点指定一个尺度因子m和主旋转方向θ,以使得算子具备尺度和旋转不变性;其中,
Figure PCTCN2014089389-appb-000044
Figure PCTCN2014089389-appb-000045
4)对所述第一图像中的每个特征点进行特征描述。
优选的,将平面坐标系的坐标轴旋转到特征点的主方向,以特征点x为中心,采样一个边长20s、与θ对齐的方形图像区域,并将该区域平均划分为16个4×4的子区域,为每个区域计算∑dx、∑|dx|、∑dy、∑|dy|四个分量,则所述特征点x对应一个16×4=64维的描述量χ;其中,dx、dy分别表示x、y方向上的Haar小波相应(滤波器宽为2s)。
203:根据图像上相邻区域场景深度相近的原则,获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集。
示例性的,所述根据图像上相邻区域场景深度相近的原则,获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集,可以包括:
(1)获取所述第一图像与所述第二图像之间的候选匹配特征点 集。
(2)对所述候选匹配特征点集中对应的所述第一图像中的特征点作Delaunay三角化。
例如,若候选特征点集中有100对匹配特征点(xleft,1,xright,1)~(xleft,100,xright,100),则将所述候选特征点集对应的第一图像中的100个特征点xleft,1~xleft,100中任意三个特征点连接成一个三角形,且在连接的过程中每条连线之间不能相互交叉,形成有多个三角形组成的网格图。
(3)遍历每个高与底边之比小于第一预设阈值的三角形的每条边,若存在第一条边,其连接的两个特征点(x1,x2)的视差之差|d(x1)-d(x2)|小于第二预设阈值,则为所述第一条边增加一票;否则减少一票;其中,所述特征点x的视差为:d(x)=uleft-uright,uleft为特征点x在所述第一图像的平面坐标系中的横坐标,uright为所述第二图像中与特征点x匹配的特征点在第二图像的平面坐标系中的横坐标。
其中,所述第一预设阈值根据实验经验进行设置,本发明对此不进行限定;若三角形的高与底边之比小于第一预设阈值,则表示所述三角形顶点对应的场景点深度变化不大,可能符合图像上相邻区域场景深度相近的原则;若三角形的高与底边之比大于或等于第一预设阈值,则表示所述三角形顶点对应的场景深度变化较大,可能不符合图像上相邻区域场景深度相近的原则,不能根据该原则进行匹配特征点的选取。
同样,所述第二预设阈值也根据实验经验进行设置,本发明对此不进行限定;若两个特征点之间的视差之差小于第二预设阈值,则表示两个特征点之间的场景深度相近;若两个特征点之间的视差之差大于或等于第二预设阈值,则表示两个特征点之间的场景深度变化较大,存在误匹配。
(4)统计每条边对应的票数,将票数为正的边连接的特征点对应的匹配特征点的集合作为所述第一图像与所述第二图像之间的匹配特征点集。
例如,所有票数为正的边连接的特征点为:xleft,20~xleft,80,则将匹配特征点(xleft,20,xright,20)~(xleft,80,xright,80)的集合作为所述第一图像与所述第二图像之间的匹配特征点集。
其中,所述获取所述第一图像与所述第二图像之间的候选匹配特征点集,包括:
遍历所述第一图像中的特征点,根据所述第一图像中的特征点在二维平面坐标系中的位置xleft=(uleft,vleft)T,在所述第二图像u∈[uleft-a,uleft],v∈[vleft-b,vleft+b]的区域内,搜索使
Figure PCTCN2014089389-appb-000046
最小的点xright=(uright,vrightt)T;以及,根据所述第二图像中的特征点在二维平面坐标系中的位置xright=(uright,vright)T,在所述第一图像u∈[uright,uright+a],v∈[vright-b,vright+b]的区域内,搜索使
Figure PCTCN2014089389-appb-000047
最小的点x′left;若x′left=xleft,则将(xleft,xright)作为一对匹配特征点;其中,所述χleft为所述第一图像中的特征点xleft的描述量,所述χright为所述第二图像中的特征点xright的描述量;a和b为预设常数,实验中a=200,b=5;
将使x′left=xleft的所有匹配特征点组成的集合作为所述第一图像与所述第二图像之间的候选匹配特征点集。
204:根据所述双目相机的属性参数以及预设模型,分别估计每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置。
示例性的,所述根据所述双目相机的属性参数以及预设模型,分别估计每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置,包括:
1)根据所述匹配特征点(xt,left,xt,right)与所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置Xt之间的对应关系:
Figure PCTCN2014089389-appb-000048
Figure PCTCN2014089389-appb-000049
                     公式1
Figure PCTCN2014089389-appb-000050
获取所述匹配特征点(xt,left,xt,right)对应的场景点在当前帧局部坐标系的三维位置Xt;其中,所述当前帧为t帧,fx、fy、(cx,cy)T、b为所述双目相机的属性参数,fx和fy分别为沿图像二维平面坐标系的x、y方向以像素为单位的焦距,(cx,cy)T为所述双目相机中心在所述第一图像对应的二维平面坐标系中的投影位置,b为所述双目相机的第一相机与第二相机的中心距离;Xt为三维分量,Xt[k]表示Xt的第k维分量;
2)初始化Xt+1=Xt,根据优化公式:
Figure PCTCN2014089389-appb-000051
         公式2
计算所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置;其中,It,left(x)、It,right(x)分别为所述当前帧图像集合中的第一图像和第二图像分别在x处的亮度值,W为预设常数,用于表示局部窗口尺寸。
优选的,采用迭代算法求解优化公式2,其具体过程如下所示:
1)初始迭代时令Xt+1=Xt,后续每次迭代时,求解方程:
Figure PCTCN2014089389-appb-000052
其中,
Figure PCTCN2014089389-appb-000053
2)用解得的δX更新Xt+1:Xt+1=Xt+1X,将更新后的Xt+1代入公式2进入下一轮迭代,直至获得的Xt+1满足下述收敛:
Figure PCTCN2014089389-appb-000054
则此时的Xt+1为所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置。
其中,求解公式
Figure PCTCN2014089389-appb-000055
获得δX的过程为:
1)将fleftX)、frightX)在0处一阶泰勒展开:
fleftX)≈It,left(xt,left+y)-It+1,left(xt+1,left+y)-Jt+1,left(Xt+1X
frighttX)≈It,right(xt,right+y)-It+1,right(xt+1,right+y)-Jt+1,right(Xt+1X
Figure PCTCN2014089389-appb-000056
                 公式3
Figure PCTCN2014089389-appb-000057
其中,gt+1,left(x)、gt+1,right(x)分别为t+1帧的左、右图像在x处的图像梯度。
2)对f(δX)进行求导,使f(δX)在一阶导数为0处取得极值,即
Figure PCTCN2014089389-appb-000058
           公式4
3)将公式3代入公式4,得到一个3x3的线性***方程:A·δX=b,求解方程A·δX=b获得δX
其中,
Figure PCTCN2014089389-appb-000059
需要说明的是,为进一步加快收敛效率,提高计算速率,使用图形处理器(Graphic Processing Unit,GPU)对图像建立高斯金字塔,先在低分辨率图像上求解公式
Figure PCTCN2014089389-appb-000060
再在高分辨率图像上进一步优化;实验中将金字塔层数设置为2。
205:根据所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置,利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数。
示例性的,所述根据所述匹配特征点对应的场景点在当前帧局 部坐标系的三维位置以及下一帧局部坐标系的三维位置,利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数,可以包括:
1)将所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置在世界坐标系内表示:
Figure PCTCN2014089389-appb-000061
计算出Xi的质心坐标(αi1,αi2,αi3,αi4)T;其中,Cj(j=1,Λ,4)为世界坐标系内任意四个不同面的控制点。
2)用所述质心坐标表示所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置:
Figure PCTCN2014089389-appb-000062
其中,
Figure PCTCN2014089389-appb-000063
为所述控制点在下一帧局部坐标系内坐标。
3)根据匹配特征点与匹配特征点对应的场景点在当前帧局部坐标系的三维位置之间的对应关系:
Figure PCTCN2014089389-appb-000064
求解所述控制点在下一帧局部坐标系内坐标
Figure PCTCN2014089389-appb-000065
获取所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置。
4)根据所述匹配特征点对应的场景点在当前帧世界坐标系内的三维位置与所述匹配点对应的场景点在下一帧局部坐标系的三维位置之间的对应关系:Xt=RtX+Tt,估计所述双目相机在下一帧的运动参数(Rt,Tt);其中Rt为一个3x3的旋转矩阵,Tt为一个3维向量。
其中,在求解所述控制点在下一帧局部坐标系内坐标
Figure PCTCN2014089389-appb-000066
Figure PCTCN2014089389-appb-000067
时,将
Figure PCTCN2014089389-appb-000068
经过直接线性变换(Direct Linear Transformation,简称DLT),转化成为关于
Figure PCTCN2014089389-appb-000069
12 个变量的3个线性方程:
Figure PCTCN2014089389-appb-000070
利用至少4对匹配特征求解这三个方程得出所述控制点在下一帧局部坐标系内坐标
Figure PCTCN2014089389-appb-000071
206:采用随机采样一致性算法RANSAC以及LM算法优化所述双目相机在下一帧的运动参数。
示例性的,所述采用随机采样一致性算法RANSAC以及LM算法优化所述双目相机在下一帧的运动参数,可以包括:
1)根据匹配特征点在前后两帧局部图像窗口间的相似度,对所述匹配特征点集中包含的匹配特征点进行排序。
2)按照相似度从大到小的顺序依次采样四对匹配特征点,估计所述双目相机在下一帧的运动参数(Rt,Tt)。
3)用估计的所述双目相机在下一帧的运动参数,分别计算所述匹配特征点集中每对匹配特征点的投影误差,将投影误差小于第二预设阈值的匹配特征点作为内点。
4)将上述过程重复k次,选择内点数量最多对应的四对匹配特征点,重新计算所述双目相机在下一帧的运动参数。
5)将重新计算出的运动参数作为初始值,根据优化公式:
Figure PCTCN2014089389-appb-000072
计算出所述双目相机在下一帧的运动参数(Rt,Tt);其中,n′为通过RANSAC算法得到的内点个数。
由上可知,本发明实施例提供一种摄像机跟踪方法,获取当前帧的图像集;其中,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机 在同一时刻拍摄的图像;分别提取所述当前帧的图像集中的第一图像和第二图像的特征点;其中,所述第一图像的特征点的数量和所述第二图像的特征点的数量相等;根据图像上相邻区域场景深度相近的原则,获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集;根据所述双目相机的属性参数以及预设模型,分别估计每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置;根据所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置,利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数;采用随机采样一致性算法RANSAC以及LM算法优化所述双目相机在下一帧的运动参数。如此,采用双目视频图像进行摄像机跟踪,提高了跟踪精度;避免现有技术基于单目视频序列的摄像机跟踪中跟踪精度较低的缺陷。
实施例二
图3为本发明实施例提供的一种摄像机跟踪方法的流程图,如图3所示,可以包括以下步骤:
301:获取视频序列;其中,所述视频序列包含至少两帧图像集,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像。
302:分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集。
需要说明的是,获取每帧图像集中的第一图像与第二图像之间的匹配特征点集的方法与实施例一中获取当前帧图像集中的第一图像与第二图像之间的匹配特征点集的方法相同,在此不再赘述。
303:分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置。
需要说明的是,估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置的方法与实施例一中步骤204相同,在此不再赘 述。
304:分别估计所述双目相机在每帧的运动参数。
需要说明的是,估计所述双目相机在每帧的运动参数的方法与实施例一中计算所述双目相机在下一帧的运动参数的方法相同,在此不再赘述。
305:根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数,优化相机在每帧的运动参数。
示例性的,所述根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数,优化相机在每帧的运动参数,包括:根据优化公式:
Figure PCTCN2014089389-appb-000073
优化相机在每帧的运动参数;其中,N为匹配特征点集中包含的匹配特征点对应的场景点的个数,M为帧数,
Figure PCTCN2014089389-appb-000074
π(X)=(πleft(X)[1],πleft(X)[2],πright(X)[1])T
由上可知,本发明实施例提供一种摄像机跟踪方法,获取视频序列;其中,所述视频序列包含至少两帧图像集,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像;分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集;分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置;分别估计所述双目相机在每帧的运动参数;根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数,优化相机在每帧的运动参数。如此,采用双目视频图像进行摄像机跟踪,提高了跟踪精度;避免现有技术基于单目视频序列的摄像机跟踪中跟踪精度较低的缺陷。
实施例三
图4为本发明实施例提供的一种摄像机跟踪装置40的结构图,如图4所示,包括:
第一获取模块401:用于获取当前帧的图像集;其中,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像。
其中,所述当前帧的图像集属于所述双目相机拍摄的视频序列;所述视频序列为双目相机在一段时间内拍摄的图像集的集合。
提取模块402:用于分别提取所述第一获取模块401获取的当前帧的图像集中的第一图像和第二图像的特征点;其中,所述第一图像的特征点的数量和所述第二图像的特征点的数量相等。
其中,所述特征点通常指图像中灰度变化剧烈的点,包括物体轮廓上的曲率变化最大点、直线的交点、单调背景上的孤点等。
第二获取模块403:用于根据图像上相邻区域场景深度相近的原则,从所述提取模块402提取的特征点中获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集。
第一估计模块404:用于根据所述双目相机的属性参数以及预设模型,分别估计所述第二获取模块403获取的匹配特征点集中每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置。
第二估计模块405:用于根据所述第一估计模块估计的匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置,利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数。
优化模块406:用于采用随机采样一致性算法RANSAC以及LM算法优化所述第二估计模块估计的所述相机在下一帧的运动参数。
进一步的,提取模块402具体用于:采用STFI算法分别提取所述当前帧的图像集中的第一图像和第二图像的特征点,下面以提取所述第一图像中的特征点的过程为例进行说明:
1)检测尺度空间极值,获取候选特征点。通过高斯差分(DoG)算子在全尺度和图像位置上搜索以初步确定关键点位置和所在尺 度,所述第一图像在不同尺度下的尺度空间定义为图像I(x,y)与高斯核G(x,y,σ)的卷积:
Figure PCTCN2014089389-appb-000075
L(x,y,σ)=G(x,y,σ)×I(x,y)
其中,σ是尺度坐标,大尺度对应图像的概貌特征,小尺度对应于图像的细节特征;DoG算子定义为两个不同尺度的高斯核的差分:
D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ)在图像的尺度空间内遍历所有的点,判断其与领域内点的大小关系,若存在第一点的值大于或小于领域内所有点的值,则所述第一点为候选特征点。
2)对所有候选特征点进行筛选,获取所述第一图像中的特征点。
优选的,去除所有候选特征点中的边缘响应点以及对比度和稳定性差的特征点,将剩余的特征点作为所述第一图像的特征点。
3)分别对所述第一图像中的每个特征点进行方向分配。
优选的,利用特征点领域像素的梯度方向分布特性为每个特征点指定一个尺度因子m和主旋转方向θ,以使得算子具备尺度和旋转不变性;其中,
Figure PCTCN2014089389-appb-000076
Figure PCTCN2014089389-appb-000077
4)对所述第一图像中的每个特征点进行特征描述。
优选的,将平面坐标系的坐标轴旋转到特征点的主方向,以特征点x为中心,采样一个边长20s、与θ对齐的方形图像区域,并将该区域平均划分为16个4×4的子区域,为每个区域计算∑dx、∑|dx|、 ∑dy、∑|dy|四个分量,则所述特征点x对应一个16×4=64维的描述量χ;其中,dx、dy分别表示x、y方向上的Haar小波相应(滤波器宽为2s)。
进一步的,所述第二获取模块403具体用于:
(1)获取所述第一图像与所述第二图像之间的候选匹配特征点集。
(2)对所述候选匹配特征点集中对应的所述第一图像中的特征点作Delaunay三角化。
例如,若候选特征点集中有100对匹配特征点(xleft,1,xright,1)~(xleft,100,xright,100),则将所述候选特征点集对应的第一图像中的100个特征点xleft,1~xleft,100中任意三个特征点连接成一个三角形,且在连接的过程中每条连线之间不能相互交叉,形成有多个三角形组成的网格图。
(3)遍历每个高与底边之比小于第一预设阈值的三角形的每条边,若存在第一条边,其连接的两个特征点(x1,x2)的视差之差|d(x1)-d(x2)|小于第二预设阈值,则为所述第一条边增加一票;否则减少一票;其中,所述特征点x的视差为:d(x)=uleft-uright,uleft为特征点x在所述第一图像的平面坐标系中的横坐标,uright为所述第二图像中与特征点x匹配的特征点在第二图像的平面坐标系中的横坐标。
其中,所述第一预设阈值根据实验经验进行设置,本发明对此不进行限定;若三角形的高与底边之比小于第一预设阈值,则表示所述三角形顶点对应的场景点深度变化不大,可能符合图像上相邻区域场景深度相近的原则;若三角形的高与底边之比大于或等于第一预设阈值,则表示所述三角形顶点对应的场景深度变化较大,可能不符合图像上相邻区域场景深度相近的原则,不能根据该原则进行匹配特征点的选取。
同样,所述第二预设阈值也根据实验经验进行设置,本发明对此不进行限定;若两个特征点之间的视差之差小于第二预设阈值,则表示两个特征点之间的场景深度相近;若两个特征点之间的视差 之差大于或等于第二预设阈值,则表示两个特征点之间的场景深度变化较大,存在误匹配。
(4)统计每条边对应的票数,将票数为正的边连接的特征点对应的匹配特征点的集合作为所述第一图像与所述第二图像之间的匹配特征点集。
例如,所有票数为正的边连接的特征点为:xleft,20~xleft,80,则将匹配特征点(xleft,20,xright,20)~(xleft,80,xright,80)的集合作为所述第一图像与所述第二图像之间的匹配特征点集。
其中,所述获取所述第一图像与所述第二图像之间的候选匹配特征点集,包括:
遍历所述第一图像中的特征点,根据所述第一图像中的特征点在二维平面坐标系中的位置xleft=(uleft,vleft)T,在所述第二图像u∈[uleft-a,uleft],v∈[vleft-b,vleft+b]的区域内,搜索使
Figure PCTCN2014089389-appb-000078
最小的点xright=(uright,vrightt)T;以及,根据所述第二图像中的特征点在二维平面坐标系中的位置xright=(uright,vright)T,在所述第一图像u∈[uright,uright+a],v∈[vright-b,vright+b]的区域内,搜索使
Figure PCTCN2014089389-appb-000079
最小的点x′left;若x′left=xleft,则将(xleft,xright)作为一对匹配特征点;其中,所述χleft为所述第一图像中的特征点xleft的描述量,所述χright为所述第二图像中的特征点xright的描述量;a和b为预设常数,实验中a=200,b=5;
将使x′left=xleft的所有匹配特征点组成的集合作为所述第一图像与所述第二图像之间的候选匹配特征点集。
进一步的,所述第一估计模块404具体用于:
1)根据所述匹配特征点(xt,left,xt,right)与所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置Xt之间的对应关系:
Figure PCTCN2014089389-appb-000080
Figure PCTCN2014089389-appb-000081
                    公式1
Figure PCTCN2014089389-appb-000082
获取所述匹配特征点(xt,left,xt,right)对应的场景点在当前帧局部坐标系的三维位置Xt;其中,所述当前帧为t帧,fx、fy、(cx,cy)T、b为所述双目相机的属性参数,fx和fy分别为沿图像二维平面坐标系的x、y方向以像素为单位的焦距,(cx,cy)T为所述双目相机中心在所述第一图像对应的二维平面坐标系中的投影位置,b为所述双目相机的第一相机与第二相机的中心距离;Xt为三维分量,Xt[k]表示Xt的第k维分量;
2)初始化Xt+1=Xt,根据优化公式:
Figure PCTCN2014089389-appb-000083
          公式2
计算所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置;其中,It,left(x)、It,right(x)分别为所述当前帧图像集合中的第一图像和第二图像分别在x处的亮度值,W为预设常数,用于表示局部窗口尺寸。
优选的,采用迭代算法求解优化公式2,其具体过程如下所示:
1)初始迭代时令Xt+1=Xt,后续每次迭代时,求解方程:
Figure PCTCN2014089389-appb-000084
其中,
Figure PCTCN2014089389-appb-000085
2)用解得的δX更新Xt+1:Xt+1=Xt+1X,将更新后的Xt+1代入公式2进入下一轮迭代,直至获得的Xt+1满足下述收敛:
Figure PCTCN2014089389-appb-000086
则此时的Xt+1为所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置。
其中,求解公式
Figure PCTCN2014089389-appb-000087
获得δX的过程为:
1)将fleftX)、frightX)在0处一阶泰勒展开:
fleftX)≈It,left(xt,left+y)-It+1,left(xt+1,left+y)-Jt+1,left(Xt+1X
frighttX)≈It,right(xt,right+y)-It+1,right(xt+1,right+y)-Jt+1,right(Xt+1X
Figure PCTCN2014089389-appb-000088
                   公式3
Figure PCTCN2014089389-appb-000089
其中,gt+1,left(x)、gt+1,right(x)分别为t+1帧的左、右图像在x处的图像梯度。
2)对f(δX)进行求导,使f(δX)在一阶导数为0处取得极值,即
Figure PCTCN2014089389-appb-000090
        公式4
3)将公式3代入公式4,得到一个3x3的线性***方程:A·δX=b,求解方程A·δX=b获得δX
其中,
Figure PCTCN2014089389-appb-000091
需要说明的是,为进一步加快收敛效率,提高计算速率,使用图形处理器(Graphic Processing Unit,GPU)对图像建立高斯金字塔,先在低分辨率图像上求解公式
Figure PCTCN2014089389-appb-000092
再在高分辨率图像上进一步优化,实验中将金字塔层数设置为2。
进一步的,所述第二估计模块405具体用于:
1)将所述匹配特征点对应的场景点在当前帧局部坐标系的三维 位置在世界坐标系内表示:
Figure PCTCN2014089389-appb-000093
计算出Xi的质心坐标(αi1,αi2,αi3,αi4)T;其中,Cj(j=1,Λ,4)为世界坐标系内任意四个不同面的控制点。
2)用所述质心坐标表示所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置:
Figure PCTCN2014089389-appb-000094
其中,
Figure PCTCN2014089389-appb-000095
为所述控制点在下一帧局部坐标系内坐标。
3)根据匹配特征点与匹配特征点对应的场景点在当前帧局部坐标系的三维位置之间的对应关系:
Figure PCTCN2014089389-appb-000096
求解所述控制点在下一帧局部坐标系内坐标
Figure PCTCN2014089389-appb-000097
获取所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置。
4)根据所述匹配特征点对应的场景点在当前帧世界坐标系内的三维位置与所述匹配点对应的场景点在下一帧局部坐标系的三维位置之间的对应关系:Xt=RtX+Tt,估计所述双目相机在下一帧的运动参数(Rt,Tt);其中Rt为一个3x3的旋转矩阵,Tt为一个3维向量。
其中,在求解所述控制点在下一帧局部坐标系内坐标
Figure PCTCN2014089389-appb-000098
Figure PCTCN2014089389-appb-000099
时,将
Figure PCTCN2014089389-appb-000100
经过直接线性变换(Direct Linear Transformation,简称DLT),转化成为关于
Figure PCTCN2014089389-appb-000101
12个变量的3个线性方程:
Figure PCTCN2014089389-appb-000102
利用至少4对匹配特征求解这三个方程得出所述控制点在下一帧局部坐标系内坐标
Figure PCTCN2014089389-appb-000103
进一步的,所述优化模块406具体用于:
1)根据匹配特征点在前后两帧局部图像窗口间的相似度,对所述匹配特征点集中包含的匹配特征点进行排序。
2)按照相似度从大到小的顺序依次采样四对匹配特征点,估计所述双目相机在下一帧的运动参数(Rt,Tt)。
3)用估计的所述双目相机在下一帧的运动参数,分别计算所述匹配特征点集中每对匹配特征点的投影误差,将投影误差小于第二预设阈值的匹配特征点作为内点。
4)将上述过程重复k次,选择内点数量最多对应的四对匹配特征点,重新计算所述双目相机在下一帧的运动参数。
5)将重新计算出的运动参数作为初始值,根据优化公式:
Figure PCTCN2014089389-appb-000104
计算出所述双目相机在下一帧的运动参数(Rt,Tt);其中,n′为通过RANSAC算法得到的内点个数。
由上可知,本发明实施例提供一种摄像机跟踪装置40,获取视频序列;其中,所述视频序列包含至少两帧图像集,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像;分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集;分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置;分别估计所述双目相机在每帧的运动参数;根据每对匹配特征点对应的 场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数,优化相机在每帧的运动参数。如此,采用双目视频图像进行摄像机跟踪,提高了跟踪精度;避免现有技术基于单目视频序列的摄像机跟踪中跟踪精度较低的缺陷。
实施例四
图5为本发明实施例提供的一种摄像机跟踪装置50的结构图,如图5所示,包括:
第一获取模块501:用于获取视频序列;其中,所述视频序列包含至少两帧图像集,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像。
第二获取模块502:用于分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集。
第一估计模块503:用于分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置。
第二估计模块504:用于分别估计所述双目相机在每帧的运动参数。
优化模块505:用于根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数,优化相机在每帧的运动参数。
其中,需要说明的是,第二获取模块502具体用于,采用与实施例一中获取当前帧图像集中的第一图像与第二图像之间的匹配特征点集的方法相同的方法获取每帧图像集中的第一图像与第二图像之间的匹配特征点集的方法,在此不再赘述
所述第一估计模块503具体用于,采用与实施例一中步骤204相同的方法分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置,在此不再赘述。
所述第二估计模块504具体用于,采用与实施例一中计算所述双目相机在下一帧的运动参数的方法相同的方法估计所述双目相 机在每帧的运动参数,在此不再赘述。
进一步的,所述优化模块505具体用于:
根据优化公式:
Figure PCTCN2014089389-appb-000105
优化相机在每帧的运动参数;其中,N为匹配特征点集包含的匹配特征点对应的场景点的个数,M为帧数,
Figure PCTCN2014089389-appb-000106
π(X)=(πleft(X)[1],πleft(X)[2],πright(X)[1])T
由上可知,本发明实施例提供一种摄像机跟踪装置50,获取视频序列;其中,所述视频序列包含至少两帧图像集,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像;分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集;分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置;分别估计所述双目相机在每帧的运动参数;根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数,优化相机在每帧的运动参数。如此,采用双目视频图像进行摄像机跟踪,提高了跟踪精度;避免现有技术基于单目视频序列的摄像机跟踪中跟踪精度较低的缺陷。
实施例五
图6为本发明实施例提供的一种摄像机跟踪装置60的结构图,如图6所示,该摄像机跟踪装置60可以包括:处理器601、存储器602、双目相机603,至少一个通信总线604,用于实现这些装置之间的连接和相互通信;
处理器601可能是一个中央处理器(英文:central processing unit,简称为CPU)。
存储器602,可以是易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);或者非易失性存储器(英文:non-volatile memory),例如只读存储器(英文:read-only memory,缩写:ROM),快闪存储器(英文: flash memory),硬盘(英文:hard disk drive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);或者上述种类的存储器的组合,并向处理器1001提供指令和数据。
双目相机603:用于获取当前帧的图像集;其中,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像。
其中,所述当前帧的图像集属于所述双目相机拍摄的视频序列;所述视频序列为双目相机在一段时间内拍摄的图像集的集合。
处理器601:用于分别提取所述双目相机603获取的当前帧的图像集中的第一图像和第二图像的特征点;其中,所述第一图像的特征点的数量和所述第二图像的特征点的数量相等;
根据图像上相邻区域场景深度相近的原则,从所述处理器601提取的特征点中获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集;
根据所述双目相机的属性参数以及预设模型,分别估计所述处理器601获取的匹配特征点集中每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置;
根据所述第一估计模块估计的匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置,利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数;
采用随机采样一致性算法RANSAC以及LM算法优化所述第二估计模块估计的所述相机在下一帧的运动参数。
其中,所述特征点通常指图像中灰度变化剧烈的点,包括物体轮廓上的曲率变化最大点、直线的交点、单调背景上的孤点等。
进一步的,处理器601具体用于:采用STFI算法分别提取所述当前帧的图像集中的第一图像和第二图像的特征点,下面以提取所述第一图像中的特征点的过程为例进行说明:
1)检测尺度空间极值,获取候选特征点。通过高斯差分(DoG) 算子在全尺度和图像位置上搜索以初步确定关键点位置和所在尺度,所述第一图像在不同尺度下的尺度空间定义为图像I(x,y)与高斯核G(x,y,σ)的卷积:
Figure PCTCN2014089389-appb-000107
L(x,y,σ)=G(x,y,σ)×I(x,y)
其中,σ是尺度坐标,大尺度对应图像的概貌特征,小尺度对应于图像的细节特征;DoG算子定义为两个不同尺度的高斯核的差分:
D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ)在图像的尺度空间内遍历所有的点,判断其与领域内点的大小关系,若存在第一点的值大于或小于领域内所有点的值,则所述第一点为候选特征点。
2)对所有候选特征点进行筛选,获取所述第一图像中的特征点。
优选的,去除所有候选特征点中的边缘响应点以及对比度和稳定性差的特征点,将剩余的特征点作为所述第一图像的特征点。
3)分别对所述第一图像中的每个特征点进行方向分配。
优选的,利用特征点领域像素的梯度方向分布特性为每个特征点指定一个尺度因子m和主旋转方向θ,以使得算子具备尺度和旋转不变性;其中,
Figure PCTCN2014089389-appb-000108
Figure PCTCN2014089389-appb-000109
4)对所述第一图像中的每个特征点进行特征描述。
优选的,将平面坐标系的坐标轴旋转到特征点的主方向,以特征点x为中心,采样一个边长20s、与θ对齐的方形图像区域,并将该区域平均划分为16个4×4的子区域,为每个区域计算∑dx、∑|dx|、 ∑dy、∑|dy|四个分量,则所述特征点x对应一个16×4=64维的描述量χ;其中,dx、dy分别表示x、y方向上的Haar小波相应(滤波器宽为2s)。
进一步的,所述处理器601具体用于:
(1)获取所述第一图像与所述第二图像之间的候选匹配特征点集。
(2)对所述候选匹配特征点集中对应的所述第一图像中的特征点作Delaunay三角化。
例如,若候选特征点集中有100对匹配特征点(xleft,1,xright,1)~(xleft,100,xright,100),则将所述候选特征点集对应的第一图像中的100个特征点xleft,1~xleft,100中任意三个特征点连接成一个三角形,且在连接的过程中每条连线之间不能相互交叉,形成有多个三角形组成的网格图。
(3)遍历每个高与底边之比小于第一预设阈值的三角形的每条边,若存在第一条边,其连接的两个特征点(x1,x2)的视差之差|d(x1)-d(x2)|小于第二预设阈值,则为所述第一条边增加一票;否则减少一票;其中,所述特征点x的视差为:d(x)=uleft-uright,uleft为特征点x在所述第一图像的平面坐标系中的横坐标,uright为所述第二图像中与特征点x匹配的特征点在第二图像的平面坐标系中的横坐标。
其中,所述第一预设阈值根据实验经验进行设置,本发明对此不进行限定;若三角形的高与底边之比小于第一预设阈值,则表示所述三角形顶点对应的场景点深度变化不大,可能符合图像上相邻区域场景深度相近的原则;若三角形的高与底边之比大于或等于第一预设阈值,则表示所述三角形顶点对应的场景深度变化较大,可能不符合图像上相邻区域场景深度相近的原则,不能根据该原则进行匹配特征点的选取。
同样,所述第二预设阈值也根据实验经验进行设置,本发明对此不进行限定;若两个特征点之间的视差之差小于第二预设阈值,则表示两个特征点之间的场景深度相近;若两个特征点之间的视差 之差大于或等于第二预设阈值,则表示两个特征点之间的场景深度变化较大,存在误匹配。
(4)统计每条边对应的票数,将票数为正的边连接的特征点对应的匹配特征点的集合作为所述第一图像与所述第二图像之间的匹配特征点集。
例如,所有票数为正的边连接的特征点为:xleft,20~xleft,80,则将匹配特征点(xleft,20,xright,20)~(xleft,80,xright,80)的集合作为所述第一图像与所述第二图像之间的匹配特征点集。
其中,所述获取所述第一图像与所述第二图像之间的候选匹配特征点集,包括:
遍历所述第一图像中的特征点,根据所述第一图像中的特征点在二维平面坐标系中的位置xleft=(uleft,vleft)T,在所述第二图像u∈[uleft-a,uleft],v∈[vleft-b,vleft+b]的区域内,搜索使
Figure PCTCN2014089389-appb-000110
最小的点xright=(uright,vrightt)T;以及,根据所述第二图像中的特征点在二维平面坐标系中的位置xright=(uright,vright)T,在所述第一图像u∈[uright,uright+a],v∈[vright-b,vright+b]的区域内,搜索使
Figure PCTCN2014089389-appb-000111
最小的点x′left;若x′left=xleft,则将(xleft,xright)作为一对匹配特征点;其中,所述χleft为所述第一图像中的特征点xleft的描述量,所述χright为所述第二图像中的特征点xright的描述量;a和b为预设常数,实验中a=200,b=5;
将使x′left=xleft的所有匹配特征点组成的集合作为所述第一图像与所述第二图像之间的候选匹配特征点集。
进一步的,所述处理器601具体用于:
1)根据所述匹配特征点(xt,left,xt,right)与所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置Xt之间的对应关系:
Figure PCTCN2014089389-appb-000112
Figure PCTCN2014089389-appb-000113
                      公式1
Figure PCTCN2014089389-appb-000114
获取所述匹配特征点(xt,left,xt,right)对应的场景点在当前帧局部坐标系的三维位置Xt;其中,所述当前帧为t帧,fx、fy、(cx,cy)T、b为所述双目相机的属性参数,fx和fy分别为沿图像二维平面坐标系的x、y方向以像素为单位的焦距,(cx,cy)T为所述双目相机中心在所述第一图像对应的二维平面坐标系中的投影位置,b为所述双目相机的第一相机与第二相机的中心距离;Xt为三维分量,Xt[k]表示Xt的第k维分量;
2)初始化Xt+1=Xt,根据优化公式:
Figure PCTCN2014089389-appb-000115
              公式2
计算所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置;其中,It,left(x)、It,right(x)分别为所述当前帧图像集合中的第一图像和第二图像分别在x处的亮度值,W为预设常数,用于表示局部窗口尺寸。
优选的,采用迭代算法求解优化公式2,其具体过程如下所示:
1)初始迭代时令Xt+1=Xt,后续每次迭代时,求解方程:
Figure PCTCN2014089389-appb-000116
其中,
Figure PCTCN2014089389-appb-000117
2)用解得的δX更新Xt+1:Xt+1=Xt+1X,将更新后的Xt+1代入公式2 进入下一轮迭代,直至获得的Xt+1满足下述收敛:
Figure PCTCN2014089389-appb-000118
则此时的Xt+1为所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置。
其中,求解公式
Figure PCTCN2014089389-appb-000119
获得δX的过程为:
1)将fleftX)、frightX)在0处一阶泰勒展开:
fleftX)≈It,left(xt,left+y)-It+1,left(xt+1,left+y)-Jt+1,left(Xt+1X
frighttX)≈It,right(xt,right+y)-It+1,right(xt+1,right+y)-Jt+1,right(Xt+1X
Figure PCTCN2014089389-appb-000120
                    公式3
Figure PCTCN2014089389-appb-000121
其中,gt+1,left(x)、gt+1,right(x)分别为t+1帧的左、右图像在x处的图像梯度。
2)对f(δX)进行求导,使f(δX)在一阶导数为0处取得极值,即
Figure PCTCN2014089389-appb-000122
          公式4
3)将公式3代入公式4,得到一个3x3的线性***方程:A·δX=b,求解方程A·δX=b获得δX
其中,
Figure PCTCN2014089389-appb-000123
需要说明的是,为进一步加快收敛效率,提高计算速率,使用图形处理器(Graphic Processing Unit,GPU)对图像建立高斯金字塔,先在低分辨率图像上求解公式
Figure PCTCN2014089389-appb-000124
再在高分辨率图像上进一步优化,实验中将金字塔层数设置为2。
进一步的,所述处理器601具体用于:
1)将所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置在世界坐标系内表示:
Figure PCTCN2014089389-appb-000125
计算出Xi的质心坐标(αi1,αi2,αi3,αi4)T;其中,Cj(j=1,Λ,4)为世界坐标系内任意四个不同面的控制点。
2)用所述质心坐标表示所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置:
Figure PCTCN2014089389-appb-000126
其中,
Figure PCTCN2014089389-appb-000127
为所述控制点在下一帧局部坐标系内坐标。
3)根据匹配特征点与匹配特征点对应的场景点在当前帧局部坐标系的三维位置之间的对应关系:
Figure PCTCN2014089389-appb-000128
求解所述控制点在下一帧局部坐标系内坐标
Figure PCTCN2014089389-appb-000129
获取所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置。
4)根据所述匹配特征点对应的场景点在当前帧世界坐标系内的三维位置与所述匹配点对应的场景点在下一帧局部坐标系的三维位置之间的对应关系:Xt=RtX+Tt,估计所述双目相机在下一帧的运动参数(Rt,Tt);其中Rt为一个3x3的旋转矩阵,Tt为一个3维向量。
其中,在求解所述控制点在下一帧局部坐标系内坐标
Figure PCTCN2014089389-appb-000130
Figure PCTCN2014089389-appb-000131
时,将
Figure PCTCN2014089389-appb-000132
经过直接线性变换(Direct Linear Transformation,简称DLT),转化成为关于
Figure PCTCN2014089389-appb-000133
12个变量的3个线性方程:
Figure PCTCN2014089389-appb-000134
利用至少4对匹配特征求解这三个方程得出所述控制点在下一帧局部坐标系内坐标
Figure PCTCN2014089389-appb-000135
进一步的,所述处理器601具体用于:
1)根据匹配特征点在前后两帧局部图像窗口间的相似度,对所述匹配特征点集中包含的匹配特征点进行排序。
2)按照相似度从大到小的顺序依次采样四对匹配特征点,估计所述双目相机在下一帧的运动参数(Rt,Tt)。
3)用估计的所述双目相机在下一帧的运动参数,分别计算所述匹配特征点集中每对匹配特征点的投影误差,将投影误差小于第二预设阈值的匹配特征点作为内点。
4)将上述过程重复k次,选择内点数量最多对应的四对匹配特征点,重新计算所述双目相机在下一帧的运动参数。
5)将重新计算出的运动参数作为初始值,根据优化公式:
Figure PCTCN2014089389-appb-000136
计算出所述双目相机在下一帧的运动参数(Rt,Tt);其中,n′为通过RANSAC算法得到的内点个数。
由上可知,本发明实施例提供一种摄像机跟踪装置60,获取视频序列;其中,所述视频序列包含至少两帧图像集,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像;分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集;分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置;分别估计所述双目相机在每帧的运动参数;根据每对匹配特征点对应的 场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数,优化相机在每帧的运动参数。如此,采用双目视频图像进行摄像机跟踪,提高了跟踪精度;避免现有技术基于单目视频序列的摄像机跟踪中跟踪精度较低的缺陷。
实施例六
图7为本发明实施例提供的一种摄像机跟踪装置70的结构图,如图7所示,该摄像机跟踪装置可以包括:处理器701、存储器702、双目相机703,至少一个通信总线704,用于实现这些装置之间的连接和相互通信;
处理器701可能是一个中央处理器(英文:central processing unit,简称为CPU);
存储器702,可以是易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);或者非易失性存储器(英文:non-volatile memory),例如只读存储器(英文:read-only memory,缩写:ROM),快闪存储器(英文:flash memory),硬盘(英文:hard disk drive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);或者上述种类的存储器的组合,并向处理器1001提供指令和数据;
双目相机703:用于获取视频序列;其中,所述视频序列包含至少两帧图像集,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像。
处理器701:用于分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集;
分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置;
分别估计所述双目相机在每帧的运动参数;
根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数,优化相机在每帧的运动 参数。
其中,需要说明的是,处理器701具体用于,采用与实施例一中获取当前帧图像集中的第一图像与第二图像之间的匹配特征点集的方法相同的方法获取每帧图像集中的第一图像与第二图像之间的匹配特征点集的方法,在此不再赘述
所述处理器701具体用于,采用与实施例一中步骤204相同的方法分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置,在此不再赘述。
所述处理器701具体用于,采用与实施例一中计算所述双目相机在下一帧的运动参数的方法相同的方法估计所述双目相机在每帧的运动参数,在此不再赘述。
进一步的,所述处理器701具体用于:
根据优化公式:
Figure PCTCN2014089389-appb-000137
优化相机在每帧的运动参数;其中,N为匹配特征点集包含的匹配特征点对应的场景点的个数,M为帧数,
Figure PCTCN2014089389-appb-000138
π(X)=(πleft(X)[1],πleft(X)[2],πright(X)[1])T
由上可知,本发明实施例提供一种摄像机跟踪装置70,获取视频序列;其中,所述视频序列包含至少两帧图像集,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像;分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集;分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置;分别估计所述双目相机在每帧的运动参数;根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数,优化相机在每帧的运动参数。如此,采用双目视频图像进行摄像机跟踪,提高了跟踪精度;避免现有技术基于单目视频序列的摄像机跟踪中跟踪精度较低的缺陷。
在本申请所提供的几个实施例中,应该理解到,所揭露的***, 装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实 施例技术方案的精神和范围。

Claims (16)

  1. 一种摄像机跟踪方法,其特征在于,包括:
    获取当前帧的图像集;其中,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像;
    分别提取所述当前帧的图像集中的第一图像和第二图像的特征点;其中,所述第一图像的特征点的数量和所述第二图像的特征点的数量相等;
    根据图像上相邻区域场景深度相近的原则,获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集;
    根据所述双目相机的属性参数以及预设模型,分别估计每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置;
    根据所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置,利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数;
    采用随机采样一致性算法RANSAC以及LM算法优化所述双目相机在下一帧的运动参数。
  2. 根据权利要求1所述的方法,其特征在于,所述根据图像上相邻区域场景深度相近的原则,获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集,包括:
    获取所述第一图像与所述第二图像之间的候选匹配特征点集;
    对所述候选匹配特征点集中对应的所述第一图像中的特征点作Delaunay三角化;
    遍历每个高与底边之比小于第一预设阈值的三角形的每条边,若存在第一条边,其连接的两个特征点(x1,x2)的视差之差|d(x1)-d(x2)|小于第二预设阈值,则为所述第一条边增加一票;否则减少一票;其中,所述特征点x的视差为:d(x)=uleft-uright,uleft为特征点x在所述第一图像的平面坐标系中的横坐标,uright为所述第二图像中与特征点x匹 配的特征点在第二图像的平面坐标系中的横坐标;
    统计每条边对应的票数,将票数为正的边连接的特征点对应的匹配特征点的集合作为所述第一图像与所述第二图像之间的匹配特征点集。
  3. 根据权利要求2所述的方法,其特征在于,所述获取所述第一图像与所述第二图像之间的候选匹配特征点集,包括:
    遍历所述第一图像中的特征点,根据所述第一图像中的特征点在二维平面坐标系中的位置xleft=(uleft,vleft)T,在所述第二图像u∈[uleft-a,uleft],v∈[vleft-b,vleft+b]的区域内,搜索使
    Figure PCTCN2014089389-appb-100001
    最小的点xright=(uright,vrightt)T;以及,根据所述第二图像中的特征点在二维平面坐标系中的位置xright=(uright,vright)T,在所述第一图像u∈[uright,uright+a],v∈[vright-b,vright+b]的区域内,搜索使
    Figure PCTCN2014089389-appb-100002
    最小的点x′feft;若x′left=xleft,则将(xleft,xright)作为一对匹配特征点;其中,所述χleft为所述第一图像中的特征点xleft的描述量,所述χright为所述第二图像中的特征点xright的描述量,a和b为预设常数;
    将使x′left=xleft的所有匹配特征点组成的集合作为所述第一图像与所述第二图像之间的候选匹配特征点集。
  4. 根据权利要求1所述的方法,其特征在于,所述根据所述双目相机的属性参数以及预设模型,分别估计每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置,包括:
    根据所述匹配特征点(xt,left,xt,right)与所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置Xt之间的对应关系:
    Figure PCTCN2014089389-appb-100003
    Figure PCTCN2014089389-appb-100004
    Figure PCTCN2014089389-appb-100005
    获取所述匹配特征点(xt,left,xt,right)对应的场景点在当前帧局部坐标系的 三维位置Xt;其中,所述当前帧为t帧,fx、fy、(cx,cy)T、b为所述双目相机的属性参数,fx和fy分别为沿图像二维平面坐标系的x、y方向以像素为单位的焦距,(cx,cy)T为所述双目相机中心在所述第一图像对应的二维平面坐标系中的投影位置,b为所述双目相机的第一相机与第二相机的中心距离;Xt为三维分量,Xt[k]表示Xt的第k维分量;
    初始化Xt+1=Xt,根据优化公式:
    Figure PCTCN2014089389-appb-100006
    计算所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置;其中,It,left(x)、It,right(x)分别为所述当前帧图像集合中的第一图像和第二图像分别在x处的亮度值,W为预设常数,用于表示局部窗口尺寸。
  5. 根据权利要求1所述的方法,其特征在于,所述根据所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置,利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数,包括:
    将所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置在世界坐标系内表示:
    Figure PCTCN2014089389-appb-100007
    计算出Xi的质心坐标(αi1,αi2,αi3,αi4)T;其中,Cj(j=1,Λ,4)为世界坐标系内任意四个不同面的控制点;
    用所述质心坐标表示所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置:
    Figure PCTCN2014089389-appb-100008
    其中,
    Figure PCTCN2014089389-appb-100009
    为所述控制点在下一帧局部坐标系内坐标;
    根据匹配特征点与匹配特征点对应的场景点在当前帧局部坐标 系的三维位置之间的对应关系:
    Figure PCTCN2014089389-appb-100010
    求解所述控制点在下一帧局部坐标系内坐标
    Figure PCTCN2014089389-appb-100011
    获取所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置;
    根据所述匹配特征点对应的场景点在当前帧世界坐标系内的三维位置与所述匹配点对应的场景点在下一帧局部坐标系的三维位置之间的对应关系:Xt=RtX+Tt,估计所述双目相机在下一帧的运动参数(Rt,Tt);其中,Rt为一个3x3的旋转矩阵,Tt为一个3维向量。
  6. 根据权利要求1所述的方法,其特征在于,所述采用随机采样一致性算法RANSAC以及LM算法优化所述双目相机在下一帧的运动参数,包括:
    根据匹配特征点在前后两帧局部图像窗口间的相似度,对所述匹配特征点集中包含的匹配特征点进行排序;
    按照相似度从大到小的顺序依次采样四对匹配特征点,估计所述双目相机在下一帧的运动参数(Rt,Tt);
    用估计的所述双目相机在下一帧的运动参数,分别计算所述匹配特征点集中每对匹配特征点的投影误差,将投影误差小于第二预设阈值的匹配特征点作为内点;
    将上述过程重复k次,选择内点数量最多对应的四对匹配特征点,重新计算所述双目相机在下一帧的运动参数;
    将重新计算出的运动参数作为初始值,根据优化公式:
    Figure PCTCN2014089389-appb-100012
    计算出所述双目相机在下一帧的运动参数(Rt,Tt)。
  7. 一种摄像机跟踪方法,其特征在于,包括:
    获取视频序列;其中,所述视频序列包含至少两帧图像集,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像 分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像;
    分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集;
    根据权利要求4所述的方法分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置;
    根据权利要求1-6任一项所述的方法分别估计所述双目相机在每帧的运动参数;
    根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数,优化相机在每帧的运动参数。
  8. 根据权利要求7所述的方法,其特征在于,所述根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数,优化相机在每帧的运动参数,包括:
    根据优化公式:
    Figure PCTCN2014089389-appb-100013
    优化相机在每帧的运动参数;其中,N为匹配特征点集中包含的匹配特征点对应的场景点的个数,M为帧数,
    Figure PCTCN2014089389-appb-100014
    π(X)=(πleft(X)[1],πleft(X)[2],πright(X)[1])T
  9. 一种摄像机跟踪装置,其特征在于,包括:
    第一获取模块:用于获取当前帧的图像集;其中,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像;
    提取模块:用于分别提取所述第一获取模块获取的当前帧的图像集中的第一图像和第二图像的特征点;其中,所述第一图像的特征点的数量和所述第二图像的特征点的数量相等;
    第二获取模块:用于根据图像上相邻区域场景深度相近的原则,从所述提取模块提取的特征点中获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集;
    第一估计模块:用于根据所述双目相机的属性参数以及预设模 型,分别估计所述第二获取模块获取的匹配特征点集中每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置;
    第二估计模块:用于根据所述第一估计模块估计的匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置,利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数;
    优化模块:用于采用随机采样一致性算法RANSAC以及LM算法优化所述第二估计模块估计的所述相机在下一帧的运动参数。
  10. 根据权利要求9所述的摄像机装置,其特征在于,所述第二获取模块具体用于:
    获取所述第一图像与所述第二图像之间的候选匹配特征点集;
    对所述候选匹配特征点集中对应的所述第一图像中的特征点作Delaunay三角化;
    遍历每个高与底边之比小于第一预设阈值的三角形的每条边,若存在第一条边,其连接的两个特征点(x1,x2)的视差之差|d(x1)-d(x2)|小于第二预设阈值,则为所述第一条边增加一票;否则减少一票;其中,所述特征点x的视差为:d(x)=uleft-uright,uleft为特征点x在所述第一图像的平面坐标系中的横坐标,uright为所述第二图像中与特征点x匹配的特征点在第二图像的平面坐标系中的横坐标;
    统计每条边对应的票数,将票数为正的边连接的特征点对应的匹配特征点的集合作为所述第一图像与所述第二图像之间的匹配特征点集。
  11. 根据权利要求10所述的摄像机装置,其特征在于,所述第二获取模块具体用于:
    遍历所述第一图像中的特征点,根据所述第一图像中的特征点在二维平面坐标系中的位置xleft=(uleft,vleft)T,在所述第二图像u∈[uleft-a,uleft],v∈[vleft-b,vleft+b]的区域内,搜索使
    Figure PCTCN2014089389-appb-100015
    最小的点xright=(uright,vrightt)T;以及,根据所述第二图像中的特征点在二维平面坐标系中的位置xright=(uright,vright)T,在所述第一图像u∈[uright,uright+a], v∈[vright-b,vright+b]的区域内,搜索使
    Figure PCTCN2014089389-appb-100016
    最小的点x′left;若x′left=xleft,则将(xleft,xright)作为一对匹配特征点;其中,所述χleft为所述第一图像中的特征点xleft的描述量,所述χright为所述第二图像中的特征点xright的描述量,a和b为预设常数;
    将使x′left=xleft的所有匹配特征点组成的集合作为所述第一图像与所述第二图像之间的候选匹配特征点集。
  12. 根据权利要求9所述的摄像机装置,其特征在于,所述第一估计模块具体用于:
    根据所述匹配特征点(xt,left,xt,right)与所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置Xt之间的对应关系:
    Figure PCTCN2014089389-appb-100017
    Figure PCTCN2014089389-appb-100018
    Figure PCTCN2014089389-appb-100019
    获取所述匹配特征点(xt,left,xt,right)对应的场景点在当前帧局部坐标系的三维位置Xt;其中,所述当前帧为t帧,fx、fy、(cx,cy)T、b为所述双目相机的属性参数,fx和fy分别为沿图像二维平面坐标系的x、y方向以像素为单位的焦距,(cx,cy)T为所述双目相机中心在所述第一图像对应的二维平面坐标系中的投影位置,b为所述双目相机的第一相机与第二相机的中心距离;Xt为三维分量,Xt[k]表示Xt的第k维分量;
    初始化Xt+1=Xt,根据优化公式:
    Figure PCTCN2014089389-appb-100020
    计算所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置;其中,It,left(x)、It,right(x)分别为所述当前帧图像集合中的第一图像和第二图像分别在x处的亮度值,W为预设常数,用于表示局部窗口尺寸。
  13. 根据权利要求9所述的摄像机装置,其特征在于,所述第二估计模块具体用于:
    将所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置在世界坐标系内表示:
    Figure PCTCN2014089389-appb-100021
    计算出Xi的质心坐标(αi1,αi2,αi3,αi4)T;其中,Cj(j=1,Λ,4)为世界坐标系内任意四个不同面的控制点;
    用所述质心坐标表示所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置:
    Figure PCTCN2014089389-appb-100022
    其中,
    Figure PCTCN2014089389-appb-100023
    为所述控制点在下一帧局部坐标系内坐标;
    根据匹配特征点与匹配特征点对应的场景点在当前帧局部坐标系的三维位置之间的对应关系:
    Figure PCTCN2014089389-appb-100024
    求解所述控制点在下一帧局部坐标系内坐标
    Figure PCTCN2014089389-appb-100025
    获取所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置;
    根据所述匹配特征点对应的场景点在当前帧世界坐标系内的三维位置与所述匹配点对应的场景点在下一帧局部坐标系的三维位置之间的对应关系:Xt=RtX+Tt,估计所述双目相机在下一帧的运动参数(Rt,Tt);其中Rt为一个3x3的旋转矩阵,Tt为一个3维向量。
  14. 根据权利要求9所述的摄像机装置,其特征在于,所述优化模块具体用于:
    根据匹配特征点在前后两帧局部图像窗口间的相似度,对所述匹配特征点集中包含的匹配特征点进行排序;
    按照相似度从大到小的顺序依次采样四对匹配特征点,估计所述双目相机在下一帧的运动参数(Rt,Tt);
    用估计的所述双目相机在下一帧的运动参数,分别计算所述匹配特征点集中每对匹配特征点的投影误差,将投影误差小于第二预设阈值的匹配特征点作为内点;
    将上述过程重复k次,选择内点数量最多对应的四对匹配特征点,重新计算所述双目相机在下一帧的运动参数;
    将重新计算出的运动参数作为初始值,根据优化公式:
    Figure PCTCN2014089389-appb-100026
    计算出所述双目相机在下一帧的运动参数(Rt,Tt)。
  15. 一种摄像机跟踪装置,其特征在于,包括:
    第一获取模块:用于获取视频序列;其中,所述视频序列包含至少两帧图像集,所述图像集包含第一图像和第二图像,所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像;
    第二获取模块:用于分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集;
    第一估计模块:用于分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置;
    第二估计模块:用于分别估计所述双目相机在每帧的运动参数;
    优化模块:用于根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数,优化相机在每帧的运动参数。
  16. 根据权利要求15所述的摄像机装置,其特征在于,所述优化模块具体用于:
    根据优化公式:
    Figure PCTCN2014089389-appb-100027
    优化相机在每帧的运动参数;其中,N为匹配特征点集中包含的匹配特征点对应的场景点的个数,M为帧数,
    Figure PCTCN2014089389-appb-100028
    π(X)=(πleft(X)[1],πleft(X)[2],πright(X)[1])T
PCT/CN2014/089389 2014-03-14 2014-10-24 一种摄像机跟踪方法及装置 WO2015135323A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US15/263,668 US20160379375A1 (en) 2014-03-14 2016-09-13 Camera Tracking Method and Apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201410096332.4A CN104915965A (zh) 2014-03-14 2014-03-14 一种摄像机跟踪方法及装置
CN201410096332.4 2014-03-14

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US15/263,668 Continuation US20160379375A1 (en) 2014-03-14 2016-09-13 Camera Tracking Method and Apparatus

Publications (1)

Publication Number Publication Date
WO2015135323A1 true WO2015135323A1 (zh) 2015-09-17

Family

ID=54070879

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/089389 WO2015135323A1 (zh) 2014-03-14 2014-10-24 一种摄像机跟踪方法及装置

Country Status (3)

Country Link
US (1) US20160379375A1 (zh)
CN (1) CN104915965A (zh)
WO (1) WO2015135323A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596950A (zh) * 2017-08-29 2018-09-28 国家计算机网络与信息安全管理中心 一种基于主动漂移矫正的刚体目标跟踪方法
CN110135455A (zh) * 2019-04-08 2019-08-16 平安科技(深圳)有限公司 影像匹配方法、装置及计算机可读存储介质
CN111696161A (zh) * 2020-06-05 2020-09-22 上海大学 一种双站相机的外部参数的标定方法及***
CN111768428A (zh) * 2019-04-02 2020-10-13 北京易讯理想科技有限公司 增强基于运动目标的图像跟踪稳定性的方法
CN113518214A (zh) * 2021-05-25 2021-10-19 上海哔哩哔哩科技有限公司 全景视频数据处理方法及装置

Families Citing this family (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6506031B2 (ja) * 2015-01-28 2019-04-24 株式会社トプコン 測量データ処理装置、測量データ処理方法およびプログラム
WO2017080451A1 (en) * 2015-11-11 2017-05-18 Zhejiang Dahua Technology Co., Ltd. Methods and systems for binocular stereo vision
CN106023211B (zh) * 2016-05-24 2019-02-26 深圳前海勇艺达机器人有限公司 基于深度学习的机器人图像定位方法及***
CN106225723B (zh) * 2016-07-25 2019-03-29 浙江零跑科技有限公司 一种基于后视双目相机的多列车铰接角测量方法
CN107798703B (zh) * 2016-08-30 2021-04-30 成都理想境界科技有限公司 一种用于增强现实的实时图像叠加方法以及装置
WO2018116032A1 (en) * 2016-12-19 2018-06-28 Airport Authority Automated airfield ground lighting inspection system
CN106931962A (zh) * 2017-03-29 2017-07-07 武汉大学 一种基于gpu‑sift的实时双目视觉定位方法
CN107689062A (zh) * 2017-07-05 2018-02-13 北京工业大学 基于三角剖分的室内视觉定位方法
CN107483821B (zh) * 2017-08-25 2020-08-14 维沃移动通信有限公司 一种图像处理方法及移动终端
WO2019075601A1 (zh) * 2017-10-16 2019-04-25 厦门中控智慧信息技术有限公司 一种掌静脉的识别方法及装置
CN107808395B (zh) * 2017-10-31 2020-12-04 南京维睛视空信息科技有限公司 一种基于slam的室内定位方法
CN107909604A (zh) * 2017-11-07 2018-04-13 武汉科技大学 基于双目视觉的动态物体运动轨迹识别方法
CN108055510B (zh) * 2017-12-25 2018-10-12 北京航空航天大学 一种基于fpga的双路视频实时矫正装置及方法
US11080864B2 (en) * 2018-01-08 2021-08-03 Intel Corporation Feature detection, sorting, and tracking in images using a circular buffer
CN110120098B (zh) * 2018-02-05 2023-10-13 浙江商汤科技开发有限公司 场景尺度估计及增强现实控制方法、装置和电子设备
CN108537845B (zh) * 2018-04-27 2023-01-03 腾讯科技(深圳)有限公司 位姿确定方法、装置及存储介质
CN109086726B (zh) * 2018-08-10 2020-01-14 陈涛 一种基于ar智能眼镜的局部图像识别方法及***
CN109087353A (zh) * 2018-08-20 2018-12-25 四川超影科技有限公司 基于机器视觉的室内人员定位方法
CN111127524A (zh) * 2018-10-31 2020-05-08 华为技术有限公司 一种轨迹跟踪与三维重建方法、***及装置
CN109754467B (zh) * 2018-12-18 2023-09-22 广州市百果园网络科技有限公司 三维人脸构建方法、计算机存储介质和计算机设备
CN111415387B (zh) * 2019-01-04 2023-12-29 南京人工智能高等研究院有限公司 相机位姿确定方法、装置、电子设备及存储介质
CN109887002A (zh) * 2019-02-01 2019-06-14 广州视源电子科技股份有限公司 图像特征点的匹配方法、装置、计算机设备和存储介质
CN110099215A (zh) * 2019-05-06 2019-08-06 深圳市华芯技研科技有限公司 一种扩展双目相机定位范围的方法和装置
CN110288620B (zh) * 2019-05-07 2023-06-23 南京航空航天大学 基于线段几何特征的图像匹配方法及飞行器导航方法
CN110097015B (zh) * 2019-05-08 2020-05-26 杭州视在科技有限公司 一种基于稠密特征点匹配的球机预置位偏移自动识别方法
CN110428452B (zh) * 2019-07-11 2022-03-25 北京达佳互联信息技术有限公司 非静态场景点的检测方法、装置、电子设备及存储介质
CN112257485A (zh) * 2019-07-22 2021-01-22 北京双髻鲨科技有限公司 一种对象检测的方法、装置、存储介质及电子设备
KR20190103085A (ko) * 2019-08-15 2019-09-04 엘지전자 주식회사 지능형 진단 디바이스
CN110595443A (zh) * 2019-08-22 2019-12-20 苏州佳世达光电有限公司 一种投影装置
CN110660095B (zh) * 2019-09-27 2022-03-25 中国科学院自动化研究所 动态环境下的视觉slam初始化方法、***、装置
CN110853002A (zh) * 2019-10-30 2020-02-28 上海电力大学 一种基于双目视觉的变电站异物检测方法
CN110969158B (zh) * 2019-11-06 2023-07-25 中国科学院自动化研究所 基于水下作业机器人视觉的目标检测方法、***、装置
CN113095107A (zh) * 2019-12-23 2021-07-09 沈阳新松机器人自动化股份有限公司 一种用于agv导航的多目视觉***及方法
CN113053057B (zh) * 2019-12-26 2023-02-28 杭州海康微影传感科技有限公司 火点定位***及方法
CN111457886B (zh) * 2020-04-01 2022-06-21 北京迈格威科技有限公司 距离确定方法、装置及***
CN111583342B (zh) * 2020-05-14 2024-02-23 中国科学院空天信息创新研究院 一种基于双目视觉的目标快速定位方法及装置
CN112633096A (zh) * 2020-12-14 2021-04-09 深圳云天励飞技术股份有限公司 客流的监测方法、装置、电子设备及存储介质
CN112734290B (zh) * 2021-01-25 2022-02-11 腾讯科技(深圳)有限公司 交通工具运动状态评估方法、装置、设备以及介质
CN113012224B (zh) * 2021-03-12 2022-06-03 浙江商汤科技开发有限公司 定位初始化方法和相关装置、设备、存储介质
WO2022193180A1 (zh) * 2021-03-17 2022-09-22 华为技术有限公司 视频帧处理方法和装置
CN114290995B (zh) * 2022-02-11 2023-09-01 北京远特科技股份有限公司 透明a柱的实现方法、装置、汽车及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344965A (zh) * 2008-09-04 2009-01-14 上海交通大学 基于双目摄像的跟踪***
US20110311104A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Multi-Stage Linear Structure from Motion
CN102519481A (zh) * 2011-12-29 2012-06-27 中国科学院自动化研究所 一种双目视觉里程计实现方法
CN103150728A (zh) * 2013-03-04 2013-06-12 北京邮电大学 一种动态环境中的视觉定位方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344965A (zh) * 2008-09-04 2009-01-14 上海交通大学 基于双目摄像的跟踪***
US20110311104A1 (en) * 2010-06-17 2011-12-22 Microsoft Corporation Multi-Stage Linear Structure from Motion
CN102519481A (zh) * 2011-12-29 2012-06-27 中国科学院自动化研究所 一种双目视觉里程计实现方法
CN103150728A (zh) * 2013-03-04 2013-06-12 北京邮电大学 一种动态环境中的视觉定位方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596950A (zh) * 2017-08-29 2018-09-28 国家计算机网络与信息安全管理中心 一种基于主动漂移矫正的刚体目标跟踪方法
CN108596950B (zh) * 2017-08-29 2022-06-17 国家计算机网络与信息安全管理中心 一种基于主动漂移矫正的刚体目标跟踪方法
CN111768428A (zh) * 2019-04-02 2020-10-13 北京易讯理想科技有限公司 增强基于运动目标的图像跟踪稳定性的方法
CN111768428B (zh) * 2019-04-02 2024-03-19 智易联(上海)工业科技有限公司 增强基于运动目标的图像跟踪稳定性的方法
CN110135455A (zh) * 2019-04-08 2019-08-16 平安科技(深圳)有限公司 影像匹配方法、装置及计算机可读存储介质
CN110135455B (zh) * 2019-04-08 2024-04-12 平安科技(深圳)有限公司 影像匹配方法、装置及计算机可读存储介质
CN111696161A (zh) * 2020-06-05 2020-09-22 上海大学 一种双站相机的外部参数的标定方法及***
CN111696161B (zh) * 2020-06-05 2023-04-28 上海大学 一种双站相机的外部参数的标定方法及***
CN113518214A (zh) * 2021-05-25 2021-10-19 上海哔哩哔哩科技有限公司 全景视频数据处理方法及装置
CN113518214B (zh) * 2021-05-25 2022-03-15 上海哔哩哔哩科技有限公司 全景视频数据处理方法及装置

Also Published As

Publication number Publication date
US20160379375A1 (en) 2016-12-29
CN104915965A (zh) 2015-09-16

Similar Documents

Publication Publication Date Title
WO2015135323A1 (zh) 一种摄像机跟踪方法及装置
JP7173772B2 (ja) 深度値推定を用いた映像処理方法及び装置
WO2020206903A1 (zh) 影像匹配方法、装置及计算机可读存储介质
Tola et al. Efficient large-scale multi-view stereo for ultra high-resolution image sets
US10706567B2 (en) Data processing method, apparatus, system and storage media
Agarwal et al. Building rome in a day
US20180315221A1 (en) Real-time camera position estimation with drift mitigation in incremental structure from motion
US20180315232A1 (en) Real-time incremental 3d reconstruction of sensor data
US20180315222A1 (en) Real-time image undistortion for incremental 3d reconstruction
CN111127524A (zh) 一种轨迹跟踪与三维重建方法、***及装置
Jellal et al. LS-ELAS: Line segment based efficient large scale stereo matching
Prasad et al. Sfmlearner++: Learning monocular depth & ego-motion using meaningful geometric constraints
US20160163114A1 (en) Absolute rotation estimation including outlier detection via low-rank and sparse matrix decomposition
AliAkbarpour et al. Fast structure from motion for sequential and wide area motion imagery
CN113674400A (zh) 基于重定位技术的光谱三维重建方法、***及存储介质
Irschara et al. Large-scale, dense city reconstruction from user-contributed photos
GB2566443A (en) Cross-source point cloud registration
JP2023056466A (ja) グローバル測位装置及び方法
CN117456114B (zh) 基于多视图的三维图像重建方法及***
Owens et al. Shape anchors for data-driven multi-view reconstruction
CN109961092B (zh) 一种基于视差锚点的双目视觉立体匹配方法及***
CN116630423A (zh) 一种基于orb特征的微小型机器人多目标双目定位方法及***
Bajramovic et al. Global Uncertainty-based Selection of Relative Poses for Multi Camera Calibration.
Mahmoud et al. Fast 3d structure from motion with missing points from registration of partial reconstructions
Lin et al. Simultaneous camera pose and correspondence estimation with motion coherence

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14885436

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14885436

Country of ref document: EP

Kind code of ref document: A1