RU2409854C2

RU2409854C2 - Evaluating three-dimensional road topology based on video sequences by tracking pedestrians

Info

Publication number: RU2409854C2
Application number: RU2007142371/08A
Authority: RU
Inventors: Александр Владимирович Бовырин (RU); Александр Владимирович Бовырин; Константин Владимирович Родюшкин (RU); Константин Владимирович Родюшкин
Original assignee: Интел Корпорейшн
Priority date: 2005-04-18
Filing date: 2005-04-18
Publication date: 2011-01-20
Also published as: RU2007142371A

Abstract

FIELD: information technology.

SUBSTANCE: evaluation of three-dimensional topology of roads and paths on which pedestrians are moving is achieved by observing the pedestrians and estimating parametres of the road based on the size and position of a pedestrian in a sequence of video frames. The system includes a unit for detecting objects in the foreground for analysing video frames of the three-dimensional scene and detecting objects and position of objects in the video frames, a unit for predicting the scale of the objects for estimating three-dimensional transformation parametres for objects and predicting the height of objects, at least partly based on the parametres and a unit for detecting the road map to estimate borders of the road in the three-dimensional scene using positions of objects to form a road map.

EFFECT: predicting the scale of an object and detecting the road map to obtain accurate and reliable results for three-dimensional topology of roads in a scene captured by a single camera.

11 cl, 7 dwg

Description

Область техникиTechnical field

Настоящее изобретение, в общем, имеет отношение к видеонаблюдению и, в частности, к анализу движения объектов в трехмерной (3D) сцене.The present invention, in General, relates to video surveillance and, in particular, to the analysis of the movement of objects in a three-dimensional (3D) scene.

Уровень техникиState of the art

Системы видеонаблюдения используются для обеспечения безопасности людей и объектов. В ранних системах видеоизображения непрерывно отслеживались служащими безопасности. При наблюдении нескольких дисплеев в течение длительных промежутков времени служащие часто испытывали усталость и часто пропускали интересующие события, происходящие в зафиксированных изображениях отслеживаемой сцены. Под влиянием этого некоторые системы видеонаблюдения фиксировали изображения только тогда, когда в отслеживаемой сцене что-либо изменялось. Однако эти системы по-прежнему требовали ручного управления и наблюдения служащими безопасности.CCTV systems are used to ensure the safety of people and objects. In early systems, video was continuously monitored by security personnel. When observing multiple displays over long periods of time, employees often experienced fatigue and often missed events of interest occurring in captured images of the tracked scene. Under the influence of this, some video surveillance systems captured images only when something changed in the tracked scene. However, these systems still required manual control and monitoring by security personnel.

Позже были разработаны различные методики для автоматического фиксирования и анализа изображений. Компьютерное зрение стало общепризнанным разделом исследований в области теории вычислительных систем. Однако остается много работы по реализации практических приложений, которые автоматически фиксируют и анализируют изображения в системе наблюдения.Later, various techniques were developed for automatic capture and analysis of images. Computer vision has become a recognized section of research in the theory of computer systems. However, a lot of work remains to implement practical applications that automatically capture and analyze images in a surveillance system.

Краткое описание чертежейBrief Description of the Drawings

Особенности и преимущества настоящего изобретения станут понятны из следующего подробного описания настоящего изобретения, в котором:Features and advantages of the present invention will become apparent from the following detailed description of the present invention, in which:

Фиг.1 является блок-схемой системы обработки в соответствии с вариантом воплощения настоящего изобретения;Figure 1 is a block diagram of a processing system in accordance with an embodiment of the present invention;

Фиг.2 является диаграммой, иллюстрирующей проекцию объекта на плоскость камеры с плоскости земли в соответствии с вариантом воплощения настоящего изобретения;FIG. 2 is a diagram illustrating a projection of an object onto a camera plane from a ground plane in accordance with an embodiment of the present invention; FIG.

Фиг.3 является иллюстративным изображением сцены, включающим в себя оценку высоты объектов;Figure 3 is an illustrative image of a scene including an estimate of the height of objects;

Фиг.4 является иллюстративным изображением другой сцены;4 is an illustrative depiction of another scene;

Фиг.5 является иллюстративной картой дороги, соответствующей сцене на фиг.4;Figure 5 is an illustrative map of the road corresponding to the scene in figure 4;

Фиг.6 является иллюстративной трехмерной картой дороги, соответствующей сцене на фиг.4; и6 is an illustrative three-dimensional map of the road corresponding to the scene in figure 4; and

Фиг.7 является блок-схемой, иллюстрирующей прогнозирование масштаба объекта и процесс обнаружения карты дороги в соответствии с вариантом воплощения настоящего изобретения.7 is a flowchart illustrating object scale prediction and a road map detection process in accordance with an embodiment of the present invention.

Осуществление изобретенияThe implementation of the invention

Вариант воплощения настоящего изобретения содержит способ и систему для автоматического изучения трехмерной (3D) структуры сцены вне помещения, наблюдаемой посредством одной некалиброванной видеокамеры. В частности, оценка трехмерной топологии дорог и путей, по которым ходят пешеходы, может быть создана посредством наблюдения пешеходов в течение времени и посредством оценки параметров дороги на основе высоты и положения пешеходов в последовательности видеокадров. Эксперименты с реальными видео вне помещения показывают надежность вариантов воплощения настоящего изобретения по отношению к искажениям камеры, изменению освещенности сцены, возможным ошибкам в обнаружении движения объектов, изменению покрытия дороги и дрожанию камеры. Предполагаемая трехмерная карта дороги (с точностью до масштабного коэффициента) может использоваться в областях применения компьютерного зрения, которые требуют калибровки относительных положений между камерой и трехмерной сценой, таких как видеонаблюдение, распознавание человеческой активности и анализ походки человека.An embodiment of the present invention comprises a method and system for automatically studying a three-dimensional (3D) structure of an outdoor scene observed by a single non-calibrated video camera. In particular, an assessment of the three-dimensional topology of roads and paths that walk pedestrians can be created by observing pedestrians over time and by estimating road parameters based on the height and position of pedestrians in a sequence of video frames. Experiments with real outdoor videos show the reliability of embodiments of the present invention with respect to camera distortions, changes in scene illumination, possible errors in detecting movement of objects, changes in road coverage and camera shake. The proposed three-dimensional road map (accurate to scale factor) can be used in computer vision applications that require calibration of relative positions between the camera and the three-dimensional scene, such as video surveillance, recognition of human activity and analysis of human gait.

Ссылка в спецификации на "один вариант воплощения" или "вариант воплощения" настоящего изобретения означает, что отдельный признак, структура или характеристика, описанные в связи с вариантом воплощения, включены, по меньшей мере, в один вариант воплощения настоящего изобретения. Таким образом, фразы "в одном варианте воплощения", встречающиеся в различных местах в спецификации, не обязательно относятся к одному и тому же варианту воплощения.Reference in the specification to “one embodiment” or “embodiment” of the present invention means that a separate feature, structure or characteristic described in connection with the embodiment is included in at least one embodiment of the present invention. Thus, the phrases “in one embodiment” occurring at various places in the specification do not necessarily refer to the same embodiment.

Настоящее изобретение имеет дело с двумя взаимосвязанными задачами: прогнозированием масштаба объекта в наблюдаемой сцене и оценкой карты дороги. Первая задача заключается в том, как оценить соответствие между положениями двухмерных (2D) объектов в сцене и масштабом объекта. Для этой цели оцениваются параметры функции, отражающей относительное положение плоскости камеры на плоскости земли, с использованием траектории движения объектов. Варианты воплощения настоящего изобретения включают в себя точный и устойчивый процесс прогнозирования высоты объектов в сцене.The present invention deals with two interrelated tasks: predicting the scale of an object in an observed scene and evaluating a road map. The first task is how to evaluate the correspondence between the positions of two-dimensional (2D) objects in the scene and the scale of the object. For this purpose, the parameters of a function reflecting the relative position of the camera plane on the ground plane are estimated using the trajectory of the objects. Embodiments of the present invention include an accurate and robust process for predicting the height of objects in a scene.

Высота объекта может быть точно спрогнозирована, только если траектория перемещающегося объекта находится на плоскости дороги (то есть, на плоскости земли). Варианты воплощения настоящего изобретения включают в себя процесс для обнаружения дороги в сцене с использованием информации, относящейся к движущимся объектам в сцене, которая не противоречит спрогнозированному масштабу. Приблизительное положение объекта в видеокадре может быть оценено с использованием одной из нескольких известных методик обнаружения переднего плана (например, Liyuan Li, Weimin Huang, Irene Y.H. Gu и Qi Tian, "Обнаружение объектов переднего плана в видеоизображениях, содержащих сложный фон" ("Foreground Object Detection from Videos Containing Complex Background"), доклады одиннадцатой международной конференции Ассоциации по вычислительной технике (ACM) по мультимедиа, MM2003, 2003). Процесс обнаружения карты дороги вариантов воплощения настоящего изобретения устойчив к ошибкам при оценке положения, изменениям освещенности сцены (например, в течение дня), искажениям изображения и изменениям покрытия дороги (например, после дождя или снега, идущего в сцене).The height of the object can only be accurately predicted if the trajectory of the moving object is on the road plane (i.e., on the ground plane). Embodiments of the present invention include a process for detecting a road in a scene using information related to moving objects in a scene that does not contradict the predicted scale. The approximate position of an object in a video frame can be estimated using one of several well-known foreground detection techniques (for example, Liyuan Li, Weimin Huang, Irene YH Gu and Qi Tian, "Detecting Foreground Objects in Video Images Containing a Complex Background" ("Foreground Object Detection from Videos Containing Complex Background "), reports of the eleventh international conference of the Association for Computing Engineering (ACM) on multimedia, MM2003, 2003). The road map detection process of the embodiments of the present invention is robust against positional error, changes in scene illumination (for example, during the day), image distortion and changes in road coverage (for example, after rain or snow falling in the scene).

Процесс обнаружения карты дороги не контролируется и может самостоятельно адаптироваться в случае движения камеры, частичного изменения сцены и других наблюдаемых изменений окружающей обстановки. В прикладной программе видеонаблюдения, включающей в себя настоящее изобретение как часть, процесс обнаружения карты дороги не контролируется, поэтому для управления процессом не нужен человек-оператор или пользователь. Процесс обнаружения карты дороги может самостоятельно адаптироваться, автоматически обновляя параметры трехмерного преобразования, если изменяется положение камеры или происходят другие изменения окружающей обстановки (такие как, например, изменения условий освещения). Для получения правильных результатов процессу требуется только вид сверху вниз на отдаленную сцену. Процесс основан на предположении, что движущиеся объекты подчиняются известному статистическому распределению размеров объектов (например, людей) и что все дороги в сцене лежат в одной и той же плоскости. Эти предположения выполняются в большинстве задач видеонаблюдения, таких как, например, распознавание человеческой активности, анализ походки человека, оценка географического местоположения объекта и отслеживание и подсчет транспортных средств. Ограничение плоскости земли часто включается в существующие методики наблюдения.The process of detecting a road map is not controlled and can be independently adapted in case of camera movement, a partial change in the scene and other observed changes in the environment. In the video surveillance application program including the present invention as part, the road map detection process is not controlled, therefore, a human operator or user is not needed to control the process. The process of detecting a road map can be independently adapted, automatically updating the parameters of three-dimensional conversion, if the position of the camera changes or other changes in the environment occur (such as, for example, changes in lighting conditions). To get the right results, the process only needs a top-down view of the distant scene. The process is based on the assumption that moving objects are subject to a known statistical distribution of the sizes of objects (for example, people) and that all roads in the scene are on the same plane. These assumptions are fulfilled in most video surveillance tasks, such as, for example, recognizing human activity, analyzing a person’s gait, assessing the geographic location of an object, and tracking and counting vehicles. Ground plane limitation is often included in existing surveillance techniques.

Варианты воплощения настоящего изобретения объединяют прогнозирование масштаба объекта и обнаружение карты дороги для получения точных и надежных результатов для трехмерной топологии дорог в сцене, фиксируемой одной камерой.Embodiments of the present invention combine object scale prediction and road map detection to provide accurate and reliable results for a three-dimensional road topology in a single-camera scene.

Фиг.1 является блок-схемой системы 100 обработки в соответствии с вариантом воплощения настоящего изобретения. Видеопоток 102 содержит последовательность видеокадров, зафиксированных одной камерой (не показана). Каждый кадр в последовательности содержит битовый массив пикселей, битовый массив имеет выбранный размер, зафиксированный камерой. Каждый кадр видеопотока может быть обработан посредством блока 104 известного обнаружения объектов переднего плана для извлечения объектов (представленных пятнами, "blobs") на переднем плане каждого видеокадра из фона кадра. Каждое обнаруженное пятно имеет соответствующее положение отпечатка следа в трехмерной сцене на плоскости земли. В одном варианте воплощения блок обнаружения объектов переднего плана реализует методику, описанную Liyuan Li, Weimin Huang, Irene Y.H. Gu и Qi Tian в статье "Обнаружение объектов переднего плана в видео, содержащих сложный фон" ("Foreground Object Detection from Videos Containing Complex Background"), доклады одиннадцатой международной конференции Ассоциации по вычислительной технике (ACM) по мультимедиа, MM2003, 2003. Однако в других вариантах воплощения могут использоваться другие процессы обнаружения объекта переднего плана. Блок 104 обнаружения объектов переднего плана передает обнаруженные пятна объектов 106 блоку 108 прогнозирования масштаба объектов и блоку 110 оценки карты дороги. Блок 104 обнаружения объектов переднего плана также передает фоновое изображение 112, полученное в результате определения объектов переднего плана, блоку 110 оценки карты дороги. Блок 108 обнаружения масштаба объектов анализирует пятна объектов в зафиксированной сцене, чтобы оценить их высоту. Блок 110 оценки карты дороги формирует оценку карты дороги зафиксированной сцены. Обнаружение объектов переднего плана, прогнозирование масштаба объектов и обнаружение карты дороги могут быть выполнены на каждом видеокадре видеопотока. Результаты блока прогнозирования масштаба объектов и блока обнаружения карты дороги объединяются для получения масштабной карты движущихся объектов на дорогах 114 сцены, представленной в видеопотоке. Масштабная карта может быть выдана в качестве входных данных другим приложениям 116, таким как приложения видеонаблюдения, приложения создания информационного содержания, системы воссоздания трехмерных объектов и т.д.1 is a block diagram of a processing system 100 in accordance with an embodiment of the present invention. The video stream 102 contains a sequence of video frames captured by a single camera (not shown). Each frame in the sequence contains a bitmap of pixels, the bitmap has a selected size fixed by the camera. Each frame of the video stream can be processed by the block 104 of the known detection of foreground objects to extract objects (represented by spots, "blobs") in the foreground of each video frame from the background of the frame. Each spot detected has a corresponding position of the trace imprint in a three-dimensional scene on the ground plane. In one embodiment, the foreground object detection unit implements the technique described by Liyuan Li, Weimin Huang, Irene Y.H. Gu and Qi Tian in the article "Foreground Object Detection from Videos Containing Complex Background", reports of the eleventh international conference of the Association of Computing Techniques (ACM) on multimedia, MM2003, 2003. However in other embodiments, other foreground object detection processes may be used. The foreground object detection unit 104 transmits the detected object spots 106 to the object scale prediction unit 108 and the road map estimator 110. The foreground object detecting unit 104 also transmits the background image 112 obtained from the determination of the foreground objects to the road map estimating unit 110. Block 108 detecting the scale of objects analyzes the spots of objects in a fixed scene to assess their height. The road map estimator 110 generates an estimate of the road map of the fixed scene. Detecting foreground objects, predicting the scale of objects, and detecting a road map can be performed on each video frame of the video stream. The results of the object scale prediction unit and the road map detection unit are combined to obtain a scale map of moving objects on the roads 114 of the scene presented in the video stream. A scale map may be provided as input to other applications 116, such as video surveillance applications, content creation applications, three-dimensional object reconstruction systems, etc.

Прогнозирование 108 масштаба объекта может быть выполнено над пятнами объектов. Для каждого пятна, обнаруженного блоком обнаружения объектов переднего плана в заданном видеокадре, блок прогнозирования масштаба объектов вычисляет предполагаемую высоту объекта частично на основе отпечатка следа, соответствующего пятну. Фиг.2 является диаграммой, иллюстрирующей проекцию объекта на плоскость камеры с плоскости земли в соответствии с вариантом воплощения настоящего изобретения. В этом примере объект (например, человек) в трехмерной сцене имеет "вершину" в точке (tx, ty, tz) относительно плоскости земли сцены. Когда сцена фиксируется камерой, имеющей плоскость камеры, объект имеет отпечаток следа в точке (X, Y) в плоскости камеры и вершину в точке (px, py).Prediction 108 of the scale of the object can be performed on the spots of objects. For each spot detected by the foreground object detection unit in a given video frame, the object scale prediction unit calculates the estimated object height in part based on the trace print corresponding to the spot. FIG. 2 is a diagram illustrating a projection of an object onto a camera plane from a ground plane in accordance with an embodiment of the present invention. In this example, an object (for example, a person) in a three-dimensional scene has a “vertex” at a point (tx, ty, tz) relative to the ground plane of the scene. When a scene is fixed by a camera having a camera plane, the object has a trace imprint at a point (X, Y) in the camera plane and a vertex at a point (px, py).

Предположим общее преобразование перспективы между камерой (не показана) и зафиксированной трехмерной сценой в соответствии со следующей формулой:Assume a general perspective transformation between a camera (not shown) and a fixed three-dimensional scene in accordance with the following formula:

где tx, ty, tz обозначают трехмерные мировые координаты вершины объекта в сцене, R_xx, R_xy, R_xx, R_xz, R_x0, R_zx, R_zy, R_zx, R_z0, R_yx, R_yy, R_yz, R_y0, R_zx, R_zy, R_zz и R_z0 обозначают константы, и px, py обозначают координаты точки (то есть вершины объекта) в плоскости камеры.where tx, ty, tz denote the three-dimensional world coordinates of the vertex of the object in the scene, R _xx , R _xy , R _xx , R _xz , R _x0 , R _zx , R _zy , R _zx , R _z0 , R _yx , R _yy , R _yz , R _y0 , R _zx , R _zy , R _zz and R _z0 denote constants, and px, py denote the coordinates of a point (i.e., the vertex of an object) in the plane of the camera.

Предположим, что все движущиеся объекты в сцене имеют почти одинаковую высоту. Используя это предположение, можно показать, что Y-координата py "вершины" объекта в плоскости камеры зависит от положения (X, Y) его "основания" в плоскости камеры в соответствии с уравнением 1:Suppose all moving objects in a scene are almost the same height. Using this assumption, it can be shown that the Y-coordinate py of the “vertex” of an object in the camera plane depends on the position (X, Y) of its “base” in the camera plane in accordance with equation 1:

Предположим без потери общности, что движущиеся объекты в сцене являются людьми. Каждый человек i в сцене имеет соответствующие положение (X[i], Y[j]) отпечатка следа и положение (py[i]) головы по оси y в плоскости камеры. Используя предполагаемый набор из N положений (X[i], Y[j]) "ног" людей, где N является положительным целым числом, можно оценить параметры p1, p2, p3, p4, p5 трехмерного преобразования посредством минимизации следующего функционала:Assume without loss of generality that the moving objects in the scene are human. Each person i in the scene has the corresponding position (X [i], Y [j]) of the footprint and the position (py [i]) of the head along the y axis in the camera plane. Using the proposed set of N positions (X [i], Y [j]) of the "legs" of people, where N is a positive integer, we can estimate the parameters p1, p2, p3, p4, p5 of the three-dimensional transformation by minimizing the following functional:

Для решения этой задачи минимизации в одном варианте воплощения может быть использована известная численная итеративная оптимизация (как показано в книге William H. Press и др. "Численные рецепты на языке C: искусство применения вычислительных машин для научных расчетов" ("Numerical Recipes in C: The Art of Scientific Computing"), издательство Cambridge University Press, 1992) для нахождения начального решения. В других вариантах воплощения могут использоваться другие методы. Чтобы найти начальное решение уравнения (2), может быть решена система линейных уравнений (3) с использованием алгоритма SVD (как показано в книге William H. Press и др. "Численные рецепты на языке C: искусство применения вычислительных машин для научных расчетов" ("Numerical Recipes in C: The Art of Scientific Computing"), издательство Cambridge University Press, 1992).To solve this minimization problem in one embodiment, the well-known numerical iterative optimization (as shown in the book by William H. Press et al. "Numerical recipes in C: the art of using computers for scientific calculations" ("Numerical Recipes in C: The Art of Scientific Computing "), Cambridge University Press, 1992) to find an initial solution. In other embodiments, other methods may be used. To find the initial solution to equation (2), a system of linear equations (3) can be solved using the SVD algorithm (as shown in the book by William H. Press et al. "Numerical recipes in C: the art of using computers for scientific calculations" ( "Numerical Recipes in C: The Art of Scientific Computing"), Cambridge University Press, 1992).

Однако часто в наборе данных отпечатков следов людей могут быть искажения. Чтобы уменьшить влияние ошибок на оценку положения людей и оценку размера, может использоваться процедура удаления выбросов для исключения пятен искажений в наборе данных. Высота (и масштаб) для каждого пятна, представляющего человека, прогнозируется с использованием формулы (1) с оптимальными параметрами, полученными посредством формулы (2). Затем в одном варианте воплощения приблизительно P% пятен, которые имеют наибольшее отклонение своей спрогнозированной высоты от фактической высоты пятна, может быть удалено из набора точек (X[i], Y[i]), представляющих "ноги" людей. В одном варианте воплощения значение P может быть установлено равным приблизительно 30%. В других вариантах воплощения могут использоваться другие значения. Наибольшее отклонение может иметь место у пятен, которые являются слишком маленькими, и/или у пятен, которые являются слишком большими, чтобы представлять собой людей. Набор данных отпечатков следов людей без выбросов может быть использован для адаптации модели (1) с использованием уравнения (2).Often, however, there may be distortions in the fingerprint dataset. To reduce the impact of errors on the assessment of the position of people and the estimation of size, an outlier removal procedure can be used to eliminate stain distortion in the data set. The height (and scale) for each spot representing a person is predicted using formula (1) with optimal parameters obtained by formula (2). Then, in one embodiment, approximately P% of the spots that have the largest deviation of their predicted height from the actual spot height can be removed from the set of points (X [i], Y [i]) representing the "legs" of people. In one embodiment, the value of P can be set to approximately 30%. In other embodiments, other values may be used. The greatest deviation can occur in spots that are too small and / or in spots that are too large to be human. A dataset of fingerprints of people without emissions can be used to adapt model (1) using equation (2).

Выходными данными блока 108 прогнозирования масштаба объектов после удаления выбросов являются оцененные высоты (py[i]-Y[i]) и положения (X[i], Y[i]) для каждого оставшегося пятна в видеокадре. Эта информация может быть представлена визуально на видеокадре. Фиг.3 является примером, иллюстрирующим оценку высоты "типичных" людей. Черные линии соответствуют предполагаемой высоте человека в соответствующем местоположении в видеокадре. Белая линия представляет реальную (отслеженную) высоту пятна, представляющего человека, в видеокадре.The output of block 108 for predicting the scale of objects after removal of outliers is the estimated heights (py [i] -Y [i]) and positions (X [i], Y [i]) for each remaining spot in the video frame. This information can be presented visually on a video frame. Figure 3 is an example illustrating the height estimate of "typical" people. The black lines correspond to the estimated height of the person at the corresponding location in the video frame. The white line represents the real (tracked) height of the spot representing the person in the video frame.

Обнаружение карты дороги может быть выполнено посредством блока 110 обнаружения карты дороги с использованием пятен объектов 106 и фонового изображения 112. Фиг.4 является иллюстративным изображением трехмерной сцены. Отфильтрованный набор положений (X[i], Y[i]) "ног" объекта (то есть человека) может использоваться для оценки границы дороги на сцене. Предполагается, что эти положения имеют пиксели такого же цвета, как дорога, которая предполагается однородной. Следовательно, предположение заключается в том, что объекты являются пешеходами, идущими по дороге. Для нахождения пикселей видеокадра, которые принадлежат поверхности дороги, может использоваться процесс наращивания области. Процесс заполняет соединенный компонент от начального пикселя с порядковым номером i (здесь это пиксель на "ноге" объекта в точке (X[i], Y[i])), где все пиксели в пределах компонента имеют цвет, существенно сходный с цветом начального пикселя. Более формально считается, что точка (x, y) принадлежит "дороге", если ее цвет в оцененном фоновом изображении 112 удовлетворяет следующим условиям:Road map detection can be performed by the road map detection unit 110 using the spots of objects 106 and the background image 112. FIG. 4 is an illustrative image of a three-dimensional scene. The filtered set of positions (X [i], Y [i]) of the "legs" of an object (that is, a person) can be used to estimate the border of the road on the scene. It is assumed that these positions have pixels of the same color as the road, which is assumed to be uniform. Therefore, the assumption is that the objects are pedestrians walking along the road. To find the pixels of the video frame that belong to the road surface, the process of increasing the area can be used. The process fills the connected component from the starting pixel with serial number i (here it is the pixel on the "foot" of the object at the point (X [i], Y [i])), where all the pixels within the component have a color that is substantially similar to the color of the starting pixel . More formally, the point (x, y) belongs to the “road” if its color in the estimated background image 112 satisfies the following conditions:

(I(X[i],Y[i])_r-t<=I(x,y)_r<=I(X[i],Y[i])_r+t) AND(I (X [i], Y [i]) _r -t <= I (x, y) _r <= I (X [i], Y [i]) _r + t) AND

(I(X[i],Y[i])_g-t<=I(x,y)_g<=I(X[i],Y[i])_g+t) AND(I (X [i], Y [i]) _g -t <= I (x, y) _g <= I (X [i], Y [i]) _g + t) AND

(I(X[i],Y[i])_b-t<=I(x,y)_b<=I(X[i],Y[i])_b+t)(I (X [i], Y [i]) _b -t <= I (x, y) _b <= I (X [i], Y [i]) _b + t)

Где I обозначает интенсивность, Ir, Ig, Ib - цветовые компоненты пикселя в предполагаемом фоновом изображении 112 и t - параметр вариации цвета дороги (например, t=20). Предполагаемое фоновое изображение используется для исключения объектов из сцены там, где предполагаются дороги. Так как границы дороги обычно соответствуют контурам в изображении, наращивание области прекращается, когда оно достигает пикселей контура в изображении. Эта обработка может быть выполнена на каждом видеокадре. В одном варианте воплощения для нахождения этих контуров может быть использован известный процесс обнаружения контура автора J. Canny, описанный в статье "Вычислительный подход к обнаружению контура" ("A Computational Approach to Edge Detection"), труды IEEE по анализу образов и искусственному интеллекту, 8(6):679-698, 1986, (также описанный в книге "Введение в методы трехмерного компьютерного зрения" ("Introductory Techniques for 3-D Computer Vision") Emanuele Trucco и Alessandro Verri, издательство Prentice Hall, 1998, стр.71-79). В других вариантах воплощения могут использоваться другие процессы обнаружения контура.Where I denotes the intensity, Ir, Ig, Ib are the color components of the pixel in the assumed background image 112, and t is the variation parameter of the road color (for example, t = 20). The intended background image is used to exclude objects from the scene where the roads are intended. Since the borders of the road usually correspond to the contours in the image, the build-up of the area stops when it reaches the contour pixels in the image. This processing can be performed on each video frame. In one embodiment, the well-known contour detection process by J. Canny described in the article “A Computational Approach to Edge Detection”, IEEE image analysis and artificial intelligence, can be used to find these contours. 8 (6): 679-698, 1986, (also described in Introductory Techniques for 3-D Computer Vision, by Emanuele Trucco and Alessandro Verri, Prentice Hall, 1998, p. 71-79). In other embodiments, other contour detection processes may be used.

Чтобы уменьшить влияние ошибок на оценку положения "ноги" объекта, в одном варианте воплощения может быть подсчитано количество N раз, когда пиксель был классифицирован как "дорога", и пиксель считается принадлежащим к классу пикселей дороги в текущей сцене, только если N>MaxN*0,1, где MaxN - максимальное значение N от всех пикселей видеокадра для сцены. Таким образом, некоторые пиксели искажений могут быть исключены из карты дороги. Такая процедура удаления выбросов для оценки карты дороги также позволяет пользователю наблюдать только наиболее "популярную" дорогу. Следует отметить, что процесс может правильно анализировать дороги сцены с неоднородным покрытием (например, мощеные дорожки).In order to reduce the impact of errors on estimating the position of the “legs” of an object, in one embodiment, the number N times that a pixel was classified as “road” can be counted, and the pixel is considered to belong to the class of pixels in the current scene only if N> MaxN * 0.1, where MaxN is the maximum value of N from all pixels in the video frame for the scene. Thus, some distortion pixels can be excluded from the road map. This outlier removal procedure for estimating a road map also allows the user to observe only the most “popular” road. It should be noted that the process can correctly analyze the roads of the scene with a heterogeneous coating (for example, paved paths).

Фиг.5 является иллюстративной картой дороги, соответствующей сцене, изображенной на фиг.4, полученной с помощью блока обнаружения карты дороги после обработки иллюстративного десятиминутного видеопотока. Фиг.6 является иллюстративной трехмерной картой дороги, соответствующей сцене, изображенной на фиг.4, полученной с помощью блока обнаружения карты дороги. Карта дороги включает в себя информацию о масштабе объектов, причем информация о глубине варьирует от темного цвета, соответствующего далекому расстоянию, до яркого цвета, соответствующего близкому расстоянию.FIG. 5 is an illustrative road map corresponding to the scene depicted in FIG. 4 obtained by a road map detection unit after processing an illustrative ten minute video stream. FIG. 6 is an illustrative three-dimensional road map corresponding to the scene depicted in FIG. 4 obtained by the road map detection unit. The road map includes information on the scale of the objects, and the depth information varies from a dark color corresponding to a long distance to a bright color corresponding to a close distance.

Фиг.7 является блок-схемой, иллюстрирующей обработку прогнозирования масштаба объектов и обнаружения карты дороги в соответствии с вариантом воплощения настоящего изобретения. Каждый кадр видеопотока может быть введен в блок 108 прогнозирования масштаба объектов, а также в блок 110 обнаружения карты дороги. На этапе 700 блок 104 обнаружения объектов переднего плана обнаруживает положение объектов в кадре с использованием оценки переднего плана. В некоторых случаях объекты содержат представление человека в кадре (например, пешехода). На этапе 702 блок прогнозирования масштаба объектов оценивает параметры p1, p2, p3, p4 и p5 трехмерного преобразования для уравнения (1) преобразования с использованием функционального уравнения (2). На этапе 704 блок прогнозирования масштаба объектов прогнозирует высоту объектов с использованием уравнения (1). Затем на этапе 706 блок прогнозирования масштаба объектов определяет, были ли удалены выбросы из спрогнозированных высот объектов. Если выбросы еще не были удалены, то выбросы могут быть удалены на этапе 708. В результате получается отфильтрованный набор объектов для адаптации модели. Затем обработка переходит на этап 702. Если выбросы были удалены, то обработка переходит на обработку обнаружения карты дороги на этап 710.7 is a flowchart illustrating a process for predicting the scale of objects and detecting a road map in accordance with an embodiment of the present invention. Each frame of the video stream can be input into block 108 for predicting the scale of objects, as well as to block 110 detecting a road map. At step 700, the foreground object detection unit 104 detects the position of the objects in the frame using the foreground estimate. In some cases, objects contain a representation of a person in the frame (for example, a pedestrian). At step 702, the object scale prediction unit estimates the three-dimensional transformation parameters p1, p2, p3, p4 and p5 for the transformation equation (1) using the functional equation (2). At 704, an object scale prediction unit predicts the height of the objects using equation (1). Then, at step 706, the object scale forecasting unit determines whether outliers have been removed from the predicted object heights. If outliers have not yet been removed, outliers can be removed at step 708. The result is a filtered set of objects for model adaptation. Then, the processing proceeds to step 702. If the outliers have been removed, the processing proceeds to the road map detection processing at step 710.

На этапе 710 блок обнаружения карты дороги использует фоновое изображение, полученное от блока 104 обнаружения объектов переднего плана, и процесс наращивания области, чтобы заполнить однородную цветовую область, начиная с точки "ноги" каждого объекта и заканчивая при достижении пикселей контура в изображении. Это действие может быть произведено для каждого объекта в наборе данных объектов для формирования карты дороги. На этапе 712 из предполагаемой карты дороги могут быть удалены выбросы. Наконец, на этапе 714 карта высот (то есть масштабная карта 114) для движущихся объектов на дорогах может быть оценена на основе карты дороги, полученной с помощью блока 110 обнаружения карты дороги.At step 710, the road map detection unit uses the background image obtained from the foreground object detection unit 104 and the process of increasing the area to fill a uniform color area, starting from the foot point of each object and ending when the pixels in the image reach the outline. This action can be performed for each object in the data set of objects to form a road map. At 712, outliers may be removed from the proposed road map. Finally, in step 714, a height map (i.e., a scale map 114) for moving objects on the roads can be estimated based on the road map obtained by the road map detection unit 110.

Варианты воплощения настоящего изобретения предлагают способ оценки масштаба типичного объекта в трехмерной сцене и способ обнаружения дороги в сцене, наблюдаемой посредством видеокамеры. Настоящее изобретение предоставляет возможность полностью автоматической калибровки системы видеонаблюдения благодаря ее способности адаптации на каждом видеокадре, обработке удаления выбросов и ее особенностям самонастройки. Настоящее изобретение является устойчивым к изменению освещенности сцены (например, в течение дня), искажениям видеокамеры и изменениям покрытия дороги (например, после дождя или снега). Настоящее изобретение является неконтролируемым и может осуществлять самостоятельную калибровку в случае движения камеры, частичного изменения сцены и других наблюдаемых изменений в окружающей обстановке. Настоящее изобретение также автоматически оценивает преобразование между двухмерными координатами в плоскости изображения камеры и трехмерными мировыми координатами дорог наблюдаемой сцены.Embodiments of the present invention provide a method for estimating the scale of a typical object in a three-dimensional scene and a method for detecting a road in a scene observed by a video camera. The present invention provides the possibility of fully automatic calibration of a video surveillance system due to its ability to adapt to each video frame, emission removal processing and its self-tuning features. The present invention is resistant to changes in scene illumination (for example, during the day), camcorder distortion, and changes in road surface (for example, after rain or snow). The present invention is uncontrolled and can perform self-calibration in the event of camera movement, a partial change in scene, and other observed changes in the environment. The present invention also automatically evaluates the conversion between two-dimensional coordinates in the camera image plane and three-dimensional world road coordinates of the observed scene.

Варианты воплощения настоящего изобретения могут значительно улучшить надежность многих приложений компьютерного зрения, которые требуют калибровки относительных положений между камерой и трехмерной сценой (таких как анализ человеческой активности, зрение в робототехнике, создание информационного содержания, обнаружение и отслеживание объектов, понимание трехмерных сцен, видеообработка, воссоздание трехмерных объектов и системы распознавания жестов). Варианты воплощения настоящего изобретения могут сделать системы видеонаблюдения более автоматизированными и более надежными. Например, настоящее изобретение может быть выполнено с возможностью формировать сигнал тревоги, если обнаружено, что человек идет вне границы дороги или пути, или если размер обнаруженного объекта отклоняется от спрогнозированного среднего значения.Embodiments of the present invention can significantly improve the reliability of many computer vision applications that require calibration of relative positions between the camera and a three-dimensional scene (such as analysis of human activity, vision in robotics, creation of information content, detection and tracking of objects, understanding of three-dimensional scenes, video processing, recreation three-dimensional objects and gesture recognition systems). Embodiments of the present invention can make video surveillance systems more automated and more reliable. For example, the present invention may be configured to generate an alarm if it is detected that a person is walking outside the boundary of a road or path, or if the size of the detected object deviates from the predicted average value.

Хотя описанные здесь действия могут быть описаны как последовательный процесс, некоторые из действий фактически могут быть выполнены параллельно или одновременно. Кроме того, в некоторых вариантах воплощения порядок действий может быть изменен без отступления от сущности изобретения.Although the actions described here can be described as a sequential process, some of the actions can actually be performed in parallel or simultaneously. In addition, in some embodiments, the procedure may be changed without departing from the spirit of the invention.

Описанная здесь методика не ограничена какой-либо конкретной конфигурацией аппаратных средств или программного обеспечения; она может найти применение в любой вычислительной или производственной среде. Методика может быть осуществлена в аппаратных средствах, программном обеспечении или их комбинации. Методика может быть осуществлена в исполнении программ на программируемых машинах, таких как мобильные или стационарные компьютеры, карманные компьютеры, телеприставки, мобильные телефоны и пейджеры и другие электронные устройства, каждое из которых включает в себя процессор, носитель данных, доступный для чтения с помощью процессора (в том числе энергозависимую и энергонезависимую память и/или элементы памяти), по меньшей мере, одно устройство ввода и одно или более устройств вывода. Программный код применяется к данным, введенным с помощью устройства ввода, чтобы выполнить описанные функции и сформировать выходную информацию. Выходная информация может быть выдана на одно или более устройств вывода. Специалист в области техники поймет, что изобретение может быть осуществлено с помощью компьютерных систем различных конфигураций, в том числе мультипроцессорных систем, миникомпьютеров, универсальных вычислительных систем и т.п. Изобретение может также быть осуществлено в распределенных вычислительных средах, в которых задачи могут выполняться посредством удаленных устройств обработки, которые связаны через сеть связи.The technique described here is not limited to any particular hardware or software configuration; It can be used in any computing or production environment. The technique may be implemented in hardware, software, or a combination thereof. The technique can be implemented in the execution of programs on programmable machines, such as mobile or stationary computers, handheld computers, set-top boxes, mobile phones and pagers and other electronic devices, each of which includes a processor, a storage medium readable by a processor ( including volatile and non-volatile memory and / or memory elements), at least one input device and one or more output devices. The program code is applied to the data inputted by the input device to perform the described functions and generate output information. Output may be provided to one or more output devices. A person skilled in the art will understand that the invention can be implemented using computer systems of various configurations, including multiprocessor systems, minicomputers, universal computing systems, etc. The invention may also be practiced in distributed computing environments where tasks can be performed by remote processing devices that are linked through a communications network.

Каждая программа может быть реализована на процедурном или объектно-ориентированном языке программирования высокого уровня для взаимодействия с системой обработки. Однако при желании программы могут быть реализованы на языке ассемблера или машинном языке. В любом случае язык может быть компилируемым или интерпретируемым.Each program can be implemented in a high-level procedural or object-oriented programming language for interaction with a processing system. However, if desired, programs can be implemented in assembly or machine language. In any case, the language can be compiled or interpreted.

Программные команды могут быть использованы, чтобы заставить систему обработки общего назначения или специального назначения, которая запрограммирована с помощью команд, выполнять описанные здесь действия. В качестве альтернативы действия могут быть выполнены посредством специальных аппаратных компонентов, которые содержат постоянно запрограммированную логическую схему для выполнения действий, или посредством любой комбинации запрограммированных компьютерных компонентов и специализированных аппаратных компонентов. Описанные здесь способы могут быть реализованы с помощью компьютерного программного продукта, который может включать в себя машиночитаемый носитель, на котором хранятся команды, которые могут быть использованы для программирования системы обработки или другого электронного устройства для выполнения способов. Используемый здесь термин "машиночитаемый носитель" должен включать в себя любой носитель, который может хранить или кодировать последовательность команд для выполнения посредством машины и который заставляет машину выполнять любой из описанных здесь способов. В соответствии с этим термин "машиночитаемый носитель" должен включать в себя, без ограничения, твердотельную память, оптические и магнитные диски и несущую волну, которая кодирует сигнал данных. Кроме того, в области техники обычно говорят, что программное обеспечение в том или ином виде (например, программа, процедура, процесс, приложение, модуль, логическая схема и т.д.) производит действие или приводит к результату. Такие выражения являются лишь сокращением утверждения, что исполнение программного обеспечения посредством системы обработки заставляет процессор выполнить действие и получить результат.Program instructions can be used to force a general-purpose or special-purpose processing system that is programmed with instructions to perform the actions described here. Alternatively, actions can be performed through special hardware components that contain a permanently programmed logic circuit for performing actions, or through any combination of programmed computer components and specialized hardware components. The methods described herein may be implemented using a computer program product, which may include a computer-readable medium that stores instructions that can be used to program a processing system or other electronic device to execute the methods. As used herein, the term “computer-readable medium” should include any medium that can store or encode a sequence of instructions to be executed by a machine and which causes the machine to execute any of the methods described herein. Accordingly, the term “computer readable medium” should include, without limitation, solid state memory, optical and magnetic disks, and a carrier wave that encodes a data signal. In addition, in the field of technology it is usually said that software in one form or another (for example, a program, procedure, process, application, module, logic circuit, etc.) produces an action or leads to a result. Such expressions are only a shorthand for claiming that executing software through a processing system forces the processor to perform an action and produce a result.

Хотя это изобретение было описано со ссылкой на иллюстративные варианты воплощения, это описание не предназначено для его толкования в ограничивающем смысле. Подразумевается, что различные модификации иллюстративных вариантов воплощения, а также другие варианты воплощения изобретения, очевидные для специалистов в области техники, к которой принадлежит изобретение, будут находиться в пределах сущности и объема изобретения.Although this invention has been described with reference to illustrative embodiments, this description is not intended to be construed in a limiting sense. It is understood that various modifications of illustrative embodiments, as well as other embodiments of the invention that are obvious to those skilled in the art to which the invention belongs, will fall within the spirit and scope of the invention.

Claims

1. Способ анализа видеокадров, фиксирующих трехмерную сцену в течение времени, для автоматического формирования карты дороги на трехмерной сцене, способ содержит этапы, на которых:
обнаруживают положение объектов в видеокадрах;
оценивают параметры трехмерного преобразования для объектов;
прогнозируют высоты объектов, по меньшей мере, частично на основе параметров трехмерного преобразования;
удаляют выбросы из спрогнозированных высот объектов для создания отфильтрованного набора объектов;
используют отфильтрованный набор объектов для повторной оценки параметров трехмерного преобразования и повторного прогнозирования высот объектов;
оценивают границы дороги на трехмерной сцене с использованием фонового изображения и положений объектов, используя заполнение области с однородным цветом, начиная от основания одного из упомянутых объектов и заканчивая при достижении пикселей контура изображения;
формируют карту дороги;
удаляют пиксели выбросов из карты дороги и
оценивают карту высот для объектов, передвигающихся по дороге упомянутой карты дороги.1. A method for analyzing video frames fixing a three-dimensional scene over time to automatically generate a road map on a three-dimensional scene, the method comprises the steps of:
detect the position of objects in video frames;
evaluate the parameters of the three-dimensional transformation for objects;
predicting object heights, at least in part, based on three-dimensional transformation parameters;
remove emissions from the predicted heights of objects to create a filtered set of objects;
using a filtered set of objects to re-evaluate the parameters of the three-dimensional transformation and re-prediction of the heights of the objects;
evaluate the boundaries of the road in a three-dimensional scene using the background image and the positions of the objects, using the filling of the area with a uniform color, starting from the base of one of the mentioned objects and ending when the pixels of the image outline are reached;
form a road map;
remove outlier pixels from the road map and
evaluate a height map for objects moving along the road of said road map.

2. Способ по п.1, в котором обнаружение положений объектов содержит применение процесса обнаружения объектов переднего плана к видеокадрам.2. The method according to claim 1, wherein detecting the positions of objects comprises applying a process for detecting foreground objects to video frames.

3. Способ по п.1, в котором оценка границ дороги содержит применение процесса наращивания области к позициям объектов для нахождения пикселей видеокадров, принадлежащих поверхности дороги в трехмерной сцене.3. The method according to claim 1, in which the assessment of the boundaries of the road includes applying the process of increasing the area to the positions of objects to find pixels of video frames belonging to the road surface in a three-dimensional scene.

4. Способ по п.1, в котором объекты содержат представление человеческих существ в видеокадрах.4. The method according to claim 1, in which the objects contain a representation of human beings in video frames.

5. Машиночитаемый носитель, содержащий команды, который при исполнении приводят к анализу видеокадров, фиксирующих трехмерную сцену в течение времени, для автоматического формирования карты дороги трехмерной сцены посредством
обнаружения положений объектов в видеокадрах;
оценки параметров трехмерного преобразования для объектов;
прогнозирования высот объектов, по меньшей мере, частично на основе параметров трехмерного преобразования;
удаления выбросов из спрогнозированных высот объектов для создания отфильтрованного набора объектов;
использования отфильтрованного набора объектов для повторной оценки параметров трехмерного преобразования и повторного прогнозирования высот объектов;
оценки границ дороги на трехмерной сцене с использованием фонового изображения и положений объектов, используя заполнение области с однородным цветом, начиная от основания одного объекта из упомянутых объектов и заканчивая при достижении пикселей контура изображения;
формирования карты дороги;
удаления пикселей выбросов из карты дороги и
оценки карты высот для объектов, передвигающихся по дороге упомянутой карты дороги.5. A machine-readable medium containing instructions that, when executed, leads to an analysis of video frames capturing a three-dimensional scene over time to automatically generate a road map of the three-dimensional scene by
detecting the positions of objects in video frames;
estimates of three-dimensional transformation parameters for objects;
predicting object heights, at least in part, based on three-dimensional transformation parameters;
removing emissions from predicted object heights to create a filtered set of objects;
using a filtered set of objects to re-evaluate the parameters of the three-dimensional transformation and re-prediction of the heights of the objects;
assessing the boundaries of the road in a three-dimensional scene using the background image and the positions of the objects, using the filling of the area with a uniform color, starting from the base of one object from the said objects and ending when the pixels of the image outline are reached;
forming a road map;
remove pixel outliers from the road map and
elevation map estimates for objects moving along the road of said road map.

6. Машиночитаемый носитель по п.5, в котором команды для обнаружения положений объектов содержат команды для применения процесса обнаружения объектов переднего плана к видеокадрам.6. The computer-readable medium of claim 5, wherein the instructions for detecting the positions of objects comprise instructions for applying the process of detecting foreground objects to video frames.

7. Машиночитаемый носитель по п.5, в котором команды оценки границ дороги содержат команды для применения процесса наращивания области к позициям объектов для нахождения пикселей видеокадров, принадлежащих поверхности дороги в трехмерной сцене.7. The computer-readable medium of claim 5, wherein the road boundary estimation commands comprise instructions for applying an area building process to object positions to find pixels of video frames belonging to a road surface in a three-dimensional scene.

8. Машиночитаемый носитель по п.5, в котором объекты содержат представление человеческих существ в видеокадрах.8. The computer-readable medium of claim 5, wherein the objects comprise a representation of human beings in video frames.

9. Система для анализа видеокадров, фиксирующих трехмерную сцену в течение времени, для автоматического формирования карты дороги на трехмерной сцене, содержащая:
блок обнаружения объектов переднего плана для анализа видеокадров трехмерной сцены и обнаружения объектов и положений объектов в видеокадрах;
блок прогнозирования масштаба объектов для оценки параметров трехмерного преобразования для объектов и прогнозирования высоты объектов, по меньшей мере, частично на основе параметров трехмерного преобразования, для удаления выбросов из спрогнозированных высот объектов для создания отфильтрованного набора объектов для повторной оценки параметров трехмерного преобразования и повторного прогнозирования высот объектов; и
блок оценки карты дороги для формирования карты дороги посредством оценки границы дороги на трехмерной сцене с использованием фонового изображения и положения объектов, используя заполнение области с однородным цветом, начиная от основания одного объекта из упомянутых объектов и заканчивая при достижении пикселей контура изображения, удаления пикселей выбросов из карты дороги и оценки карты высот для объектов, передвигающихся по дороге упомянутой карты дороги.9. A system for analyzing video frames capturing a three-dimensional scene over time, for automatically generating a road map on a three-dimensional scene, comprising:
a foreground object detection unit for analyzing video frames of a three-dimensional scene and detecting objects and object positions in video frames;
an object scale prediction unit for estimating three-dimensional transformation parameters for objects and predicting object heights, at least in part based on three-dimensional transformation parameters, to remove emissions from predicted object heights to create a filtered set of objects for re-evaluating three-dimensional transformation parameters and re-predicting object heights ; and
a road map estimating unit for generating a road map by estimating a road boundary in a three-dimensional scene using a background image and position of objects, filling a region with a uniform color, starting from the base of one object from the said objects and ending when the pixels of the image outline are reached, removing outlier pixels from road maps and elevation map estimates for objects moving along the road of said road map.

10. Система по п.13, в которой блок оценки карты дороги оценивает границы дороги посредством применения процесса наращивания области к позициям объектов для нахождения пикселей видеокадров, принадлежащих поверхности дороги в трехмерной сцене.10. The system of claim 13, wherein the road map estimator estimates the boundaries of the road by applying the process of increasing the area to the positions of objects to find pixels of video frames belonging to the road surface in a three-dimensional scene.

11. Система по п.9, в которой объекты содержат представление человеческих существ в видеокадрах. 11. The system according to claim 9, in which the objects contain a representation of human beings in video frames.