RU2019101759A

RU2019101759A - Обнаружение объектов в видеоданных

Info

Publication number: RU2019101759A
Application number: RU2019101759A
Authority: RU
Inventors: Джон Брендан МаККОРМАК; Анкур ХАНДА; Эндрю ДЕЙВИСОН; Штефан ЛОЙТЕНЭГГЕР
Original assignee: Империал Колледж Оф Сайенс, Текнолоджи Энд Медсин
Priority date: 2016-06-24
Filing date: 2017-06-09
Publication date: 2020-07-24
Also published as: JP7009399B2; US20190147220A1; KR20190038808A; RU2019101759A3; GB2554633A; GB201611033D0; CN109643368A; WO2017220966A1; CN109643368B; SG11201811330WA; GB2554633B; US10915731B2; BR112018076556A2; AU2017281822A1; JP2019520654A; EP3475875A1

Claims

1. Способ обнаружения объектов в видеоданных, содержащий этапы, на которых определяют значения вероятности метки объекта для пространственных элементов кадров видеоданных, используя двумерный классификатор изображений; идентифицируют поверхностные элементы в трехмерном представлении пространственных элементов, наблюдаемых в кадрах видеоданных, соответствующих пространственным элементам, где соответствие между пространственным элементом и поверхностным элементом определяется, основываясь на проекции представления поверхностных элементов, используя предполагаемую расположение для кадра; и обновляют значения вероятности метки объекта для поверхностных элементов, основываясь на значениях вероятности метки объекта для соответствующих пространственных элементов, чтобы обеспечить семантически маркированное трехмерное представление поверхностных элементов объектов, присутствующих в видеоданных.

2. Способ по п. 1, в котором во время обработки упомянутых видеоданных, способ содержит этапы, на которых обнаруживают событие закрытия цикла и применяют пространственную деформацию к представлению поверхностных элементов, причем пространственная деформация модифицирует трехмерные позиции поверхностных элементов в представлении поверхностных элементов, где пространственная деформация модифицирует соответствие между пространственными элементами и представление поверхностных элементов так, что после пространственной деформации значения вероятности метки объекта для первого поверхностного элемента обновляются, используя значения вероятности метки объекта для пространственных элементов, которые ранее соответствовали второму поверхностному элементу.

3. Способ по п. 1 или 2, содержащий этапы, на которых обрабатывают кадры видеоданных без графа расположения, чтобы сформировать трехмерное представление поверхностных элементов, в том числе, на покадровой основе: сравнивают рендерированный кадр, сформированный, используя трехмерное представление поверхностных элементов, с кадром видеоданных из числа кадров видеоданных, чтобы определить расположение устройства получения изображения для кадра видеоданных; и обновляют трехмерное представление поверхностных элементов, используя расположение и данные изображения из кадра видеоданных.

4. Способ по п. 3, в котором подмножество кадров видеоданных, используемых для формирования трехмерного представления поверхностных элементов, вводится в двумерный классификатор изображений.

5. Способ по любому из предшествующих пунктов, в котором кадры видеоданных содержат по меньшей мере одно из следующего: данные цветности, данные глубины или данные нормали; и в котором двумерный классификатор изображений выполнен с возможностью вычисления значений вероятности метки объекта, основываясь по меньшей мере на одном из следующего: данные цветности, данные глубины или данные нормали для кадра.

6. Способ по любому из предшествующих пунктов, в котором двумерный классификатор изображений содержит сверточную нейронную сеть.

7. Способ по п. 6, в котором сверточная нейронная сеть выполнена с возможностью вывода значений вероятности метки объекта как набора пиксельных карт для каждого кадра видеоданных, причем каждая пиксельная карта в наборе соответствует другой метке объекта в наборе доступных меток объекта.

8. Способ по п. 6 или 7, в котором двумерный классификатор изображений содержит обратную сверточную нейронную сеть, средствами связи связанную с выходом сверточной нейронной сети.

9. Способ по любому из предшествующих пунктов, содержащий после обновления значения вероятности метки объекта для поверхностных элементов этап, на котором упорядочивают значения вероятности метки объекта для поверхностных элементов.

10. Способ по п. 9, в котором упорядочивание содержит этап, на котором применяют условную рандомизированную область к значениям вероятности метки объекта для поверхностных элементов в представлении поверхностных элементов.

11. Способ по п. 9 или 10, в котором упорядочивание значений вероятности метки объекта содержит этап, на котором упорядочивают значения вероятности метки объекта, назначенные поверхностным элементам, основываясь на одном или более из следующего: позиции поверхностных элементов, цвета поверхностных элементов или нормали поверхностных элементов.

12. Способ по любому из предшествующих пунктов, содержащий этап, на котором заменяют набор из одного или более поверхностных элементов на трехмерное определение объекта, основываясь на значениях вероятности метки объекта, назначенных упомянутым поверхностным элементам.

13. Способ по любому из предшествующих пунктов, содержащий этапы, на которых аннотируют поверхностные элементы трехмерного представления поверхностных элементов пространства с метками объекта, чтобы обеспечить аннотированное представление; формируют аннотированные кадры видеоданных из аннотированного представления, основываясь на проекции аннотированного представления, причем проекция использует предполагаемое расположение для каждого аннотированного кадра, и каждый аннотированный кадр содержит пространственные элементы с назначенными метками объекта; и обучают двумерный классификатор изображений, используя аннотированные кадры видеоданных.

14. Способ по любому из предшествующих пунктов, содержащий этапы, на которых получают первый кадр видеоданных, соответствующий наблюдению за первым участком объекта; формируют карту изображения для первого кадра видеоданных, используя двумерный классификатор изображений, причем упомянутая карта изображений указывает присутствие первой части объекта в области первого кадра; и определяют, что поверхностный элемент не проецируется на область в первом кадре и, таким образом, не обновляет значения вероятности метки объекта для поверхностного элемента, основываясь на значениях карты изображения в упомянутой области; в котором после обнаружения события закрытия цикла способ содержит этапы, на которых модифицируют трехмерную позицию поверхностного элемента; получают второй кадр видеоданных, соответствующий повторному наблюдению первого участка объекта; формируют карту изображения для второго кадра видеоданных, используя двумерный классификатор изображения, причем карта изображения указывает присутствие первого участка объекта в области второго кадра; определяют, что модифицированный первый поверхностный элемент выполняет проецирование на область второго кадра после события закрытия цикла; и обновляют значения вероятности метки объекта для поверхностного элемента, основываясь на карте изображения для второго кадра видеоданных, где значения вероятности метки объекта для поверхностного элемента содержат объединенные предсказания объекта для поверхностного элемента с многочисленных точек наблюдения.

15. Устройство обнаружения объектов в видеоданных, содержащее интерфейс классификатора изображений для приема двумерных распределений вероятности метки объекта для индивидуальных кадров видеоданных; интерфейс соответствия для приема данных, указывающих для заданного кадра видеоданных соответствие между пространственными элементами внутри заданного кадра и поверхностными элементами в трехмерном представлении поверхностных элементов, причем упомянутое соответствие определяется, основываясь на проекции представления поверхностных элементов, используя предполагаемое расположение для заданного кадра; и семантический усилитель, чтобы итеративно обновлять значения вероятности метки объекта, назначенные индивидуальным поверхностным элементам в трехмерном представлении поверхностных элементов, где семантический усилитель выполнен с возможностью использования для заданного кадра видеоданных данных, полученные интерфейсом соответствия, чтобы применить двумерные распределения вероятности метки объекта принятые интерфейсом классификатора изображений к значениям вероятности метки объекта, назначенным соответствующим поверхностным элементам.

16. Устройство по п. 15, в котором интерфейс согласования выполнен с возможностью обеспечения обновленного соответствия после пространственной деформации представления поверхностных элементов, причем пространственная деформация предписывает закрытие цикла в пределах видеоданных, и семантический усилитель использует обновленное соответствие, чтобы обновить значения вероятности метки объекта для первого поверхностного элемента, используя значения вероятности метки объекта для пространственных элементов, которые ранее соответствовали второму поверхностному элементу.

17. Устройство по п. 15 или 16, в котором интерфейс классификатора изображений выполнен с возможностью приема многочисленных карт изображения, соответствующих определенному множеству меток объекта для заданного кадра видеоданных, причем каждая карта изображения имеет пиксельные значения, указывающие значения вероятности для сопутствующей метки объекта.

18. Устройство по любому из пп. 15-17, содержащее нормализатор для упорядочивания значений вероятности метки объекта, назначенных поверхностным элементам представления поверхностных элементов.

19. Устройство по п. 18, в котором нормализатор выполнен с возможностью применения условной рандомизированной области к значениям вероятности метки объекта для поверхностных элементов в представлении поверхностных элементов.

20. Устройство по п. 18 или 19, в котором нормализатор выполнен с возможностью упорядочивания значений вероятности метки объекта, назначенных поверхностным элементам, основываясь на одном или более из следующего: позиции поверхностных элементов, цвета поверхностных элементов или нормали поверхностных элементов.

21. Устройство по любому из пп. 15-20, в котором семантический усилитель выполнен с возможностью замены набора из одного или более поверхностных элементов с трехмерным определением объекта, основанным на значениях вероятности метки объекта, назначенных упомянутым поверхностным элементам.

22. Устройство по любому из пп. 15-21, в котором каждый поверхностный элемент в представлении поверхностных элементов содержит, по меньшей мере, данные, определяющие позицию поверхностного элемента в трех измерениях, и данные, определяющие вектор нормали для поверхностного элемента в трех измерениях, и в котором каждый поверхностный элемент представляет двумерную область в трехмерном пространстве.

23. Система обработки видеоданных для обнаружения объектов, присутствующих в видеоданных, содержащая устройство по любому из пп. 15-22; интерфейс сбора видеоданных для получения кадров видеоданных от устройства получения изображения, причем упомянутые кадры видеоданных являются результатом относительного движения между устройством получения изображения и трехмерным пространством во времени; и систему одновременного определения местоположения и отображения (SLAM), средствами связи связанную с интерфейсом соответствия устройства, чтобы сформировать представление поверхностных элементов трехмерного пространства, основываясь на полученных кадрах видеоданных, в котором система SLAM выполнена с возможностью применения пространственной деформации к представлению поверхностных элементов, чтобы замкнуть циклы наблюдения внутри кадров видеоданных, причем упомянутая пространственная деформация приводит в результате к новой трехмерной позиции по меньшей мере для одного модифицированного поверхностного элемента в представлении поверхностных элементов.

24. Система обработки видеоданных по п. 23, в которой система SLAM содержит сегментатор, выполненный с возможностью сегментации представления трехмерного поверхностного элемента, по меньшей мере, на активный и неактивный участки, основываясь по меньшей мере на одном свойстве представления, в которой система SLAM выполнена с возможностью вычисления активного рендерированного кадра, основываясь на проекции активных участков представления поверхностных элементов, чтобы обновлять упомянутое представление во времени; и механизм регистрации, выполненный с возможностью выравнивания активных участков трехмерного представления поверхностных элементов с неактивными участками трехмерного представления поверхностных элементов во времени, причем механизм регистрации выполнен с возможностью вычисления неактивного рендерированного кадра, основываясь на проекции неактивных участков трехмерного представления поверхностных элементов; определения пространственной деформации, которая выравнивает активный рендерированный кадр с неактивным рендерированным кадром; и обновления трехмерного представления поверхностных элементов, применяя пространственную деформацию.

25. Система обработки видеоданных по п. 23 или 24, в которой система SLAM содержит компонент слежения за кадром в модели, выполненный с возможностью сравнения активного рендерированного кадра с предоставленным кадром из упомянутых видеоданных, чтобы определить выравнивание активных участков трехмерного представления поверхностных элементов с видеоданными.

26. Система обработки видеоданных по любому из пп. 24-25, в которой механизм регистрации выполнен с возможностью использования графа деформации, чтобы выровнять активные участки трехмерного представления поверхностных элементов с неактивными участками трехмерного представления поверхностных элементов, причем граф деформации вычисляется, основываясь на времени инициализации для поверхностных элементов, и граф деформации указывает набор соседних поверхностных элементов с заданным поверхностным элементом, которые должны использоваться для модификации заданного поверхностного элемента во время выравнивания.

27. Система обработки видеоданных по любому из пп. 23-26, содержащая двумерный классификатор изображений, средствами связи связанный с интерфейса классификатора изображений, для вычисления распределений вероятности метки объекта для кадров видеоданных, полученных от интерфейса сбора видеоданных.

28. Система обработки видеоданных по п. 27, в которой двумерный классификатор изображений содержит сверточную нейронную сеть.

29. Система обработки видеоданных по п. 28, в которой сверточная нейронная сеть выполнена с возможностью вывода значений вероятности метки объекта в виде набора пиксельных карт для каждого кадра видеоданных.

30. Система обработки видеоданных по п. 28 или 29, в которой двумерный классификатор изображений содержит обратную сверточную нейронную сеть, средствами связи связанную с выходом сверточной нейронной сети.

31. Робототехническое устройство, содержащее по меньшей мере одно устройство получения изображения для обеспечения кадров видеоданных, содержащее одним или более данные глубины или данные цветности, причем упомянутые данные глубины указывают расстояние от устройства получения изображения для множества элементов изображения; устройство по любому из пп. 15-22 или система обработки видеоданных по любому из пп. 23-30; один или более приводов движения для движения робототехнического устройства в трехмерном пространстве; и механизм навигации для управления одним или более приводами движения, в котором механизм навигации выполнен с возможность получения доступа к значениям вероятности метки объекта, назначенным индивидуальным поверхностным элементам в трехмерном представлении пространственных элементов, для управляемого движения робототехнического устройства внутри трехмерного пространства.

32. Робототехническое устройство заявления 31, в чем механизм навигации конфигурируется, чтобы идентифицировать точки входа и точки выхода для комнаты, основанной на значениях вероятности метки объекта, присвоенных поверхностным элементам в трехмерном представлении поверхностных элементов.

33. Мобильное компьютерное устройство, содержащее по меньшей мере одно устройство получения изображения, выполненное с возможностью записи кадров видеоданных, содержащих одни или более из данных глубины или данных цветности, причем упомянутые данные глубины указывают расстояние от устройства получения изображения для множества элементов изображения, и устройство по любому из пп. 15-22 или система обработки видеоданных по любому из пп. 23-30.

34. Постоянный считываемый компьютером носитель, содержащий исполняемые компьютером команды, которые, когда выполняются процессором, заставляют компьютерное устройство выполнять способ обработки видеоданных по любому из пп. 1-14.