Ученые МФТИ помогли создать новую технологию объемного зрения для роботов и БПЛА

Виды города Долгопрудный
Фото: Виды города Долгопрудный/Медиасток.рф

Международный коллектив с участием ученых МФТИ разработал новую технологию стереозрения Un-ViTAStereo. Она способна определять расстояние до объектов даже в условиях густого тумана и листвы. Технологию смогут применять для безопасности беспилотных автомобилей и автономных роботов.

Человеческий мозг постоянно анализирует изображение от левого и правого глаз, чтобы построить трехмерную картину мира. Стереосистемы роботов и БПЛА работают похожим способом, однако они получают картинку через камеры, а обрабатывают ее алгоритмы. Этот механизм может плохо работать в некоторых условиях — например, перед идеально белой стеной или зоной с повторяющимися узорами.

Новая технология для обучения нейросетей помогает преодолевать такие барьеры. Она вводит в процесс обучения Depth Anything V2, которая умеет распознавать тени, перспективу и перекрытия объектов почти без ошибок.

«Модель Depth Anything V2 постоянно передает различные подсказки стереосистеме. Например, „я не знаю, на сколько метров эта машина ближе дерева, но она точно ближе, и граница между ними должна быть резкой“ или „на этой стене, где нет контраста, глубина должна меняться плавно“ и тд,» — пояснил руководитель проекта Научно-технического центра телекоммуникаций МФТИ Александр Дворкович.

Технологию уже протестировали на стандартных датасетах, и она показала высокие результаты. На основе текущей версии Un-ViTAStereo ученые планируют создать самообучающуюся нейросеть, которая сможет адаптироваться под разные виды среды.

Задизайнено в Студии Артемия Лебедева Информация о проекте