Ученые МФТИ помогли создать новую технологию объемного зрения для роботов и БПЛА
:format(webp)/aHR0cHM6Ly94bi0tODBhaGNubGhzeGoueG4tLXAxYWkvbWVkaWEvbXVsdGltZWRpYS9tZWRpYWZpbGUvZmlsZS8yMDE5LzEyLzIwLzE5X2RtaXRyb3Zza29lLW5hcHJhdmxlbmllLWRvbGdvcHJ1ZG55ai1tb3Nrb3Zza2lqLWZpemlrby10ZWhuaWNoZXNraWotaW5zdGl0dXQuanBn.webp?w=1920)
Международный коллектив с участием ученых МФТИ разработал новую технологию стереозрения Un-ViTAStereo. Она способна определять расстояние до объектов даже в условиях густого тумана и листвы. Технологию смогут применять для безопасности беспилотных автомобилей и автономных роботов.
Человеческий мозг постоянно анализирует изображение от левого и правого глаз, чтобы построить трехмерную картину мира. Стереосистемы роботов и БПЛА работают похожим способом, однако они получают картинку через камеры, а обрабатывают ее алгоритмы. Этот механизм может плохо работать в некоторых условиях — например, перед идеально белой стеной или зоной с повторяющимися узорами.
Новая технология для обучения нейросетей помогает преодолевать такие барьеры. Она вводит в процесс обучения Depth Anything V2, которая умеет распознавать тени, перспективу и перекрытия объектов почти без ошибок.
«Модель Depth Anything V2 постоянно передает различные подсказки стереосистеме. Например, „я не знаю, на сколько метров эта машина ближе дерева, но она точно ближе, и граница между ними должна быть резкой“ или „на этой стене, где нет контраста, глубина должна меняться плавно“ и тд,» — пояснил руководитель проекта Научно-технического центра телекоммуникаций МФТИ Александр Дворкович.
Технологию уже протестировали на стандартных датасетах, и она показала высокие результаты. На основе текущей версии Un-ViTAStereo ученые планируют создать самообучающуюся нейросеть, которая сможет адаптироваться под разные виды среды.