В погоне за правдой. Как нейросеть SORA может стать новым рассадником фейков
Архитектор ИИ Душкин: разработчики SORA создают модель против фейков
Разработчики сделали огромный шаг в развитии искусственного интеллекта и генерации контента. Скоро пользователи смогут создавать минутные видеоролики, которые, на первый взгляд, сложно отличить от реально снятых кадров. О новом проекте от OpenAI, успехе и недоработке модели, а также опасности пугающей виртуальной реальности — в материале «360».
Что такое нейросеть SORA от OpenAI и на что она способна
Возможности SORA
Американская научно-исследовательская организация, занимающаяся разработками в области искусственного интеллекта (ИИ), OpenAI недавно представила новый проект SORA. Очередной инновационной технологии уже прочат такой же успех, как текстовой нейросети ChatGPT и инструменту для создания изображений Dall-e.
SORA позволит создавать видеоролики максимум до 60 секунд. Все, что нужно пользователю, — ввести описание желаемого изображения, указать все детали, которые он хотел бы видеть в видео, и нажать на кнопку «Сгенерировать». Кроме того, все сгенерированные ролики поддерживают высокое качество изображения.
«Нейросеть SORA способна генерировать сложные сцены с несколькими персонажами, определенными типами движения и точной детализацией объекта и фона. Модель понимает не только то, что пользователь запрашивает, но и то, как эти вещи существуют в реальном физическом мире», — рассказали разработчики на официальном сайте OpenAI.
Все ограничивают лишь границы воображения человека — можно создать стаю волков, которые бегут по бескрайним просторам Сибири, или человека, читающего в одиночестве книгу, например, посреди океана на самодельном плоту.
Качество, движения и банальная анатомия всего живого в новой нейросети теперь не страдает, как было раньше.
Разработчики показали пример видео, созданного с помощью SORA, текстовой запрос которого звучит так:
Несколько гигантских мамонтов идут по заснеженному лугу, их длинный мех слегка развевается на ветру. На фоне — заснеженные деревья и живописные горы вдали. Полуденный свет с расплывчатыми облаками и солнце создают теплое свечение, вид с низкой камеры потрясает, захватывая большое мохнатое млекопитающее в движении в высоком качестве.
Настолько реалистичные видео одних пользователей испугали, а других — позабавили. После презентации проекта в социальных сетях запустили тренд, где публикуют настоящие видео, но при этом якобы сгенерированные нейросетью SORA.
Как сделать видео с помощью SORA
Сейчас доступ к модели разработчики предоставили только экспертам по информационной безопасности для оценки потенциальных угроз и рисков использования нейросети, а также художникам и графическим дизайнерам для получения обратной связи и дальнейшего совершенствования модели.
Интересно
Компания OpenAI уделяет особое внимание вопросам безопасности и этике использования SORA, поэтому разрабатывает инструменты для выявления фейкового контента. Например, разработчики работают над классификатором для определения видео, созданных с помощью искусственного интеллекта.
С помощью проекта SORA организация хочет показать безграничный потенциал развития ИИ и возможности, которые появятся на горизонте в ближайшем будущем.
Примеры видео от нейросети SORA
Разработчики действительно постарались и придумали самые разнообразные сценарии для видео, чтобы показать, насколько нейросеть справляется с поставленной задачей.
Помимо бегущих по снежным просторам мамонтов, специалисты представили еще несколько работ — вполне реальных и, конечно, совсем вымышленных.
Пиратские корабли в чашке кофе
Новая нейросеть позволит каждому пользователю посмотреть, насколько его воображение может воплотиться в реальность. Здесь тестировщики показали результат видео со следующим запросом:
Фотореалистичное видео крупным планом двух пиратских кораблей, сражающихся друг с другом и плавающих в чашке кофе.
Создание трейлеров к выдуманным фильмам
Нейросеть научили вполне реалистично создавать правдоподобные трейлеры к фильмам. Например, пользователь сможет посмотреть на свою задумку, если напишет такой текстовый запрос:
Трейлер фильма о приключениях 30-летнего космонавта в красном шерстяном вязаном мотоциклетном шлеме, голубое небо, соляная пустыня, кинематографический стиль, снято на 35-миллиметровую пленку, яркие цвета.
Разработчики уточнили: для желаемого результата пользователи могут писать как художественный рассказ, так и просто перечислять детали, которые они хотели бы видеть в ролике. Нейросеть в любом случае, по их словам, поймет запрос.
Живописные пейзажи
Нейросеть с легкостью может генерировать красивые пейзажи и ландшафты любой местности, якобы снятые с квадрокоптера. Ниже — видео с текстовым запросом:
Вид с дрона на волны, разбивающиеся о суровые скалы на пляже Гарай-Поинт в Биг-Суре (США). Бьющиеся голубые воды создают белые волны, а золотой свет заходящего солнца освещает скалистый берег. Вдали видно небольшой остров с маяком, а край скалы покрыт зеленой травой. Крутой спуск с дороги к пляжу представляет собой драматическое зрелище: края скалы выступают над морем. Этот вид передает всю красоту побережья.
Можно ли отличить сгенерированное видео от настоящего
Несмотря на то, что нейросети активно улучшают и разрабатывают, компьютер иногда не в состоянии подстроиться под реальный мир. Например, некоторые модели для создания изображения попросту не могут понять, что отражение человека или любого другого объекта в зеркале не может смотреть или находиться в другой стороне.
В таком случае пользователи сразу догадываются, что перед ними сгенерированная картинка либо кадр из фильма про раздвоение личности.
Тем не менее некоторые изображения или недавние видео от SORA выглядят пугающе реалистично.
Подлинное изображение или генерация?
Не всегда можно распознать подлинность картинки невооруженным глазом, а автоматических программ определения фейкового контента пока не существует, рассказал «360» специалист по глубоким нейронным сетям и машинному обучению, разработчик систем распознавания и синтеза изображений, голоса, экспертных и мобильных операционных систем Станислав Ашманов.
Система автоматического определения фейкового контента должна быть устойчива к тому, чтобы картинку сжимали, меняли формат или накладывали какие-то шумы. Единственное, что сейчас работает, насколько мне известно, — функционал водяных знаков от самих создателей нейросетей. Крупные корпорации, в частности OpenAI или Microsoft, уже используют такой инструмент.
Станислав Ашманов
эксперт по нейросетям
Тем не менее некоторые сгенерированные видео от SORA не смогли успешно влиться в реальный физический мир, отметил в разговоре главный архитектор искусственного интеллекта НИЯУ МИФИ Роман Душкин.
«Пока контент не очень реалистичный — все-таки видно, что изображение сделали с помощью нейросети. Вместе с тем мы уже почти приближаемся к тому, что в модель можно загрузить сценарий и на выходе получить фильм или целый сериал», — допустил он.
Так или иначе, внимательно посмотрев ролик со «стильной девушкой, идущей по токийской улице, пока многие пешеходы прогуливаются», можно понять, что перед пользователями — фейк.
Несколько раз у женщины появляется «плавающая» походка, затем левая нога путается с правой, а в конце видео нейросеть решила добавить молодой девушке несколько десятков лет и нарисовала морщины и обвисшую кожу.
Другой пример — джип, который едет по проселочной дороге. При внимательном просмотре можно обнаружить, что колеса авто хаотично поворачивают в разные стороны, хотя транспорт следует прямо. А немного заезжая на склон, машина почему-то остается в привычном положении без тряски кузова.
Для реалистичных видео в целях безопасности разработчики будут добавлять водяные знаки, уточнил Ашманов. Также поступят и российские компании, занимающиеся развитием искусственного интеллекта и моделей нейросетей.
«Вотермарку в таком случае будут накладывать на видимое место, тогда человек сразу поймет, что картинку сгенерировали. Либо водяной знак будет невидимым для человека, но вполне очевидным при проверке на компьютере при анализе изображения на аудио или заглушенных шумов», — объяснил специалист.
В чем опасность SORA и аналогов
С развитием моделей нейросетей, которые могут генерировать правдоподобные видео и результат не смогут отличить от съемки вживую, увеличиваются риски распространения фейков. Несмотря на то, что компании активно создают специальные программы для проверки, есть вероятность лазеек при анализе изображения.
Предполагаю, что разработчики таких моделей, которые, к слову, очень дорого и сложно сделать, уже сейчас задумываются обо всех рисках и опасностях подобных нейросетей. Вместе с созданием модели они активно и параллельно внедряют программу, накладывающую водяные знаки на все изображения.
Роман Душкин
архитектор ИИ
По мнению собеседника «360», любая сгенерированная официальная модель, будь то SORA или другие большие проекты, будет использовать вотермарки. Но опасность останется: вероятно, тут же появятся инструменты, которые будут вычищать эти знаки.
«Тогда уже встанет вопрос: кто кого победит организационными или техническими мерами?» — заключил нейросетевой архитектор.