«ВКонтакте» применит нейросеть для борьбы с «языком вражды». Но без живых модераторов по-прежнему не обойтись
«ВКонтакте» разрабатывает нейросеть, которая будет выявлять «язык вражды» — оскорбительные высказывания и призывы к агрессивным действиям. Однако полностью заменить людей-модераторов она все равно не сможет.
Команда «ВКонтакте» сообщила о запуске в тестовой форме нейросети, которая будет бороться с «языком вражды» и «прославлением насилия». Это касается не только прямых оскорблений на почве расизма, ксенофобии, гомофобии, особенностей внешности и наличия заболевания, но и призывов к разного рода агрессивным действиям.
По словам разработчиков проекта, это серьезно облегчит работу модераторам, которые ежедневно обрабатывают огромное количество контента. Конечно, сама нейросеть пока не сможет самостоятельно удалять неприемлемые посты, однако она будет осуществлять поиск и позволит быстрее выявлять материалы с оскорбительным содержанием.
Что такое нейросеть?
У многих слово «нейросеть» ассоциируется с искусственным интеллектом, однако это не совсем так. По словам руководителя научно-технической экспертизы Партии прямой демократии Олега Артамонова, нейросеть — это не более чем математический алгоритм, позволяющий после обучения на примерах автоматически находить все объекты нужного класса. Но при этом она может это делать, даже если точного совпадения определяемого объекта ни с одним из примеров нет.
«Если мы обучили нейросеть на десяти тысячах котиках — она будет находить котиков, даже если конкретный котик в обучающей подборке представлен не был. Если мы ее обучили на десяти тысячах ругательств — она может довольно уверенно определить, является ли представленная фраза ругательством или нет», — пояснил Артамонов.
Аналитик Mindsmith Глеб Борисов уточнил, что существуют разные модели нейронных сетей. Если говорить о модерации текстового контента, то ключевой задачей нейросети будет являться обработка естественного языка. Обучение ее происходит так: компьютерной программе предоставляют два массива слов и словосочетаний — тестовую выборку без пояснений к содержанию и обучающую выборку с заранее размеченными характеристиками и смыслами текста. Программа раз за разом анализирует тестовую выборку и сверяет конечный результат оценки текста с обучающей выборкой. Затем постепенно, подстраивая и корректируя результаты для повышения точности предсказания смысла текста, нейросеть обучается самостоятельно определять характеристики и содержание текста.
Без людей никак
Несмотря на то, что нейросети довольно быстро развиваются, без участия живых модераторов, людей, все еще не обойтись — по крайней мере в обозримом будущем. Facebook в последнем отчете, опубликованном в начале августа, заявлял, что его нейросети немедленно обнаруживают 95% враждебных высказываний по сравнению с 88%, о которых сообщалось в апреле, и по сравнению с 52%, о которых компания сообщала прошлым летом. Однако Глеб Борисов уточнил, что подобные высокие показатели не были бы достигнуты без применения механизма обучения нейронной сети с учителем, когда на помощь к компьютерному алгоритму приходит человеческая экспертиза. К примеру, модераторам на регулярной основе выдается часть выданных алгоритмом решений, которые подтверждаются или оспариваются специалистом.
Важно понимать, что нейросеть может выявить лишь сходство контента с тем, который ей показывали при обучении, но не может анализировать его контекст и смысл. Например, нейросеть, по словам Артамонова, очень плохо определяет, цитирует ли автор Гитлера в целях пропаганды нацизма или в рамках учебника истории.
И если учесть, что в социальных сетях достаточно много контента, который может кому-то показаться оскорбительным по форме, но не являющийся таким по содержанию, то здесь нейросеть часто не работает. Это касается, например, черного юмора, который и живые-то люди не всегда понимают, не говоря уж о компьютерной программе. Чтобы понимать контекст определенных высказываний, нужно более глубокое знание о мире, чем то, которым может обладать нейросеть.
По словам Борисова, самая точная мультимодальная модель на основе искусственного интеллекта — Visual BERT COCO — обеспечивает точность 64,7%, в то время как люди продемонстрировали точность 85% в распознавании враждебного посыла сообщений, состоящих как из текста, так и изображений. Так что тут преимущество все еще удерживают живые специалисты.
Поэтому IT-специалисты сходятся на том, что нейросеть пока можно использовать только как вспомогательный механизм, но не наделять всей широтой полномочий. По словам Артамонова, единственный способ избежать многочисленных ошибочных банов — это не давать автоматическому алгоритму права на бан. Автомат может лишь помечать «не нравящийся» ему контент флажками и отправлять живому модератору. Но здесь опасность не только в неоправданной цензуре, которую могут осуществлять нейросети, но и в том, что этот алгоритм могут использовать люди в целях цензуры.
По словам специалиста, всегда можно подстроить алгоритм так, чтобы он был «более склонен» понижать рейтинги и блокировать контент, соответствующий определенным политическим взглядам. А вот определить такое его поведение со стороны практически невозможно. В такой цензуре неоднократно обвиняли и Facebook, и Google, и Twitter.
Как это используют в других соцсетях
В связи с этим самым распространенным способом модерации все еще является блокировка нежелательного контента по прямым жалобам пользователей. Однако некоторые соцсети используют алгоритмы для определения враждебности комментария, еще когда пользователь его только пишет — чтобы предотвратить даже его опубликование.
Так, по словам Борисова, в сентябре 2019 года социальная сеть для соседей Nextdoor внедрила «Напоминание о доброте». Когда пользователь собирается опубликовать комментарий, который напоминает записи, отмеченные как непристойные, приложение переводит его обратно в режим редактирования, где ему приводится ссылка на рекомендации по общению в сообществе.
Социальная сеть LinkedIn использует нейросеть для того, чтобы распознавать и удалять целые аккаунты с недопустимым содержанием. Эту нейросеть даже обучали на профилях пользователей, маркированных как «допустимые» и «недопустимые».
Очень много экспериментирует с алгоритмами Facebook, и не всегда эти эксперименты можно назвать удачными. Из-за того, что нейросеть там может сама блокировать нежелательный контент, неоднократно случались громкие казусы вроде блокирования исторических документов или фотографий.
Что касается непосредственно «языка вражды», то тут Facebook старается следовать решениям самих пользователей с помощью инструмента голосования за комментарии и их оценки. Тем не менее и в Facebook, и в Instagram нейросети по-прежнему могут самостоятельно удалять нежелательные комментарии.