«ВКонтакте» откроет доступ к своим технологиям распознавания речи для разработчиков
Теперь у всех разработчики появилась возможность бесплатно использовать в собственных инди-проектах технологию «ВКонтакте». Она считывает голос и переводит его в текст. Об этом заявил технический директор соцсети Александр Тоболь на открытии конференции Saint HighLoad++.
Технологию распознавания речи, или ASR (Automatic Speech Recognition), можно внедрить в кратчайшие сроки. Искусственный интеллект хорошо справляется с аудио, где есть посторонние шумы, много сокращений и сленга.
Для распознавания можно выбрать одну из двух моделей. Нейтральная подходит для разборчивой речи — например, как интервью или телешоу. Спонтанную используют для обработки обычной речи. Нейросети «ВКонтакте» в течение нескольких секунд обрабатывают файлы, могут удалять из расшифровки шумы и паузы, а также понимают неразборчивую речь и даже отдельный звук «ъ».
Технологию можно протестировать с помощью веб-интерфейса на специальной странице или интегрировать через публичный API «ВКонтакте». На портале есть широкий набор методов, с помощью них можно создавать мини-приложения «ВКонтакте» или использовать в сторонних проектах.
Это решение подойдет для инди-проектов, личных pet-проектов для обучения и саморазвития, для стартапов. Версию с обработкой аудио до 100 минут в сутки можно использовать для любых целей. Для безлимитного использования технологии соцсеть предлагает отправить заявку на электронную почту.
Мы считаем важным помогать рынку и уже делимся широким набором собственных уникальных технологий. Наше ASR-решение — одно из лучших в отрасли по распознаванию обыденной, повседневной речи, в которой нередко встречается сленг, заимствования, сокращения. Каждый месяц пользователи «ВКонтакте» отправляют более двух миллиардов голосовых — это миллионы часов аудио, которые обрабатывают наши нейросети. Применение технологии ограничено только вашей фантазией — можете сделать игру с голосовым управлением или с помощью чат-бота, наконец, добавить распознавание голосовых в какой-нибудь сторонний мессенджер. Надеемся, что наш ASR поможет появиться новым необычным стартапам и инди-проектам от молодых перспективных разработчиков
Александр Тоболь
СТО «ВКонтакте».
ASR используется соцсетью для расшифровки голосовых сообщений, персональных рекомендаций, составлению генерации субтитров в видео и для многого другого.
«Под капотом у решения сразу три нейросети: одна отвечает за распознавание речи, вторая находит подходящие слова, а третья расставляет знаки препинания», — сказано в сообщении пресс-службы «ВКонтакте».
Технология устроена таким образом, чтобы справляться с каждодневной обработкой сотен миллионов сообщений разного размера. Каждое из них можно очень быстро расшифровывать — на это уйдет 1,5 секунды после отправки.