Разработчики открытого ПО объявили сборщикам данных для ИИ партизанскую войну

Все более серьезной проблемой для владельцев веб-сайтов становятся боты, массово собирающие данные со страниц для обучения и функционирования моделей искусственного интеллекта.

Веб-сканерам подвержен практически любой сайт. В некоторых случаях это приводит к потере работоспособности, однако наибольший ущерб наносится разработчикам программного обеспечения с открытым исходным кодом.

Новости СМИ2

На сайтах таких проектов размещаются материалы для скачивания, при этом ресурсы у них значительно меньше, чем у коммерческих проектов. Проблема заключается в том, что ИИ-боты игнорируют директивы, указанные в файлах robot.txt, определяющих запрещенные для сканирования разделы. В январе разработчик открытого программного обеспечения Се Ясо (Xe Iaso) опубликовал в своем блоге сообщение о помощи, описывая деструктивные действия AmazonBot. Этот бот постоянно атаковал Git-сервер разработчика, организуя своего рода DDoS-атаки. Он игнорировал директивы robot.txt, изменял IP-адреса, подменял строку User agent и использовал другие методы.

В результате Ясо разработал программу под названием Anubis, которая блокирует ботов, но пропускает браузеры, используемые людьми. Проект Anubis был опубликован на GitHub 19 марта и всего за несколько дней набрал 2000 звезд, 20 участников и 39 форков. Популярность программы свидетельствует о том, что проблема, с которой столкнулся Ясо, не является уникальной. Агрессивное поведение ИИ-ботов также отметил основатель и генеральный директор платформы SourceHut Дрю ДеВолт (Drew DeVault), который тратит от 20 % до 100 % своего рабочего времени на защиту от веб-сканеров.

В январе анонимный разработчик под псевдонимом Aaron выпустил решение под названием Nepenthes, названное в честь насекомоядного растения кувшиночника. Система заманивает ИИ-ботов в «лабиринт» бесполезного контента, заставляя их сканировать бессмысленную информацию. Аналогичное решение недавно представила компания Cloudflare, назвав его более очевидным образом AI Labyrinth. Эта система активируется, когда боты не соблюдают директиву «no crawl», в результате чего они напрасно расходуют время и ресурсы.

Как сообщалось ранее — Художник Кантор, оскорбивший Путина и РФ, хочет представить в Москве свою книгу

Ссылка на первоисточник

Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов