Новости СМИ2

На информационном ресурсе применяются рекомендательные технологии (информационные технологии предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей сети "Интернет", находящихся на территории Российской Федерации)

ИАНЕД

717 подписчиков

Свежие комментарии

Разработчики открытого ПО объявили сборщикам данных для ИИ партизанскую войну

Все более серьезной проблемой для владельцев веб-сайтов становятся боты, массово собирающие данные со страниц для обучения и функционирования моделей искусственного интеллекта.

Веб-сканерам подвержен практически любой сайт. В некоторых случаях это приводит к потере работоспособности, однако наибольший ущерб наносится разработчикам программного обеспечения с открытым исходным кодом.

На сайтах таких проектов размещаются материалы для скачивания, при этом ресурсы у них значительно меньше, чем у коммерческих проектов. Проблема заключается в том, что ИИ-боты игнорируют директивы, указанные в файлах robot.txt, определяющих запрещенные для сканирования разделы. В январе разработчик открытого программного обеспечения Се Ясо (Xe Iaso) опубликовал в своем блоге сообщение о помощи, описывая деструктивные действия AmazonBot. Этот бот постоянно атаковал Git-сервер разработчика, организуя своего рода DDoS-атаки. Он игнорировал директивы robot.txt, изменял IP-адреса, подменял строку User agent и использовал другие методы.

В результате Ясо разработал программу под названием Anubis, которая блокирует ботов, но пропускает браузеры, используемые людьми. Проект Anubis был опубликован на GitHub 19 марта и всего за несколько дней набрал 2000 звезд, 20 участников и 39 форков. Популярность программы свидетельствует о том, что проблема, с которой столкнулся Ясо, не является уникальной. Агрессивное поведение ИИ-ботов также отметил основатель и генеральный директор платформы SourceHut Дрю ДеВолт (Drew DeVault), который тратит от 20 % до 100 % своего рабочего времени на защиту от веб-сканеров.

В январе анонимный разработчик под псевдонимом Aaron выпустил решение под названием Nepenthes, названное в честь насекомоядного растения кувшиночника. Система заманивает ИИ-ботов в «лабиринт» бесполезного контента, заставляя их сканировать бессмысленную информацию. Аналогичное решение недавно представила компания Cloudflare, назвав его более очевидным образом AI Labyrinth. Эта система активируется, когда боты не соблюдают директиву «no crawl», в результате чего они напрасно расходуют время и ресурсы.

Как сообщалось ранее — Художник Кантор, оскорбивший Путина и РФ, хочет представить в Москве свою книгу

Ссылка на первоисточник
Рекомендуем
Популярное
наверх