Жюльен Тайон: Истинная стоимос... Заметка
RSS Планета Python

Жюльен Тайон: Истинная стоимость и код парсинга всего (франкоязычного) контента Bluesky ATPROTO на Python

Автор опровергает мнение о том, что запуск сервера Bluesky сопряжен с непомерно высокими затратами и сложностью. Он подробно описывает свой опыт работы по сканированию всей сети Bluesky в режиме реального времени с помощью обычного домашнего ПК. Этот бот, написанный на Python, потребляет минимальные ресурсы: 25% процессора, менее трети домашней полосы пропускания и всего 640 МБ памяти. Автор прямо заявляет, что нет необходимости тратить 300 долларов в месяц на запуск Bluesky AppView, как это предлагают другие. Он объясняет, что, хотя интенсивные запросы API, такие как get_post, ограничены по скорости, сканирование самого потока данных (firehose) бесплатно. Бот фокусируется на событиях публикации постов, которые составляют небольшую часть общего сетевого трафика. Автор также обсуждает фильтрацию спама и контента NSFW, достигая высокой эффективности с помощью чёрного списка на основе тегов. Он делится своим опытом программирования, включая использование многопроцессорности и простой структуры базы данных. Проект включает веб-интерфейс для классификации контента и модуль обнаружения спама. В заключение, автор призывает других экспериментировать с API ATProto/Bluesky, подчеркивая, что его «игрушечный код» демонстрирует осуществимость работы на обычном оборудовании.
CdXz5zHNQW_LjTmKPNf35.png