RSS Stories by Pinterest Engineering on Medium
Подписаться
Обработка ограничения пропускной способности сети с помощью AWS EC2 в Pinterest
Pinterest, визуальный поисковый движок, работает на AWS и использует экземпляры Amazon EC2 для своего вычислительного флота. Компания определила значительную проблему в управлении своей инфраструктурой EC2, особенно для своих онлайн-систем хранения, из-за отсутствия четких представлений о производительности сети EC2 и ее влиянии на надежность и производительность приложений. Чтобы решить эту проблему, Pinterest разработал мониторинг производительности сети для своего флота EC2 и реализовал методы управления сетевыми всплесками, обеспечивая надежную производительность сети для критически важных онлайн-загрузок. Компания столкнулась с проблемами при обслуживании последовательности пользователей, что привело к значительным победам в вовлечении пользователей, но привело к задержкам при обслуживании и таймаутам приложений. Во время миграции экземпляра EC2 Pinterest наблюдал значительное ухудшение производительности во многих кластерах, что привело к таймаутам приложений. Компания обнаружила, что экземпляры EC2 испытывали сетевое ограничение из-за микровсплесков, превышающих сетевой лимит. Чтобы сделать поведение ограничения сети EC2 более прозрачным, Pinterest обновил свои экземпляры для доступа к сырым счетчикам на экземпляре EC2 с помощью инструментов, таких как ethtool. Компания изменила свой внутренний агент сбора метрик, чтобы собирать эти счетчики и передавать их в хранилище метрик. Выпустив эти метрики ENA для всего своего флота EC2, Pinterest получил беспрецедентную видимость в формировании трафика AWS и реализовал различные оптимизации для смягчения ограничения сети. Компания также исследовала методы обработки сетевых всплесков, включая тонкую ограничение скорости S3, настройку резервного копирования данных и сетевую компрессию.