使用 AWS EC2 在 Pinterest 处理网络限速
视觉搜索引擎Pinterest在AWS上运行,并使用Amazon EC2实例作为其计算机队伍。该公司发现了管理EC2基础设施的重大挑战,特别是在线存储系统,因为缺乏对EC2网络性能的明确见解及其对应用程序可靠性和性能的影响。为解决此问题,Pinterest为其EC2机队开发了网络性能监控,并实施了管理网络burst的技术,以确保关键在线服务工作负载的可靠网络性能。该公司遇到了用户序列服务问题,该问题驱动了显著的用户参与胜利,但导致了服务延迟和应用程序超时。在EC2实例迁移期间,Pinterest在许多集群中看到显著的性能下降,导致应用程序超时。该公司发现EC2实例由于微burst超过网络配额而经历网络限制。为了使EC2网络限制行为更加透明,Pinterest将其实例升级到使用工具如ethtool访问原始计数器在EC2实例上。该公司修改了其内部指标收集代理,以抓取这些计数器并将其摄入其指标存储。通过将这些ENA指标推广到其整个EC2机队,Pinterest获得了对AWS流量整形的前所未有的可见性,并实施了各种优化以缓解网络限制。该公司还探索了处理网络burst的技术,包括细粒度的S3速率限制、数据备份调整和网络压缩。