En el contexto de la puntuación de ataque WAF, que es la capa de aprendizaje automático (ML) impulsada por la máquina de Cloudflare construida sobre su Firewall de Aplicaciones Web (WAF), la popularidad de la función ha generado la necesidad de mejoras en el rendimiento. El objetivo de la función es complementar el WAF y detectar eludiciones de ataques que no se han encontrado anteriormente, capturando vulnerabilidades de día cero y mejorando la protección del cliente contra amenazas emergentes y desconocidas.
Para optimizar el rendimiento del modelo ML de WAF, se tomaron varias medidas. En primer lugar, se optimizó la fase de preprocesamiento utilizando DFA de Aho-Corasick para reemplazar búsquedas en hash map, lo que redujo la latencia en un 47,84% a 1,64x. Luego, se utilizó un enfoque basado en coincidencias, lo que redujo aún más la latencia en un 53,45% a 2,15x. A continuación, se desarrolló una nueva implementación de reemplazo de letras, que duplicó la velocidad de preprocesamiento y la hizo cuatro a cinco veces más rápida que la versión original.
Después de eso, se implementó una búsqueda de ngram sin ramificaciones, lo que redujo la latencia en un 91,33% a 11,54x. Esto se logró precomputando tablas de búsqueda de offset y utilizando ellas para reemplazar operaciones de comparación con accesos directos a la memoria, que son mucho más rápidos y no involucran ramificaciones.
Por último, se optimizó la inferencia del modelo al habilitar la multiplicación de matrices SIMD y utilizar XNNPack, lo que redujo la latencia en un 77,17% a 4,38x. Además, se implementó una caché LRU para omitir ejecuciones redundantes y reducir aún más la latencia. En general, las optimizaciones redujeron el tiempo de ejecución de ML de WAF en aproximadamente un 81,90%, de 1519 a 275 microsegundos, o 5,5 veces más rápido.
blog.cloudflare.com
Making WAF ML models go brrr: saving decades of processing time
Create attached notes ...