Databricks заявляет, что решил... Заметка
RSS VentureBeat

Databricks заявляет, что решила многолетнюю проблему конвейеров данных, которая замедляла работу ИИ-агентов.

Десятилетиями специалисты по данным сталкивались с проблемами объединения операционных и аналитических баз данных без снижения производительности. Агенты, требующие непрерывной обработки в реальном времени, выявляют неэффективность традиционных конвейеров данных. Databricks представила Lakehouse//RT и LTAP для решения этих проблем путем унификации инфраструктуры. Lakehouse//RT обеспечивает миллисекундную задержку запросов непосредственно на управляемых таблицах Delta и Iceberg, устраняя необходимость в отдельном уровне обслуживания в реальном времени. LTAP, или Lake Transactional/Analytical Processing, хранит транзакционные данные в формате Postgres в формате Delta и Iceberg с момента записи, устраняя конвейеры ETL. Этот подход унифицирует данные на уровне хранения, в отличие от предыдущих решений HTAP, которые фокусировались на унификации движков. Основная инженерная задача — это задержка, которую Lakehouse//RT преодолевает с помощью своего вычислительного движка Reyden и кэширующего слоя, обрабатывающего преобразование строк в столбцы. Lakehouse//RT обеспечивает задержку менее 100 мс и работает в рамках системы управления Unity Catalog без копирования данных. Хотя проблема признана, подход Databricks к агентам ИИ и открытым форматам рассматривается как ключевое отличие. Аналитики отмечают, что, хотя архитектура Lakehouse сильна, ее задержка и надежность должны быть доказаны. Переход к открытым форматам для транзакционных записей и прямого запроса озера считается значительным. Для предприятий, особенно тех, которые используют агентов, вопрос смещается с выбора лучших в своем классе инструментов на обоснованные отдельные системы. Разрывы между специализированными системами становятся операционными рисками для агентов, что приводит к консолидации в сторону отказа от отдельных уровней обслуживания. Рабочие нагрузки агентов не могут терпеть задержку, присущую традиционным архитектурам данных, построенным для анализа со скоростью человека.