Llama.cpp - это каркас на C/C++, предназначенный для вывода моделей машинного обучения, определенных в формате GGUF, на нескольких бэкендах выполнения. Он был создан для вывода моделей LLM от Meta на процессорах Apple, AVX/AVX-512, CUDA и Arm Neon. Llama.cpp использует ggml, низкоуровневый каркас, который предоставляет примитивные функции, необходимые для глубоких моделей обучения, и абстрагирует детали реализации бэкенда от пользователя. Проект не имеет зависимостей от других библиотек третьих лиц, что делает его легковесным и эффективным. Это руководство исследует внутреннюю структуру llama.cpp и создает базовую программу чата с использованием низкоуровневых функций из llama.cpp. Код на C++, написанный в этом руководстве, также используется в SmolChat, родном приложении для Android, которое позволяет пользователям взаимодействовать с LLM/SLM в интерфейсе чата на устройстве. Руководство охватывает поток программы, конструкции llama.cpp и создает простую программу чата. Код для этого руководства доступен на GitHub. Llama.cpp отличается от PyTorch/TensorFlow тем, что он фокусируется исключительно на выводе, тогда как PyTorch и TensorFlow - это комплексные решения, предлагающие обработку данных, обучение/валидацию моделей и эффективный вывод в одном пакете. Используя llama.cpp, разработчики могут создавать эффективные и легковесные решения только для вывода для своих моделей машинного обучения.
towardsdatascience.com
llama.cpp: Writing A Simple C++ Inference Program for GGUF LLM Models
t.me
Читайте AI и ML Новости в Телеграмм канале @ai_ml_news_ru
Create attached notes ...
