Guide for llama.cpp, the C/C++ LLM inference framework by ggml-org. Covers the C API (llama.h), GGUF format, quantization (Q4_K_M, Q8_0, IQ4_XS), CMake builds, GPU backends (CUDA, Vulkan, Metal, ROCm), HTTP server with OpenAI-compatible API, embeddings, grammar constraints, function calling, LoRA, speculative decoding, multimodal, and UE5 integration. Use when: llama.cpp, GGUF models, local LLM in
El comando exacto puede variar según el repositorio. Consulta el README en GitHub.
Para el autor de la skill
Pega en el README de tu repo
Muestra que tu skill está catalogada en Skillteca, genera backlink y tráfico rastreable.
[](https://www.skillteca.com.br/skills/llama-cpp-maystudios?utm_source=badge&utm_medium=readme&utm_campaign=badge)