Autor en el catálogo
Orchestra-Research
Skills publicadas
Mostrando 48 de 98
tensorrt-llm
Optimiza la inferencia de LLMs con NVIDIA TensorRT para un rendimiento máximo y la menor latencia. Úselo para despliegues de producción en GPUs NVIDIA (A100/H100), cuando necesite una inferencia 10-100 veces más rápida que PyTorch, o para servir modelos con cuantificación (FP8/INT4), procesamiento por lotes en vuelo y escalado multi-GPU.
autogpt-agents
Plataforma de agentes de IA autónomos para construir y desplegar agentes continuos. Úsela al crear agentes de flujo de trabajo visual, desplegar agentes autónomos persistentes o construir sistemas complejos de automatización de IA de varios pasos.
guidance
Controle la salida de LLMs con expresiones regulares y gramáticas, garantice la generación válida de JSON/XML/código, aplique formatos estructurados y construya flujos de trabajo de varios pasos con Guidance - el framework de generación restringida de Microsoft Research.
nanogpt
Una implementación educativa de GPT en ~300 líneas, por Andrej Karpathy, que reproduce GPT-2 (124M) en OpenWebText. Ofrece un código limpio y modificable, perfecto para aprender transformadores y entender la arquitectura GPT desde cero, entrenable en Shakespeare (CPU) o OpenWebText (multi-GPU).
pytorch-lightning
Framework PyTorch de alto nivel con clase Trainer, entrenamiento distribuido automático (DDP/FSDP/DeepSpeed), sistema de callbacks y boilerplate mínimo. Escala desde laptops hasta supercomputadoras con el mismo código, ofreciendo bucles de entrenamiento limpios con las mejores prácticas integradas.
skypilot-multi-cloud-orchestration
Orquestación multinube para cargas de trabajo de ML con optimización automática de costos. Ideal para ejecutar entrenamientos o trabajos por lotes en múltiples nubes, aprovechando instancias spot con recuperación automática y optimizando los costos de GPU.
serving-llms-vllm
Sirve LLMs con alto rendimiento utilizando PagedAttention y batching continuo de vLLM. Ideal para implementar APIs de LLM en producción, optimizar la inferencia o servir modelos con memoria GPU limitada, soporta endpoints compatibles con OpenAI, cuantificación y paralelismo de tensor.
hqq-quantization
Cuantización Half-Quadratic para LLMs sin datos de calibración. Úselo al cuantizar modelos a precisión de 4/3/2 bits sin necesidad de conjuntos de datos de calibración, para flujos de trabajo de cuantización rápidos, o al desplegar con vLLM o HuggingFace Transformers.
weights-and-biases
Rastree experimentos de ML con registro automático, visualice el entrenamiento en tiempo real, optimice hiperparámetros con barridos y gestione el registro de modelos con W&B - una plataforma colaborativa de MLOps.
evolving-ai-agents
Proporciona orientación para evolucionar y optimizar automáticamente agentes de IA en cualquier dominio utilizando algoritmos de evolución impulsados por LLMs. Úselo al construir agentes que se auto-mejoran, optimizar prompts y habilidades de agentes frente a benchmarks, o implementar bucles de evaluación automatizados de agentes.
llama-cpp
Ejecuta inferencia de LLM en CPU, Apple Silicon y GPUs de consumo sin hardware NVIDIA, ideal para despliegue en el borde, Macs M1/M2/M3, GPUs AMD/Intel o cuando CUDA no está disponible. Soporta cuantificación GGUF (1.5-8 bit) para memoria reducida y una aceleración de 4-10x frente a PyTorch en CPU.
sglang
Generación y servicio estructurados rápidos para LLMs, utilizando el almacenamiento en caché de prefijos RadixAttention. Es ideal para salidas JSON/regex, decodificación restringida y flujos de trabajo de agentes, ofreciendo una inferencia 5 veces más rápida que vLLM con compartición de prefijos, y alimenta más de 300.000 GPUs en xAI, AMD, NVIDIA y LinkedIn.
deepspeed
Orientación experta para el entrenamiento distribuido con DeepSpeed, cubriendo las etapas de optimización ZeRO, paralelismo de pipeline, FP16/BF16/FP8, Adam de 1 bit y atención dispersa.
evaluating-llms-harness
Evalúa LLMs en más de 60 benchmarks académicos como MMLU y HumanEval. Es un estándar de la industria para comparar la calidad de modelos, informar resultados y seguir el progreso del entrenamiento, compatible con HuggingFace, vLLM y APIs.
nemo-guardrails
El marco de seguridad en tiempo de ejecución de NVIDIA para aplicaciones LLM ofrece detección de jailbreak, alucinaciones y toxicidad, junto con validación de entrada/salida, verificación de hechos y filtrado de PII. Utiliza Colang 2.0 DSL para rieles programables, está listo para producción y se ejecuta en GPUs T4.
mlflow
Rastree experimentos de ML, gestione el registro de modelos con versionado, implemente modelos en producción y reproduzca experimentos con MLflow, una plataforma de ciclo de vida de ML agnóstica a frameworks.
constitutional-ai
Método de Anthropic para entrenar IA inofensiva mediante auto-mejora. Emplea un enfoque de dos fases: aprendizaje supervisado con autocrítica/revisión y RLAIF, utilizado para la alineación de seguridad y la reducción de resultados dañinos sin etiquetas humanas, potenciando el sistema de seguridad de Claude.
ray-train
Orquesta el entrenamiento distribuido para PyTorch/TensorFlow/HuggingFace a través de clusters, escalando desde laptops hasta miles de nodos, con ajuste de hiperparámetros integrado (Ray Tune), tolerancia a fallos y escalado elástico, ideal para modelos masivos o barridos de hiperparámetros distribuidos.
nnsight-remote-interpretability
Ofrece orientación para interpretar y manipular los internos de redes neuronales usando nnsight, con ejecución remota NDIF opcional. Úselo cuando necesite ejecutar experimentos de interpretabilidad en modelos masivos (70B+) sin recursos de GPU locales, o al trabajar con cualquier arquitectura PyTorch.
grpo-rl-training
Orientación experta para el ajuste fino de GRPO/RL con TRL, para el entrenamiento de modelos específicos para razonamiento y tareas.
fine-tuning-with-trl
Ajuste LLMs utilizando aprendizaje por refuerzo con TRL, empleando SFT para el ajuste de instrucciones, DPO para la alineación de preferencias y PPO/GRPO para la optimización de recompensas y el entrenamiento de modelos de recompensa. Es ideal para RLHF, alinear modelos con preferencias o entrenar con retroalimentación humana, y funciona con HuggingFace Transformers.
huggingface-tokenizers
Tokenizadores rápidos basados en Rust, optimizados para investigación y producción, que procesan 1GB en menos de 20 segundos. Soportan BPE, WordPiece y Unigram, ofreciendo entrenamiento de vocabularios personalizados e integración fluida con transformers para una tokenización de alto rendimiento.
openrlhf-training
Un framework RLHF de alto rendimiento con aceleración Ray+vLLM, utilizado para el entrenamiento PPO, GRPO, RLOO y DPO de modelos grandes (7B-70B+). Construido sobre Ray, vLLM y ZeRO-3, es 2 veces más rápido que DeepSpeedChat gracias a su arquitectura distribuida y compartición de recursos de GPU.
gguf-quantization
Formato GGUF y cuantificación llama.cpp para inferencia eficiente en CPU/GPU. Úselo al implementar modelos en hardware de consumo, Apple Silicon, o cuando necesite cuantificación flexible de 2 a 8 bits sin requisitos de GPU.
evaluating-code-models
Evalúa modelos de generación de código en HumanEval, MBPP, MultiPL-E y más de 15 benchmarks con métricas pass@k. Este estándar de la industria del BigCode Project, usado en las tablas de clasificación de HuggingFace, es ideal para comparar habilidades de codificación y probar soporte multilingüe.
pyvene-interventions
Proporciona orientación para realizar intervenciones causales en modelos PyTorch utilizando el framework de intervención declarativa de pyvene. Úselo al realizar trazado causal, parcheo de activación, entrenamiento de intervención de intercambio o al probar hipótesis causales sobre el comportamiento del modelo.
miles-rl-training
Proporciona orientación para el entrenamiento de RL de nivel empresarial utilizando miles, una bifurcación de slime lista para producción. Úselo al entrenar grandes modelos MoE con FP8/INT4, necesitando alineación entrenamiento-inferencia o requiriendo RL especulativa para un rendimiento máximo.
prompt-guard
El detector de inyección de prompt y jailbreak de 86M de Meta filtra prompts maliciosos y datos de terceros para aplicaciones LLM. Ofrece más del 99% de TPR, menos del 1% de FPR, es rápido (<2ms GPU), multilingüe (8 idiomas) y puede implementarse con HuggingFace o procesamiento por lotes para la seguridad RAG.
gptq
Cuantificación post-entrenamiento de 4 bits para LLMs con mínima pérdida de precisión. Permite desplegar modelos grandes (70B, 405B) en GPUs de consumidor, logrando una reducción de memoria de 4x con <2% de degradación de perplejidad o una inferencia 3-4x más rápida que FP16, y se integra con transformers y PEFT para el ajuste fino QLoRA.
ray-data
Procesamiento de datos escalable para cargas de trabajo de ML con ejecución en streaming a través de CPU/GPU, compatible con varios formatos como Parquet/CSV/JSON/imágenes. Se integra con Ray Train, PyTorch y TensorFlow, escalando desde una sola máquina hasta cientos de nodos para tareas como inferencia por lotes, preprocesamiento de datos y pipelines ETL distribuidos.
verl-rl-training
Proporciona orientación para entrenar LLMs con aprendizaje por refuerzo usando verl (Volcano Engine RL).
lambda-labs-gpu-cloud
Instancias de GPU en la nube reservadas y bajo demanda para entrenamiento e inferencia de ML. Úselas cuando necesite instancias de GPU dedicadas con acceso SSH simple, sistemas de archivos persistentes o clústeres multinodo de alto rendimiento para entrenamiento a gran escala.
instructor
Extrae datos estructurados de respuestas de LLMs con validación Pydantic, reintenta extracciones fallidas automáticamente, analiza JSON complejo con seguridad de tipo y transmite resultados parciales con Instructor - una biblioteca de salida estructurada probada en batalla.
outlines
Garantiza una estructura JSON/XML/código válida durante la generación, utiliza modelos Pydantic para salidas con seguridad de tipo, soporta modelos locales (Transformers, vLLM) y maximiza la velocidad de inferencia con Outlines - la biblioteca de generación estructurada de dottxt.ai.
long-context
Extiende las ventanas de contexto de modelos transformer usando RoPE, YaRN, ALiBi y técnicas de interpolación de posición. Es útil para procesar documentos largos, extender modelos preentrenados o implementar codificaciones posicionales eficientes, abarcando diversas estrategias de embedding y extrapolación para LLMs.
brainstorming-research-ideas
Guía a los investigadores a través de marcos de ideación estructurados para descubrir direcciones de investigación de alto impacto. Úselo al explorar nuevos espacios problemáticos, pivotar entre proyectos o buscar ángulos novedosos en trabajos existentes.
qdrant-vector-search
Motor de búsqueda de similitud vectorial de alto rendimiento para RAG y búsqueda semántica. Ideal para sistemas RAG de producción que requieren búsqueda rápida de vecinos, búsqueda híbrida con filtrado o almacenamiento vectorial escalable con rendimiento Rust.
ml-paper-writing
Escriba artículos de ML/IA listos para publicación para NeurIPS, ICML, ICLR, ACL, AAAI, COLM. Utilícelo al redactar artículos de repositorios de investigación, estructurar argumentos, verificar citas o preparar envíos finales; para eventos de sistemas, use 'systems-paper-writing'.
model-merging
Fusiona múltiples modelos ajustados con mergekit para combinar capacidades sin reentrenar, ideal para crear modelos especializados al mezclar experiencia de dominio específico o mejorar el rendimiento. Cubre varias técnicas de fusión como SLERP, TIES-Merging, DARE, Task Arithmetic y fusión lineal, además de estrategias de despliegue en producción.
segment-anything-model
Modelo fundacional para la segmentación de imágenes con transferencia de disparo cero. Úselo cuando necesite segmentar cualquier objeto en imágenes usando puntos, cuadros o máscaras como indicaciones, o generar automáticamente todas las máscaras de objetos en una imagen.
presenting-conference-talks
Genera diapositivas de presentación para conferencias (Beamer LaTeX PDF y PPTX editable) a partir de un artículo compilado con notas del orador y guion de la charla. Úselo al preparar charlas orales, presentaciones destacadas o charlas invitadas para conferencias de ML y sistemas.
implementing-llms-litgpt
Implementa y entrena LLMs usando LitGPT de Lightning AI, con más de 20 arquitecturas preentrenadas (Llama, Gemma, Phi, Qwen, Mistral). Es ideal para implementaciones de modelos limpias, comprensión educativa de arquitecturas o fine-tuning en producción con LoRA/QLoRA, ofreciendo implementaciones de un solo archivo y sin capas de abstracción.
awq-quantization
Este método de compresión de LLM de 4 bits, ganador del premio Best Paper de MLSys 2024, utiliza cuantificación de pesos sensible a la activación, ofreciendo una aceleración de 3x y una pérdida mínima de precisión. Es ideal para desplegar modelos grandes en GPUs con memoria limitada o para una inferencia más rápida y precisa que GPTQ, especialmente para modelos ajustados por instrucción y multimodales.
nemo-evaluator-sdk
La plataforma empresarial de NVIDIA evalúa LLMs en más de 100 benchmarks de más de 18 frameworks (MMLU, HumanEval, GSM8K, seguridad, VLM) con ejecución multi-backend. Ofrece evaluación escalable en Docker local, Slurm HPC o plataformas en la nube, con una arquitectura container-first para benchmarking reproducible.
pytorch-fsdp2
Añade PyTorch FSDP2 (fully_shard) a los scripts de entrenamiento con inicialización correcta, sharding, configuración de precisión mixta/offload y checkpointing distribuido. Úselo cuando los modelos excedan la memoria de una sola GPU o cuando necesite sharding basado en DTensor con DeviceMesh.
distributed-llm-pretraining-torchtitan
Proporciona preentrenamiento distribuido de LLMs nativo de PyTorch usando torchtitan con paralelismo 4D (FSDP2, TP, PP, CP). Es ideal para preentrenar Llama 3.1, DeepSeek V3 o modelos personalizados a escala de 8 a más de 512 GPUs, aprovechando Float8, torch.compile y checkpointing distribuido.
tensorboard
Visualice métricas de entrenamiento, depure modelos con histogramas, compare experimentos, visualice gráficos de modelos y perfile el rendimiento con TensorBoard - el kit de herramientas de visualización de ML de Google.
optimizing-attention-flash
Optimiza la atención de transformadores con Flash Attention, logrando una aceleración de 2-4x y una reducción de memoria de 10-20x. Es ideal para entrenar/ejecutar transformadores con secuencias largas (>512 tokens), resolver problemas de memoria de GPU o acelerar la inferencia, con soporte para PyTorch native SDPA, flash-attn, H100 FP8 y atención de ventana deslizante.
Alerta por categoría