Autor en el catálogo

Orchestra-Research

98 skills892.290 estrellas en totalgithub.com/Orchestra-Research

Skills publicadas

Mostrando 48 de 98

tensorrt-llm

Optimiza la inferencia de LLMs con NVIDIA TensorRT para un rendimiento máximo y la menor latencia. Úselo para despliegues de producción en GPUs NVIDIA (A100/H100), cuando necesite una inferencia 10-100 veces más rápida que PyTorch, o para servir modelos con cuantificación (FP8/INT4), procesamiento por lotes en vuelo y escalado multi-GPU.

Pesquisa e Web#llm#deploypor Orchestra-Research

autogpt-agents

9.1k

Plataforma de agentes de IA autónomos para construir y desplegar agentes continuos. Úsela al crear agentes de flujo de trabajo visual, desplegar agentes autónomos persistentes o construir sistemas complejos de automatización de IA de varios pasos.

Automação#deploy#aipor Orchestra-Research

guidance

9.1k

Controle la salida de LLMs con expresiones regulares y gramáticas, garantice la generación válida de JSON/XML/código, aplique formatos estructurados y construya flujos de trabajo de varios pasos con Guidance - el framework de generación restringida de Microsoft Research.

Pesquisa e Web#llm#aipor Orchestra-Research

nanogpt

9.1k

Una implementación educativa de GPT en ~300 líneas, por Andrej Karpathy, que reproduce GPT-2 (124M) en OpenWebText. Ofrece un código limpio y modificable, perfecto para aprender transformadores y entender la arquitectura GPT desde cero, entrenable en Shakespeare (CPU) o OpenWebText (multi-GPU).

Pesquisa e Web#aipor Orchestra-Research

pytorch-lightning

9.1k

Framework PyTorch de alto nivel con clase Trainer, entrenamiento distribuido automático (DDP/FSDP/DeepSpeed), sistema de callbacks y boilerplate mínimo. Escala desde laptops hasta supercomputadoras con el mismo código, ofreciendo bucles de entrenamiento limpios con las mejores prácticas integradas.

Pesquisa e Web#aipor Orchestra-Research

skypilot-multi-cloud-orchestration

9.1k

Orquestación multinube para cargas de trabajo de ML con optimización automática de costos. Ideal para ejecutar entrenamientos o trabajos por lotes en múltiples nubes, aprovechando instancias spot con recuperación automática y optimizando los costos de GPU.

Pesquisa e Web#aipor Orchestra-Research

serving-llms-vllm

9.1k

Sirve LLMs con alto rendimiento utilizando PagedAttention y batching continuo de vLLM. Ideal para implementar APIs de LLM en producción, optimizar la inferencia o servir modelos con memoria GPU limitada, soporta endpoints compatibles con OpenAI, cuantificación y paralelismo de tensor.

Pesquisa e Web#llm#deploypor Orchestra-Research

hqq-quantization

9.1k

Cuantización Half-Quadratic para LLMs sin datos de calibración. Úselo al cuantizar modelos a precisión de 4/3/2 bits sin necesidad de conjuntos de datos de calibración, para flujos de trabajo de cuantización rápidos, o al desplegar con vLLM o HuggingFace Transformers.

Dados e Análise#llm#deploypor Orchestra-Research

weights-and-biases

9.1k

Rastree experimentos de ML con registro automático, visualice el entrenamiento en tiempo real, optimice hiperparámetros con barridos y gestione el registro de modelos con W&B - una plataforma colaborativa de MLOps.

Pesquisa e Web#aipor Orchestra-Research

evolving-ai-agents

9.1k

Proporciona orientación para evolucionar y optimizar automáticamente agentes de IA en cualquier dominio utilizando algoritmos de evolución impulsados por LLMs. Úselo al construir agentes que se auto-mejoran, optimizar prompts y habilidades de agentes frente a benchmarks, o implementar bucles de evaluación automatizados de agentes.

Pesquisa e Web#llm#aipor Orchestra-Research

llama-cpp

9.1k

Ejecuta inferencia de LLM en CPU, Apple Silicon y GPUs de consumo sin hardware NVIDIA, ideal para despliegue en el borde, Macs M1/M2/M3, GPUs AMD/Intel o cuando CUDA no está disponible. Soporta cuantificación GGUF (1.5-8 bit) para memoria reducida y una aceleración de 4-10x frente a PyTorch en CPU.

Pesquisa e Web#llm#deploypor Orchestra-Research

sglang

9.1k

Generación y servicio estructurados rápidos para LLMs, utilizando el almacenamiento en caché de prefijos RadixAttention. Es ideal para salidas JSON/regex, decodificación restringida y flujos de trabajo de agentes, ofreciendo una inferencia 5 veces más rápida que vLLM con compartición de prefijos, y alimenta más de 300.000 GPUs en xAI, AMD, NVIDIA y LinkedIn.

Pesquisa e Web#llm#aipor Orchestra-Research

deepspeed

9.1k

Orientación experta para el entrenamiento distribuido con DeepSpeed, cubriendo las etapas de optimización ZeRO, paralelismo de pipeline, FP16/BF16/FP8, Adam de 1 bit y atención dispersa.

Pesquisa e Web#aipor Orchestra-Research

evaluating-llms-harness

9.1k

Evalúa LLMs en más de 60 benchmarks académicos como MMLU y HumanEval. Es un estándar de la industria para comparar la calidad de modelos, informar resultados y seguir el progreso del entrenamiento, compatible con HuggingFace, vLLM y APIs.

Pesquisa e Web#llm#aipor Orchestra-Research

nemo-guardrails

9.1k

El marco de seguridad en tiempo de ejecución de NVIDIA para aplicaciones LLM ofrece detección de jailbreak, alucinaciones y toxicidad, junto con validación de entrada/salida, verificación de hechos y filtrado de PII. Utiliza Colang 2.0 DSL para rieles programables, está listo para producción y se ejecuta en GPUs T4.

Pesquisa e Web#llm#aipor Orchestra-Research

mlflow

9.1k

Rastree experimentos de ML, gestione el registro de modelos con versionado, implemente modelos en producción y reproduzca experimentos con MLflow, una plataforma de ciclo de vida de ML agnóstica a frameworks.

Pesquisa e Web#deploy#aipor Orchestra-Research

constitutional-ai

9.1k

Método de Anthropic para entrenar IA inofensiva mediante auto-mejora. Emplea un enfoque de dos fases: aprendizaje supervisado con autocrítica/revisión y RLAIF, utilizado para la alineación de seguridad y la reducción de resultados dañinos sin etiquetas humanas, potenciando el sistema de seguridad de Claude.

Pesquisa e Web#aipor Orchestra-Research

ray-train

9.1k

Orquesta el entrenamiento distribuido para PyTorch/TensorFlow/HuggingFace a través de clusters, escalando desde laptops hasta miles de nodos, con ajuste de hiperparámetros integrado (Ray Tune), tolerancia a fallos y escalado elástico, ideal para modelos masivos o barridos de hiperparámetros distribuidos.

Pesquisa e Web#aipor Orchestra-Research

nnsight-remote-interpretability

9.1k

Ofrece orientación para interpretar y manipular los internos de redes neuronales usando nnsight, con ejecución remota NDIF opcional. Úselo cuando necesite ejecutar experimentos de interpretabilidad en modelos masivos (70B+) sin recursos de GPU locales, o al trabajar con cualquier arquitectura PyTorch.

Pesquisa e Web#aipor Orchestra-Research

grpo-rl-training

9.1k

Orientación experta para el ajuste fino de GRPO/RL con TRL, para el entrenamiento de modelos específicos para razonamiento y tareas.

Pesquisa e Web#aipor Orchestra-Research

fine-tuning-with-trl

9.1k

Ajuste LLMs utilizando aprendizaje por refuerzo con TRL, empleando SFT para el ajuste de instrucciones, DPO para la alineación de preferencias y PPO/GRPO para la optimización de recompensas y el entrenamiento de modelos de recompensa. Es ideal para RLHF, alinear modelos con preferencias o entrenar con retroalimentación humana, y funciona con HuggingFace Transformers.

Pesquisa e Web#llm#aipor Orchestra-Research

huggingface-tokenizers

9.1k

Tokenizadores rápidos basados en Rust, optimizados para investigación y producción, que procesan 1GB en menos de 20 segundos. Soportan BPE, WordPiece y Unigram, ofreciendo entrenamiento de vocabularios personalizados e integración fluida con transformers para una tokenización de alto rendimiento.

Pesquisa e Web#ai#wordpor Orchestra-Research

openrlhf-training

9.1k

Un framework RLHF de alto rendimiento con aceleración Ray+vLLM, utilizado para el entrenamiento PPO, GRPO, RLOO y DPO de modelos grandes (7B-70B+). Construido sobre Ray, vLLM y ZeRO-3, es 2 veces más rápido que DeepSpeedChat gracias a su arquitectura distribuida y compartición de recursos de GPU.

Pesquisa e Web#llm#aipor Orchestra-Research

gguf-quantization

9.1k

Formato GGUF y cuantificación llama.cpp para inferencia eficiente en CPU/GPU. Úselo al implementar modelos en hardware de consumo, Apple Silicon, o cuando necesite cuantificación flexible de 2 a 8 bits sin requisitos de GPU.

DevOps e Infra#deploy#aipor Orchestra-Research

evaluating-code-models

9.1k

Evalúa modelos de generación de código en HumanEval, MBPP, MultiPL-E y más de 15 benchmarks con métricas pass@k. Este estándar de la industria del BigCode Project, usado en las tablas de clasificación de HuggingFace, es ideal para comparar habilidades de codificación y probar soporte multilingüe.

Desenvolvimento#ai#testpor Orchestra-Research

pyvene-interventions

9.1k

Proporciona orientación para realizar intervenciones causales en modelos PyTorch utilizando el framework de intervención declarativa de pyvene. Úselo al realizar trazado causal, parcheo de activación, entrenamiento de intervención de intercambio o al probar hipótesis causales sobre el comportamiento del modelo.

Pesquisa e Web#ai#testpor Orchestra-Research

miles-rl-training

9.1k

Proporciona orientación para el entrenamiento de RL de nivel empresarial utilizando miles, una bifurcación de slime lista para producción. Úselo al entrenar grandes modelos MoE con FP8/INT4, necesitando alineación entrenamiento-inferencia o requiriendo RL especulativa para un rendimiento máximo.

Pesquisa e Web#aipor Orchestra-Research

prompt-guard

9.1k

El detector de inyección de prompt y jailbreak de 86M de Meta filtra prompts maliciosos y datos de terceros para aplicaciones LLM. Ofrece más del 99% de TPR, menos del 1% de FPR, es rápido (<2ms GPU), multilingüe (8 idiomas) y puede implementarse con HuggingFace o procesamiento por lotes para la seguridad RAG.

DevOps e Infra#llm#deploypor Orchestra-Research

gptq

9.1k

Cuantificación post-entrenamiento de 4 bits para LLMs con mínima pérdida de precisión. Permite desplegar modelos grandes (70B, 405B) en GPUs de consumidor, logrando una reducción de memoria de 4x con <2% de degradación de perplejidad o una inferencia 3-4x más rápida que FP16, y se integra con transformers y PEFT para el ajuste fino QLoRA.

Pesquisa e Web#llm#deploypor Orchestra-Research

ray-data

9.1k

Procesamiento de datos escalable para cargas de trabajo de ML con ejecución en streaming a través de CPU/GPU, compatible con varios formatos como Parquet/CSV/JSON/imágenes. Se integra con Ray Train, PyTorch y TensorFlow, escalando desde una sola máquina hasta cientos de nodos para tareas como inferencia por lotes, preprocesamiento de datos y pipelines ETL distribuidos.

Dados e Análise#aipor Orchestra-Research

verl-rl-training

9.1k

Proporciona orientación para entrenar LLMs con aprendizaje por refuerzo usando verl (Volcano Engine RL).

Pesquisa e Web#llm#aipor Orchestra-Research

lambda-labs-gpu-cloud

9.1k

Instancias de GPU en la nube reservadas y bajo demanda para entrenamiento e inferencia de ML. Úselas cuando necesite instancias de GPU dedicadas con acceso SSH simple, sistemas de archivos persistentes o clústeres multinodo de alto rendimiento para entrenamiento a gran escala.

Pesquisa e Web#aipor Orchestra-Research

instructor

9.1k

Extrae datos estructurados de respuestas de LLMs con validación Pydantic, reintenta extracciones fallidas automáticamente, analiza JSON complejo con seguridad de tipo y transmite resultados parciales con Instructor - una biblioteca de salida estructurada probada en batalla.

Pesquisa e Web#llm#aipor Orchestra-Research

outlines

9.1k

Garantiza una estructura JSON/XML/código válida durante la generación, utiliza modelos Pydantic para salidas con seguridad de tipo, soporta modelos locales (Transformers, vLLM) y maximiza la velocidad de inferencia con Outlines - la biblioteca de generación estructurada de dottxt.ai.

Pesquisa e Web#llm#aipor Orchestra-Research

long-context

9.1k

Extiende las ventanas de contexto de modelos transformer usando RoPE, YaRN, ALiBi y técnicas de interpolación de posición. Es útil para procesar documentos largos, extender modelos preentrenados o implementar codificaciones posicionales eficientes, abarcando diversas estrategias de embedding y extrapolación para LLMs.

Pesquisa e Web#llm#aipor Orchestra-Research

brainstorming-research-ideas

9.1k

Guía a los investigadores a través de marcos de ideación estructurados para descubrir direcciones de investigación de alto impacto. Úselo al explorar nuevos espacios problemáticos, pivotar entre proyectos o buscar ángulos novedosos en trabajos existentes.

Pesquisa e Web#aipor Orchestra-Research

qdrant-vector-search

9.1k

Motor de búsqueda de similitud vectorial de alto rendimiento para RAG y búsqueda semántica. Ideal para sistemas RAG de producción que requieren búsqueda rápida de vecinos, búsqueda híbrida con filtrado o almacenamiento vectorial escalable con rendimiento Rust.

Pesquisa e Web#aipor Orchestra-Research

ml-paper-writing

9.1k

Escriba artículos de ML/IA listos para publicación para NeurIPS, ICML, ICLR, ACL, AAAI, COLM. Utilícelo al redactar artículos de repositorios de investigación, estructurar argumentos, verificar citas o preparar envíos finales; para eventos de sistemas, use 'systems-paper-writing'.

Pesquisa e Web#aipor Orchestra-Research

model-merging

9.1k

Fusiona múltiples modelos ajustados con mergekit para combinar capacidades sin reentrenar, ideal para crear modelos especializados al mezclar experiencia de dominio específico o mejorar el rendimiento. Cubre varias técnicas de fusión como SLERP, TIES-Merging, DARE, Task Arithmetic y fusión lineal, además de estrategias de despliegue en producción.

DevOps e Infra#deploy#aipor Orchestra-Research

segment-anything-model

9.1k

Modelo fundacional para la segmentación de imágenes con transferencia de disparo cero. Úselo cuando necesite segmentar cualquier objeto en imágenes usando puntos, cuadros o máscaras como indicaciones, o generar automáticamente todas las máscaras de objetos en una imagen.

Pesquisa e Web#aipor Orchestra-Research

presenting-conference-talks

9.1k

Genera diapositivas de presentación para conferencias (Beamer LaTeX PDF y PPTX editable) a partir de un artículo compilado con notas del orador y guion de la charla. Úselo al preparar charlas orales, presentaciones destacadas o charlas invitadas para conferencias de ML y sistemas.

Documentos#pptx#pdfpor Orchestra-Research

implementing-llms-litgpt

9.1k

Implementa y entrena LLMs usando LitGPT de Lightning AI, con más de 20 arquitecturas preentrenadas (Llama, Gemma, Phi, Qwen, Mistral). Es ideal para implementaciones de modelos limpias, comprensión educativa de arquitecturas o fine-tuning en producción con LoRA/QLoRA, ofreciendo implementaciones de un solo archivo y sin capas de abstracción.

Pesquisa e Web#llm#aipor Orchestra-Research

awq-quantization

9.1k

Este método de compresión de LLM de 4 bits, ganador del premio Best Paper de MLSys 2024, utiliza cuantificación de pesos sensible a la activación, ofreciendo una aceleración de 3x y una pérdida mínima de precisión. Es ideal para desplegar modelos grandes en GPUs con memoria limitada o para una inferencia más rápida y precisa que GPTQ, especialmente para modelos ajustados por instrucción y multimodales.

Pesquisa e Web#llm#deploypor Orchestra-Research

nemo-evaluator-sdk

9.1k

La plataforma empresarial de NVIDIA evalúa LLMs en más de 100 benchmarks de más de 18 frameworks (MMLU, HumanEval, GSM8K, seguridad, VLM) con ejecución multi-backend. Ofrece evaluación escalable en Docker local, Slurm HPC o plataformas en la nube, con una arquitectura container-first para benchmarking reproducible.

DevOps e Infra#llm#aipor Orchestra-Research

pytorch-fsdp2

9.1k

Añade PyTorch FSDP2 (fully_shard) a los scripts de entrenamiento con inicialización correcta, sharding, configuración de precisión mixta/offload y checkpointing distribuido. Úselo cuando los modelos excedan la memoria de una sola GPU o cuando necesite sharding basado en DTensor con DeviceMesh.

Pesquisa e Web#aipor Orchestra-Research

distributed-llm-pretraining-torchtitan

9.1k

Proporciona preentrenamiento distribuido de LLMs nativo de PyTorch usando torchtitan con paralelismo 4D (FSDP2, TP, PP, CP). Es ideal para preentrenar Llama 3.1, DeepSeek V3 o modelos personalizados a escala de 8 a más de 512 GPUs, aprovechando Float8, torch.compile y checkpointing distribuido.

Pesquisa e Web#llm#aipor Orchestra-Research

tensorboard

9.1k

Visualice métricas de entrenamiento, depure modelos con histogramas, compare experimentos, visualice gráficos de modelos y perfile el rendimiento con TensorBoard - el kit de herramientas de visualización de ML de Google.

Pesquisa e Web#aipor Orchestra-Research

optimizing-attention-flash

9.1k

Optimiza la atención de transformadores con Flash Attention, logrando una aceleración de 2-4x y una reducción de memoria de 10-20x. Es ideal para entrenar/ejecutar transformadores con secuencias largas (>512 tokens), resolver problemas de memoria de GPU o acelerar la inferencia, con soporte para PyTorch native SDPA, flash-attn, H100 FP8 y atención de ventana deslizante.

Pesquisa e Web#aipor Orchestra-Research

Alerta por categoría

Skills publicadas

tensorrt-llm

autogpt-agents

guidance

nanogpt

pytorch-lightning

skypilot-multi-cloud-orchestration

serving-llms-vllm

hqq-quantization

weights-and-biases

evolving-ai-agents

llama-cpp

sglang

deepspeed

evaluating-llms-harness

nemo-guardrails

mlflow

constitutional-ai

ray-train

nnsight-remote-interpretability

grpo-rl-training

fine-tuning-with-trl

huggingface-tokenizers

openrlhf-training

gguf-quantization

evaluating-code-models

pyvene-interventions

miles-rl-training

prompt-guard

gptq

ray-data

verl-rl-training

lambda-labs-gpu-cloud

instructor

outlines

long-context

brainstorming-research-ideas

qdrant-vector-search

ml-paper-writing

model-merging

segment-anything-model

presenting-conference-talks

implementing-llms-litgpt

awq-quantization

nemo-evaluator-sdk

pytorch-fsdp2

distributed-llm-pretraining-torchtitan

tensorboard

optimizing-attention-flash

Recibe nuevas skills de Pesquisa e Web todos los lunes