Skills publicadas
Mostrando 48 de 98
tensorrt-llm
Otimiza a inferência de LLMs com NVIDIA TensorRT para máxima vazão e menor latência. Use para implantação em produção em GPUs NVIDIA (A100/H100), quando precisar de inferência 10-100x mais rápida que PyTorch, ou para servir modelos com quantização (FP8/INT4), batching em tempo real e escalonamento multi-GPU.
autogpt-agents
Plataforma de agentes de IA autônomos para construir e implantar agentes contínuos. Use ao criar agentes de fluxo de trabalho visual, implantar agentes autônomos persistentes ou construir sistemas complexos de automação de IA em várias etapas.
guidance
Controle a saída de LLMs com regex e gramáticas, garanta a geração válida de JSON/XML/código, force formatos estruturados e construa fluxos de trabalho de várias etapas com Guidance - o framework de geração restrita da Microsoft Research.
nanogpt
Uma implementação educacional de GPT em ~300 linhas, por Andrej Karpathy, que reproduz o GPT-2 (124M) no OpenWebText. É um código limpo e modificável, ideal para aprender transformadores e entender a arquitetura GPT do zero, com treinamento em Shakespeare (CPU) ou OpenWebText (multi-GPU).
pytorch-lightning
Framework PyTorch de alto nível com classe Trainer, treinamento distribuído automático (DDP/FSDP/DeepSpeed), sistema de callbacks e boilerplate mínimo. Escala de laptop a supercomputador com o mesmo código, ideal para loops de treinamento limpos com as melhores práticas integradas.
skypilot-multi-cloud-orchestration
Orquestração multi-nuvem para cargas de trabalho de ML com otimização automática de custos. Ideal para executar treinamentos ou jobs em lote em várias nuvens, aproveitando instâncias spot com recuperação automática e otimizando custos de GPU.
serving-llms-vllm
Atende LLMs com alta taxa de transferência usando PagedAttention e batching contínuo do vLLM. Ideal para implantar APIs de LLM em produção, otimizar inferência ou servir modelos com memória GPU limitada, suporta endpoints compatíveis com OpenAI, quantização e paralelismo de tensor.
hqq-quantization
Quantização Half-Quadratic para LLMs sem dados de calibração. Utilize ao quantizar modelos para precisão de 4/3/2 bits sem a necessidade de conjuntos de dados de calibração, para fluxos de trabalho de quantização rápidos, ou ao implantar com vLLM ou HuggingFace Transformers.
weights-and-biases
Acompanhe experimentos de ML com registro automático, visualize o treinamento em tempo real, otimize hiperparâmetros com varreduras e gerencie o registro de modelos com W&B - uma plataforma colaborativa de MLOps.
evolving-ai-agents
Fornece orientação para evoluir e otimizar automaticamente agentes de IA em qualquer domínio usando algoritmos de evolução impulsionados por LLMs. Utilize ao construir agentes autoaperfeiçoáveis, otimizar prompts e habilidades de agentes contra benchmarks, ou implementar ciclos de avaliação automatizados de agentes.
llama-cpp
Executa inferência de LLM em CPU, Apple Silicon e GPUs de consumo sem hardware NVIDIA, ideal para implantação em edge, Macs M1/M2/M3, GPUs AMD/Intel ou quando CUDA não está disponível. Suporta quantização GGUF (1.5-8 bit) para memória reduzida e uma aceleração de 4-10x em comparação com PyTorch na CPU.
sglang
Geração e serviço estruturados rápidos para LLMs, utilizando cache de prefixo RadixAttention. Ideal para saídas JSON/regex, decodificação restrita e fluxos de trabalho de agentes, oferece inferência 5x mais rápida que vLLM com compartilhamento de prefixo, sendo utilizado em mais de 300.000 GPUs em empresas como xAI, AMD, NVIDIA e LinkedIn.
deepspeed
Orientação especializada para treinamento distribuído com DeepSpeed, cobrindo estágios de otimização ZeRO, paralelismo de pipeline, FP16/BF16/FP8, Adam de 1 bit e atenção esparsa.
evaluating-llms-harness
Avalia LLMs em mais de 60 benchmarks acadêmicos como MMLU e HumanEval. É um padrão da indústria para comparar a qualidade de modelos, relatar resultados e acompanhar o progresso do treinamento, com suporte para HuggingFace, vLLM e APIs.
nemo-guardrails
A estrutura de segurança em tempo de execução da NVIDIA para aplicações LLM oferece detecção de jailbreak, alucinações e toxicidade, além de validação de entrada/saída, verificação de fatos e filtragem de PII. Utiliza Colang 2.0 DSL para rails programáveis, está pronta para produção e roda em GPUs T4.
mlflow
Acompanhe experimentos de ML, gerencie o registro de modelos com versionamento, implante modelos em produção e reproduza experimentos com MLflow, uma plataforma de ciclo de vida de ML agnóstica a frameworks.
constitutional-ai
Método da Anthropic para treinar IA inofensiva via autoaperfeiçoamento. Utiliza uma abordagem de duas fases: aprendizado supervisionado com autocrítica/revisão e RLAIF, para alinhamento de segurança e redução de saídas prejudiciais sem rótulos humanos, alimentando o sistema de segurança do Claude.
ray-train
Orquestra o treinamento distribuído para PyTorch/TensorFlow/HuggingFace em clusters, escalando de laptops a milhares de nós, com ajuste de hiperparâmetros integrado (Ray Tune), tolerância a falhas e escalonamento elástico, ideal para modelos massivos ou varreduras de hiperparâmetros distribuídas.
nnsight-remote-interpretability
Fornece orientação para interpretar e manipular os internos de redes neurais usando nnsight, com execução remota NDIF opcional. Utilize ao precisar executar experimentos de interpretabilidade em modelos massivos (70B+) sem recursos de GPU locais, ou ao trabalhar com qualquer arquitetura PyTorch.
grpo-rl-training
Orientação especializada para o ajuste fino de GRPO/RL com TRL, visando o treinamento de modelos específicos para raciocínio e tarefas.
fine-tuning-with-trl
Ajuste LLMs usando aprendizado por reforço com TRL, utilizando SFT para ajuste de instruções, DPO para alinhamento de preferências e PPO/GRPO para otimização de recompensa e treinamento de modelos de recompensa. Ideal para RLHF, alinhar modelos com preferências ou treinar com feedback humano, e compatível com HuggingFace Transformers.
huggingface-tokenizers
Tokenizadores rápidos baseados em Rust, otimizados para pesquisa e produção, processando 1GB em menos de 20 segundos. Suportam BPE, WordPiece e Unigram, permitindo treinamento de vocabulários personalizados e integração perfeita com transformers para tokenização de alta performance.
openrlhf-training
Um framework RLHF de alta performance com aceleração Ray+vLLM, ideal para o treinamento PPO, GRPO, RLOO e DPO de modelos grandes (7B-70B+). Construído sobre Ray, vLLM e ZeRO-3, é 2x mais rápido que DeepSpeedChat devido à sua arquitetura distribuída e compartilhamento de recursos de GPU.
gguf-quantization
Formato GGUF e quantização llama.cpp para inferência eficiente em CPU/GPU. Utilize ao implantar modelos em hardware de consumo, Apple Silicon, ou quando precisar de quantização flexível de 2 a 8 bits sem requisitos de GPU.
evaluating-code-models
Avalia modelos de geração de código em HumanEval, MBPP, MultiPL-E e mais de 15 benchmarks com métricas pass@k. É um padrão da indústria do BigCode Project, usado nas tabelas de classificação do HuggingFace, ideal para comparar habilidades de codificação e testar suporte multilíngue.
pyvene-interventions
Fornece orientação para realizar intervenções causais em modelos PyTorch usando o framework de intervenção declarativa do pyvene. Utilize ao conduzir rastreamento causal, correção de ativação, treinamento de intervenção de intercâmbio ou ao testar hipóteses causais sobre o comportamento do modelo.
miles-rl-training
Fornece orientação para treinamento de RL de nível empresarial usando miles, um fork de slime pronto para produção. Use ao treinar grandes modelos MoE com FP8/INT4, precisando de alinhamento treino-inferência ou exigindo RL especulativa para máxima vazão.
prompt-guard
O detector de injeção de prompt e jailbreak de 86M da Meta filtra prompts maliciosos e dados de terceiros para aplicativos LLM. Ele oferece mais de 99% de TPR, menos de 1% de FPR, é rápido (<2ms GPU), multilíngue (8 idiomas) e pode ser implantado com HuggingFace ou processamento em lote para segurança RAG.
gptq
Quantização pós-treinamento de 4 bits para LLMs com perda mínima de precisão. Permite implantar modelos grandes (70B, 405B) em GPUs de consumidor, oferecendo 4x redução de memória com <2% de degradação de perplexidade ou inferência 3-4x mais rápida que FP16, e integra-se com transformers e PEFT para ajuste fino QLoRA.
ray-data
Processamento de dados escalável para cargas de trabalho de ML com execução em streaming em CPU/GPU, suportando vários formatos como Parquet/CSV/JSON/imagens. Ele se integra com Ray Train, PyTorch e TensorFlow, escalando de uma única máquina para centenas de nós para tarefas como inferência em lote, pré-processamento de dados e pipelines ETL distribuídos.
verl-rl-training
Fornece orientação para treinar LLMs com aprendizado por reforço usando verl (Volcano Engine RL).
lambda-labs-gpu-cloud
Instâncias de GPU em nuvem reservadas e sob demanda para treinamento e inferência de ML. Use quando precisar de instâncias de GPU dedicadas com acesso SSH simples, sistemas de arquivos persistentes ou clusters multi-nó de alto desempenho para treinamento em larga escala.
instructor
Extraia dados estruturados de respostas de LLMs com validação Pydantic, retente extrações falhas automaticamente, analise JSON complexo com segurança de tipo e transmita resultados parciais com Instructor - uma biblioteca de saída estruturada testada em batalha.
outlines
Garante estrutura JSON/XML/código válida durante a geração, usa modelos Pydantic para saídas com segurança de tipo, suporta modelos locais (Transformers, vLLM) e maximiza a velocidade de inferência com Outlines - a biblioteca de geração estruturada da dottxt.ai.
long-context
Estende as janelas de contexto de modelos transformer utilizando RoPE, YaRN, ALiBi e técnicas de interpolação de posição. É útil para processar documentos longos, estender modelos pré-treinados ou implementar codificações posicionais eficientes, cobrindo diversas estratégias de embedding e extrapolação para LLMs.
brainstorming-research-ideas
Guia pesquisadores através de estruturas de ideação para descobrir direções de pesquisa de alto impacto. Use ao explorar novos espaços de problemas, pivotar entre projetos ou buscar ângulos inovadores em trabalhos existentes.
qdrant-vector-search
Mecanismo de busca de similaridade vetorial de alta performance para RAG e busca semântica. Ideal para sistemas RAG de produção que exigem busca rápida de vizinhos, busca híbrida com filtragem ou armazenamento vetorial escalável com desempenho Rust.
ml-paper-writing
Escreva artigos de ML/IA prontos para publicação para NeurIPS, ICML, ICLR, ACL, AAAI, COLM. Use ao rascunhar artigos de repositórios de pesquisa, estruturar argumentos, verificar citações ou preparar submissões finais; para eventos de sistemas, use 'systems-paper-writing'.
model-merging
Mescle múltiplos modelos ajustados com mergekit para combinar capacidades sem retreinar, ideal para criar modelos especializados ao mesclar expertise de domínio específico ou melhorar o desempenho. Abrange várias técnicas de fusão como SLERP, TIES-Merging, DARE, Task Arithmetic e fusão linear, além de estratégias de implantação em produção.
segment-anything-model
Modelo de base para segmentação de imagens com transferência zero-shot. Use quando precisar segmentar qualquer objeto em imagens usando pontos, caixas ou máscaras como prompts, ou gerar automaticamente todas as máscaras de objetos em uma imagem.
presenting-conference-talks
Gera slides de apresentação para conferências (Beamer LaTeX PDF e PPTX editável) a partir de um artigo compilado com notas do orador e roteiro da palestra. Utilize ao preparar palestras orais, apresentações rápidas ou palestras convidadas para conferências de ML e sistemas.
implementing-llms-litgpt
Implementa e treina LLMs usando o LitGPT da Lightning AI, com mais de 20 arquiteturas pré-treinadas (Llama, Gemma, Phi, Qwen, Mistral). É ideal para implementações de modelos limpas, compreensão educacional de arquiteturas e fine-tuning em produção com LoRA/QLoRA, oferecendo implementações em arquivo único e sem camadas de abstração.
awq-quantization
Este método de compressão de LLM de 4 bits, vencedor do prêmio Best Paper do MLSys 2024, utiliza quantização de pesos sensível à ativação, proporcionando uma aceleração de 3x e perda mínima de precisão. É ideal para implantar modelos grandes em GPUs com memória limitada ou para inferência mais rápida e precisa que o GPTQ, especialmente para modelos ajustados por instrução e multimodais.
nemo-evaluator-sdk
A plataforma empresarial da NVIDIA avalia LLMs em mais de 100 benchmarks de mais de 18 frameworks (MMLU, HumanEval, GSM8K, segurança, VLM) com execução multi-backend. Ela oferece avaliação escalável em Docker local, Slurm HPC ou plataformas de nuvem, com uma arquitetura container-first para benchmarking reproduzível.
pytorch-fsdp2
Adiciona PyTorch FSDP2 (fully_shard) a scripts de treinamento com inicialização correta, sharding, configuração de precisão mista/offload e checkpointing distribuído. Utilize quando modelos excederem a memória de uma única GPU ou para sharding baseado em DTensor com DeviceMesh.
distributed-llm-pretraining-torchtitan
Oferece pré-treinamento distribuído de LLMs nativo do PyTorch usando torchtitan com paralelismo 4D (FSDP2, TP, PP, CP). É ideal para pré-treinar Llama 3.1, DeepSeek V3 ou modelos personalizados em escala de 8 a mais de 512 GPUs, utilizando Float8, torch.compile e checkpointing distribuído.
tensorboard
Visualize métricas de treinamento, depure modelos com histogramas, compare experimentos, visualize grafos de modelos e analise o desempenho com o TensorBoard - o kit de ferramentas de visualização de ML do Google.
optimizing-attention-flash
Otimiza a atenção de transformadores com Flash Attention, proporcionando uma aceleração de 2-4x e redução de memória de 10-20x. É ideal para treinar/executar transformadores com sequências longas (>512 tokens), resolver problemas de memória da GPU ou acelerar a inferência, com suporte a PyTorch native SDPA, flash-attn, H100 FP8 e atenção de janela deslizante.
Alerta por categoria