← Voltar para o catálogo
Orchestra-Research

Autor no catálogo

Orchestra-Research

98 skills892.290 estrelas no totalgithub.com/Orchestra-Research

Skills publicadas

Mostrando 48 de 98

tensorrt-llm

9.1k

Otimiza a inferência de LLMs com NVIDIA TensorRT para máxima vazão e menor latência. Use para implantação em produção em GPUs NVIDIA (A100/H100), quando precisar de inferência 10-100x mais rápida que PyTorch, ou para servir modelos com quantização (FP8/INT4), batching em tempo real e escalonamento multi-GPU.

Pesquisa e Web#llm#deploypor Orchestra-Research

autogpt-agents

9.1k

Plataforma de agentes de IA autônomos para construir e implantar agentes contínuos. Use ao criar agentes de fluxo de trabalho visual, implantar agentes autônomos persistentes ou construir sistemas complexos de automação de IA em várias etapas.

Automação#deploy#aipor Orchestra-Research

guidance

9.1k

Controle a saída de LLMs com regex e gramáticas, garanta a geração válida de JSON/XML/código, force formatos estruturados e construa fluxos de trabalho de várias etapas com Guidance - o framework de geração restrita da Microsoft Research.

Pesquisa e Web#llm#aipor Orchestra-Research

nanogpt

9.1k

Uma implementação educacional de GPT em ~300 linhas, por Andrej Karpathy, que reproduz o GPT-2 (124M) no OpenWebText. É um código limpo e modificável, ideal para aprender transformadores e entender a arquitetura GPT do zero, com treinamento em Shakespeare (CPU) ou OpenWebText (multi-GPU).

Pesquisa e Web#aipor Orchestra-Research

pytorch-lightning

9.1k

Framework PyTorch de alto nível com classe Trainer, treinamento distribuído automático (DDP/FSDP/DeepSpeed), sistema de callbacks e boilerplate mínimo. Escala de laptop a supercomputador com o mesmo código, ideal para loops de treinamento limpos com as melhores práticas integradas.

Pesquisa e Web#aipor Orchestra-Research

skypilot-multi-cloud-orchestration

9.1k

Orquestração multi-nuvem para cargas de trabalho de ML com otimização automática de custos. Ideal para executar treinamentos ou jobs em lote em várias nuvens, aproveitando instâncias spot com recuperação automática e otimizando custos de GPU.

Pesquisa e Web#aipor Orchestra-Research

serving-llms-vllm

9.1k

Atende LLMs com alta taxa de transferência usando PagedAttention e batching contínuo do vLLM. Ideal para implantar APIs de LLM em produção, otimizar inferência ou servir modelos com memória GPU limitada, suporta endpoints compatíveis com OpenAI, quantização e paralelismo de tensor.

Pesquisa e Web#llm#deploypor Orchestra-Research

hqq-quantization

9.1k

Quantização Half-Quadratic para LLMs sem dados de calibração. Utilize ao quantizar modelos para precisão de 4/3/2 bits sem a necessidade de conjuntos de dados de calibração, para fluxos de trabalho de quantização rápidos, ou ao implantar com vLLM ou HuggingFace Transformers.

Dados e Análise#llm#deploypor Orchestra-Research

weights-and-biases

9.1k

Acompanhe experimentos de ML com registro automático, visualize o treinamento em tempo real, otimize hiperparâmetros com varreduras e gerencie o registro de modelos com W&B - uma plataforma colaborativa de MLOps.

Pesquisa e Web#aipor Orchestra-Research

evolving-ai-agents

9.1k

Fornece orientação para evoluir e otimizar automaticamente agentes de IA em qualquer domínio usando algoritmos de evolução impulsionados por LLMs. Utilize ao construir agentes autoaperfeiçoáveis, otimizar prompts e habilidades de agentes contra benchmarks, ou implementar ciclos de avaliação automatizados de agentes.

Pesquisa e Web#llm#aipor Orchestra-Research

llama-cpp

9.1k

Executa inferência de LLM em CPU, Apple Silicon e GPUs de consumo sem hardware NVIDIA, ideal para implantação em edge, Macs M1/M2/M3, GPUs AMD/Intel ou quando CUDA não está disponível. Suporta quantização GGUF (1.5-8 bit) para memória reduzida e uma aceleração de 4-10x em comparação com PyTorch na CPU.

Pesquisa e Web#llm#deploypor Orchestra-Research

sglang

9.1k

Geração e serviço estruturados rápidos para LLMs, utilizando cache de prefixo RadixAttention. Ideal para saídas JSON/regex, decodificação restrita e fluxos de trabalho de agentes, oferece inferência 5x mais rápida que vLLM com compartilhamento de prefixo, sendo utilizado em mais de 300.000 GPUs em empresas como xAI, AMD, NVIDIA e LinkedIn.

Pesquisa e Web#llm#aipor Orchestra-Research

deepspeed

9.1k

Orientação especializada para treinamento distribuído com DeepSpeed, cobrindo estágios de otimização ZeRO, paralelismo de pipeline, FP16/BF16/FP8, Adam de 1 bit e atenção esparsa.

Pesquisa e Web#aipor Orchestra-Research

evaluating-llms-harness

9.1k

Avalia LLMs em mais de 60 benchmarks acadêmicos como MMLU e HumanEval. É um padrão da indústria para comparar a qualidade de modelos, relatar resultados e acompanhar o progresso do treinamento, com suporte para HuggingFace, vLLM e APIs.

Pesquisa e Web#llm#aipor Orchestra-Research

nemo-guardrails

9.1k

A estrutura de segurança em tempo de execução da NVIDIA para aplicações LLM oferece detecção de jailbreak, alucinações e toxicidade, além de validação de entrada/saída, verificação de fatos e filtragem de PII. Utiliza Colang 2.0 DSL para rails programáveis, está pronta para produção e roda em GPUs T4.

Pesquisa e Web#llm#aipor Orchestra-Research

mlflow

9.1k

Acompanhe experimentos de ML, gerencie o registro de modelos com versionamento, implante modelos em produção e reproduza experimentos com MLflow, uma plataforma de ciclo de vida de ML agnóstica a frameworks.

Pesquisa e Web#deploy#aipor Orchestra-Research

constitutional-ai

9.1k

Método da Anthropic para treinar IA inofensiva via autoaperfeiçoamento. Utiliza uma abordagem de duas fases: aprendizado supervisionado com autocrítica/revisão e RLAIF, para alinhamento de segurança e redução de saídas prejudiciais sem rótulos humanos, alimentando o sistema de segurança do Claude.

Pesquisa e Web#aipor Orchestra-Research

ray-train

9.1k

Orquestra o treinamento distribuído para PyTorch/TensorFlow/HuggingFace em clusters, escalando de laptops a milhares de nós, com ajuste de hiperparâmetros integrado (Ray Tune), tolerância a falhas e escalonamento elástico, ideal para modelos massivos ou varreduras de hiperparâmetros distribuídas.

Pesquisa e Web#aipor Orchestra-Research

nnsight-remote-interpretability

9.1k

Fornece orientação para interpretar e manipular os internos de redes neurais usando nnsight, com execução remota NDIF opcional. Utilize ao precisar executar experimentos de interpretabilidade em modelos massivos (70B+) sem recursos de GPU locais, ou ao trabalhar com qualquer arquitetura PyTorch.

Pesquisa e Web#aipor Orchestra-Research

grpo-rl-training

9.1k

Orientação especializada para o ajuste fino de GRPO/RL com TRL, visando o treinamento de modelos específicos para raciocínio e tarefas.

Pesquisa e Web#aipor Orchestra-Research

fine-tuning-with-trl

9.1k

Ajuste LLMs usando aprendizado por reforço com TRL, utilizando SFT para ajuste de instruções, DPO para alinhamento de preferências e PPO/GRPO para otimização de recompensa e treinamento de modelos de recompensa. Ideal para RLHF, alinhar modelos com preferências ou treinar com feedback humano, e compatível com HuggingFace Transformers.

Pesquisa e Web#llm#aipor Orchestra-Research

huggingface-tokenizers

9.1k

Tokenizadores rápidos baseados em Rust, otimizados para pesquisa e produção, processando 1GB em menos de 20 segundos. Suportam BPE, WordPiece e Unigram, permitindo treinamento de vocabulários personalizados e integração perfeita com transformers para tokenização de alta performance.

Pesquisa e Web#ai#wordpor Orchestra-Research

openrlhf-training

9.1k

Um framework RLHF de alta performance com aceleração Ray+vLLM, ideal para o treinamento PPO, GRPO, RLOO e DPO de modelos grandes (7B-70B+). Construído sobre Ray, vLLM e ZeRO-3, é 2x mais rápido que DeepSpeedChat devido à sua arquitetura distribuída e compartilhamento de recursos de GPU.

Pesquisa e Web#llm#aipor Orchestra-Research

gguf-quantization

9.1k

Formato GGUF e quantização llama.cpp para inferência eficiente em CPU/GPU. Utilize ao implantar modelos em hardware de consumo, Apple Silicon, ou quando precisar de quantização flexível de 2 a 8 bits sem requisitos de GPU.

DevOps e Infra#deploy#aipor Orchestra-Research

evaluating-code-models

9.1k

Avalia modelos de geração de código em HumanEval, MBPP, MultiPL-E e mais de 15 benchmarks com métricas pass@k. É um padrão da indústria do BigCode Project, usado nas tabelas de classificação do HuggingFace, ideal para comparar habilidades de codificação e testar suporte multilíngue.

Desenvolvimento#ai#testpor Orchestra-Research

pyvene-interventions

9.1k

Fornece orientação para realizar intervenções causais em modelos PyTorch usando o framework de intervenção declarativa do pyvene. Utilize ao conduzir rastreamento causal, correção de ativação, treinamento de intervenção de intercâmbio ou ao testar hipóteses causais sobre o comportamento do modelo.

Pesquisa e Web#ai#testpor Orchestra-Research

miles-rl-training

9.1k

Fornece orientação para treinamento de RL de nível empresarial usando miles, um fork de slime pronto para produção. Use ao treinar grandes modelos MoE com FP8/INT4, precisando de alinhamento treino-inferência ou exigindo RL especulativa para máxima vazão.

Pesquisa e Web#aipor Orchestra-Research

prompt-guard

9.1k

O detector de injeção de prompt e jailbreak de 86M da Meta filtra prompts maliciosos e dados de terceiros para aplicativos LLM. Ele oferece mais de 99% de TPR, menos de 1% de FPR, é rápido (<2ms GPU), multilíngue (8 idiomas) e pode ser implantado com HuggingFace ou processamento em lote para segurança RAG.

DevOps e Infra#llm#deploypor Orchestra-Research

gptq

9.1k

Quantização pós-treinamento de 4 bits para LLMs com perda mínima de precisão. Permite implantar modelos grandes (70B, 405B) em GPUs de consumidor, oferecendo 4x redução de memória com <2% de degradação de perplexidade ou inferência 3-4x mais rápida que FP16, e integra-se com transformers e PEFT para ajuste fino QLoRA.

Pesquisa e Web#llm#deploypor Orchestra-Research

ray-data

9.1k

Processamento de dados escalável para cargas de trabalho de ML com execução em streaming em CPU/GPU, suportando vários formatos como Parquet/CSV/JSON/imagens. Ele se integra com Ray Train, PyTorch e TensorFlow, escalando de uma única máquina para centenas de nós para tarefas como inferência em lote, pré-processamento de dados e pipelines ETL distribuídos.

Dados e Análise#aipor Orchestra-Research

verl-rl-training

9.1k

Fornece orientação para treinar LLMs com aprendizado por reforço usando verl (Volcano Engine RL).

Pesquisa e Web#llm#aipor Orchestra-Research

lambda-labs-gpu-cloud

9.1k

Instâncias de GPU em nuvem reservadas e sob demanda para treinamento e inferência de ML. Use quando precisar de instâncias de GPU dedicadas com acesso SSH simples, sistemas de arquivos persistentes ou clusters multi-nó de alto desempenho para treinamento em larga escala.

Pesquisa e Web#aipor Orchestra-Research

instructor

9.1k

Extraia dados estruturados de respostas de LLMs com validação Pydantic, retente extrações falhas automaticamente, analise JSON complexo com segurança de tipo e transmita resultados parciais com Instructor - uma biblioteca de saída estruturada testada em batalha.

Pesquisa e Web#llm#aipor Orchestra-Research

outlines

9.1k

Garante estrutura JSON/XML/código válida durante a geração, usa modelos Pydantic para saídas com segurança de tipo, suporta modelos locais (Transformers, vLLM) e maximiza a velocidade de inferência com Outlines - a biblioteca de geração estruturada da dottxt.ai.

Pesquisa e Web#llm#aipor Orchestra-Research

long-context

9.1k

Estende as janelas de contexto de modelos transformer utilizando RoPE, YaRN, ALiBi e técnicas de interpolação de posição. É útil para processar documentos longos, estender modelos pré-treinados ou implementar codificações posicionais eficientes, cobrindo diversas estratégias de embedding e extrapolação para LLMs.

Pesquisa e Web#llm#aipor Orchestra-Research

brainstorming-research-ideas

9.1k

Guia pesquisadores através de estruturas de ideação para descobrir direções de pesquisa de alto impacto. Use ao explorar novos espaços de problemas, pivotar entre projetos ou buscar ângulos inovadores em trabalhos existentes.

Pesquisa e Web#aipor Orchestra-Research

qdrant-vector-search

9.1k

Mecanismo de busca de similaridade vetorial de alta performance para RAG e busca semântica. Ideal para sistemas RAG de produção que exigem busca rápida de vizinhos, busca híbrida com filtragem ou armazenamento vetorial escalável com desempenho Rust.

Pesquisa e Web#aipor Orchestra-Research

ml-paper-writing

9.1k

Escreva artigos de ML/IA prontos para publicação para NeurIPS, ICML, ICLR, ACL, AAAI, COLM. Use ao rascunhar artigos de repositórios de pesquisa, estruturar argumentos, verificar citações ou preparar submissões finais; para eventos de sistemas, use 'systems-paper-writing'.

Pesquisa e Web#aipor Orchestra-Research

model-merging

9.1k

Mescle múltiplos modelos ajustados com mergekit para combinar capacidades sem retreinar, ideal para criar modelos especializados ao mesclar expertise de domínio específico ou melhorar o desempenho. Abrange várias técnicas de fusão como SLERP, TIES-Merging, DARE, Task Arithmetic e fusão linear, além de estratégias de implantação em produção.

DevOps e Infra#deploy#aipor Orchestra-Research

segment-anything-model

9.1k

Modelo de base para segmentação de imagens com transferência zero-shot. Use quando precisar segmentar qualquer objeto em imagens usando pontos, caixas ou máscaras como prompts, ou gerar automaticamente todas as máscaras de objetos em uma imagem.

Pesquisa e Web#aipor Orchestra-Research

presenting-conference-talks

9.1k

Gera slides de apresentação para conferências (Beamer LaTeX PDF e PPTX editável) a partir de um artigo compilado com notas do orador e roteiro da palestra. Utilize ao preparar palestras orais, apresentações rápidas ou palestras convidadas para conferências de ML e sistemas.

Documentos#pptx#pdfpor Orchestra-Research

implementing-llms-litgpt

9.1k

Implementa e treina LLMs usando o LitGPT da Lightning AI, com mais de 20 arquiteturas pré-treinadas (Llama, Gemma, Phi, Qwen, Mistral). É ideal para implementações de modelos limpas, compreensão educacional de arquiteturas e fine-tuning em produção com LoRA/QLoRA, oferecendo implementações em arquivo único e sem camadas de abstração.

Pesquisa e Web#llm#aipor Orchestra-Research

awq-quantization

9.1k

Este método de compressão de LLM de 4 bits, vencedor do prêmio Best Paper do MLSys 2024, utiliza quantização de pesos sensível à ativação, proporcionando uma aceleração de 3x e perda mínima de precisão. É ideal para implantar modelos grandes em GPUs com memória limitada ou para inferência mais rápida e precisa que o GPTQ, especialmente para modelos ajustados por instrução e multimodais.

Pesquisa e Web#llm#deploypor Orchestra-Research

nemo-evaluator-sdk

9.1k

A plataforma empresarial da NVIDIA avalia LLMs em mais de 100 benchmarks de mais de 18 frameworks (MMLU, HumanEval, GSM8K, segurança, VLM) com execução multi-backend. Ela oferece avaliação escalável em Docker local, Slurm HPC ou plataformas de nuvem, com uma arquitetura container-first para benchmarking reproduzível.

DevOps e Infra#llm#aipor Orchestra-Research

pytorch-fsdp2

9.1k

Adiciona PyTorch FSDP2 (fully_shard) a scripts de treinamento com inicialização correta, sharding, configuração de precisão mista/offload e checkpointing distribuído. Utilize quando modelos excederem a memória de uma única GPU ou para sharding baseado em DTensor com DeviceMesh.

Pesquisa e Web#aipor Orchestra-Research

distributed-llm-pretraining-torchtitan

9.1k

Oferece pré-treinamento distribuído de LLMs nativo do PyTorch usando torchtitan com paralelismo 4D (FSDP2, TP, PP, CP). É ideal para pré-treinar Llama 3.1, DeepSeek V3 ou modelos personalizados em escala de 8 a mais de 512 GPUs, utilizando Float8, torch.compile e checkpointing distribuído.

Pesquisa e Web#llm#aipor Orchestra-Research

tensorboard

9.1k

Visualize métricas de treinamento, depure modelos com histogramas, compare experimentos, visualize grafos de modelos e analise o desempenho com o TensorBoard - o kit de ferramentas de visualização de ML do Google.

Pesquisa e Web#aipor Orchestra-Research

optimizing-attention-flash

9.1k

Otimiza a atenção de transformadores com Flash Attention, proporcionando uma aceleração de 2-4x e redução de memória de 10-20x. É ideal para treinar/executar transformadores com sequências longas (>512 tokens), resolver problemas de memória da GPU ou acelerar a inferência, com suporte a PyTorch native SDPA, flash-attn, H100 FP8 e atenção de janela deslizante.

Pesquisa e Web#aipor Orchestra-Research

Alerta por categoria

Receba novas skills de Pesquisa e Web toda segunda