SSkillteca byclaudinhocode

← Voltar para o catálogo

Autor no catálogo

Orchestra-Research

98 skills969.122 estrelas no totalgithub.com/Orchestra-Research

É sua? Reivindique

Skills publicadas

Mostrando 48 de 98

tensorrt-llm

Otimiza a inferência de LLMs com NVIDIA TensorRT para máxima vazão e menor latência. Use para implantação em produção em GPUs NVIDIA (A100/H100), quando precisar de inferência 10-100x mais rápida que PyTorch, ou para servir modelos com quantização (FP8/INT4), batching em tempo real e escalonamento multi-GPU.

Pesquisa e Web#llm#deploypor Orchestra-Research

autogpt-agents

Plataforma de agentes de IA autônomos para construir e implantar agentes contínuos. Use ao criar agentes de fluxo de trabalho visual, implantar agentes autônomos persistentes ou construir sistemas complexos de automação de IA em várias etapas.

Automação#deploy#aipor Orchestra-Research

guidance

Controle a saída de LLMs com regex e gramáticas, garanta a geração válida de JSON/XML/código, force formatos estruturados e construa fluxos de trabalho de várias etapas com Guidance - o framework de geração restrita da Microsoft Research.

Pesquisa e Web#llm#aipor Orchestra-Research

nanogpt

Uma implementação educacional de GPT em ~300 linhas, por Andrej Karpathy, que reproduz o GPT-2 (124M) no OpenWebText. É um código limpo e modificável, ideal para aprender transformadores e entender a arquitetura GPT do zero, com treinamento em Shakespeare (CPU) ou OpenWebText (multi-GPU).

Pesquisa e Web#aipor Orchestra-Research

pytorch-lightning

Framework PyTorch de alto nível com classe Trainer, treinamento distribuído automático (DDP/FSDP/DeepSpeed), sistema de callbacks e boilerplate mínimo. Escala de laptop a supercomputador com o mesmo código, ideal para loops de treinamento limpos com as melhores práticas integradas.

Pesquisa e Web#aipor Orchestra-Research

skypilot-multi-cloud-orchestration

Orquestração multi-nuvem para cargas de trabalho de ML com otimização automática de custos. Ideal para executar treinamentos ou jobs em lote em várias nuvens, aproveitando instâncias spot com recuperação automática e otimizando custos de GPU.

Pesquisa e Web#aipor Orchestra-Research

serving-llms-vllm

Atende LLMs com alta taxa de transferência usando PagedAttention e batching contínuo do vLLM. Ideal para implantar APIs de LLM em produção, otimizar inferência ou servir modelos com memória GPU limitada, suporta endpoints compatíveis com OpenAI, quantização e paralelismo de tensor.

Pesquisa e Web#llm#deploypor Orchestra-Research

hqq-quantization

Quantização Half-Quadratic para LLMs sem dados de calibração. Utilize ao quantizar modelos para precisão de 4/3/2 bits sem a necessidade de conjuntos de dados de calibração, para fluxos de trabalho de quantização rápidos, ou ao implantar com vLLM ou HuggingFace Transformers.

Dados e Análise#llm#deploypor Orchestra-Research

weights-and-biases

Acompanhe experimentos de ML com registro automático, visualize o treinamento em tempo real, otimize hiperparâmetros com varreduras e gerencie o registro de modelos com W&B - uma plataforma colaborativa de MLOps.

Pesquisa e Web#aipor Orchestra-Research

evolving-ai-agents

Fornece orientação para evoluir e otimizar automaticamente agentes de IA em qualquer domínio usando algoritmos de evolução impulsionados por LLMs. Utilize ao construir agentes autoaperfeiçoáveis, otimizar prompts e habilidades de agentes contra benchmarks, ou implementar ciclos de avaliação automatizados de agentes.

Pesquisa e Web#llm#aipor Orchestra-Research

llama-cpp

Executa inferência de LLM em CPU, Apple Silicon e GPUs de consumo sem hardware NVIDIA, ideal para implantação em edge, Macs M1/M2/M3, GPUs AMD/Intel ou quando CUDA não está disponível. Suporta quantização GGUF (1.5-8 bit) para memória reduzida e uma aceleração de 4-10x em comparação com PyTorch na CPU.

Pesquisa e Web#llm#deploypor Orchestra-Research

sglang

Geração e serviço estruturados rápidos para LLMs, utilizando cache de prefixo RadixAttention. Ideal para saídas JSON/regex, decodificação restrita e fluxos de trabalho de agentes, oferece inferência 5x mais rápida que vLLM com compartilhamento de prefixo, sendo utilizado em mais de 300.000 GPUs em empresas como xAI, AMD, NVIDIA e LinkedIn.

Pesquisa e Web#llm#aipor Orchestra-Research

deepspeed

Orientação especializada para treinamento distribuído com DeepSpeed, cobrindo estágios de otimização ZeRO, paralelismo de pipeline, FP16/BF16/FP8, Adam de 1 bit e atenção esparsa.

Pesquisa e Web#aipor Orchestra-Research

evaluating-llms-harness

Avalia LLMs em mais de 60 benchmarks acadêmicos como MMLU e HumanEval. É um padrão da indústria para comparar a qualidade de modelos, relatar resultados e acompanhar o progresso do treinamento, com suporte para HuggingFace, vLLM e APIs.

Pesquisa e Web#llm#aipor Orchestra-Research

nemo-guardrails

A estrutura de segurança em tempo de execução da NVIDIA para aplicações LLM oferece detecção de jailbreak, alucinações e toxicidade, além de validação de entrada/saída, verificação de fatos e filtragem de PII. Utiliza Colang 2.0 DSL para rails programáveis, está pronta para produção e roda em GPUs T4.

Pesquisa e Web#llm#aipor Orchestra-Research

mlflow

Acompanhe experimentos de ML, gerencie o registro de modelos com versionamento, implante modelos em produção e reproduza experimentos com MLflow, uma plataforma de ciclo de vida de ML agnóstica a frameworks.

Pesquisa e Web#deploy#aipor Orchestra-Research

constitutional-ai

Método da Anthropic para treinar IA inofensiva via autoaperfeiçoamento. Utiliza uma abordagem de duas fases: aprendizado supervisionado com autocrítica/revisão e RLAIF, para alinhamento de segurança e redução de saídas prejudiciais sem rótulos humanos, alimentando o sistema de segurança do Claude.

Pesquisa e Web#aipor Orchestra-Research

ray-train

Orquestra o treinamento distribuído para PyTorch/TensorFlow/HuggingFace em clusters, escalando de laptops a milhares de nós, com ajuste de hiperparâmetros integrado (Ray Tune), tolerância a falhas e escalonamento elástico, ideal para modelos massivos ou varreduras de hiperparâmetros distribuídas.

Pesquisa e Web#aipor Orchestra-Research

verl-rl-training

Fornece orientação para treinar LLMs com aprendizado por reforço usando verl (Volcano Engine RL).

Pesquisa e Web#llm#aipor Orchestra-Research

huggingface-tokenizers

Tokenizadores rápidos baseados em Rust, otimizados para pesquisa e produção, processando 1GB em menos de 20 segundos. Suportam BPE, WordPiece e Unigram, permitindo treinamento de vocabulários personalizados e integração perfeita com transformers para tokenização de alta performance.

Pesquisa e Web#ai#wordpor Orchestra-Research

nnsight-remote-interpretability

Fornece orientação para interpretar e manipular os internos de redes neurais usando nnsight, com execução remota NDIF opcional. Utilize ao precisar executar experimentos de interpretabilidade em modelos massivos (70B+) sem recursos de GPU locais, ou ao trabalhar com qualquer arquitetura PyTorch.

Pesquisa e Web#aipor Orchestra-Research

pyvene-interventions

Fornece orientação para realizar intervenções causais em modelos PyTorch usando o framework de intervenção declarativa do pyvene. Utilize ao conduzir rastreamento causal, correção de ativação, treinamento de intervenção de intercâmbio ou ao testar hipóteses causais sobre o comportamento do modelo.

Pesquisa e Web#ai#testpor Orchestra-Research

ray-data

Processamento de dados escalável para cargas de trabalho de ML com execução em streaming em CPU/GPU, suportando vários formatos como Parquet/CSV/JSON/imagens. Ele se integra com Ray Train, PyTorch e TensorFlow, escalando de uma única máquina para centenas de nós para tarefas como inferência em lote, pré-processamento de dados e pipelines ETL distribuídos.

Dados e Análise#aipor Orchestra-Research

grpo-rl-training

Orientação especializada para o ajuste fino de GRPO/RL com TRL, visando o treinamento de modelos específicos para raciocínio e tarefas.

Pesquisa e Web#aipor Orchestra-Research

miles-rl-training

Fornece orientação para treinamento de RL de nível empresarial usando miles, um fork de slime pronto para produção. Use ao treinar grandes modelos MoE com FP8/INT4, precisando de alinhamento treino-inferência ou exigindo RL especulativa para máxima vazão.

Pesquisa e Web#aipor Orchestra-Research

openrlhf-training

Um framework RLHF de alta performance com aceleração Ray+vLLM, ideal para o treinamento PPO, GRPO, RLOO e DPO de modelos grandes (7B-70B+). Construído sobre Ray, vLLM e ZeRO-3, é 2x mais rápido que DeepSpeedChat devido à sua arquitetura distribuída e compartilhamento de recursos de GPU.

Pesquisa e Web#llm#aipor Orchestra-Research

fine-tuning-with-trl

Ajuste LLMs usando aprendizado por reforço com TRL, utilizando SFT para ajuste de instruções, DPO para alinhamento de preferências e PPO/GRPO para otimização de recompensa e treinamento de modelos de recompensa. Ideal para RLHF, alinhar modelos com preferências ou treinar com feedback humano, e compatível com HuggingFace Transformers.

Pesquisa e Web#llm#aipor Orchestra-Research

prompt-guard

O detector de injeção de prompt e jailbreak de 86M da Meta filtra prompts maliciosos e dados de terceiros para aplicativos LLM. Ele oferece mais de 99% de TPR, menos de 1% de FPR, é rápido (<2ms GPU), multilíngue (8 idiomas) e pode ser implantado com HuggingFace ou processamento em lote para segurança RAG.

DevOps e Infra#llm#deploypor Orchestra-Research

lambda-labs-gpu-cloud

Instâncias de GPU em nuvem reservadas e sob demanda para treinamento e inferência de ML. Use quando precisar de instâncias de GPU dedicadas com acesso SSH simples, sistemas de arquivos persistentes ou clusters multi-nó de alto desempenho para treinamento em larga escala.

Pesquisa e Web#aipor Orchestra-Research

modal-serverless-gpu

Plataforma de nuvem GPU serverless para executar cargas de trabalho de ML. Use quando precisar de acesso GPU sob demanda sem gerenciamento de infraestrutura, implantar modelos de ML como APIs ou executar trabalhos em lote com escalonamento automático.

DevOps e Infra#deploy#aipor Orchestra-Research

gguf-quantization

Formato GGUF e quantização llama.cpp para inferência eficiente em CPU/GPU. Utilize ao implantar modelos em hardware de consumo, Apple Silicon, ou quando precisar de quantização flexível de 2 a 8 bits sem requisitos de GPU.

DevOps e Infra#deploy#aipor Orchestra-Research

gptq

Quantização pós-treinamento de 4 bits para LLMs com perda mínima de precisão. Permite implantar modelos grandes (70B, 405B) em GPUs de consumidor, oferecendo 4x redução de memória com <2% de degradação de perplexidade ou inferência 3-4x mais rápida que FP16, e integra-se com transformers e PEFT para ajuste fino QLoRA.

Pesquisa e Web#llm#deploypor Orchestra-Research

evaluating-code-models

Avalia modelos de geração de código em HumanEval, MBPP, MultiPL-E e mais de 15 benchmarks com métricas pass@k. É um padrão da indústria do BigCode Project, usado nas tabelas de classificação do HuggingFace, ideal para comparar habilidades de codificação e testar suporte multilíngue.

Desenvolvimento#ai#testpor Orchestra-Research

crewai-multi-agent

Uma estrutura de orquestração multiagente para colaboração autônoma de IA, ideal para construir equipes de agentes especializados em tarefas complexas, colaboração baseada em funções com memória ou fluxos de trabalho de produção que exijam execução sequencial/hierárquica. É construído sem dependências do LangChain para uma execução enxuta e rápida.

Pesquisa e Web#aipor Orchestra-Research

qdrant-vector-search

Mecanismo de busca de similaridade vetorial de alta performance para RAG e busca semântica. Ideal para sistemas RAG de produção que exigem busca rápida de vizinhos, busca híbrida com filtragem ou armazenamento vetorial escalável com desempenho Rust.

Pesquisa e Web#aipor Orchestra-Research

instructor

Extraia dados estruturados de respostas de LLMs com validação Pydantic, retente extrações falhas automaticamente, analise JSON complexo com segurança de tipo e transmita resultados parciais com Instructor - uma biblioteca de saída estruturada testada em batalha.

Pesquisa e Web#llm#aipor Orchestra-Research

outlines

Garante estrutura JSON/XML/código válida durante a geração, usa modelos Pydantic para saídas com segurança de tipo, suporta modelos locais (Transformers, vLLM) e maximiza a velocidade de inferência com Outlines - a biblioteca de geração estruturada da dottxt.ai.

Pesquisa e Web#llm#aipor Orchestra-Research

fine-tuning-openvla-oft

Ajusta e avalia políticas OpenVLA-OFT e OpenVLA-OFT+ para geração de ações de robôs com cabeças de ação contínuas, adaptação LoRA e condicionamento FiLM em simulações LIBERO e configurações reais ALOHA. Use para reproduzir resultados do artigo OpenVLA-OFT, treinar cabeças de ação VLA personalizadas, implantar inferência ALOHA cliente-servidor ou depurar componentes como normalização e fusão LoRA.

DevOps e Infra#deploy#aipor Orchestra-Research

segment-anything-model

Modelo de base para segmentação de imagens com transferência zero-shot. Use quando precisar segmentar qualquer objeto em imagens usando pontos, caixas ou máscaras como prompts, ou gerar automaticamente todas as máscaras de objetos em uma imagem.

Pesquisa e Web#aipor Orchestra-Research

long-context

Estende as janelas de contexto de modelos transformer utilizando RoPE, YaRN, ALiBi e técnicas de interpolação de posição. É útil para processar documentos longos, estender modelos pré-treinados ou implementar codificações posicionais eficientes, cobrindo diversas estratégias de embedding e extrapolação para LLMs.

Pesquisa e Web#llm#aipor Orchestra-Research

model-merging

Mescle múltiplos modelos ajustados com mergekit para combinar capacidades sem retreinar, ideal para criar modelos especializados ao mesclar expertise de domínio específico ou melhorar o desempenho. Abrange várias técnicas de fusão como SLERP, TIES-Merging, DARE, Task Arithmetic e fusão linear, além de estratégias de implantação em produção.

DevOps e Infra#deploy#aipor Orchestra-Research

ml-paper-writing

Escreva artigos de ML/IA prontos para publicação para NeurIPS, ICML, ICLR, ACL, AAAI, COLM. Use ao rascunhar artigos de repositórios de pesquisa, estruturar argumentos, verificar citações ou preparar submissões finais; para eventos de sistemas, use 'systems-paper-writing'.

Pesquisa e Web#aipor Orchestra-Research

presenting-conference-talks

Gera slides de apresentação para conferências (Beamer LaTeX PDF e PPTX editável) a partir de um artigo compilado com notas do orador e roteiro da palestra. Utilize ao preparar palestras orais, apresentações rápidas ou palestras convidadas para conferências de ML e sistemas.

Documentos#pptx#pdfpor Orchestra-Research

brainstorming-research-ideas

Guia pesquisadores através de estruturas de ideação para descobrir direções de pesquisa de alto impacto. Use ao explorar novos espaços de problemas, pivotar entre projetos ou buscar ângulos inovadores em trabalhos existentes.

Pesquisa e Web#aipor Orchestra-Research

implementing-llms-litgpt

Implementa e treina LLMs usando o LitGPT da Lightning AI, com mais de 20 arquiteturas pré-treinadas (Llama, Gemma, Phi, Qwen, Mistral). É ideal para implementações de modelos limpas, compreensão educacional de arquiteturas e fine-tuning em produção com LoRA/QLoRA, oferecendo implementações em arquivo único e sem camadas de abstração.

Pesquisa e Web#llm#aipor Orchestra-Research

awq-quantization

Este método de compressão de LLM de 4 bits, vencedor do prêmio Best Paper do MLSys 2024, utiliza quantização de pesos sensível à ativação, proporcionando uma aceleração de 3x e perda mínima de precisão. É ideal para implantar modelos grandes em GPUs com memória limitada ou para inferência mais rápida e precisa que o GPTQ, especialmente para modelos ajustados por instrução e multimodais.

Pesquisa e Web#llm#deploypor Orchestra-Research

nemo-evaluator-sdk

A plataforma empresarial da NVIDIA avalia LLMs em mais de 100 benchmarks de mais de 18 frameworks (MMLU, HumanEval, GSM8K, segurança, VLM) com execução multi-backend. Ela oferece avaliação escalável em Docker local, Slurm HPC ou plataformas de nuvem, com uma arquitetura container-first para benchmarking reproduzível.

DevOps e Infra#llm#aipor Orchestra-Research

pytorch-fsdp2

Adiciona PyTorch FSDP2 (fully_shard) a scripts de treinamento com inicialização correta, sharding, configuração de precisão mista/offload e checkpointing distribuído. Utilize quando modelos excederem a memória de uma única GPU ou para sharding baseado em DTensor com DeviceMesh.

Pesquisa e Web#aipor Orchestra-Research

Alerta por categoria

Receba novas skills de Pesquisa e Web toda segunda