optimizing-attention-flash

Name: optimizing-attention-flash
Rating: 5 (7 reviews)
Author: braxtonROSE4

Optimizes transformer attention with Flash Attention for 2-4x speedup and 10-20x memory reduction. Use when training/running transformers with long sequences (>512 tokens), encountering GPU memory issues with attention, or need faster inference. Supports PyTorch native SDPA, flash-attn library, H100 FP8, and sliding window attention.

7estrellas

Actualizado hace 2 meses

Ver en GitHub ↗Licencia: MIT

Cómo agregar

/plugin marketplace add braxtonROSE4/zorro-agent

El comando exacto puede variar según el repositorio. Consulta el README en GitHub.

Para el autor de la skill

Pega en el README de tu repo

Muestra que tu skill está catalogada en Skillteca, genera backlink y tráfico rastreable.

[![Listada na Skillteca](https://www.skillteca.com.br/api/badge/optimizing-attention-flash-braxtonrose4/svg)](https://www.skillteca.com.br/skills/optimizing-attention-flash-braxtonrose4?utm_source=badge&utm_medium=readme&utm_campaign=badge)

#ai

Skills relacionadas

Ver todas de Outros →

template-skill

143.8k

Reemplace con la descripción de la habilidad y cuándo Claude debería usarla.

Outrospor anthropics

slack-gif-creator

143.8k

Conocimiento y utilidades para crear GIFs animados optimizados para Slack. Ofrece restricciones, herramientas de validación y conceptos de animación, siendo útil cuando los usuarios solicitan GIFs para Slack, como "hazme un GIF de X haciendo Y para Slack".

Outros#aipor anthropics

baoyu-compress-image

19.9k

Comprime imágenes a WebP (predeterminado) o PNG con selección automática de herramientas. Úselo cuando el usuario solicite comprimir imagen, optimizar imagen, convertir a webp o reducir el tamaño del archivo de imagen.

Outrospor JimLiu

zzz-one-dragon-player

6.4k

Asistente de juego automático todo en uno para Zenless Zone Zero, que permite a los Agentes de IA automatizar completamente las rutinas diarias del juego.

Outros#aipor OneDragon-Anything

Alerta por categoría

Recibe nuevas skills de Outros todos los lunes

Un email corto con solo las skills nuevas de Outros. 4 minutos de lectura, sin spam, te das de baja con un clic.

Confirmas tu email en el primer envío. Sin spam. Te das de baja con un clic.

Flash Attention - Fast Memory-Efficient Attention

Quick start

Flash Attention provides 2-4x speedup and 10-20x memory reduction for transformer attention through IO-aware tiling and recomputation.

PyTorch native (easiest, PyTorch 2.2+):

import torch
import torch.nn.functional as F

q = torch.randn(2, 8, 512, 64, device='cuda', dtype=torch.float16)  # [batch, heads, seq, dim]
k = torch.randn(2, 8, 512, 64, device='cuda', dtype=torch.float16)
v = torch.randn(2, 8, 512, 64, de

[Description truncada. Veja o README completo no GitHub.]

CompartirX LinkedIn

Comentarios · Sin comentarios

Entra para comentar. Entrar

Aún no hay comentarios. Sé el primero.