← Volver al catálogo

awq-quantization

Este método de compresión de LLM de 4 bits, ganador del premio Best Paper de MLSys 2024, utiliza cuantificación de pesos sensible a la activación, ofreciendo una aceleración de 3x y una pérdida mínima de precisión. Es ideal para desplegar modelos grandes en GPUs con memoria limitada o para una inferencia más rápida y precisa que GPTQ, especialmente para modelos ajustados por instrucción y multimodales.

9.1kestrellas
Actualizado hace 2 meses

Ver en GitHub ↗Licencia: MIT

Cómo agregar

/plugin marketplace add Orchestra-Research/AI-Research-SKILLs

El comando exacto puede variar según el repositorio. Consulta el README en GitHub.

Para el autor de la skill

Pega en el README de tu repo

Muestra que tu skill está catalogada en Skillteca, genera backlink y tráfico rastreable.

Listada na Skillteca
[![Listada na Skillteca](https://www.skillteca.com.br/api/badge/awq-quantization/svg)](https://www.skillteca.com.br/skills/awq-quantization?utm_source=badge&utm_medium=readme&utm_campaign=badge)

Alerta por categoría

Recibe nuevas skills de Pesquisa e Web todos los lunes

Un email corto con solo las skills nuevas de Pesquisa e Web. 4 minutos de lectura, sin spam, te das de baja con un clic.

Confirmas tu email en el primer envío. Sin spam. Te das de baja con un clic.

CompartirXLinkedIn

Comentarios · Sin comentarios

Entra para comentar. Entrar

  • Aún no hay comentarios. Sé el primero.