simpo-training

Name: simpo-training
Rating: 5 (7 reviews)
Author: braxtonROSE4

Simple Preference Optimization for LLM alignment. Reference-free alternative to DPO with better performance (+6.4 points on AlpacaEval 2.0). No reference model needed, more efficient than DPO. Use for preference alignment when want simpler, faster training than DPO/PPO.

7estrellas

Actualizado hace 2 meses

Ver en GitHub ↗Licencia: MIT

Cómo agregar

/plugin marketplace add braxtonROSE4/zorro-agent

El comando exacto puede variar según el repositorio. Consulta el README en GitHub.

Para el autor de la skill

Pega en el README de tu repo

Muestra que tu skill está catalogada en Skillteca, genera backlink y tráfico rastreable.

[![Listada na Skillteca](https://www.skillteca.com.br/api/badge/simpo-training-braxtonrose4/svg)](https://www.skillteca.com.br/skills/simpo-training-braxtonrose4?utm_source=badge&utm_medium=readme&utm_campaign=badge)

#llm #ai

Skills relacionadas

Ver todas de DevOps e Infra →

internal-comms

143.8k

Recursos para ayudar a redactar comunicaciones internas de todo tipo, siguiendo los formatos preferidos por la empresa. Claude debe usar esta habilidad para crear informes de estado, actualizaciones de liderazgo, boletines, preguntas frecuentes y otros documentos internos.

DevOps e Infrapor anthropics

babysit

79.7k

Monitorea una solicitud de extracción o ciclo de revisión hasta que esté lista para fusionarse. Se utiliza para seguir comentarios de PR, revisiones y el estado de CI hasta que todos los problemas sean resueltos.

DevOps e Infra#aipor thedotmack

do

79.7k

Ejecute un plan de implementación por fases utilizando subagentes. Úselo cuando se le pida que ejecute, ponga en marcha o lleve a cabo un plan — especialmente uno creado por make-plan.

DevOps e Infra#aipor thedotmack

smart-explore

79.7k

Búsqueda de código estructural optimizada por tokens utilizando el análisis AST de tree-sitter. Úselo para comprender la estructura del código, encontrar funciones o explorar una base de código de manera eficiente, sin necesidad de leer archivos completos.

DevOps e Infra#aipor thedotmack

Alerta por categoría

Recibe nuevas skills de DevOps e Infra todos los lunes

Un email corto con solo las skills nuevas de DevOps e Infra. 4 minutos de lectura, sin spam, te das de baja con un clic.

Confirmas tu email en el primer envío. Sin spam. Te das de baja con un clic.

SimPO - Simple Preference Optimization

Quick start

SimPO is a reference-free preference optimization method that outperforms DPO without needing a reference model.

Installation:

# Create environment
conda create -n simpo python=3.10 && conda activate simpo

# Install PyTorch 2.2.2
# Visit: https://pytorch.org/get-started/locally/

# Install alignment-handbook
git clone https://github.com/huggingface/alignment-handbook.git
cd alignment-handbook
python -m pip install .

# Insta

[Description truncada. Veja o README completo no GitHub.]

CompartirX LinkedIn

Comentarios · Sin comentarios

Entra para comentar. Entrar

Aún no hay comentarios. Sé el primero.