← Volver al catálogo

skill-benchmarking

Run skill benchmarks with discriminating-only assertions against evals.json for any model and any AI agent. Use when benchmarking a skill against a model not yet tested, running with_skill/without_skill eval pairs, producing benchmark-<model>.json, re-grading an existing run, adding Phase 2 model comparison results, reviewing results in the eval viewer, updating README benchmark tables, or cleanin

4estrellas
Actualizado el mes pasado

Ver en GitHub ↗Licencia: MIT

Cómo agregar

/plugin marketplace add rusel95/ios-agent-skills

El comando exacto puede variar según el repositorio. Consulta el README en GitHub.

Para el autor de la skill

Pega en el README de tu repo

Muestra que tu skill está catalogada en Skillteca, genera backlink y tráfico rastreable.

Listada na Skillteca
[![Listada na Skillteca](https://www.skillteca.com.br/api/badge/skill-benchmarking/svg)](https://www.skillteca.com.br/skills/skill-benchmarking?utm_source=badge&utm_medium=readme&utm_campaign=badge)

Alerta por categoría

Recibe nuevas skills de Desenvolvimento todos los lunes

Un email corto con solo las skills nuevas de Desenvolvimento. 4 minutos de lectura, sin spam, te das de baja con un clic.

Confirmas tu email en el primer envío. Sin spam. Te das de baja con un clic.

CompartirXLinkedIn

Comentarios · Sin comentarios

Entra para comentar. Entrar

  • Aún no hay comentarios. Sé el primero.