skill-benchmarking

Name: skill-benchmarking
Rating: 5 (4 reviews)
Author: rusel95

Run skill benchmarks with discriminating-only assertions against evals.json for any model and any AI agent. Use when benchmarking a skill against a model not yet tested, running with_skill/without_skill eval pairs, producing benchmark-<model>.json, re-grading an existing run, adding Phase 2 model comparison results, reviewing results in the eval viewer, updating README benchmark tables, or cleanin

4estrellas

Actualizado el mes pasado

Ver en GitHub ↗Licencia: MIT

Cómo agregar

/plugin marketplace add rusel95/ios-agent-skills

El comando exacto puede variar según el repositorio. Consulta el README en GitHub.

Para el autor de la skill

Pega en el README de tu repo

Muestra que tu skill está catalogada en Skillteca, genera backlink y tráfico rastreable.

[![Listada na Skillteca](https://www.skillteca.com.br/api/badge/skill-benchmarking/svg)](https://www.skillteca.com.br/skills/skill-benchmarking?utm_source=badge&utm_medium=readme&utm_campaign=badge)

#ai #test

Skills relacionadas

Ver todas de Desenvolvimento →

claude-api

143.8k

Build, debug, and optimize Claude API / Anthropic SDK apps. Apps built with this skill should include prompt caching. Also handles migrating existing Claude API code between Claude model versions (4.5 → 4.6, 4.6 → 4.7, retired-model replacements). TRIGGER when: code imports `anthropic`/`@anthropic-ai/sdk`; user asks for the Claude API, Anthropic SDK, or Managed Agents; user adds/modifies/tunes a C

Desenvolvimento#ai#apipor anthropics

skill-creator

143.8k

Cree nuevas habilidades, modifique y mejore las existentes, y mida su rendimiento. Se utiliza para desarrollar, editar, optimizar, probar y comparar habilidades, así como para refinar sus descripciones para una mejor precisión de activación.

Desenvolvimento#testpor anthropics

oh-my-issues

79.7k

Esta habilidad agrupa los backlogs de issues de GitHub por causa raíz en issues maestras de plan, redirige las issues relacionadas y agrupa los PRs de corrección arquitectónica para cerrar clusters atómicamente. Es ideal para clasificar y consolidar numerosas issues que comparten defectos subyacentes, o para construir una serie de planes o una hoja de ruta.

Desenvolvimento#github#gitpor thedotmack

claude-mem

79.7k

Captura las acciones de su agente entre sesiones, las comprime con IA e inyecta contexto relevante en interacciones futuras. Compatible con Claude Code, OpenClaw, Codex, Gemini, Hermes, Copilot, OpenCode y más.

Desenvolvimento#aipor thedotmack

Alerta por categoría

Recibe nuevas skills de Desenvolvimento todos los lunes

Un email corto con solo las skills nuevas de Desenvolvimento. 4 minutos de lectura, sin spam, te das de baja con un clic.

Confirmas tu email en el primer envío. Sin spam. Te das de baja con un clic.

Skill Benchmarking

Strict, agent-agnostic benchmark runner for evals.json skill evaluation. Produces benchmark-<model>.json with pass rates and a discriminating assertion list. Only assertions that actually discriminate between with-skill and without-skill responses are kept; non-discriminating noise is removed via the assertion hygiene process.

This skill works with any AI coding assistant -- Claude Code, Gemini CLI, GitHub Copilot, Cursor, Windsurf, or any agent that can read files

[Description truncada. Veja o README completo no GitHub.]

CompartirX LinkedIn

Comentarios · Sin comentarios

Entra para comentar. Entrar

Aún no hay comentarios. Sé el primero.