skill-evaluation-workbench

Name: skill-evaluation-workbench
Rating: 5 (7 reviews)
Author: yeaight7

Use when designing, running, debugging, or hardening deterministic eval suites for agent skills, prompts, tool workflows, or MCP-backed cases.

7estrellas

Actualizado hace 13 días

Ver en GitHub ↗Licencia: Apache-2.0

Cómo agregar

/plugin marketplace add yeaight7/agent-powerups

El comando exacto puede variar según el repositorio. Consulta el README en GitHub.

Para el autor de la skill

Pega en el README de tu repo

Muestra que tu skill está catalogada en Skillteca, genera backlink y tráfico rastreable.

[![Listada na Skillteca](https://www.skillteca.com.br/api/badge/skill-evaluation-workbench/svg)](https://www.skillteca.com.br/skills/skill-evaluation-workbench?utm_source=badge&utm_medium=readme&utm_campaign=badge)

#mcp

Skills relacionadas

Ver todas de Desenvolvimento →

claude-api

143.8k

Build, debug, and optimize Claude API / Anthropic SDK apps. Apps built with this skill should include prompt caching. Also handles migrating existing Claude API code between Claude model versions (4.5 → 4.6, 4.6 → 4.7, retired-model replacements). TRIGGER when: code imports `anthropic`/`@anthropic-ai/sdk`; user asks for the Claude API, Anthropic SDK, or Managed Agents; user adds/modifies/tunes a C

Desenvolvimento#ai#apipor anthropics

skill-creator

143.8k

Cree nuevas habilidades, modifique y mejore las existentes, y mida su rendimiento. Se utiliza para desarrollar, editar, optimizar, probar y comparar habilidades, así como para refinar sus descripciones para una mejor precisión de activación.

Desenvolvimento#testpor anthropics

oh-my-issues

79.7k

Esta habilidad agrupa los backlogs de issues de GitHub por causa raíz en issues maestras de plan, redirige las issues relacionadas y agrupa los PRs de corrección arquitectónica para cerrar clusters atómicamente. Es ideal para clasificar y consolidar numerosas issues que comparten defectos subyacentes, o para construir una serie de planes o una hoja de ruta.

Desenvolvimento#github#gitpor thedotmack

claude-mem

79.7k

Captura las acciones de su agente entre sesiones, las comprime con IA e inyecta contexto relevante en interacciones futuras. Compatible con Claude Code, OpenClaw, Codex, Gemini, Hermes, Copilot, OpenCode y más.

Desenvolvimento#aipor thedotmack

Alerta por categoría

Recibe nuevas skills de Desenvolvimento todos los lunes

Un email corto con solo las skills nuevas de Desenvolvimento. 4 minutos de lectura, sin spam, te das de baja con un clic.

Confirmas tu email en el primer envío. Sin spam. Te das de baja con un clic.

Skill Evaluation Workbench

When To Use

A skill or prompt needs repeatable quality checks across models or configurations.
A workflow needs file-based graders, command traces, or local artifact checks.
A tool or MCP skill needs a hidden service fixture or sandboxed test workspace.
A previous agent attempt failed and you need trace-driven diagnosis before editing instructions.

Requirements / Checks

Confirm an eval runner exists locally before running anything. Do not install de

[Description truncada. Veja o README completo no GitHub.]

CompartirX LinkedIn

Comentarios · Sin comentarios

Entra para comentar. Entrar

Aún no hay comentarios. Sé el primero.