eval-harness

Name: eval-harness
Rating: 5 (4 reviews)
Author: immacualate

Marco de evaluación formal para sesiones de Claude Code que implementan principios de desarrollo impulsado por evaluación (EDD).

4estrellas

Actualizado hace 13 días

Ver en GitHub ↗Licencia: MIT

Cómo agregar

/plugin marketplace add immacualate/claude-forge

El comando exacto puede variar según el repositorio. Consulta el README en GitHub.

Para el autor de la skill

Pega en el README de tu repo

Muestra que tu skill está catalogada en Skillteca, genera backlink y tráfico rastreable.

[![Listada na Skillteca](https://www.skillteca.com.br/api/badge/eval-harness/svg)](https://www.skillteca.com.br/skills/eval-harness?utm_source=badge&utm_medium=readme&utm_campaign=badge)

Skills relacionadas

Ver todas de Desenvolvimento →

claude-api

143.8k

Build, debug, and optimize Claude API / Anthropic SDK apps. Apps built with this skill should include prompt caching. Also handles migrating existing Claude API code between Claude model versions (4.5 → 4.6, 4.6 → 4.7, retired-model replacements). TRIGGER when: code imports `anthropic`/`@anthropic-ai/sdk`; user asks for the Claude API, Anthropic SDK, or Managed Agents; user adds/modifies/tunes a C

Desenvolvimento#ai#apipor anthropics

skill-creator

143.8k

Cree nuevas habilidades, modifique y mejore las existentes, y mida su rendimiento. Se utiliza para desarrollar, editar, optimizar, probar y comparar habilidades, así como para refinar sus descripciones para una mejor precisión de activación.

Desenvolvimento#testpor anthropics

oh-my-issues

79.7k

Esta habilidad agrupa los backlogs de issues de GitHub por causa raíz en issues maestras de plan, redirige las issues relacionadas y agrupa los PRs de corrección arquitectónica para cerrar clusters atómicamente. Es ideal para clasificar y consolidar numerosas issues que comparten defectos subyacentes, o para construir una serie de planes o una hoja de ruta.

Desenvolvimento#github#gitpor thedotmack

claude-mem

79.7k

Captura las acciones de su agente entre sesiones, las comprime con IA e inyecta contexto relevante en interacciones futuras. Compatible con Claude Code, OpenClaw, Codex, Gemini, Hermes, Copilot, OpenCode y más.

Desenvolvimento#aipor thedotmack

Alerta por categoría

Recibe nuevas skills de Desenvolvimento todos los lunes

Un email corto con solo las skills nuevas de Desenvolvimento. 4 minutos de lectura, sin spam, te das de baja con un clic.

Confirmas tu email en el primer envío. Sin spam. Te das de baja con un clic.

Eval Harness Skill

A formal evaluation framework for Claude Code sessions, implementing eval-driven development (EDD) principles.

Philosophy

Eval-Driven Development treats evals as the "unit tests of AI development":

Define expected behavior BEFORE implementation
Run evals continuously during development
Track regressions with each change
Use pass@k metrics for reliability measurement

Eval Types

Capability Evals

Test if Claude can do something it couldn't before:


[Description truncada. Veja o README completo no GitHub.]

CompartirX LinkedIn

Comentarios · Sin comentarios

Entra para comentar. Entrar

Aún no hay comentarios. Sé el primero.