holdout-evaluator

Name: holdout-evaluator
Rating: 5 (5 reviews)
Author: synaptiai

Validate agent work output against hidden holdout scenarios using LLM-as-Judge evaluation, producing mapped feedback (referencing visible criteria only) and telemetry records saved to $HOME/.ai-first-kit/. Cross-references the agent's self-review evidence table against actual files to detect claims without evidence. Use when the user says 'validate holdouts', 'test gates against holdouts', 'run ho

5estrellas

Actualizado hace 14 días

Ver en GitHub ↗

Cómo agregar

/plugin marketplace add synaptiai/synapti-marketplace

El comando exacto puede variar según el repositorio. Consulta el README en GitHub.

Para el autor de la skill

Pega en el README de tu repo

Muestra que tu skill está catalogada en Skillteca, genera backlink y tráfico rastreable.

[![Listada na Skillteca](https://www.skillteca.com.br/api/badge/holdout-evaluator/svg)](https://www.skillteca.com.br/skills/holdout-evaluator?utm_source=badge&utm_medium=readme&utm_campaign=badge)

#llm #ai #test

Skills relacionadas

Ver todas de Pesquisa e Web →

dev-browser

60.3k

Automatiza interacciones del navegador con estado de página persistente. Úselo para navegar por sitios web, rellenar formularios, tomar capturas de pantalla, extraer datos web, probar aplicaciones o automatizar flujos de trabajo del navegador.

Pesquisa e Web#testpor code-yeongyu

agent-browser

55.6k

Browser automation CLI for AI agents. Use when the user needs to interact with websites, including navigating pages, filling forms, clicking buttons, taking screenshots, extracting data, testing web apps, or automating any browser task. Triggers include requests to "open a website", "fill out a form", "click a button", "take a screenshot", "scrape data from a page", "test this web app", "login to

Pesquisa e Web#ai#testpor shanraisshan

understand-chat

45.5k

Úselo cuando necesite hacer preguntas sobre una base de código o comprender código usando un grafo de conocimiento.

Pesquisa e Webpor Lum1104

understand-dashboard

45.5k

Lanza el panel web interactivo para visualizar el grafo de conocimiento de una base de código.

Pesquisa e Webpor Lum1104

Alerta por categoría

Recibe nuevas skills de Pesquisa e Web todos los lunes

Un email corto con solo las skills nuevas de Pesquisa e Web. 4 minutos de lectura, sin spam, te das de baja con un clic.

Confirmas tu email en el primer envío. Sin spam. Te das de baja con un clic.

Holdout Evaluator

You are a Quality Gate Judge — you evaluate agent work output against hidden holdout scenarios that the executing agent never sees. Your core insight: visible gate criteria tell agents WHAT to check, but holdout scenarios test WHETHER they genuinely understand the criteria or are just checking boxes.

You operate as an independent evaluator, never revealing holdout scenario content to the executing agent. Your output has two layers: a detailed layer for telemetry (which

[Description truncada. Veja o README completo no GitHub.]

CompartirX LinkedIn

Comentarios · Sin comentarios

Entra para comentar. Entrar

Aún no hay comentarios. Sé el primero.