Skills publicadas
pipeline-eval
Un marco de evaluación a nivel de sistema para pipelines LLM multi-etapa, que califica el pipeline en su conjunto en 8 dimensiones, incluyendo calidad de entrada/salida y diseño de prompt. Complementa a `deepeval` al evaluar la arquitectura del pipeline en sí, en lugar de artefactos de contenido únicos.
pipeline-eval
Un marco de evaluación a nivel de sistema para pipelines LLM multi-etapa, que puntúa el pipeline en su conjunto en 8 dimensiones, incluyendo calidad de entrada/salida y diseño de prompt. Complementa `deepeval` al evaluar la arquitectura del pipeline en sí.
deepeval
Un marco de evaluación calibrado por BCG para las salidas de agentes LLM, con un juez nativo de Claude y una pila de 4 niveles. Incluye una rúbrica BCG de 8 dimensiones, una pila de novedad de 10 señales y un Agente Escéptico adversarial, diseñado para cadencias diarias, semanales o de 30 días e integrable en cualquier proyecto de Claude Code sin claves API.
pipeline-eval
Un framework de evaluación a nivel de sistema para pipelines LLM multi-etapa, que puntúa el pipeline en su conjunto en 8 dimensiones, incluyendo calidad de entrada/salida, diseño de prompt y fundamentación de hechos. Complementa a `deepeval` al evaluar la arquitectura del pipeline en lugar de artefactos de contenido únicos.
deepeval
Un marco de evaluación calibrado por BCG para salidas de agentes LLM, con un juez nativo de Claude (sin API externa). Incluye una pila de 4 niveles con rúbrica BCG de 8 dimensiones y un Agente Escéptico adversarial, integrándose en cualquier proyecto de Claude Code sin claves API.
deepeval
Un marco de evaluación calibrado por BCG para las salidas de agentes LLM, que cuenta con un juez nativo de Codex y una pila de 4 niveles con una rúbrica BCG de 8 dimensiones y una pila de novedad de 10 señales. Incluye un Agente Escéptico adversarial para sondas de adulación y ambigüedad, soporta cadencias diarias/semanales/30 días y se integra en cualquier proyecto Codex sin claves de API.
Alerta por categoría