pydantic-evals

Name: pydantic-evals
Rating: 5 (7 reviews)
Author: Fuenfgeld

Test and evaluate AI agents and LLM outputs using code-first evaluation framework with strong typing. Use when the user wants to: (1) Create evaluation datasets with test cases for AI agents, (2) Define evaluators (deterministic, LLM-as-Judge, custom, or span-based), (3) Run evaluations and generate reports, (4) Compare model performance across experiments, (5) Integrate evaluations with Pydantic

7estrellas

Actualizado hace 5 meses

Ver en GitHub ↗Licencia: MIT

Cómo agregar

/plugin marketplace add Fuenfgeld/pydantic-ai-skills

El comando exacto puede variar según el repositorio. Consulta el README en GitHub.

Para el autor de la skill

Pega en el README de tu repo

Muestra que tu skill está catalogada en Skillteca, genera backlink y tráfico rastreable.

[![Listada na Skillteca](https://www.skillteca.com.br/api/badge/pydantic-evals/svg)](https://www.skillteca.com.br/skills/pydantic-evals?utm_source=badge&utm_medium=readme&utm_campaign=badge)

#llm #ai #test

Skills relacionadas

Ver todas de Dados e Análise →

xlsx

143.8k

Utilice esta habilidad para cualquier tarea que involucre archivos de hoja de cálculo como entrada o salida principal, como abrir, leer, editar, corregir, crear o convertir archivos .xlsx, .xlsm, .csv o .tsv.

Dados e Análise#xlsxpor anthropics

mem-search

79.7k

Busca en la base de datos de memoria persistente entre sesiones de claude-mem. Úselo para responder preguntas sobre soluciones anteriores o recuperar trabajo de sesiones pasadas.

Dados e Análise#aipor thedotmack

weekly-digests

79.7k

Genera un resumen narrativo semanal de la línea de tiempo Claude-mem de un proyecto, dividiéndola en archivos por semana ISO y utilizando subagentes para producir capítulos semanales. Ideal para "resúmenes semanales" o "capítulos narrativos" del historial de un proyecto.

Dados e Análise#aipor thedotmack

how-it-works

79.7k

Esta habilidad explica cómo claude-mem captura observaciones, cuándo se activa la inyección de memoria y dónde residen sus datos.

Dados e Análise#aipor thedotmack

Alerta por categoría

Recibe nuevas skills de Dados e Análise todos los lunes

Un email corto con solo las skills nuevas de Dados e Análise. 4 minutos de lectura, sin spam, te das de baja con un clic.

Confirmas tu email en el primer envío. Sin spam. Te das de baja con un clic.

Pydantic Evals

Overview

Pydantic Evals provides rigorous testing and evaluation for AI agents and LLM outputs using a code-first approach with Pydantic models. It enables "Evaluation-Driven Development" (EDD) where evaluation suites live alongside application code, subject to version control and CI/CD.

Core Concepts

Understand these key primitives:

Case

A single test scenario with inputs, optional expected output, and metadata.

from pydantic_evals import Case

case = 

[Description truncada. Veja o README completo no GitHub.]

CompartirX LinkedIn

Comentarios · Sin comentarios

Entra para comentar. Entrar

Aún no hay comentarios. Sé el primero.