Añade evaluación basada en rúbrica a un código de agente existente. Ideal para evaluar agentes, medir su calidad o configurar la puntuación LLM-as-a-judge, soportando comparaciones de agente único y múltiples sujetos.
Desenvolvimento#llm#testpor erezweinstein5