advanced-evaluation

Name: advanced-evaluation
Rating: 5 (1 reviews)
Author: bg-szy

This skill should be used when the user asks to "implement LLM-as-judge", "compare model outputs", "create evaluation rubrics", "mitigate evaluation bias", or mentions direct scoring, pairwise comparison, position bias, evaluation pipelines, or automated quality assessment.

1estrelas

Atualizado há 17 dias

Ver no GitHub ↗

Como adicionar

/plugin marketplace add bg-szy/TOP-SKILLS

O comando exato pode variar conforme o repositório. Confira o README no GitHub.

Para o autor da skill

Cole no README do seu repo

Mostra que sua skill está catalogada na Skillteca, gera backlink e tráfego rastreável.

[![Listada na Skillteca](https://www.skillteca.com.br/api/badge/advanced-evaluation-bg-szy/svg)](https://www.skillteca.com.br/skills/advanced-evaluation-bg-szy?utm_source=badge&utm_medium=readme&utm_campaign=badge)

#llm #ai

Skills relacionadas

Ver todas de Pesquisa e Web →

dev-browser

60.3k

Automatiza interações do navegador com estado de página persistente. Utilize para navegar em sites, preencher formulários, tirar capturas de tela, extrair dados da web, testar aplicativos ou automatizar fluxos de trabalho do navegador.

Pesquisa e Web#testpor code-yeongyu

agent-browser

55.6k

Browser automation CLI for AI agents. Use when the user needs to interact with websites, including navigating pages, filling forms, clicking buttons, taking screenshots, extracting data, testing web apps, or automating any browser task. Triggers include requests to "open a website", "fill out a form", "click a button", "take a screenshot", "scrape data from a page", "test this web app", "login to

Pesquisa e Web#ai#testpor shanraisshan

understand-chat

45.5k

Use quando precisar fazer perguntas sobre uma base de código ou entender código usando um grafo de conhecimento.

Pesquisa e Webpor Lum1104

understand-dashboard

45.5k

Lance o painel web interativo para visualizar o grafo de conhecimento de uma base de código.

Pesquisa e Webpor Lum1104

Alerta por categoria

Receba novas skills de Pesquisa e Web toda segunda

1 email curto, só com as skills novas de Pesquisa e Web. 4 minutos de leitura, sem spam, cancela com 1 clique.

Você confirma o email no primeiro envio. Sem spam. Cancela com 1 clique.

Advanced Evaluation

This skill covers production-grade techniques for evaluating LLM outputs using LLMs as judges. It synthesizes research from academic papers, industry practices, and practical implementation experience into actionable patterns for building reliable evaluation systems.

Key insight: LLM-as-a-Judge is not a single technique but a family of approaches, each suited to different evaluation contexts. Choosing the right approach and mitigating known biases is the core competen

[Description truncada. Veja o README completo no GitHub.]

CompartilharX LinkedIn

Comentários · Nenhum comentário

Entre para comentar. Entrar

Ainda não há comentários. Seja o primeiro.