7 docs tagged with "evaluation"

11.6 Results & Analysis

Reproducing the evaluation metrics from the Cricket AI paper (3,627 claims, 97.71% auto-verification).

Non-determinism, subjective quality, and benchmark gaming in LLM evaluation.

BLEU, ROUGE, BERTScore, and RAGAS (faithfulness, relevance) for LLM evaluation.

Rubric design, pairwise comparison, and calibration for LLM-as-judge evaluation.

Annotation guidelines, inter-rater reliability, and stratified sampling for LLM eval.

Dataset creation, test harness, and CI/CD for LLM output quality assurance.

Before/after comparison, catastrophic forgetting detection, and overfitting signals.