Evals

February 5, 2026

TL;DR

SimpleQA Verified is a 1,000-prompt benchmark for evaluating LLM short-form factuality and parametric knowledge, addressing limitations of the original SimpleQA.
FACTS Grounding evaluates LLM ability to generate factually accurate responses grounded in provided long-form documents.
The FACTS Benchmark suite holistically evaluates LLM factuality across parametric knowledge, search, multimodality, and grounding.
DeepSearchQA is a 900-prompt benchmark for evaluating agents on difficult multi-step information-seeking tasks with a 'causal chain' structure.
The Chess Text Input Leaderboard provides a framework for evaluating LLMs' strategic reasoning capabilities in chess.
The Chess Text Openings Leaderboard evaluates LLMs' strategic reasoning from specific early-game chess positions.

Continue reading the original article