When (& How) to Start Writing Evals
Většina týmů přistupuje k evaluaci LLM jako k test-driven developmentu: nejprve napište testy, pak stavějte. Ale LLM mají nekonečnou plochu pro selhání — nemůžete předvídat, co se rozbije. Tato přednáška argumentuje pro jiný přístup: nejdřív nasaďte, pozorujte selhání, pak stavějte evaly pro vzory, které jste skutečně objevili.