RSS DZone.com
Подписаться
Военная история выбора LLM: Часть 4 - Ваш набор тестов для проверки сбоев в производстве
В частях 1-3 мы говорили о том, почему LLM терпят неудачу, и о том, как классифицировать эти неудачи. Теперь наступает сложная часть: фактическое тестирование на них. Не с помощью теоретических тестов, а с помощью грязных, реалистичных сценариев, которые укусят вас в 2 часа ночи в воскресенье, когда вы пытаетесь насладиться футбольной игрой вашего ребенка.
Послушайте, я облажался с этим больше раз, чем мне хотелось бы признать. Однажды я потратил две недели на создание, как мне казалось, всеобъемлющего набора тестов, и только для того, чтобы Claude выдумал уязвимости SQL-инъекций в нашем инструменте проверки кода на третий день работы. Набор тестов был мусором, потому что он тестировал то, что, как я думал, потерпит неудачу, а не то, что на самом деле терпит неудачу в производстве.