DZone.com의 RSS
팔로우
LLM 선정 전쟁 이야기: 4부 - 당신의 프로덕션 실패 테스트 스위트
파트 1-3에서는 LLM이 실패하는 이유와 그 실패를 분류하는 방법에 대해 이야기했습니다. 이제 어려운 부분입니다. 실제로 테스트하는 것입니다. 이론적인 벤치마크가 아니라, 일요일 새벽 2시에 아이의 축구 경기를 즐기려 할 때 당신을 물어뜯을 지저분하고 현실적인 시나리오로 말입니다.
보세요, 저는 인정하고 싶지 않은 것보다 더 많이 이 일을 망쳤습니다. 한 번은 포괄적인 테스트 스위트라고 생각했던 것을 만드는 데 2주를 보냈지만, 프로덕션 3일차에 Claude가 코드 검토 도구에서 SQL 인젝션 취약점을 환각하는 것을 보았습니다. 테스트 스위트는 쓰레기였습니다. 왜냐하면 그것은 실제로 프로덕션에서 실패하는 것을 테스트한 것이 아니라, 실패할 것이라고 생각했던 것을 테스트했기 때문입니다.