LLM as a Judge 102: Meta Evaluation

요약 이 세션은 LLM을 평가자(Judge)로 사용할 때 평가자 자체를 평가하고 개선하는 메타 평가(Meta Evaluation) 방법론을 다룹니다. Phoenix 팀의 Elizabeth와 Shri가 평가자의 정확도를 측정하고, 혼동 행렬(Confusion Matrix)을 활용하여 오류 패턴을 분석하며, 프롬프트 최적화를 통해 평가 성능을 68%에서 83%로 향상시키는 실전 프로세스를 시연합니다. 주요 내용 1. 메타 평가의 필요성과 개념 메타 평가란: 평가자 자체를 평가하는 프로세스로, LLM … Read more