LLM as a Judge 102: Meta Evaluation

요약 이 세션은 LLM을 평가자(Judge)로 사용할 때 평가자 자체를 평가하고 개선하는 메타 평가(Meta Evaluation) 방법론을 다룹니다. Phoenix 팀의 Elizabeth와 Shri가 평가자의 정확도를 측정하고, 혼동 행렬(Confusion Matrix)을 활용하여 오류 패턴을 분석하며, 프롬프트 최적화를 통해 평가 성능을 68%에서 83%로 향상시키는 실전 프로세스를 시연합니다. 주요 내용 1. 메타 평가의 필요성과 개념 메타 평가란: 평가자 자체를 평가하는 프로세스로, LLM … Read more

LLM-as-a-Judge 101 – AI 평가 시스템 구축 가이드

요약 Arize의 ML 엔지니어 Elizabeth Hutton이 LLM-as-a-Judge 평가 시스템을 구축하는 방법을 처음부터 설명합니다. 데이터 분석, 메트릭 정의, 프롬프트 작성, 모델 선택, 메타 평가까지 4단계 프로세스를 통해 효과적인 AI 애플리케이션 평가 시스템을 만드는 실용적인 가이드를 제공합니다. 주요 내용 1. 평가(Evaluation)의 기본 개념 평가의 정의: 시스템의 성능을 측정하는 프로세스로, AI 애플리케이션의 품질 개선과 반복 개발을 가능하게 함 … Read more