LLM as a Judge 102: Meta Evaluation

요약 이 세션은 LLM을 평가자(Judge)로 사용할 때 평가자 자체를 평가하고 개선하는 메타 평가(Meta Evaluation) 방법론을 다룹니다. Phoenix 팀의 Elizabeth와 Shri가 평가자의 정확도를 측정하고, 혼동 행렬(Confusion Matrix)을 활용하여 오류 패턴을 분석하며, 프롬프트 최적화를 통해 평가 성능을 68%에서 83%로 향상시키는 실전 프로세스를 시연합니다. 주요 내용 1. 메타 평가의 필요성과 개념 메타 평가란: 평가자 자체를 평가하는 프로세스로, LLM … Read more

Langfuse Intro – Evaluations Deep Dive

요약 Langfuse의 공동 창업자이자 CEO인 Marc이 Langfuse 플랫폼의 평가(Evaluation) 기능을 심층적으로 소개합니다. 개발 단계부터 프로덕션 환경까지 전체 워크플로우를 커버하는 오픈소스 평가 도구로, LLM-as-a-Judge, 수동 주석, 커스텀 평가 등 다양한 평가 방법을 지원하며, 프롬프트 관리 및 관찰 기능과 긴밀하게 통합되어 있습니다. 주요 내용 1. Langfuse 평가 워크플로우 개요 오프라인 평가 (개발 단계): 정상 경로, 엣지 케이스, … Read more