LLM-as-a-Judge Archives

LLM as a Judge 102: Meta Evaluation

2025년 12월 14일 by admin

요약 이 세션은 LLM을 평가자(Judge)로 사용할 때 평가자 자체를 평가하고 개선하는 메타 평가(Meta Evaluation) 방법론을 다룹니다. Phoenix 팀의 Elizabeth와 Shri가 평가자의 정확도를 측정하고, 혼동 행렬(Confusion Matrix)을 활용하여 오류 패턴을 분석하며, 프롬프트 최적화를 통해 평가 성능을 68%에서 83%로 향상시키는 실전 프로세스를 시연합니다. 주요 내용 1. 메타 평가의 필요성과 개념 메타 평가란: 평가자 자체를 평가하는 프로세스로, LLM … Read more

Langfuse Intro – Evaluations Deep Dive

2025년 12월 02일 by admin

요약 Langfuse의 공동 창업자이자 CEO인 Marc이 Langfuse 플랫폼의 평가(Evaluation) 기능을 심층적으로 소개합니다. 개발 단계부터 프로덕션 환경까지 전체 워크플로우를 커버하는 오픈소스 평가 도구로, LLM-as-a-Judge, 수동 주석, 커스텀 평가 등 다양한 평가 방법을 지원하며, 프롬프트 관리 및 관찰 기능과 긴밀하게 통합되어 있습니다. 주요 내용 1. Langfuse 평가 워크플로우 개요 오프라인 평가 (개발 단계): 정상 경로, 엣지 케이스, … Read more