LLM as a Judge 102: Meta Evaluation

요약 이 세션은 LLM을 평가자(Judge)로 사용할 때 평가자 자체를 평가하고 개선하는 메타 평가(Meta Evaluation) 방법론을 다룹니다. Phoenix 팀의 Elizabeth와 Shri가 평가자의 정확도를 측정하고, 혼동 행렬(Confusion Matrix)을 활용하여 오류 패턴을 분석하며, 프롬프트 최적화를 통해 평가 성능을 68%에서 83%로 향상시키는 실전 프로세스를 시연합니다. 주요 내용 1. 메타 평가의 필요성과 개념 메타 평가란: 평가자 자체를 평가하는 프로세스로, LLM … Read more

AI, Machine Learning, Deep Learning and Generative AI Explained

요약 IBM의 Jeff Crume이 인공지능(AI), 머신러닝(ML), 딥러닝(DL), 그리고 생성형 AI의 차이점과 발전 과정을 설명합니다. 각 기술이 어떻게 서로 연관되어 있으며, 특히 최근 급부상한 대규모 언어모델(LLM)과 챗봇 등 생성형 AI 기술의 특징과 영향을 명확하게 정리합니다. 주요 내용 1. 인공지능(AI)의 기본 개념과 역사 2. 머신러닝(Machine Learning) 3. 딥러닝(Deep Learning) 4. 생성형 AI와 파운데이션 모델 5. AI의 발전과 … Read more

Long term memory로 AI에게 기억력 주기

요약 AI 에이전트에 장기 메모리를 부여하여 사용자의 선호도, 경험, 규칙을 기억하게 만드는 기술에 대해 살펴봅니다. 슈퍼메모리, Mem0, Graphiti, Zep AI 등 다양한 솔루션을 소개하고, Memori SDK를 활용한 실습을 통해 장기 메모리 구현 방법을 설명합니다. 주요 내용 1. 슈퍼메모리(Supermemory) – 42억 투자받은 19세 청년의 기술 배경: 19세 청년이 슈퍼메모리 서비스로 300만 달러(약 42억 원) 투자 유치 … Read more

구글 TPU vs NVIDIA GPU 비용 비교: 하이퍼스케일과 스타트업의 다른 계산법

구글 TPU와 NVIDIA GPU의 비용 효율성 논쟁을 실제 수치와 방법론으로 분석합니다. 단순 토큰당 비용과 TCO 관점에서 어떻게 다른 결론이 나오는지, 하이퍼스케일 서비스부터 스타트업까지 상황별로 어떤 칩 선택이 합리적인지 비교합니다. TPU가 더 싸다는 분석들 SemiAnalysis 분석에 따르면 TPU V5e가 A100, H100보다 연산 능력과 대역폭에서 우수하며 가격 대비 성능이 훨씬 좋습니다. 구글 클라우드는 Jetstream 인퍼런스 엔진 사용 … Read more

LLM-as-a-Judge 101 – AI 평가 시스템 구축 가이드

요약 Arize의 ML 엔지니어 Elizabeth Hutton이 LLM-as-a-Judge 평가 시스템을 구축하는 방법을 처음부터 설명합니다. 데이터 분석, 메트릭 정의, 프롬프트 작성, 모델 선택, 메타 평가까지 4단계 프로세스를 통해 효과적인 AI 애플리케이션 평가 시스템을 만드는 실용적인 가이드를 제공합니다. 주요 내용 1. 평가(Evaluation)의 기본 개념 평가의 정의: 시스템의 성능을 측정하는 프로세스로, AI 애플리케이션의 품질 개선과 반복 개발을 가능하게 함 … Read more