Langfuse Intro – Evaluations Deep Dive

요약 Langfuse의 공동 창업자이자 CEO인 Marc이 Langfuse 플랫폼의 평가(Evaluation) 기능을 심층적으로 소개합니다. 개발 단계부터 프로덕션 환경까지 전체 워크플로우를 커버하는 오픈소스 평가 도구로, LLM-as-a-Judge, 수동 주석, 커스텀 평가 등 다양한 평가 방법을 지원하며, 프롬프트 관리 및 관찰 기능과 긴밀하게 통합되어 있습니다. 주요 내용 1. Langfuse 평가 워크플로우 개요 오프라인 평가 (개발 단계): 정상 경로, 엣지 케이스, … Read more

“한국만 몰라요”, AI로 무너진 미국 취업시장, 그리고 살아남은 기업·사람의 능력

요약 실리콘밸리 AI Agent 기업 Arize AI의 아시아 태평양 총괄 Sean Lee와의 인터뷰를 통해 AI가 미국 취업시장에 미치는 실질적 영향과 위협, 그리고 AI 시대에 살아남기 위한 개인과 기업의 역량에 대해 깊이 있게 다룬다. 한국에서는 잘 다뤄지지 않는 AI의 위험성과 실리콘밸리의 실제 상황을 통해 다가올 미래를 조망한다. 주요 내용 1. AI가 가져온 위협: 일자리 붕괴 실리콘밸리의 … Read more

구글 TPU vs NVIDIA GPU 비용 비교: 하이퍼스케일과 스타트업의 다른 계산법

구글 TPU와 NVIDIA GPU의 비용 효율성 논쟁을 실제 수치와 방법론으로 분석합니다. 단순 토큰당 비용과 TCO 관점에서 어떻게 다른 결론이 나오는지, 하이퍼스케일 서비스부터 스타트업까지 상황별로 어떤 칩 선택이 합리적인지 비교합니다. TPU가 더 싸다는 분석들 SemiAnalysis 분석에 따르면 TPU V5e가 A100, H100보다 연산 능력과 대역폭에서 우수하며 가격 대비 성능이 훨씬 좋습니다. 구글 클라우드는 Jetstream 인퍼런스 엔진 사용 … Read more

Anthropic CEO가 경고하는 AI의 위험성: 규제 없이는 위험한 길로

요약 Anthropic의 CEO Dario Amodei가 AI의 잠재적 위험성과 안전성에 대해 논의하며, AI가 규제 없이 빠르게 발전할 경우 발생할 수 있는 문제점들을 경고합니다. 동시에 AI가 의료, 과학 등 다양한 분야에서 가져올 긍정적 변화의 가능성도 제시합니다. 주요 내용 1. Anthropic의 투명성과 안전 중심 접근 Anthropic은 1,830억 달러 가치의 AI 기업으로, 투명성과 안전성을 브랜드의 핵심으로 삼고 있습니다 테스트 … Read more

평가 주도 개발로 LLM 챗봇 구축하기: Phoenix를 활용한 실전 가이드

요약 평가 주도 개발(Evaluation Driven Development)을 활용하여 LLM 챗봇을 구축하고 개선하는 실전 워크숍입니다. Arize의 Phoenix 도구를 사용하여 여행 에이전트 챗봇을 MVP에서 프로덕션 레벨로 발전시키는 전 과정을 실습합니다. 평가 주도 개발의 개념 평가 주도 개발은 테스트 주도 개발(TDD)의 LLM 애플리케이션 특화 버전입니다. 핵심 사이클은 다음과 같습니다: 개발 단계: 추적(Trace) → 실험(Experimentation) → 테스트 케이스 검증 프로덕션 … Read more

Claude가 워크플로 도구가 됐습니다 | Skills 완전 분석

요약 Claude의 대규모 업데이트인 Claude Skill에 대한 심층 분석 영상입니다. 프롬프트에 의존하는 수동적 방식에서 벗어나, 워크플로를 자동화하는 새로운 패러다임을 제시하며 Claude가 워크플로 도구로 진화한 과정을 다룹니다. 주요 내용 1. Claude Skill의 등장 배경 매번 반복적으로 같은 프롬프트를 입력하는 방식은 생산성과 결과물 일관성을 저하시킴 프롬프트 지시어의 작은 차이로 인해 결과물의 품질이 달라지는 문제 N8N, 구글 Opal, … Read more

아웃사이더도 따라잡을 수 있는 AI 등장 – ElevenLabs Scribe V2 Realtime

요약 일레븐 랩스(ElevenLabs)에서 새롭게 공개한 Scribe V2 Realtime 모델은 150ms의 초저지연으로 실시간 음성을 텍스트로 변환하며, 예측 기술을 활용해 빠른 말속도도 정확하게 따라잡고 다국어 전환도 즉각적으로 처리하는 혁신적인 AI 음성인식 기술입니다. 주요 내용 1. Scribe V2 Realtime 모델의 등장 일레븐 랩스(ElevenLabs)에서 Scribe V2 Realtime 모델을 새롭게 공개 기존 음성인식 모델 대비 속도가 획기적으로 빠른 것이 특징 … Read more

구글 직원이 몰래쓰는 GPT 프롬프트 공개

요약 구글 현직 직원이자 150만 AI 유튜버가 공유하는 ChatGPT 프롬프트 작성 핵심 기법 3가지를 소개합니다. 명령어의 명확성, 답변 길이 지정, 그리고 자체 평가 루프를 활용하여 GPT의 성능을 극대화하는 방법을 다룹니다. 주요 내용 1. 명확하고 구체적인 명령어 사용 GPT는 정밀 작업에 매우 강력하지만 애매한 지시는 이해하지 못함 “3단계로 깊이 분석해 봐”처럼 직접적이고 구체적으로 명령할 것 막연한 … Read more

LLM-as-a-Judge 101 – AI 평가 시스템 구축 가이드

요약 Arize의 ML 엔지니어 Elizabeth Hutton이 LLM-as-a-Judge 평가 시스템을 구축하는 방법을 처음부터 설명합니다. 데이터 분석, 메트릭 정의, 프롬프트 작성, 모델 선택, 메타 평가까지 4단계 프로세스를 통해 효과적인 AI 애플리케이션 평가 시스템을 만드는 실용적인 가이드를 제공합니다. 주요 내용 1. 평가(Evaluation)의 기본 개념 평가의 정의: 시스템의 성능을 측정하는 프로세스로, AI 애플리케이션의 품질 개선과 반복 개발을 가능하게 함 … Read more

AI 제품 관리자를 위한 에이전트와 LLM 평가

요약 Arize AI의 프로덕트 매니저 Aman Khan이 AI 제품 관리자와 엔지니어가 어떻게 평가(evaluation) 시스템을 함께 구축하여 신뢰할 수 있는 AI 제품을 만들 수 있는지에 대한 실전 플레이북을 제시합니다. 프로토타입 단계부터 프로덕션 모니터링까지, 팀 간 협업을 통해 효과적인 평가 시스템을 구축하는 구체적인 방법론을 다룹니다. 주요 내용 1. AI PM의 세 가지 유형 AI Platform PM: 회사 … Read more