DSBA Study Agent AI 1주차 – AI 에이전트의 기초 개념과 정의 1

영상 출처: DSBA Study (고재용, 서울대학교 산업공학과)

개요

이 영상은 AI 에이전트가 무엇인지, 어떻게 작동하는지를 체계적으로 설명하는 스터디 강의의 첫 번째 회차입니다. 단순한 LLM과 에이전트의 차이점부터 시작하여 리즈닝, 액팅, ReAct 프레임워크까지 기초 개념을 단계별로 다루고 있습니다.

이 영상은 서울대학교 산업공학과 DSB 연구실 석사 과정의 고재용님이 제작한 콘텐츠입니다. 16주차에 걸친 AI 에이전트 스터디의 1주차 강의로, 기초 개념을 체계적으로 정리한 강의입니다.

핵심 내용

AI 에이전트의 정의와 작동 방식

AI 에이전트는 인간이 설정한 목표를 달성하기 위해 LM으로 추론을 실행하고, 외부 도구와 API, 데이터베이스 등을 연동하여 작업을 자동화하며, 실시간 환경 변화에 따라 실행 계획을 동적으로 조정하는 자율적 지능 시스템입니다.

실제로 영상에서는 구글 클라우드의 에이전트 백서를 출처로 들어 설명했습니다. 유저가 프롬프트를 전달하면 에이전트는 해당 프롬프트를 이해하고 테스크를 판단한 후, 외부 데이터베이스 검색, 코드 실행, 다양한 LLM 실행 등의 과정을 거쳐 최종 아웃풋을 산출하는 플로우가 진행됩니다. 강의에서는 이를 비행기표 예약 예시로 설명하였습니다. 유저가 오스틴에서 취리로 향하는 비행기표를 원한다고 하면, 에이전트가 리즈닝을 통해 비행기표 예약이 필요하다고 판단하고, 플라이트 API를 실제로 호출하여 답변을 산출하는 과정입니다.

실무에 적용할 때는 에이전트가 단순히 답변을 생성하는 것이 아닌 외부 환경과의 상호 작용 과정 전체를 고려하는 것이 중요합니다. 다만 에이전트의 자율성이 높을수록 예측하기 어려운 부분도 함께 존재합니다.

모델과 에이전트의 차이점

강의에서는 모델과 에이전트를 구별하는 기준을 명확히 제시했습니다. 모델 같은 경우에는 지식의 범주가 학습 데이터에 포함된 것으로 제한되고, 단일 추론 예측을 실시하며, 외부 도구를 구현할 수 없고, 기본적인 로직 레이어가 존재하지 않습니다. 반면 에이전트 같은 경우에는 도구를 통해 외부 시스템과 연결되어 있으면서 지식을 확장하고, 멀티턴 추론을 진행하며, 에이전트 아키텍처 내에 도구가 기본적으로 탑재되고, 논리 레이어로서 코그니티브 아키텍처를 보유하고 있습니다.

특히 흥미로운 점은 현재 사용하고 있는 GPT, 제미나이, 클로드와 같은 다양한 AI 서비스들 역시 대부분 AI 에이전트의 형태를 띄고 있다는 것입니다. 이를 대학원생의 전세와 월세 비교 분석 예시로 설명하였습니다. 유저가 학교 근처 월세 70만 원짜리 방에 살고 있는데, 청년 버틴목 전세 자금 대출을 받아 1.5억 원짜리 전세로 옮기는지 비교하는 질문을 날리면, 현재의 GPT는 단순히 답변을 생성하는 것이 아닌 실제 리트 검색을 통해 대출 신청 자격과 금리를 확인하고, 추론 과정을 거쳐 비용 비교 분석을 수행한 후, 파이썬을 이용한 외부 계산 과정까지 거쳐 답변을 산출합니다. 강의에서는 이 과정에서 절약 가능한 금액을 약 1,120만 원으로 계산했습니다.

ReAct와 에이전트의 3가지 필수 요건

리즈닝과 액팅이라는 두 가지 방식을 결합한 것이 바로 ReAct입니다. 리즈닝을 바탕으로 액팅을 하고, 액팅의 결과를 바탕으로 리즈닝을 추가로 진행할 수 있기 때문에 큰 시너지 효과가 발생합니다. 강의에서는 이 방식이 인간이 실제로 작업을 해결하는 방식과 유사하다고 설명했습니다. 인간도 생각하고 행동하고, 그 결과를 바탕으로 다시 생각하기 때문입니다.

에이전트가 테스크를 수행하기 위해서는 크게 세 가지가 필요합니다. 첫 번째는 리즈닝으로, 복잡한 질문을 해결하기 위한 추론입니다. 두 번째는 널리지로, 모델 내부의 지식만으로는 오류가 발생하기 쉽고 훈련된 시점 이후의 정보에 대해서는 모델이 들어본 적이 없기 때문에 새로운 지식 검색이 필요합니다. 세 번째는 컴퓨테이션으로, 매우 수학적이고 복잡한 작업에 대해서는 모델이 직접 계산하는 것이 아닌 외부의 정밀한 툴을 이용하여 계산해야 합니다.

실전 가이드

영상의 내용을 실제로 적용하려면 다음 과정을 따라해볼 수 있습니다:

먼저 리즈닝 능력을 향상시키는 프롬프트 엔지니어링부터 시작합니다. 강의에서 언급된 다섯 가지 방식을 활용할 수 있습니다. 첫 번째로 명확하고 충분한 설명을 포함하는 인스트럭션을 작성합니다. 단순히 “맛있는 저녁 레시피 하나 알려줘”가 아닌, 역할을 부여하고 냉장고 상황, 시간 제약, 취향 등을 구체적으로 제시하는 것입니다. 두 번째로 퓨샷 예시를 활용합니다. 질문 전에 유사한 형태의 예시를 먼저 제공하면 모델이 상황을 더 명확하게 파악할 수 있습니다. 세 번째로 충분한 배경 정보를 제공합니다. 단순한 질문에 관련된 구체적인 상황 정보를 추가로 투입하는 것입니다.

다음으로 체인 오브 서트와 테스크 분할을 활용합니다. 체인 오브 서트는 “단계별로 계산해 줘”라는 간단한 요구로 모델이 스텝바이 스텝으로 각 단계를 거쳐 추론이 정확해지는 방식입니다. 테스크 분할의 경우에는 큰 테스크를 더 간단한 서브 테스크로 나누어서 각각을 다른 프롬프트와 함께 넣는 방식으로, 순차적 또는 병렬적 진행이 가능합니다.

마지막으로 RAG와 툴 활용을 실습해봅니다. 모델이 직접 답하기 어려운 질문에 대해서는 외부 데이터베이스에서 관련 정보를 검색하여 프롬프트에 추가하는 RAG 방식을 적용하고, 수학적 계산이나 날씨 정보 등은 코드 인터프리터나 웹 검색, 날씨 API 등의 툴을 활용합니다. 성공 지표로는 에이전트가 외부 환경과의 상호 작용을 올바르게 수행하는지 여부를 확인할 수 있습니다.

비판적 검토

영상은 AI 에이전트의 기초 개념을 단계적으로 설명하는 구조와, 구체적인 예시를 활용한 설명 방식이 강점입니다. 특히 대학원생의 전세와 월세 비교 분석이라는 일상적인 예시로 에이전트의 작동 방식을 체험적으로 이해할 수 있도록 한 부분이 인상적였습니다.

다만 강의가 기초 개념 정의에 중점을 둔 탓으로 실제 에이전트를 구현하는 실무적인 부분은 다루지 않았습니다. 실무에 적용하실 분들은 강의에서 언급된 리즈닝 기법과 툴 사용의 개념을 이해한 후, 실제 프레임워크를 활용한 구현 단계도 함께 검토하시길 권장합니다. AI 에이전트 분야는 현재 멀티에이전트 시스템과 에이전틱 AI 방향으로 빠르게 발전하고 있으므로, 강의의 커리큘럼 후반부에서 다루는 이 부분들도 주목하면 좋을 것입니다.

핵심 요점

  • AI 에이전트는 단순한 LLM이 아닌, 외부 도구와 연동하여 리즈닝과 액팅을 동시에 수행하는 자율적 시스템입니다. 현재 사용하고 있는 GPT, 제미나이, 클로드 등의 AI 서비스들도 이미 에이전트 형태로 작동하고 있습니다.
  • 모델과 에이전트의 핵심 차이는 외부 시스템과의 연결과 멀티턴 추론 능력입니다. 모델은 학습 데이터의 지식으로 제한되고 단일 추론을 실시하지만, 에이전트는 지식을 확장하고 논리 레이어를 갖추고 있습니다.
  • ReAct 프레임워크는 리즈닝과 액팅의 순환 구조로, 인간이 생각하고 행동하고 다시 생각하는 방식과 동일합니다. 이 프레임워크를 통해 에이전트가 복잡한 테스크를 단계별로 풀어가는 것이 가능합니다.
  • 프롬프트 엔지니어링은 에이전트의 리즈닝 능력을 직접적으로 향상시키는 수단입니다. 인스트럭션 구성, 퓨샷 예시, 배경 정보 제공, 체인 오브 서트, 테스크 분할 등의 기법을 조합하면 에이전트의 출력 품질이 크게 달라집니다.
  • RAG와 툴 사용은 에이전트가 자기 자신의 한계를 보완하는 핵심 구조입니다. 새로운 정보 검색은 RAG로, 수학적 계산과 외부 데이터 조회는 툴을 통해 해결하는 이 두 축이 에이전트의 실용성을 만드는 것입니다.

참고자료

  • 구글 클라우드 에이전트 백서 (영상에서 이미지 출처로 언급)
  • 16주차 스터디 커리큘럼 (영상 내 주차별 구조 참고)

Leave a Comment