요약
단태랩스의 단태가 n8n, MCP, Claude를 활용하여 웹사이트에서 데이터(쿠팡 상품 리뷰)를 자동으로 수집하고 분석하는 워크플로우를 구축하는 방법을 단계별로 상세히 설명합니다. 코딩 없이도 20분 만에 완성할 수 있는 데이터 수집 및 분석 자동화 시스템을 보여줍니다.
주요 내용
1. 웹 크롤링 개념 및 접근 방식 소개
- 웹사이트 유형 설명: 정적 웹사이트와 동적 웹사이트의 차이점
- 일반 HTTP 요청으로는 동적 웹사이트(쿠팡 등) 스크랩이 어려움
- 동적 웹사이트 크롤링 방법 3가지 소개:
- 헤드리스 브라우저 사용 (Puppeteer, Playwright 등) – 컴퓨팅 자원 많이 소모
- 클라우드 서비스 활용 – 대부분 유료 서비스
- API 요청 가로채기 – 발표자가 추천하는 방법 (90% 이상의 동적 사이트에 적용 가능)
- robots.txt 존중 강조 및 크롤링 법적 책임 주의사항 설명
2. n8n으로 쿠팡 상품 리뷰 크롤링 구현
- 개발자 도구 활용해 API 요청 가로채기
- 네트워크 탭 > XHR/Fetch 필터링 > API 응답 확인
- n8n 워크플로우 구축:
- Execute Command 노드로 API 요청
- HTML 노드로 1차 파싱 (리뷰 블록 추출)
- Split Out Items 노드로 각 리뷰 분리
- HTML 노드로 2차 파싱 (제목, 본문, 사용자명, 작성일, 평점 등 추출)
- Code 노드로 데이터 전처리
- 구글 스프레드시트 연동:
- HTTP Request 노드로 스프레드시트 벌크 삽입 구현 (API 사용 최적화)
- 헤더 행과 데이터 행 분리 입력
- 페이지네이션 처리:
- 리뷰 총 개수 파싱 및 페이지 수 계산
- 30개씩 페이지 번호 배열 생성
- Loop 노드로 여러 페이지 순차 처리
3. MCP와 Claude 연동 구현
- 서브 워크플로우 생성: 상품 번호 입력 받아 크롤링 실행
- MCP 서버 설정:
- 워크플로우를 MCP 서버로 설정
- 반환값 처리 (구글 스프레드시트 링크)
- Claude 연동:
- Claude 설정에서 MCP 도구 추가 (클로드 데스크톱 config.json 편집)
- MCP 설정: 이름, 명령, 인자 등 구성
- 테스트 실행:
- 쿠팡 상품 번호 입력으로 리뷰 데이터 자동 수집
- 구글 스프레드시트에 데이터 저장
- Claude가 수집된 데이터 자동 분석 및 인사이트 제공
핵심 인사이트
- 데이터 수집은 모든 분석 작업의 시작점이지만 중요도에 비해 자동화가 잘 안 되어 있는 영역
- API 요청 가로채기 방식은 헤드리스 브라우저 사용보다 효율적이고 자원 소모가 적음
- n8n의 시각적 워크플로우는 코딩보다 시스템 관리와 공유가 용이함
- MCP를 활용하면 데이터 수집부터 분석까지 에이전트 기반으로 자동화 가능
- 데이터 크롤링 시 API 호출 최적화(벌크 삽입 등)가 성능에 중요한 영향을 미침
- 웹 스크래핑 시 법적, 윤리적 측면 고려 필요 (robots.txt 준수, 과도한 요청 자제)
관련 자료
- 쿠팡 상품 리뷰 크롤링 서브 워크플로우: https://github.com/dandacompany/n8n-workflows/blob/main/scrapers/CoupangReviewScraperWorkflow.json
- MCP 서버 워크플로우: https://github.com/dandacompany/n8n-workflows/blob/main/mcp_server/DanteLabsCoupangReviewAnalyzeServer.json
- Claude 설정 매뉴얼: https://github.com/dandacompany/n8n-workflows/tree/main/claude_configs/coupang_analyze