MCP 무제한 데이터 크롤링 | n8n·Claude 워크플로 완전 공개

2025년 05월 19일 by admin

요약

단태랩스의 단태가 n8n, MCP, Claude를 활용하여 웹사이트에서 데이터(쿠팡 상품 리뷰)를 자동으로 수집하고 분석하는 워크플로우를 구축하는 방법을 단계별로 상세히 설명합니다. 코딩 없이도 20분 만에 완성할 수 있는 데이터 수집 및 분석 자동화 시스템을 보여줍니다.

주요 내용

1. 웹 크롤링 개념 및 접근 방식 소개

웹사이트 유형 설명: 정적 웹사이트와 동적 웹사이트의 차이점
일반 HTTP 요청으로는 동적 웹사이트(쿠팡 등) 스크랩이 어려움
동적 웹사이트 크롤링 방법 3가지 소개:
- 헤드리스 브라우저 사용 (Puppeteer, Playwright 등) – 컴퓨팅 자원 많이 소모
- 클라우드 서비스 활용 – 대부분 유료 서비스
- API 요청 가로채기 – 발표자가 추천하는 방법 (90% 이상의 동적 사이트에 적용 가능)
robots.txt 존중 강조 및 크롤링 법적 책임 주의사항 설명

2. n8n으로 쿠팡 상품 리뷰 크롤링 구현

개발자 도구 활용해 API 요청 가로채기
- 네트워크 탭 > XHR/Fetch 필터링 > API 응답 확인
n8n 워크플로우 구축:
- Execute Command 노드로 API 요청
- HTML 노드로 1차 파싱 (리뷰 블록 추출)
- Split Out Items 노드로 각 리뷰 분리
- HTML 노드로 2차 파싱 (제목, 본문, 사용자명, 작성일, 평점 등 추출)
- Code 노드로 데이터 전처리
구글 스프레드시트 연동:
- HTTP Request 노드로 스프레드시트 벌크 삽입 구현 (API 사용 최적화)
- 헤더 행과 데이터 행 분리 입력
페이지네이션 처리:
- 리뷰 총 개수 파싱 및 페이지 수 계산
- 30개씩 페이지 번호 배열 생성
- Loop 노드로 여러 페이지 순차 처리

3. MCP와 Claude 연동 구현

서브 워크플로우 생성: 상품 번호 입력 받아 크롤링 실행
MCP 서버 설정:
- 워크플로우를 MCP 서버로 설정
- 반환값 처리 (구글 스프레드시트 링크)
Claude 연동:
- Claude 설정에서 MCP 도구 추가 (클로드 데스크톱 config.json 편집)
- MCP 설정: 이름, 명령, 인자 등 구성
테스트 실행:
- 쿠팡 상품 번호 입력으로 리뷰 데이터 자동 수집
- 구글 스프레드시트에 데이터 저장
- Claude가 수집된 데이터 자동 분석 및 인사이트 제공

핵심 인사이트

데이터 수집은 모든 분석 작업의 시작점이지만 중요도에 비해 자동화가 잘 안 되어 있는 영역
API 요청 가로채기 방식은 헤드리스 브라우저 사용보다 효율적이고 자원 소모가 적음
n8n의 시각적 워크플로우는 코딩보다 시스템 관리와 공유가 용이함
MCP를 활용하면 데이터 수집부터 분석까지 에이전트 기반으로 자동화 가능
데이터 크롤링 시 API 호출 최적화(벌크 삽입 등)가 성능에 중요한 영향을 미침
웹 스크래핑 시 법적, 윤리적 측면 고려 필요 (robots.txt 준수, 과도한 요청 자제)

관련 자료

쿠팡 상품 리뷰 크롤링 서브 워크플로우: https://github.com/dandacompany/n8n-workflows/blob/main/scrapers/CoupangReviewScraperWorkflow.json
MCP 서버 워크플로우: https://github.com/dandacompany/n8n-workflows/blob/main/mcp_server/DanteLabsCoupangReviewAnalyzeServer.json
Claude 설정 매뉴얼: https://github.com/dandacompany/n8n-workflows/tree/main/claude_configs/coupang_analyze

Leave a Comment 응답 취소