MCP 무제한 데이터 크롤링 | n8n·Claude 워크플로 완전 공개

요약

단태랩스의 단태가 n8n, MCP, Claude를 활용하여 웹사이트에서 데이터(쿠팡 상품 리뷰)를 자동으로 수집하고 분석하는 워크플로우를 구축하는 방법을 단계별로 상세히 설명합니다. 코딩 없이도 20분 만에 완성할 수 있는 데이터 수집 및 분석 자동화 시스템을 보여줍니다.

주요 내용

1. 웹 크롤링 개념 및 접근 방식 소개

  • 웹사이트 유형 설명: 정적 웹사이트와 동적 웹사이트의 차이점
  • 일반 HTTP 요청으로는 동적 웹사이트(쿠팡 등) 스크랩이 어려움
  • 동적 웹사이트 크롤링 방법 3가지 소개:
    • 헤드리스 브라우저 사용 (Puppeteer, Playwright 등) – 컴퓨팅 자원 많이 소모
    • 클라우드 서비스 활용 – 대부분 유료 서비스
    • API 요청 가로채기 – 발표자가 추천하는 방법 (90% 이상의 동적 사이트에 적용 가능)
  • robots.txt 존중 강조 및 크롤링 법적 책임 주의사항 설명

2. n8n으로 쿠팡 상품 리뷰 크롤링 구현

  • 개발자 도구 활용해 API 요청 가로채기
    • 네트워크 탭 > XHR/Fetch 필터링 > API 응답 확인
  • n8n 워크플로우 구축:
    • Execute Command 노드로 API 요청
    • HTML 노드로 1차 파싱 (리뷰 블록 추출)
    • Split Out Items 노드로 각 리뷰 분리
    • HTML 노드로 2차 파싱 (제목, 본문, 사용자명, 작성일, 평점 등 추출)
    • Code 노드로 데이터 전처리
  • 구글 스프레드시트 연동:
    • HTTP Request 노드로 스프레드시트 벌크 삽입 구현 (API 사용 최적화)
    • 헤더 행과 데이터 행 분리 입력
  • 페이지네이션 처리:
    • 리뷰 총 개수 파싱 및 페이지 수 계산
    • 30개씩 페이지 번호 배열 생성
    • Loop 노드로 여러 페이지 순차 처리

3. MCP와 Claude 연동 구현

  • 서브 워크플로우 생성: 상품 번호 입력 받아 크롤링 실행
  • MCP 서버 설정:
    • 워크플로우를 MCP 서버로 설정
    • 반환값 처리 (구글 스프레드시트 링크)
  • Claude 연동:
    • Claude 설정에서 MCP 도구 추가 (클로드 데스크톱 config.json 편집)
    • MCP 설정: 이름, 명령, 인자 등 구성
  • 테스트 실행:
    • 쿠팡 상품 번호 입력으로 리뷰 데이터 자동 수집
    • 구글 스프레드시트에 데이터 저장
    • Claude가 수집된 데이터 자동 분석 및 인사이트 제공

핵심 인사이트

  • 데이터 수집은 모든 분석 작업의 시작점이지만 중요도에 비해 자동화가 잘 안 되어 있는 영역
  • API 요청 가로채기 방식은 헤드리스 브라우저 사용보다 효율적이고 자원 소모가 적음
  • n8n의 시각적 워크플로우는 코딩보다 시스템 관리와 공유가 용이함
  • MCP를 활용하면 데이터 수집부터 분석까지 에이전트 기반으로 자동화 가능
  • 데이터 크롤링 시 API 호출 최적화(벌크 삽입 등)가 성능에 중요한 영향을 미침
  • 웹 스크래핑 시 법적, 윤리적 측면 고려 필요 (robots.txt 준수, 과도한 요청 자제)

관련 자료

Leave a Comment