robots.txt AI 크롤러 설정: 차단 vs 허용, 전략적 선택
86%는 방치 중입니다. GPTBot 305% 폭증 시대의 robots.txt 가이드
robots.txt는 웹사이트 루트에 두는 파일이에요. 검색엔진이나 AI 봇에게 "이 페이지는 수집해도 돼요" 또는 "이 페이지는 수집하지 마세요"라고 알려주는 역할을 합니다. Cloudflare가 3,816개 도메인을 분석했어요. 놀라운 건 86%가 AI 봇에 대해 아무 설정도 하지 않았다는 점이에요.
GPTBot(ChatGPT의 AI 봇)은 1년 만에 305% 성장했어요. 2025년 5월 기준 전체 봇 트래픽의 7.7%를 차지합니다. 그런데 대부분의 사이트는 AI 봇이 오고 있는지조차 몰라요.
차단과 허용, 어느 쪽이 맞을까요? 언론사 48%는 OpenAI를 차단했어요. 하지만 이커머스나 스타트업은 오히려 환영합니다. 이 글에서는 robots.txt로 AI 봇을 설정하는 방법과, 차단과 허용 중 어떻게 선택할지 기준을 정리했어요.
핵심 요약
- 86%는 AI 봇 설정을 아예 안 하고 있어요. 대부분이 방치 중이에요
- GPTBot은 1년 만에 305% 폭증했지만, 차단과 허용은 각자의 전략적 선택이에요
- robots.txt 수정 전에 우리 사이트 현재 상태부터 확인해보세요
현재 AI 봇 설정 현황이 어떤가요?
86%가 AI 봇에 대해 아무 설정도 안 하고 있어요. Cloudflare가 3,816개 도메인을 조사한 결과, 14%만 AI 봇 관련 설정을 포함했어요. GPTBot은 1년 만에 305% 성장했는데, 대부분은 방치 중이에요.
| 봇 이름 | 성장률 | 2025년 점유율 |
|---|---|---|
| GPTBot | 305% (2024년 5월 → 2025년 5월) | 7.7% |
| PerplexityBot | 157,490% (0%에서 시작) | 1.5% |
| Google-Extended | 8,330% | 1.2% |
GPTBot과 PerplexityBot이 폭발적으로 성장하고 있지만, 대부분의 사이트는 이를 관리하지 않아요. robots.txt의 기본값은 "모두 허용"이에요. 별도 설정이 없으면 AI가 자유롭게 우리 사이트를 방문해서 정보를 가져갑니다.
지금 확인해보세요
우리 사이트에 AI 봇이 어떻게 접근하고 있는지 궁금하신가요? AI Crawler Checker로 실시간 점검할 수 있어요. GPTBot, ClaudeBot, PerplexityBot 등 주요 AI 봇의 허용/차단 상태를 확인할 수 있습니다.
누가 AI 봇을 차단하고 있나요?
언론사 48%가 OpenAI를 차단했어요. 유료 콘텐츠를 보호하려는 거죠. 인쇄 매체 출신은 57%가 차단한 반면, 디지털 네이티브 매체는 31%만 차단했어요. 기존 언론사일수록 AI에 더 경계심이 강해요.
Cloudflare 분석 결과, 312개 도메인이 GPTBot을 차단했어요. 완전 차단이 250개, 부분 차단(특정 경로만)이 62개예요.
Reuters Institute는 10개국 150개 언론사를 추적했어요.
| 차단 대상 | 차단률 | 특징 |
|---|---|---|
| OpenAI (GPTBot) | 48% | 거의 절반의 언론사가 차단 |
| Google AI (Google-Extended) | 24% | OpenAI보다 덜 차단됨 |
| 국가별 차이 | 미국 79% > 멕시코 20% | 선진국이 더 공격적 |
흥미로운 패턴이 있어요. 인쇄 매체 출신(신문, 잡지)은 57%가 차단한 반면, 디지털 네이티브 매체는 31%만 차단했어요. 기존 언론사일수록 AI에 더 경계심이 강합니다.
차단과 허용, 어떻게 결정하나요?
비즈니스 모델에 달렸어요. 언론/미디어, 유료 콘텐츠 사업은 차단 권장. B2B SaaS, 이커머스, 서비스 업체는 허용 권장. 홈페이지는 허용하고 유료 콘텐츠만 차단하는 부분 허용도 가능해요.
차단하는 이유
- 유료 콘텐츠 보호: 뉴욕타임스 같은 언론사는 구독 모델로 수익을 내요. AI가 기사를 학습해서 요약해주면 사람들이 구독할 이유가 없어져요
- 저작권 우려: AI 학습에 우리 콘텐츠가 쓰이는 걸 원하지 않아요. 허락 없이 가져가는 느낌이죠
- 트래픽 손실: AI가 답변에서 요약만 보여주고 출처 링크를 안 주면 방문자가 안 와요. 사이트 유입이 줄어들죠
허용하는 이유
- 브랜드 노출: AI가 우리 브랜드를 추천해주면 신규 고객을 얻어요. Vercel은 가입자의 10%가 ChatGPT에서 왔다고 밝혔어요
- 트래픽 증가: AI 답변에서 출처로 링크되면 오히려 유입이 늘어나요. 우리 사이트로 사람들이 찾아옵니다
- SEO 대체: 전통 검색이 줄어드는 시대에 AI 검색이 새로운 유입 채널이에요. 구글 대신 ChatGPT로 검색하는 사람들이 늘고 있어요
우리 회사는 어떻게 해야 할까요?
차단 권장: 언론/미디어, 유료 콘텐츠 사업, 독점 DB/데이터 보유
허용 권장: B2B SaaS, 이커머스, 서비스 업체, 블로그/커뮤니티
부분 허용: 홈페이지/블로그는 허용, 유료 콘텐츠/회원 전용은 차단
차단과 허용의 전략적 선택에 대해 더 자세히 알고 싶다면 GEO 최적화 가이드를 참고하세요.
robots.txt로 AI 봇을 어떻게 설정하나요?
웹사이트 루트의 robots.txt 파일을 수정하면 돼요. GPTBot, ClaudeBot, PerplexityBot 등 AI 봇별로 Disallow(차단)나 Allow(허용)를 지정해요. 아래에 복사해서 쓸 수 있는 코드를 정리했어요.
모든 AI 봇 차단
# GPTBot (ChatGPT)User-agent: GPTBotDisallow: /# Google AI (Gemini)User-agent: Google-ExtendedDisallow: /# ClaudeBot (Claude)User-agent: ClaudeBotDisallow: /# PerplexityBotUser-agent: PerplexityBotDisallow: /# Meta AIUser-agent: FacebookBotDisallow: /
일부 경로만 차단
홈페이지와 블로그는 허용하고, 회원 전용 콘텐츠나 내부 문서만 차단하고 싶다면 이렇게 하세요.
User-agent: GPTBotDisallow: /members/Disallow: /premium/Disallow: /internal/Allow: /User-agent: Google-ExtendedDisallow: /members/Disallow: /premium/Allow: /
명시적 허용
기본값이 허용이라 별도 설정 없어도 돼요. 하지만 "우리는 AI를 환영한다"고 명확히 표시하고 싶다면 이렇게 쓸 수 있어요.
User-agent: GPTBotAllow: /User-agent: ClaudeBotAllow: /
Googlebot은 어떻게 처리해야 하나요?
Google-Extended(AI용)를 차단하면서 Googlebot(검색용)은 허용할 수 있어요. 하지만 Googlebot이 AI 학습에도 쓰일 수 있다는 지적이 있어요. 완벽한 해결책은 아니지만 현실적인 타협점이에요.
한 가지 복잡한 문제가 있어요. Googlebot을 차단하면 Google 검색 노출도 사라져요. AI 학습을 막겠다고 전체 검색 트래픽을 포기할 순 없죠. AI 크롤러가 실제로 어떻게 작동하는지 궁금하다면 AI가 브랜드를 선택하는 메커니즘을 읽어보세요.
Search Engine Land는 "robots.txt는 답이 아니다"라고 지적했어요. robots.txt는 AI 봇의 방문을 제어하는 도구예요. 하지만 AI 학습 데이터 문제는 데이터 사용 권한 문제죠. 애초에 도구 선택이 틀렸다는 거예요.
실제 딜레마
Googlebot을 차단하면 Google 검색 노출도 사라져요. AI 학습을 막겠다고 전체 검색 트래픽을 포기할 순 없죠. 그래서 대부분은 Google-Extended만 차단하고 Googlebot은 허용해요. 완벽한 해결책은 아니지만 현실적인 타협점이죠.
robots.txt를 무시하는 봇도 있나요?
네, 있어요. robots.txt는 법적 강제력이 없는 신사협정이에요. OpenAI나 Anthropic은 지키지만, PerplexityBot이 차단 설정을 무시했다는 보도도 있었어요. 중국 AI 봇은 아예 안 읽는 경우가 많아요.
실제로 일부 AI 봇은 robots.txt를 무시한다고 보고됐어요. 이런 사례들이 있습니다.
- PerplexityBot이 차단 설정(Disallow)을 무시했다는 Wired, Forbes의 보도가 있었어요
- 중국이나 신흥 AI 스타트업의 봇은 robots.txt를 읽지 않는 경우가 많아요
- 익명 봇이 신원(User-Agent)을 숨기면 식별조차 불가능해요
완벽한 방어는 불가능해요. robots.txt는 최소한의 의사 표시일 뿐입니다. 하지만 대형 AI 회사들은 대부분 준수하고 있어요.
설정 후에는 어떻게 확인하나요?
서버 로그에서 User-Agent를 검색하거나 AI Crawler Checker 도구를 쓰세요. 차단했는데도 GPTBot, ClaudeBot이 보이면 그 봇은 robots.txt를 무시하고 있는 거예요. 매달 정기 점검을 권장해요.
1. 서버 로그 확인
웹 서버 로그에서 User-Agent 필드를 검색하세요. GPTBot, ClaudeBot, PerplexityBot 같은 이름이 보이면 AI 봇이 방문한 거예요. 차단했는데도 보인다면 그 봇은 robots.txt를 무시하고 있는 겁니다.
2. AI Crawler Checker 도구 사용
NOVA의 AI Crawler Checker를 쓰면 robots.txt 분석과 주요 AI 크롤러의 허용/차단 상태를 한눈에 볼 수 있어요. 도메인만 입력하면 GPTBot, ClaudeBot, PerplexityBot 등의 접근 가능 여부를 실시간으로 확인할 수 있습니다.
3. 정기적 점검
- 매달 서버 로그에서 AI 봇 접근 기록을 확인해보세요
- 차단했는데도 접근이 보이면 해당 봇이 robots.txt를 무시하는 거예요
- 새로운 AI 봇이 등장하면 robots.txt에 추가하세요
핵심만 정리하면요
86%가 AI 봇을 방치 중이에요. 설정이 없으면 기본값인 모두 허용이 적용돼요. 비즈니스 모델에 따라 차단(유료 콘텐츠)이나 허용(브랜드 노출)을 선택하세요. 지금 바로 AI Crawler Checker로 현재 상태를 확인해보세요.
차단과 허용, 정답은 없어요. 언론사는 48%가 OpenAI를 차단했어요. 유료 콘텐츠를 보호하려는 거죠. 반대로 스타트업은 오히려 환영합니다. 브랜드 노출이 늘어나니까요. 비즈니스 모델에 따라 판단하세요.
robots.txt는 완벽한 방어책이 아니에요. 법적 강제력이 없고, 일부 봇은 무시합니다. 하지만 OpenAI, Anthropic 같은 주요 AI 회사들은 준수해요. 최소한의 의사 표시는 할 수 있습니다.
지금 바로 할 수 있는 일
1단계: 현재 상태 확인
AI Crawler Checker로 우리 사이트가 지금 AI 봇에게 어떻게 보이는지 점검해보세요. GPTBot, ClaudeBot, PerplexityBot의 허용/차단 상태를 확인할 수 있어요.
2단계: 전략 결정
우리 비즈니스 모델을 생각해보세요. 유료 콘텐츠를 보호해야 한다면 차단, 브랜드 노출이 필요하다면 허용. 애매하다면 부분 허용(홈페이지는 허용, 회원 전용은 차단)도 좋은 선택이에요.
3단계: robots.txt 수정
전략이 정해졌다면 robots.txt를 수정하세요. 이 글의 "robots.txt 설정 방법" 섹션에 있는 코드를 복사해서 쓰면 됩니다.
4단계: 정기 점검
매달 서버 로그를 확인하거나 AI Crawler Checker로 점검하세요. 차단한 봇이 여전히 방문한다면, 그 봇은 robots.txt를 무시하고 있는 거예요.
AI 검색은 이미 현실이에요. ChatGPT로 검색하는 사람들이 매일 늘어나고 있어요. 방치하면 AI가 우리 정보를 마음대로 가져가고, 경쟁사만 추천받습니다. 지금 바로 확인해보세요.
궁금한 점이나 협업 제안이 있으신가요?
NOVA는 AI 검색 노출 연구 프로젝트입니다.
GEO 전략에 대해 궁금한 점이 있으시면 편하게 연락주세요.