AI 크롤러는 월 몇 건의 요청을 생성하나요?

Vercel과 MERJ의 분석에 따르면, GPTBot(ChatGPT)은 월 5.69억 건, Claude-Web은 3.7억 건을 요청합니다. AI 크롤러 전체 합산은 월 12.7억 건으로, Googlebot(45억 건)의 28% 수준입니다. 이미 무시할 수 없는 규모이며, GPTBot은 시장 점유율이 1년 새 4.7%에서 11.7%로 2.5배 증가했습니다.

AI 크롤러의 404 오류율은 얼마나 되나요?

GPTBot과 Claude-Web은 모두 34%의 요청이 404 오류에 부딪힙니다. 반면 Googlebot의 404 오류율은 8.22%에 불과해요. AI 크롤러는 3번 중 1번 실패하는 반면, Google은 12번 중 1번만 실패합니다. AI 크롤러가 웹을 탐색하는 능력은 Google보다 약 4배 더 비효율적입니다.

AI 크롤러가 JavaScript를 렌더링하지 못하면 어떤 콘텐츠를 놓치나요?

동적 FAQ(탭 클릭 시 나타나는 답변), 제품 상세정보(더보기 버튼으로 로드), 리뷰 섹션(비동기 로드), 실시간 가격(API 호출) 등을 모두 놓칩니다. React, Next.js 같은 프레임워크로 만든 클라이언트 렌더링 콘텐츠는 AI 크롤러가 읽지 못해요. 서버 사이드 렌더링이 필요합니다.

크롤링 대 방문자 비율이 무엇인가요?

AI 회사가 웹사이트를 얼마나 크롤링하고 실제 사용자를 얼마나 보내는지를 나타내는 비율입니다. Cloudflare 분석에 따르면 Anthropic은 38,065:1, OpenAI는 1,091:1, Perplexity는 194:1, Microsoft는 40.7:1 비율을 보입니다. Anthropic이 38,065페이지를 크롤링하고 단 1명의 사용자만 보낸다는 뜻입니다.

AI 크롤링의 80%가 모델 훈련용이라는 게 무슨 뜻인가요?

Cloudflare 분석 결과, AI 크롤러의 크롤링 목적 중 80%가 모델 훈련용이고 18%만 검색용입니다. 즉, 대부분의 크롤링이 AI 모델 학습을 위한 데이터 수집이지, 사용자에게 검색 결과를 제공하기 위한 크롤링이 아니에요. 그래서 크롤링 대 방문자 비율이 극도로 불균형합니다.

웹사이트 소유자가 AI 크롤러를 얼마나 인지하고 있나요?

UC San Diego와 University of Chicago의 연구에 따르면, 484명의 아티스트 중 59%가 robots.txt를 들어본 적도 없습니다. 97%가 크롤러 차단 메커니즘을 원하지만, 실제로 Squarespace의 원클릭 차단 기능을 사용하는 사람은 17%에 불과해요. 인식과 실제 대응 사이에 큰 격차가 있습니다.

robots.txt로 AI 크롤러를 어떻게 차단하나요?

robots.txt 파일에 User-agent: GPTBot(ChatGPT), User-agent: Claude-Web(Claude), User-agent: anthropic-ai(훈련용)를 추가하고 Disallow: /를 입력하세요. 단, Bytespider(ByteDance) 같은 크롤러는 robots.txt를 무시하므로 완벽한 차단은 불가능합니다. 484개 사이트가 GPTBot 차단을 해제한 건 라이선스 계약 때문으로 분석됩니다.

AI 크롤러를 허용해야 하나요, 차단해야 하나요?

콘텐츠 가치가 높고 대체 불가능하면 라이선스 협상(Option C), AI 검색 유입이 중요하면 허용+SSR 최적화(Option B), 크롤링 부담이 크고 혜택이 없으면 차단(Option A)을 권장합니다. Vercel 신규 가입의 10%가 ChatGPT에서 오는 점을 고려하면, AI 검색을 새로운 유입 경로로 보는 Option B가 많은 경우 유리합니다.

서버 사이드 렌더링(SSR)이 왜 AI 크롤러에 중요한가요?

AI 크롤러는 JavaScript를 실행하지 못하므로, 클라이언트에서 렌더링되는 콘텐츠를 읽을 수 없습니다. SSR을 사용하면 초기 HTML에 모든 콘텐츠가 포함되어 AI 크롤러가 읽을 수 있어요. 브라우저에서 JavaScript를 비활성화하고 사이트를 열어보세요. 보이는 게 AI가 읽는 전부입니다.

AI 크롤러는 앞으로 어떻게 변할까요?

GPTBot은 1년 만에 시장 점유율이 2.5배 증가했습니다. AI 크롤러의 성장은 계속될 거예요. 하지만 현재는 34% 404 오류율, JavaScript 미렌더링 등 기술적으로 미성숙합니다. 앞으로 효율성이 개선되겠지만, 웹사이트는 지금부터 SSR, 구조화된 데이터, 명확한 콘텐츠 등 AI 친화적 최적화가 필요합니다.

AI 크롤러의 부상: ChatGPT와 Claude는 어떻게 웹을 읽는가?

월 12억 번. ChatGPT와 Claude가 한 달에 웹사이트를 방문하는 횟수예요.

Google의 28% 수준이에요. 적지 않은 숫자죠. 그런데 문제가 있어요. 이들은 서툴러요. Vercel과 MERJ의 공동 연구에 따르면 10번 방문하면 3번은 페이지를 못 찾아요(404 오류율 34%). 페이지가 나중에 나타나는 방식(CSR, 클라이언트 사이드 렌더링)도 전혀 못 봐요.

더 심각한 건 Cloudflare 분석이 밝힌 불공평한 관계예요. Anthropic은 38,065번 내용을 가져가고 단 1명의 방문자만 보냈어요. 가져가기만 하고 손님은 안 보내주는 거죠.

그런데 UC San Diego 연구가 발견한 건 더 놀라워요. 웹사이트 소유자의 59%가 "출입 금지 안내문(robots.txt)"을 들어본 적도 없어요. 대부분은 대응조차 못 하고 있어요.

핵심 요약

ChatGPT와 Claude는 월 12억 번 방문하지만 10번 중 3번은 페이지를 못 찾아요(404 오류율 34%)
JavaScript 렌더링을 지원하지 않아서 동적 콘텐츠를 전혀 못 봐요
38,000번 가져가고 단 1명만 보내주는 불공평한 관계예요(Crawl-to-Click Ratio)

AI 크롤러가 얼마나 많이 방문하나요?

ChatGPT와 Claude가 월 12억 번 방문해요. Google의 28% 수준이에요. 문제는 서툴다는 거예요. 10번 중 3번은 페이지를 못 찾고(404 오류율 34%), 나중에 나타나는 콘텐츠는 전혀 못 봐요.

AI	월간 방문 횟수	페이지 못 찾는 비율	나중에 나타나는 내용
Googlebot	45억 번	8.22%	기다려서 봄
GPTBot (ChatGPT)	5.69억 번	34.82%	못 봄
Claude-Web	3.7억 번	34.16%	못 봄
AI 전체 합계	12.7억 번	-	-

← 좌우로 스크롤하여 전체 내용을 확인하세요 →

* GPTBot: OpenAI의 공식 크롤러 User-Agent
* Claude-Web: Anthropic의 공식 크롤러 User-Agent
* 404 오류율: 웹페이지가 존재하지 않거나 접근할 수 없어서 실패한 비율

AI 전체 합계가 Google의 28% 수준이에요. 이미 무시할 수 없는 규모예요. 그런데 문제는 서툴다는 거예요. Google은 10번 방문하면 1번만 페이지를 못 찾는데(404 오류율 8%), ChatGPT와 Claude는 10번 중 3번은 페이지를 못 찾아요(404 오류율 34%).

4배 더 서툴러요

Google은 12번 중 1번 실패하는데, ChatGPT와 Claude는 3번 중 1번 실패해요. 웹사이트를 찾아다니는 능력 자체가 Google보다 훨씬 떨어져요.

왜 AI는 우리 콘텐츠를 못 보나요?

JavaScript 렌더링을 지원 안 해서예요. 페이지 열자마자 보이는 것만 보고 떠나요. FAQ, 제품 상세정보, 고객 후기, 실시간 가격 같은 동적 콘텐츠는 전부 못 봐요. Google은 2015년부터 지원했는데 AI는 아직이에요.

Google은 페이지를 열고 잠깐 기다렸다가 나타나는 내용까지 봐요. 이를 "JavaScript 렌더링"이라고 부르는데, Google은 이 기술을 2015년부터 지원했어요. 그런데 ChatGPT와 Claude는 못 봐요. 페이지 열자마자 바로 보이는 것만 보고 떠나요(정적 HTML만 수집). 나중에 나타나는 내용은 없는 걸로 취급해요.

실제로 어떤 걸 놓칠까요?

자주 묻는 질문(FAQ): 페이지 로딩 후 나타나는 답변
제품 상세정보: 스크롤하면 나중에 로딩되는 사양
고객 후기: 페이지를 열고 나서 조금 있다가 나타나는 리뷰
실시간 가격: 페이지가 열린 후에 서버에서 가져오는 가격

이런 내용은 전부 AI가 못 봐요. 당신이 정성껏 만든 콘텐츠가 AI에게는 보이지 않을 수 있어요.

우리 회사는?

당신 웹사이트의 상품 목록이나 후기가 "나중에 나타나는" 방식(클라이언트 사이드 렌더링, CSR)이라면, ChatGPT는 그걸 전부 못 봐요. 개발자에게 "서버 사이드 렌더링(SSR)으로 바꿔주세요"라고 요청하세요. Next.js, Nuxt 같은 프레임워크를 사용하면 쉽게 적용할 수 있어요.

가져가기만 하고 손님은 안 보내준다고요?

Anthropic은 38,065번 가져가고 1명만 보내요. OpenAI도 1,091:1이에요. 80%가 AI 훈련용 수집이고 검색용은 18%뿐이에요. 가져가는 건 많은데 돌아오는 트래픽은 적은 불균형한 관계예요.

AI 회사	가져가기 : 보내주기	주 목적
Anthropic (Claude)	38,065 : 1	80%가 AI 훈련용
OpenAI (ChatGPT)	1,091 : 1	18%만 검색용
Perplexity	194 : 1	-
Microsoft (Copilot)	40.7 : 1	-

← 좌우로 스크롤하여 전체 내용을 확인하세요 →

* Crawl-to-Click Ratio: AI 크롤러가 웹사이트 콘텐츠를 가져간 횟수 대비 실제 사용자 방문을 유도한 횟수의 비율
* AI 훈련용: 모델 학습을 위한 데이터 수집 목적의 크롤링

Anthropic이 제일 심해요. 38,065번 가져가고 단 1명만 보냈어요. OpenAI는 좀 낫지만 그래도 1,091번 가져가고 1명만 보내요. Microsoft가 40.7:1로 가장 낫지만, 여전히 불공평하죠. 이 비율을 "Crawl-to-Click Ratio"라고 부릅니다.

왜 이렇게 차이 날까요?

Claude는 검색 서비스가 메인이 아니에요. 방문의 80%가 AI를 똑똑하게 만들려고 데이터를 수집하는 거예요. 손님을 보낼 이유가 없죠. ChatGPT도 비슷해요. 방문의 18%만 검색용이고, 나머지는 AI 훈련용이에요.

ChatGPT는 빠르게 성장 중

ChatGPT의 웹사이트 방문 비중은 1년 새 4.7%에서 11.7%로 2.5배 늘었어요. 이 속도면 곧 Google만큼 중요해질 거예요. 무시하기에는 너무 빠르게 커지고 있어요.

웹사이트 소유자들은 대응하고 있나요?

59%가 robots.txt를 들어본 적도 없어요. 97%가 AI를 막고 싶어하지만 실제로는 17%만 차단 기능을 켰어요. 방법을 몰라서예요. 알고 싶어도 배울 곳이 없는 거죠.

59%가 "출입 금지 안내문(robots.txt)"을 들어본 적 없어요
97%가 AI를 막는 기능을 원해요
실제로는 Squarespace 사용자 중 17%만 차단 기능을 켰어요

원하는 사람은 97%인데 실제로 하는 사람은 17%예요. 대부분 방법을 모르거나 어떻게 해야 하는지 몰라요. 알고 싶어도 배울 곳이 없는 거죠.

기능은 있는데 사람들이 몰라요

Squarespace는 버튼 하나만 누르면 AI를 막을 수 있어요. 그런데도 17%만 사용해요. 기능이 있는 것과 사람들이 아는 것은 다른 문제예요.

일부는 OpenAI와 계약을 맺었어요

484개 사이트가 ChatGPT 차단을 풀었어요. 연구진은 이들이 OpenAI와 돈 받고 계약을 맺었을 가능성이 높다고 분석했어요. 콘텐츠를 제공하고 수익을 받는 거죠.

재미있는 건 Bytespider(ByteDance, TikTok 모회사)예요. 이 회사는 "출입 금지" 안내를 무시해요. robots.txt에 차단해도 계속 들어와요. 규칙을 안 지키는 회사가 이미 있어요.

대응 방법에는 뭐가 있나요?

세 가지예요. A: 완전 차단(콘텐츠 보호), B: 허용하고 사이트 개선(SSR 적용, FAQ 구조화), C: AI 회사와 직접 계약(수익 공유). 콘텐츠 가치가 높으면 C, AI 검색 트래픽이 필요하면 B, 혜택 없이 가져가기만 하면 A예요.

방법 A: AI를 완전히 차단하기

AI를 완전히 막는 거예요. "출입 금지 안내문(robots.txt)"에 다음을 적으세요. (개발자에게 요청하면 됩니다)

ChatGPT 차단: User-agent: GPTBot (검색 기능용 크롤러)
Claude 차단: User-agent: Claude-Web (검색 기능용 크롤러)
Anthropic 훈련 데이터 차단: User-agent: anthropic-ai (AI 훈련용 크롤러)
전부 차단: Disallow: / (모든 경로 접근 금지)

이 방법은 내용을 보호하고 싶을 때 좋아요. AI가 계속 가져가는데 손님은 안 보내주는 상황이라면 고려해 보세요. 구체적인 차단 방법은 AI 시대 robots.txt 설정 가이드에서 자세히 다룹니다.

방법 B: AI를 허용하고 우리 사이트 개선하기

AI를 기회로 보는 거예요. AI를 허용하되 우리 사이트를 AI가 좋아하는 방식으로 바꾸세요.

페이지를 미리 만들어 두기(서버 사이드 렌더링, SSR): 나중에 나타나는 방식(CSR)이 아니라 처음부터 보이게 만들기
자주 묻는 질문(FAQ) 정리: AI가 읽기 쉬운 구조화된 형식으로(Schema.org FAQPage 마크업 권장)
명확한 정보: 구체적인 숫자와 사실

이미 Vercel 신규 가입의 10%가 ChatGPT에서 와요. AI 검색 최적화가 실제 비즈니스 성과로 이어지고 있어요. 이 방법은 AI 검색을 새로운 손님 유입 경로로 보는 거예요. 구체적인 실행 방법은 GEO 최적화 실무 가이드에서 단계별로 설명합니다.

방법 C: AI 회사와 직접 계약하기

콘텐츠가 독점적이고 가치가 높다면 AI 회사와 직접 계약하는 거예요. 484개 사이트가 이미 OpenAI와 계약을 맺었어요.

조건은 다양해요. 일시금을 받거나, 방문자 보장을 받거나, 수익을 나눌 수 있어요. 고품질 콘텐츠를 계속 만든다면 협상할 수 있어요.

어떤 방법을 선택할까요?

콘텐츠 가치가 높고 대체 불가능하면 방법 C. AI 검색에서 손님이 오는 게 중요하면 방법 B. AI가 계속 가져가는데 혜택이 없으면 방법 A를 권장합니다.

핵심만 정리하면요

월 12억 번 방문, 10번 중 3번 실패, 38,000번 가져가고 1명만 보내주는 불균형. AI는 아직 서툴지만 빠르게 성장 중이에요. ChatGPT 트래픽 비중이 1년 새 4.7%에서 11.7%로 2.5배 늘었어요. 지금 준비해야 해요.

월 12억 번 방문, 10번 중 3번은 페이지를 못 찾고, 나중에 나타나는 내용은 못 보고, 38,000번 가져가고 1명만 보내주는 불균형. 숫자가 보여주는 건 명확해요. AI는 아직 서툴러요. 하지만 빠르게 똑똑해지고 있어요.

지금 당신 사이트는 준비되어 있나요? 개발자에게 부탁해서 사이트를 "JavaScript를 끈 상태(노스크립트 모드)"로 열어보세요. AI가 보는 건 그게 전부예요.

Google이 지배하던 시대는 끝나가고 있어요. AI 검색은 이제 선택이 아니라 필수예요. 막을지, 개선할지, 계약할지. 선택은 당신의 몫이지만, 선택을 안 하는 건 선택지가 아니에요. AI는 이미 당신 사이트를 방문하고 있어요.

궁금한 점이나 협업 제안이 있으신가요?

NOVA는 AI 검색 노출 연구 프로젝트입니다.
GEO 전략에 대해 궁금한 점이 있으시면 편하게 연락주세요.

문의하기