AI 크롤러의 부상: ChatGPT와 Claude는 어떻게 웹을 읽는가?
월 12억 건 요청, 34% 404 오류율, JavaScript 미렌더링의 실체
월 12억 번. ChatGPT와 Claude가 한 달에 웹사이트를 방문하는 횟수예요.
Google의 28% 수준이에요. 적지 않은 숫자죠. 그런데 문제가 있어요. 이들은 서툴러요. Vercel과 MERJ의 공동 연구에 따르면 10번 방문하면 3번은 페이지를 못 찾아요(404 오류율 34%). 페이지가 나중에 나타나는 방식(CSR, 클라이언트 사이드 렌더링)도 전혀 못 봐요.
더 심각한 건 Cloudflare 분석이 밝힌 불공평한 관계예요. Anthropic은 38,065번 내용을 가져가고 단 1명의 방문자만 보냈어요. 가져가기만 하고 손님은 안 보내주는 거죠.
그런데 UC San Diego 연구가 발견한 건 더 놀라워요. 웹사이트 소유자의 59%가 "출입 금지 안내문(robots.txt)"을 들어본 적도 없어요. 대부분은 대응조차 못 하고 있어요.
핵심 요약
- ChatGPT와 Claude는 월 12억 번 방문하지만 10번 중 3번은 페이지를 못 찾아요(404 오류율 34%)
- JavaScript 렌더링을 지원하지 않아서 동적 콘텐츠를 전혀 못 봐요
- 38,000번 가져가고 단 1명만 보내주는 불공평한 관계예요(Crawl-to-Click Ratio)
AI 크롤러가 얼마나 많이 방문하나요?
ChatGPT와 Claude가 월 12억 번 방문해요. Google의 28% 수준이에요. 문제는 서툴다는 거예요. 10번 중 3번은 페이지를 못 찾고(404 오류율 34%), 나중에 나타나는 콘텐츠는 전혀 못 봐요.
| AI | 월간 방문 횟수 | 페이지 못 찾는 비율 | 나중에 나타나는 내용 |
|---|---|---|---|
| Googlebot | 45억 번 | 8.22% | 기다려서 봄 |
| GPTBot (ChatGPT) | 5.69억 번 | 34.82% | 못 봄 |
| Claude-Web | 3.7억 번 | 34.16% | 못 봄 |
| AI 전체 합계 | 12.7억 번 | - | - |
* GPTBot: OpenAI의 공식 크롤러 User-Agent
* Claude-Web: Anthropic의 공식 크롤러 User-Agent
* 404 오류율: 웹페이지가 존재하지 않거나 접근할 수 없어서 실패한 비율
AI 전체 합계가 Google의 28% 수준이에요. 이미 무시할 수 없는 규모예요. 그런데 문제는 서툴다는 거예요. Google은 10번 방문하면 1번만 페이지를 못 찾는데(404 오류율 8%), ChatGPT와 Claude는 10번 중 3번은 페이지를 못 찾아요(404 오류율 34%).
4배 더 서툴러요
Google은 12번 중 1번 실패하는데, ChatGPT와 Claude는 3번 중 1번 실패해요. 웹사이트를 찾아다니는 능력 자체가 Google보다 훨씬 떨어져요.
왜 AI는 우리 콘텐츠를 못 보나요?
JavaScript 렌더링을 지원 안 해서예요. 페이지 열자마자 보이는 것만 보고 떠나요. FAQ, 제품 상세정보, 고객 후기, 실시간 가격 같은 동적 콘텐츠는 전부 못 봐요. Google은 2015년부터 지원했는데 AI는 아직이에요.
Google은 페이지를 열고 잠깐 기다렸다가 나타나는 내용까지 봐요. 이를 "JavaScript 렌더링"이라고 부르는데, Google은 이 기술을 2015년부터 지원했어요. 그런데 ChatGPT와 Claude는 못 봐요. 페이지 열자마자 바로 보이는 것만 보고 떠나요(정적 HTML만 수집). 나중에 나타나는 내용은 없는 걸로 취급해요.
실제로 어떤 걸 놓칠까요?
- 자주 묻는 질문(FAQ): 페이지 로딩 후 나타나는 답변
- 제품 상세정보: 스크롤하면 나중에 로딩되는 사양
- 고객 후기: 페이지를 열고 나서 조금 있다가 나타나는 리뷰
- 실시간 가격: 페이지가 열린 후에 서버에서 가져오는 가격
이런 내용은 전부 AI가 못 봐요. 당신이 정성껏 만든 콘텐츠가 AI에게는 보이지 않을 수 있어요.
우리 회사는?
당신 웹사이트의 상품 목록이나 후기가 "나중에 나타나는" 방식(클라이언트 사이드 렌더링, CSR)이라면, ChatGPT는 그걸 전부 못 봐요. 개발자에게 "서버 사이드 렌더링(SSR)으로 바꿔주세요"라고 요청하세요. Next.js, Nuxt 같은 프레임워크를 사용하면 쉽게 적용할 수 있어요.
가져가기만 하고 손님은 안 보내준다고요?
Anthropic은 38,065번 가져가고 1명만 보내요. OpenAI도 1,091:1이에요. 80%가 AI 훈련용 수집이고 검색용은 18%뿐이에요. 가져가는 건 많은데 돌아오는 트래픽은 적은 불균형한 관계예요.
| AI 회사 | 가져가기 : 보내주기 | 주 목적 |
|---|---|---|
| Anthropic (Claude) | 38,065 : 1 | 80%가 AI 훈련용 |
| OpenAI (ChatGPT) | 1,091 : 1 | 18%만 검색용 |
| Perplexity | 194 : 1 | - |
| Microsoft (Copilot) | 40.7 : 1 | - |
* Crawl-to-Click Ratio: AI 크롤러가 웹사이트 콘텐츠를 가져간 횟수 대비 실제 사용자 방문을 유도한 횟수의 비율
* AI 훈련용: 모델 학습을 위한 데이터 수집 목적의 크롤링
Anthropic이 제일 심해요. 38,065번 가져가고 단 1명만 보냈어요. OpenAI는 좀 낫지만 그래도 1,091번 가져가고 1명만 보내요. Microsoft가 40.7:1로 가장 낫지만, 여전히 불공평하죠. 이 비율을 "Crawl-to-Click Ratio"라고 부릅니다.
왜 이렇게 차이 날까요?
Claude는 검색 서비스가 메인이 아니에요. 방문의 80%가 AI를 똑똑하게 만들려고 데이터를 수집하는 거예요. 손님을 보낼 이유가 없죠. ChatGPT도 비슷해요. 방문의 18%만 검색용이고, 나머지는 AI 훈련용이에요.
ChatGPT는 빠르게 성장 중
ChatGPT의 웹사이트 방문 비중은 1년 새 4.7%에서 11.7%로 2.5배 늘었어요. 이 속도면 곧 Google만큼 중요해질 거예요. 무시하기에는 너무 빠르게 커지고 있어요.
웹사이트 소유자들은 대응하고 있나요?
59%가 robots.txt를 들어본 적도 없어요. 97%가 AI를 막고 싶어하지만 실제로는 17%만 차단 기능을 켰어요. 방법을 몰라서예요. 알고 싶어도 배울 곳이 없는 거죠.
- 59%가 "출입 금지 안내문(robots.txt)"을 들어본 적 없어요
- 97%가 AI를 막는 기능을 원해요
- 실제로는 Squarespace 사용자 중 17%만 차단 기능을 켰어요
원하는 사람은 97%인데 실제로 하는 사람은 17%예요. 대부분 방법을 모르거나 어떻게 해야 하는지 몰라요. 알고 싶어도 배울 곳이 없는 거죠.
기능은 있는데 사람들이 몰라요
Squarespace는 버튼 하나만 누르면 AI를 막을 수 있어요. 그런데도 17%만 사용해요. 기능이 있는 것과 사람들이 아는 것은 다른 문제예요.
일부는 OpenAI와 계약을 맺었어요
484개 사이트가 ChatGPT 차단을 풀었어요. 연구진은 이들이 OpenAI와 돈 받고 계약을 맺었을 가능성이 높다고 분석했어요. 콘텐츠를 제공하고 수익을 받는 거죠.
재미있는 건 Bytespider(ByteDance, TikTok 모회사)예요. 이 회사는 "출입 금지" 안내를 무시해요. robots.txt에 차단해도 계속 들어와요. 규칙을 안 지키는 회사가 이미 있어요.
대응 방법에는 뭐가 있나요?
세 가지예요. A: 완전 차단(콘텐츠 보호), B: 허용하고 사이트 개선(SSR 적용, FAQ 구조화), C: AI 회사와 직접 계약(수익 공유). 콘텐츠 가치가 높으면 C, AI 검색 트래픽이 필요하면 B, 혜택 없이 가져가기만 하면 A예요.
방법 A: AI를 완전히 차단하기
AI를 완전히 막는 거예요. "출입 금지 안내문(robots.txt)"에 다음을 적으세요. (개발자에게 요청하면 됩니다)
- ChatGPT 차단:
User-agent: GPTBot(검색 기능용 크롤러) - Claude 차단:
User-agent: Claude-Web(검색 기능용 크롤러) - Anthropic 훈련 데이터 차단:
User-agent: anthropic-ai(AI 훈련용 크롤러) - 전부 차단:
Disallow: /(모든 경로 접근 금지)
이 방법은 내용을 보호하고 싶을 때 좋아요. AI가 계속 가져가는데 손님은 안 보내주는 상황이라면 고려해 보세요. 구체적인 차단 방법은 AI 시대 robots.txt 설정 가이드에서 자세히 다룹니다.
방법 B: AI를 허용하고 우리 사이트 개선하기
AI를 기회로 보는 거예요. AI를 허용하되 우리 사이트를 AI가 좋아하는 방식으로 바꾸세요.
- 페이지를 미리 만들어 두기(서버 사이드 렌더링, SSR): 나중에 나타나는 방식(CSR)이 아니라 처음부터 보이게 만들기
- 자주 묻는 질문(FAQ) 정리: AI가 읽기 쉬운 구조화된 형식으로(Schema.org FAQPage 마크업 권장)
- 명확한 정보: 구체적인 숫자와 사실
이미 Vercel 신규 가입의 10%가 ChatGPT에서 와요. AI 검색 최적화가 실제 비즈니스 성과로 이어지고 있어요. 이 방법은 AI 검색을 새로운 손님 유입 경로로 보는 거예요. 구체적인 실행 방법은 GEO 최적화 실무 가이드에서 단계별로 설명합니다.
방법 C: AI 회사와 직접 계약하기
콘텐츠가 독점적이고 가치가 높다면 AI 회사와 직접 계약하는 거예요. 484개 사이트가 이미 OpenAI와 계약을 맺었어요.
조건은 다양해요. 일시금을 받거나, 방문자 보장을 받거나, 수익을 나눌 수 있어요. 고품질 콘텐츠를 계속 만든다면 협상할 수 있어요.
어떤 방법을 선택할까요?
콘텐츠 가치가 높고 대체 불가능하면 방법 C. AI 검색에서 손님이 오는 게 중요하면 방법 B. AI가 계속 가져가는데 혜택이 없으면 방법 A를 권장합니다.
핵심만 정리하면요
월 12억 번 방문, 10번 중 3번 실패, 38,000번 가져가고 1명만 보내주는 불균형. AI는 아직 서툴지만 빠르게 성장 중이에요. ChatGPT 트래픽 비중이 1년 새 4.7%에서 11.7%로 2.5배 늘었어요. 지금 준비해야 해요.
월 12억 번 방문, 10번 중 3번은 페이지를 못 찾고, 나중에 나타나는 내용은 못 보고, 38,000번 가져가고 1명만 보내주는 불균형. 숫자가 보여주는 건 명확해요. AI는 아직 서툴러요. 하지만 빠르게 똑똑해지고 있어요.
지금 당신 사이트는 준비되어 있나요? 개발자에게 부탁해서 사이트를 "JavaScript를 끈 상태(노스크립트 모드)"로 열어보세요. AI가 보는 건 그게 전부예요.
Google이 지배하던 시대는 끝나가고 있어요. AI 검색은 이제 선택이 아니라 필수예요. 막을지, 개선할지, 계약할지. 선택은 당신의 몫이지만, 선택을 안 하는 건 선택지가 아니에요. AI는 이미 당신 사이트를 방문하고 있어요.
궁금한 점이나 협업 제안이 있으신가요?
NOVA는 AI 검색 노출 연구 프로젝트입니다.
GEO 전략에 대해 궁금한 점이 있으시면 편하게 연락주세요.