AI 크롤러의 부상: ChatGPT와 Claude는 어떻게 웹을 읽는가?

월 12억 건 요청, 34% 404 오류율, JavaScript 미렌더링의 실체

월 12억 번. ChatGPT와 Claude가 한 달에 웹사이트를 방문하는 횟수예요.

Google의 28% 수준이에요. 적지 않은 숫자죠. 그런데 문제가 있어요. 이들은 서툴러요. Vercel과 MERJ의 공동 연구에 따르면 10번 방문하면 3번은 페이지를 못 찾아요(404 오류율 34%). 페이지가 나중에 나타나는 방식(CSR, 클라이언트 사이드 렌더링)도 전혀 못 봐요.

더 심각한 건 Cloudflare 분석이 밝힌 불공평한 관계예요. Anthropic은 38,065번 내용을 가져가고 단 1명의 방문자만 보냈어요. 가져가기만 하고 손님은 안 보내주는 거죠.

그런데 UC San Diego 연구가 발견한 건 더 놀라워요. 웹사이트 소유자의 59%가 "출입 금지 안내문(robots.txt)"을 들어본 적도 없어요. 대부분은 대응조차 못 하고 있어요.

핵심 요약

  • ChatGPT와 Claude는 월 12억 번 방문하지만 10번 중 3번은 페이지를 못 찾아요(404 오류율 34%)
  • JavaScript 렌더링을 지원하지 않아서 동적 콘텐츠를 전혀 못 봐요
  • 38,000번 가져가고 단 1명만 보내주는 불공평한 관계예요(Crawl-to-Click Ratio)

AI 크롤러가 얼마나 많이 방문하나요?

ChatGPT와 Claude가 월 12억 번 방문해요. Google의 28% 수준이에요. 문제는 서툴다는 거예요. 10번 중 3번은 페이지를 못 찾고(404 오류율 34%), 나중에 나타나는 콘텐츠는 전혀 못 봐요.

AI월간 방문 횟수페이지 못 찾는 비율나중에 나타나는 내용
Googlebot45억 번8.22%기다려서 봄
GPTBot (ChatGPT)5.69억 번34.82%못 봄
Claude-Web3.7억 번34.16%못 봄
AI 전체 합계12.7억 번--
← 좌우로 스크롤하여 전체 내용을 확인하세요 →

* GPTBot: OpenAI의 공식 크롤러 User-Agent
* Claude-Web: Anthropic의 공식 크롤러 User-Agent
* 404 오류율: 웹페이지가 존재하지 않거나 접근할 수 없어서 실패한 비율

AI 전체 합계가 Google의 28% 수준이에요. 이미 무시할 수 없는 규모예요. 그런데 문제는 서툴다는 거예요. Google은 10번 방문하면 1번만 페이지를 못 찾는데(404 오류율 8%), ChatGPT와 Claude는 10번 중 3번은 페이지를 못 찾아요(404 오류율 34%).

4배 더 서툴러요

Google은 12번 중 1번 실패하는데, ChatGPT와 Claude는 3번 중 1번 실패해요. 웹사이트를 찾아다니는 능력 자체가 Google보다 훨씬 떨어져요.

왜 AI는 우리 콘텐츠를 못 보나요?

JavaScript 렌더링을 지원 안 해서예요. 페이지 열자마자 보이는 것만 보고 떠나요. FAQ, 제품 상세정보, 고객 후기, 실시간 가격 같은 동적 콘텐츠는 전부 못 봐요. Google은 2015년부터 지원했는데 AI는 아직이에요.

Google은 페이지를 열고 잠깐 기다렸다가 나타나는 내용까지 봐요. 이를 "JavaScript 렌더링"이라고 부르는데, Google은 이 기술을 2015년부터 지원했어요. 그런데 ChatGPT와 Claude는 못 봐요. 페이지 열자마자 바로 보이는 것만 보고 떠나요(정적 HTML만 수집). 나중에 나타나는 내용은 없는 걸로 취급해요.

실제로 어떤 걸 놓칠까요?

  • 자주 묻는 질문(FAQ): 페이지 로딩 후 나타나는 답변
  • 제품 상세정보: 스크롤하면 나중에 로딩되는 사양
  • 고객 후기: 페이지를 열고 나서 조금 있다가 나타나는 리뷰
  • 실시간 가격: 페이지가 열린 후에 서버에서 가져오는 가격

이런 내용은 전부 AI가 못 봐요. 당신이 정성껏 만든 콘텐츠가 AI에게는 보이지 않을 수 있어요.

우리 회사는?

당신 웹사이트의 상품 목록이나 후기가 "나중에 나타나는" 방식(클라이언트 사이드 렌더링, CSR)이라면, ChatGPT는 그걸 전부 못 봐요. 개발자에게 "서버 사이드 렌더링(SSR)으로 바꿔주세요"라고 요청하세요. Next.js, Nuxt 같은 프레임워크를 사용하면 쉽게 적용할 수 있어요.

가져가기만 하고 손님은 안 보내준다고요?

Anthropic은 38,065번 가져가고 1명만 보내요. OpenAI도 1,091:1이에요. 80%가 AI 훈련용 수집이고 검색용은 18%뿐이에요. 가져가는 건 많은데 돌아오는 트래픽은 적은 불균형한 관계예요.

AI 회사가져가기 : 보내주기주 목적
Anthropic (Claude)38,065 : 180%가 AI 훈련용
OpenAI (ChatGPT)1,091 : 118%만 검색용
Perplexity194 : 1-
Microsoft (Copilot)40.7 : 1-
← 좌우로 스크롤하여 전체 내용을 확인하세요 →

* Crawl-to-Click Ratio: AI 크롤러가 웹사이트 콘텐츠를 가져간 횟수 대비 실제 사용자 방문을 유도한 횟수의 비율
* AI 훈련용: 모델 학습을 위한 데이터 수집 목적의 크롤링

Anthropic이 제일 심해요. 38,065번 가져가고 단 1명만 보냈어요. OpenAI는 좀 낫지만 그래도 1,091번 가져가고 1명만 보내요. Microsoft가 40.7:1로 가장 낫지만, 여전히 불공평하죠. 이 비율을 "Crawl-to-Click Ratio"라고 부릅니다.

왜 이렇게 차이 날까요?

Claude는 검색 서비스가 메인이 아니에요. 방문의 80%가 AI를 똑똑하게 만들려고 데이터를 수집하는 거예요. 손님을 보낼 이유가 없죠. ChatGPT도 비슷해요. 방문의 18%만 검색용이고, 나머지는 AI 훈련용이에요.

ChatGPT는 빠르게 성장 중

ChatGPT의 웹사이트 방문 비중은 1년 새 4.7%에서 11.7%로 2.5배 늘었어요. 이 속도면 곧 Google만큼 중요해질 거예요. 무시하기에는 너무 빠르게 커지고 있어요.

웹사이트 소유자들은 대응하고 있나요?

59%가 robots.txt를 들어본 적도 없어요. 97%가 AI를 막고 싶어하지만 실제로는 17%만 차단 기능을 켰어요. 방법을 몰라서예요. 알고 싶어도 배울 곳이 없는 거죠.

  • 59%가 "출입 금지 안내문(robots.txt)"을 들어본 적 없어요
  • 97%가 AI를 막는 기능을 원해요
  • 실제로는 Squarespace 사용자 중 17%만 차단 기능을 켰어요

원하는 사람은 97%인데 실제로 하는 사람은 17%예요. 대부분 방법을 모르거나 어떻게 해야 하는지 몰라요. 알고 싶어도 배울 곳이 없는 거죠.

기능은 있는데 사람들이 몰라요

Squarespace는 버튼 하나만 누르면 AI를 막을 수 있어요. 그런데도 17%만 사용해요. 기능이 있는 것과 사람들이 아는 것은 다른 문제예요.

일부는 OpenAI와 계약을 맺었어요

484개 사이트가 ChatGPT 차단을 풀었어요. 연구진은 이들이 OpenAI와 돈 받고 계약을 맺었을 가능성이 높다고 분석했어요. 콘텐츠를 제공하고 수익을 받는 거죠.

재미있는 건 Bytespider(ByteDance, TikTok 모회사)예요. 이 회사는 "출입 금지" 안내를 무시해요. robots.txt에 차단해도 계속 들어와요. 규칙을 안 지키는 회사가 이미 있어요.

대응 방법에는 뭐가 있나요?

세 가지예요. A: 완전 차단(콘텐츠 보호), B: 허용하고 사이트 개선(SSR 적용, FAQ 구조화), C: AI 회사와 직접 계약(수익 공유). 콘텐츠 가치가 높으면 C, AI 검색 트래픽이 필요하면 B, 혜택 없이 가져가기만 하면 A예요.

방법 A: AI를 완전히 차단하기

AI를 완전히 막는 거예요. "출입 금지 안내문(robots.txt)"에 다음을 적으세요. (개발자에게 요청하면 됩니다)

  • ChatGPT 차단: User-agent: GPTBot (검색 기능용 크롤러)
  • Claude 차단: User-agent: Claude-Web (검색 기능용 크롤러)
  • Anthropic 훈련 데이터 차단: User-agent: anthropic-ai (AI 훈련용 크롤러)
  • 전부 차단: Disallow: / (모든 경로 접근 금지)

이 방법은 내용을 보호하고 싶을 때 좋아요. AI가 계속 가져가는데 손님은 안 보내주는 상황이라면 고려해 보세요. 구체적인 차단 방법은 AI 시대 robots.txt 설정 가이드에서 자세히 다룹니다.

방법 B: AI를 허용하고 우리 사이트 개선하기

AI를 기회로 보는 거예요. AI를 허용하되 우리 사이트를 AI가 좋아하는 방식으로 바꾸세요.

  • 페이지를 미리 만들어 두기(서버 사이드 렌더링, SSR): 나중에 나타나는 방식(CSR)이 아니라 처음부터 보이게 만들기
  • 자주 묻는 질문(FAQ) 정리: AI가 읽기 쉬운 구조화된 형식으로(Schema.org FAQPage 마크업 권장)
  • 명확한 정보: 구체적인 숫자와 사실

이미 Vercel 신규 가입의 10%가 ChatGPT에서 와요. AI 검색 최적화가 실제 비즈니스 성과로 이어지고 있어요. 이 방법은 AI 검색을 새로운 손님 유입 경로로 보는 거예요. 구체적인 실행 방법은 GEO 최적화 실무 가이드에서 단계별로 설명합니다.

방법 C: AI 회사와 직접 계약하기

콘텐츠가 독점적이고 가치가 높다면 AI 회사와 직접 계약하는 거예요. 484개 사이트가 이미 OpenAI와 계약을 맺었어요.

조건은 다양해요. 일시금을 받거나, 방문자 보장을 받거나, 수익을 나눌 수 있어요. 고품질 콘텐츠를 계속 만든다면 협상할 수 있어요.

어떤 방법을 선택할까요?

콘텐츠 가치가 높고 대체 불가능하면 방법 C. AI 검색에서 손님이 오는 게 중요하면 방법 B. AI가 계속 가져가는데 혜택이 없으면 방법 A를 권장합니다.

핵심만 정리하면요

월 12억 번 방문, 10번 중 3번 실패, 38,000번 가져가고 1명만 보내주는 불균형. AI는 아직 서툴지만 빠르게 성장 중이에요. ChatGPT 트래픽 비중이 1년 새 4.7%에서 11.7%로 2.5배 늘었어요. 지금 준비해야 해요.

월 12억 번 방문, 10번 중 3번은 페이지를 못 찾고, 나중에 나타나는 내용은 못 보고, 38,000번 가져가고 1명만 보내주는 불균형. 숫자가 보여주는 건 명확해요. AI는 아직 서툴러요. 하지만 빠르게 똑똑해지고 있어요.

지금 당신 사이트는 준비되어 있나요? 개발자에게 부탁해서 사이트를 "JavaScript를 끈 상태(노스크립트 모드)"로 열어보세요. AI가 보는 건 그게 전부예요.

Google이 지배하던 시대는 끝나가고 있어요. AI 검색은 이제 선택이 아니라 필수예요. 막을지, 개선할지, 계약할지. 선택은 당신의 몫이지만, 선택을 안 하는 건 선택지가 아니에요. AI는 이미 당신 사이트를 방문하고 있어요.

Reference (참고 문헌 및 기술 자료)

본 글은 다음의 문서들을 기반으로 작성되었습니다.

  • Vercel × MERJ, The Rise of the AI Crawler

    AI 크롤러의 요청량, 404 오류율, JavaScript 렌더링 불가 등 기술적 한계를 정량 분석

  • Cloudflare, The Crawl-to-Click Gap

    AI 크롤러가 웹사이트에서 얼마나 가져가고 얼마나 돌려주는지를 정량화한 연구

  • UC San Diego × University of Chicago, Somesite I Used To Crawl

    웹사이트 소유자의 AI 크롤러 인식 부족과 대응 도구의 격차를 실증한 학술 논문

궁금한 점이나 협업 제안이 있으신가요?

NOVA는 AI 검색 노출 연구 프로젝트입니다.GEO 전략에 대해 궁금한 점이 있으시면 편하게 연락주세요.

문의하기