XML 사이트맵과 robots.txt: 올바른 설정
6 min
XML 사이트맵은 Googlebot이 발견하기 쉽도록 우선순위 페이지 목록을 제공합니다. robots.txt 파일은 로봇이 크롤할 수 있는 섹션을 제어합니다. 이 두 파일은 상호 보완적이며 색인 오류를 방지하기 위해 최신 상태를 유지해야 합니다.
사이트맵과 robots.txt는 가장 기본적인 두 가지 SEO 설정 파일입니다. 잘못 설정되면 핵심 페이지를 의도치 않게 제외하거나 불필요한 URL에 크롤 예산을 낭비할 수 있습니다.
XML 사이트맵: 구조와 모범 사례
XML 사이트맵은 선택적으로 메타데이터(수정 날짜, 업데이트 빈도, 우선순위)와 함께 색인되기 바라는 URL을 나열합니다. Google은 이 메타데이터를 읽지만 그대로 따르지는 않습니다.
50,000개 이상의 URL이나 50MB 이상의 사이트의 경우 주제별 사이트맵 파일(기사, 제품, 카테고리)을 가리키는 사이트맵 인덱스를 만드세요.
- 200 코드를 반환하는 정규, 색인 가능 URL만 포함.
- noindex 페이지, 리다이렉트, 매개변수가 있는 페이지 제외.
- Search Console에 사이트맵을 제출하고 robots.txt에서 참조.
- 새 게시물마다 사이트맵을 자동으로 업데이트.
robots.txt 파일: 지시어와 한계
Robots.txt는 도메인 루트에 위치하며 user-agent별 Allow 및 Disallow 규칙의 간단한 구문을 사용합니다. Googlebot에 사이트의 어떤 부분을 크롤하지 않을지 알려줍니다. 단, 색인 제외를 보장하지는 않습니다.
robots.txt에 차단된 페이지는 외부 링크가 있는 경우 여전히 결과에 나타날 수 있습니다. 완전한 제외를 위해서는 robots.txt가 아닌 noindex 태그를 사용하세요.
- 관리, 스테이징, 테스트 폴더 차단.
- 수천 개의 변형을 생성하는 내부 검색 URL 차단.
- 페이지 렌더링에 필요한 CSS 및 JS 파일은 절대 차단하지 않기.
- robots.txt 파일 하단에 사이트맵 URL 참조.
중요한 오류와 예방 방법
가장 심각한 오류: 마이그레이션이나 제대로 정리되지 않은 스테이징 설정 후 robots.txt에서 'Disallow: /'로 사이트 전체를 우발적으로 차단하는 것. 각 배포 후 이 파일을 우선적으로 확인하세요.
사이트맵에 오류 URL(404, 301)을 포함하는 것은 Google에 부주의함을 신호하고 존재하지 않는 리소스에 크롤 예산을 낭비하는 흔한 오류입니다.
SEO 감사에서 15~40%의 사이트가 사이트맵과 실제로 색인 가능한 페이지 간에 불일치가 있으며, 이는 사이트 업데이트 후 불충분한 유지 관리로 인한 경우가 많습니다.
2025-2026년 기술 SEO 감사 부문별 연구
FAQ
사이트맵에 우선순위와 빈도를 명시해야 하나요?
이 태그들(priority와 changefreq)은 크롤 빈도를 추정하기 위해 자체 신호를 사용하는 Google에 의해 거의 무시됩니다. 없어도 문제가 되지 않지만 있다고 해서 해롭지도 않습니다.
제출된 사이트맵을 Google이 읽는 데 얼마나 걸리나요?
Search Console에 제출 후 Google은 일반적으로 24~72시간 내에 사이트맵을 읽습니다. 새 URL의 발견과 실제 색인은 사이트 권위에 따라 더 오래 걸립니다.
Robots.txt가 모든 검색 엔진에서 작동하나요?
표준을 준수하는 모든 로봇은 robots.txt를 존중합니다. 그러나 악의적인 로봇(스크레이퍼, 비준수 크롤러)은 이를 무시합니다. Robots.txt는 보안 도구가 아니라 크롤 관리 도구입니다.