robots.txt 사용하기 (검색엔진 로봇 배제하기)

글 내용



로봇배제란 말그대로 웹 문서를 수집해 가는 로봇을 배제한다는 뜻입니다.
로봇의 배제와 관련된 내용을 적어놓는 파일이 robots.txt 입니다.
이 robots.txt파일은 사이트의 최상위주소에 저장을 해야 효력을 발생합니다. 다른 서브 디렉토리에 저장을 하게 된다면 전혀 효력을 갖지 못합니다. 로봇은 오직 루트디렉토리의 robots.txt만을 참조할 뿐입니다.
로봇의 접근을 어디까지 허용할 것이냐에 따라 robots.txt에 들어가는 내용이 달라집니다.

● 접근 허용도에 따른 robot.txt 저장방법.

1. 홈페이지 전체가 모든 검색엔진에 노출되는것을 원하지 않을때.

User-agent: *
Disallow: /

2. 홈페이지 전체가 모든 검색엔진에 노출되기를 원할때.
User-agent: *
Disallow:
(robots.txt를 작성하지 않으면 모두 검색허용으로 간주됩니다.)


3. 홈페이지 디렉토리의 일부만 검색엔진에 노출하고 싶지 않을때.
User-agent: *
Disallow: /photo/
Disallow: /documents/
(이렇게 작성하면 로봇은 photo, documents라는 폴더에 속한 웹문서에 접근할 수 없습니다.)


4. 홈페이지 전체가 검색되길 원하지만 특정 검색엔진을 거부하고 싶을 때.
User-agent: NaverBot
Disallow: /
(이 경우 NaverBot라는 이름을 가진 로봇만을 배제하게 됩니다.)


5. 홈페이지 전체가 검색되길 원하지만 특정 검색엔진에게만 노출되기를 원할 때
User-agent: NaverBot
Disallow:
User-agent: *
Disallow: /
(이 경우 NaverBot만이 웹문서를 수집해갈수 있습니다.)



"robots.txt"를 작성하는 것과 유사한 방법으로 HTML문서의 HEAD와 /HEAD 태그 사이에
META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW" 
라는 메타태그를 추가하면 로봇은 웹 문서를 가져갈 수 없습니다.

이 방법은 번거롭기는 하지만 문서 하나하나에 대해 정확하게 명시를 해주기 때문에 가장 확실하게 로봇의 접근을 막을수 있는 방법입니다.
로봇배제에 대한 보다 자세한 내용은
http://www.robotstxt.org (영문사이트)에서 확인하실수 있습니다.

robots.txt를 서버에 저장하고 로봇이 직접 방문하지 않는 경우라고 하더라도 본인의 홈페이지 중 일부내용 혹은 링크값이 naver웹 문서 검색결과에 나타나는 경우가 있을수 있습니다.
이는 다른 웹 문서들이나 사이트들이 해당 웹 문서를 링크한 경우, 그 링크에 제시된 설명에 의해서 자동적으로 생성되는 것으로, 해당 웹 사이트의 robots.txt의 존재유무나 로봇의 동작과는 무관할 수 있습니다.

출처 : http://blog.naver.com/rhcps00

----------------------------------------------------------------------------
로봇을 배제하는 방법도 있었군요..
태터툴즈의 플러그인중 로봇을 배제하는 플러그인이 있던데.. 그 플러그인도 이런식으로 동작을 하는건가봅니다...
아까 네이버 하단 메뉴중 '결과수집에 대한 정책'을 보다가 robots.txt에대한 내용이 있어 궁금해 찾아보니.. ㅋㅋ 역시 궁금하면 검색을 해야합니다.ㅋㅋ


  1. user picture
    쓰댕이 2007.05.26 18:28
    왜배제해?!!!=ㅁ=?궁금
  2. user picture
    좋은 팁 감사합니다..^^