Do czego służy plik robots.txt?

Wprowadzenie

Plik "robots.txt" jest jednym z mechnizmów "Robots Exclusion Protocol", który został stworzony w celu informowania automatów (botów) o tym, czego nie powinny robić na stronie WWW. Przykładowo, nie wszyscy właściciele stron WWW chcą, aby ich projekt WWW był widoczny w wynikach wyszukiwania (np. w wyszukiwarceGoogle). Plik "robots.txt" powinien zostać umieszczony w katalogu, do którego została przekierowana domena internetowa (jest to tzw. katalog główny domeny).

Jak działa plik robots.txt?

Do procesu wyszukiwania nowych materiałów w sieci Internet wykorzystywane są tak zwane roboty (boty), które podążają za hiperłączami (linkami) i indeksują całą zawartość danej strony WWW do katalogu wyszukiwarki. Robota indeksującego można określić jako część wyszukiwarki internetowej (np. Google), która przegląda i analizuje strony WWW, by następnie dodać o nich informacje do bazy wyszukiwarki.
 

WAŻNE! Plik "robots.txt" ogranicza dostęp do Twojej strony WWW robotom wyszukiwarek, które przeszukują Internet. Dla przykładu, możesz zabronić indeksowanie całej lub tylko wybranej części Twojej strony WWW!

 
Wspomniane roboty (np. roboty Google) po odwiedzeniu wybranej strony WWW analizują jej strukturę oraz treść i następnie na podstawie tajemnego algorytmu umieszczają wybraną stronę WWW w wynikach wyszukiwania na odpowiedniej pozycji.

Po utworzeniu odpowiedniego pliku "robots.txt" i opublikowaniu go na serwerze wszystkie zasady, które zostały w nim zdefiniowane będą natychmiast aktywne. Pamiętaj, że plik "robots.txt" można utworzyć w najprostszym edytorze tekstowym.
 
WAŻNE! Plik "robots.txt" jedynie informuje o odpowiednim zachowaniu, nie wymusza go zaś w żaden sposób. Wszystkie uznane roboty (np. roboty popularnych wyszukiwarek internetowych) będą przestrzegać zasad zawartych w pliku "robots.txt", jednak niektóre roboty mogę je zignorować.

Ignorowanie zapisów zawartych w pliku "robots.txt" jest możliwe, ponieważ nie można narzucić bezwarunkowego przestrzegania zasad zawartych w pliku "robots.txt", w związku z czym niektórzy spamerzy i inni oszuści mogą go zignorować. W tym przypadku zalecamy używanie hasła do ochrony poufnych informacji, np. za pomocą pliku .htaccess (funkcja ukrytego katalogu).
 

Przykłady zawartości dla plików robots.txt

Cała strona WWW będzie indeksowana przez roboty (tak jakby nie było pliku "robots.txt"):
User-agent: *
Allow:
Cała strona WWW nie będzie indeksowana:
User-agent: *
Disallow: /
Indeksowane nie będą tylko foldery "/images" i "/private":
User-agent: *
Disallow: /images/
Disallow: /private/
Indeksowany nie będzie tylko plik "file.html" w katalogu "/directory":
User-agent: *
Disallow: /directory/file.html

O czym należy pamiętać podczas korzystania z pliku robots.txt?

  • Roboty, które są odpowiedzialne za skanowanie w poszukiwaniu dziur w zabezpieczeniach stron WWW mogą ignorować zapisy z pliku. Podobnie zachowują się automaty, które gromadzą adresy email i inne dane teleadresowe.
  • Pamiętaj, że zawartość pliku jest publicznie dostępna, a plik "robots.txt" nie jest metodą zabezpieczenia dostępu do zasobów.
  • Niektóre roboty mogą zbyt szybko pobierać strony WWW do ich sprawdzenia, co może znacząco obciążyć serwer. W tym przypadku zalecane jest zablokowanie user agent takich robotów lub ich adresów IP.
  • Pamiętaj, że wyszukiwarka Google nie będzie pobierać ani indeksować zawartości stron WWW, które zostały zablokowane w pliku "robots.txt", ale może indeksować te adresy URL, jeśli zostaną znalezione na innych stronach WWW w sieci Internet. W związku z tym adres URL takiej strony WWW oraz prawdopodobnie inne powszechnie dostępne informacje, np. teksty kotwicy mogą zostać wyświetlone w wynikach wyszukiwania.
  • Plik "robots.txt" jest potrzebny tylko w przypadku, gdy witryna zawiera treść, którą chcesz ukryć przed wyszukiwarkami internetowymi (np. Google). Jeśli wyszukiwarki mają indeksować całą stronę WWW, to plik "robots.txt" jest całkowicie zbędny!


Tagi: robots

<< Powrót