Plik robots.txt jest plikiem tekstowym, który umieszcza się w głównym katalogu domeny na serwerze strony internetowej. Webmasterzy wykorzystują go do przechowywania poleceń dla robotów internetowych, które odwiedzają witryny. Zawiera instrukcje pozwalające na dostęp do określonych zasobów serwisu lub chroniące dostęp do nich. Za pomocą pliku można zablokować dostęp do adresów stron, konkretnych folderów i określonych plików. Instrukcje zawarte w pliku mają charakter globalny.

Działanie robots.txt polega na tym, że w momenci, gdy robot znajduje link do dowolnej strony należącej do naszej domeny – np. http://www.przykladowastrona.com/strona.html, musi pobrać plik http://przykladowastrona.com/robots.txt, jeśli zamierza odwiedzić link. Aby otrzymać plik wysyła żądanie GET /robots.txt.

Standardowa struktura pliku robots.txt:

User-agent: *
Disallow: /

User-agent – gwiazdka stanowi informację o dzikiej karcie, czyli o zastosowaniu wobec wszystkich robotów.

Disallow – to linia informująca robota, że żadna ze stron przynależących do witryny nie powinna być przez niego odwiedzana.

Niektóre roboty niekiedy ignorują zapisy znajdujące się w pliku, a są to:

  • roboty skanujące zabezpieczenia stron internetowych,
  • roboty służące do automatycznego gromadzenia danych teleadresowych, m.in. adresów e-mail.

 

  •  
  •  
  •