Robots.txt

Plik robots.txt jest plikiem tekstowym, który umieszcza się w głównym katalogu domeny na serwerze strony internetowej. Webmasterzy wykorzystują go do przechowywania poleceń dla robotów internetowych, które odwiedzają witryny. Zawiera instrukcje pozwalające na dostęp do określonych zasobów serwisu lub chroniące dostęp do nich. Za pomocą pliku można zablokować dostęp do adresów stron, konkretnych folderów i określonych plików. Instrukcje zawarte w pliku mają charakter globalny.

Działanie robots.txt polega na tym, że w momenci, gdy robot znajduje link do dowolnej strony należącej do naszej domeny – np. http://www.przykladowastrona.com/strona.html, musi pobrać plik http://przykladowastrona.com/robots.txt, jeśli zamierza odwiedzić link. Aby otrzymać plik wysyła żądanie GET /robots.txt.

Standardowa struktura pliku robots.txt:

User-agent: *
Disallow: /

User-agent – gwiazdka stanowi informację o dzikiej karcie, czyli o zastosowaniu wobec wszystkich robotów.

Disallow – to linia informująca robota, że żadna ze stron przynależących do witryny nie powinna być przez niego odwiedzana.

Niektóre roboty niekiedy ignorują zapisy znajdujące się w pliku, a są to:

  • roboty skanujące zabezpieczenia stron internetowych,
  • roboty służące do automatycznego gromadzenia danych teleadresowych, m.in. adresów e-mail.

Kontynuując przeglądanie strony, wyrażasz zgodę na używanie przez nas plików cookies. więcej informacji

Aby zapewnić Tobie najwyższy poziom realizacji usługi, opcje ciasteczek na tej stronie są ustawione na "zezwalaj na pliki cookies". Kontynuując przeglądanie strony bez zmiany ustawień lub klikając przycisk "Akceptuję" zgadzasz się na ich wykorzystanie.

Zamknij