Wï¿½drujï¿½c po stronach www i korzystajï¿½c z linkï¿½w, na jakie trafia, robot Gooru - Gooru-WebSpider/1.0 (Linux; PI) - zapisuje ï¿½ciï¿½gniï¿½te dokumenty w swoim indeksie.

Za pomocï¿½ protokoï¿½u Robots Exclusion Protocol moï¿½na poinformowaï¿½ robota Gooru, ï¿½e nie powinien wchodziï¿½ do danej witryny lub jej niektï¿½rych katalogï¿½w, lub ï¿½eby nie czytaï¿½ niektï¿½rych dokumentï¿½w w tych katalogach.

Moï¿½na to zrobiï¿½ na dwa sposoby:

tworzï¿½c plik robots.txt, dotyczï¿½cy caï¿½ej witryny,

zabraniajï¿½c robotowi indeksowania poszczegï¿½lnych dokumentï¿½w, za pomocï¿½ metatagu robots umieszczonego w tych dokumentach.

Plik robots.txt

Plik robots.txt powinien znajdowaï¿½ siï¿½ w gï¿½ï¿½wnym katalogu strony, np. dla strony o nazwie www.strona.com powinien mieï¿½ adres www.strona.com/robots.txt

W pliku robots.txt moï¿½na zabroniï¿½ wchodzenia do witryny wszystkim robotom lub tylko niektï¿½rym. Moï¿½na zabroniï¿½ im wchodzenia w ogï¿½le lub tylko do niektï¿½rych katalogï¿½w, jakie siï¿½ w niej znajdujï¿½.

Zgodnie ze standardem Robots Exclusion Protocol, robots.txt to plik skï¿½adajï¿½cy siï¿½ z:

komentarzy zaczï¿½tych od #
rekordï¿½w oddzielonych pustymi liniami
- rekord skï¿½ada siï¿½ z pï¿½l Nazwa: Wartoï¿½ï¿½
  - jednego pola User-agent
  - pï¿½l Disallow

Pole User-agent oznacza, jakich programï¿½w dany rekord dotyczy. Pola Disallow to prefiksy urli, ktï¿½rych ï¿½ciï¿½gaï¿½ nie wolno.

Pole User-agent: * dotyczy wszystkich nie wymienionych w innych rekordach programï¿½w.

UWAGA! Kolejnoï¿½ï¿½, w jakiej wymienione sï¿½ nazwy robotï¿½w, nie ma znaczenia.

Dokï¿½adny opis (po angielsku) pliku robots.txt znajduje siï¿½ pod adresem: http://www.robotstxt.org/wc/norobots.html

Jeï¿½li w witrynie nie ma w ogï¿½le pliku robots.txt, roboty stwierdzajï¿½, ï¿½e wolno im wchodziï¿½ do witryny i czytaï¿½ wszystkie pliki.

Metatag robots

Metatag robots instruuje roboty wyszukiwarek, jak majï¿½ indeksowaï¿½ serwis. Za pomocï¿½ 2 parametrï¿½w moï¿½na okreï¿½liï¿½, gdzie chcemy wpuï¿½ciï¿½ robota i co moï¿½e indeksowaï¿½.

Metatag robots jest usytuowany w nagï¿½ï¿½wku dokumentu HTML i moï¿½e wyglï¿½daï¿½ nastï¿½pujï¿½co:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

CONTENT moï¿½e mieï¿½ zawartoï¿½ï¿½ jak powyï¿½ej lub dowolnï¿½ kombinacjï¿½ sï¿½ï¿½w NOINDEX, NOFOLLOW, takï¿½e wykorzystujï¿½c sï¿½owa INDEX, FOLLOW. Brak ktï¿½regoï¿½ ze sï¿½ï¿½w oznacza, ï¿½e dana akcja jest dozwolona.

NOINDEX zapobiega indeksowaniu strony przez roboty.

NOFOLLOW zabrania robotom indeksowania stron, do ktï¿½rych linki znajdujï¿½ siï¿½ na stronie.

INDEX - pozwala robotom indeksowaï¿½ dokument HTML.

FOLLOW - pozwala robotom indeksowaï¿½ wszystkie strony, do ktï¿½rych dotrze poprzez linki na odwiedzanej stronie.

NOIMAGEINDEX - zapobiega indeksowaniu grafiki na stronie HTML - tekst moï¿½e byï¿½ indeksowany.

Nie ma znaczenia, co jest w metetagu robots w danym dokumencie, jeï¿½li dostï¿½pu do tego dokumentu zabrania plik robots.txt.

Przygotowanie strony do indeksowania

Czasem zdarza siï¿½, ï¿½e nie ma potrzeby indeksowaï¿½ poszczegï¿½lnych elementï¿½w dokumentï¿½w, gdyï¿½ nie wnoszï¿½ ï¿½adnej nowej treï¿½ci do bazy danych wyszukiwarki.

Moï¿½na wï¿½wczas stronï¿½ tak przygotowaï¿½, aby jej poszczegï¿½lne fragmenty nie byï¿½y indeksowane przez wyszukiwarkï¿½. Fragmenty dokumentï¿½w, ktï¿½re nie powinny byï¿½ indeksowane przez robota Gooru powinny znajdowaï¿½ siï¿½ pomiï¿½dzy nastï¿½pujï¿½cymi znacznikami:

 

Przy tworzeniu strony www naleï¿½y rï¿½wnieï¿½ pamiï¿½taï¿½, iï¿½ robot Gooru nie indeksuje elementï¿½w przygotowanych w technologii Flash, oraz elementï¿½w tekstowych wstawionych jako pliki graficzne. Jeï¿½li pierwsza strona serwisu jest w caï¿½oï¿½ci wykonana we Flash'u i do kolejnych podstron nie prowadzi ï¿½aden link w formacie HTML robot nie znajdzie pozostaï¿½ych stron w serwisie.