JAK DZIAŁA ROBOT GOORU?


Wędrując po stronach www i korzystając z linków, na jakie trafia, robot Gooru - Gooru-WebSpider/1.0 (Linux; PI) - zapisuje ściągnięte dokumenty w swoim indeksie.

Za pomocą protokołu Robots Exclusion Protocol można poinformować robota Gooru, że nie powinien wchodzić do danej witryny lub jej niektórych katalogów, lub żeby nie czytał niektórych dokumentów w tych katalogach.

Można to zrobić na dwa sposoby:
  • tworząc plik robots.txt, dotyczący całej witryny,
  • zabraniając robotowi indeksowania poszczególnych dokumentów, za pomocą metatagu robots umieszczonego w tych dokumentach.

    Plik robots.txt

    Plik robots.txt powinien znajdować się w głównym katalogu strony, np. dla strony o nazwie www.strona.com powinien mieć adres www.strona.com/robots.txt

    W pliku robots.txt można zabronić wchodzenia do witryny wszystkim robotom lub tylko niektórym. Można zabronić im wchodzenia w ogóle lub tylko do niektórych katalogów, jakie się w niej znajdują.

    Zgodnie ze standardem Robots Exclusion Protocol, robots.txt to plik składający się z: Pole User-agent oznacza, jakich programów dany rekord dotyczy. Pola Disallow to prefiksy urli, których ściągać nie wolno.

    Pole User-agent: * dotyczy wszystkich nie wymienionych w innych rekordach programów.

    UWAGA! Kolejność, w jakiej wymienione są nazwy robotów, nie ma znaczenia.

    Dokładny opis (po angielsku) pliku robots.txt znajduje się pod adresem: http://www.robotstxt.org/wc/norobots.html

    Jeśli w witrynie nie ma w ogóle pliku robots.txt, roboty stwierdzają, że wolno im wchodzić do witryny i czytać wszystkie pliki.

    Metatag robots

    Metatag robots instruuje roboty wyszukiwarek, jak mają indeksować serwis. Za pomocą 2 parametrów można określić, gdzie chcemy wpuścić robota i co może indeksować.

    Metatag robots jest usytuowany w nagłówku dokumentu HTML i może wyglądać następująco:

    <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

    CONTENT może mieć zawartość jak powyżej lub dowolną kombinację słów NOINDEX, NOFOLLOW, także wykorzystując słowa INDEX, FOLLOW. Brak któregoś ze słów oznacza, że dana akcja jest dozwolona.

    NOINDEX zapobiega indeksowaniu strony przez roboty.

    NOFOLLOW zabrania robotom indeksowania stron, do których linki znajdują się na stronie.

    INDEX - pozwala robotom indeksować dokument HTML.

    FOLLOW - pozwala robotom indeksować wszystkie strony, do których dotrze poprzez linki na odwiedzanej stronie.

    NOIMAGEINDEX - zapobiega indeksowaniu grafiki na stronie HTML - tekst może być indeksowany.

    Nie ma znaczenia, co jest w metetagu robots w danym dokumencie, jeśli dostępu do tego dokumentu zabrania plik robots.txt.

    Przygotowanie strony do indeksowania

    Czasem zdarza się, że nie ma potrzeby indeksować poszczególnych elementów dokumentów, gdyż nie wnoszą żadnej nowej treści do bazy danych wyszukiwarki.

    Można wówczas stronę tak przygotować, aby jej poszczególne fragmenty nie były indeksowane przez wyszukiwarkę. Fragmenty dokumentów, które nie powinny być indeksowane przez robota Gooru powinny znajdować się pomiędzy następującymi znacznikami:

    <!--GooruNoindexStart-->         <!--GooruNoindexStop-->

    Przy tworzeniu strony www należy również pamiętać, iż robot Gooru nie indeksuje elementów przygotowanych w technologii Flash, oraz elementów tekstowych wstawionych jako pliki graficzne. Jeśli pierwsza strona serwisu jest w całości wykonana we Flash'u i do kolejnych podstron nie prowadzi żaden link w formacie HTML robot nie znajdzie pozostałych stron w serwisie.


    © 1999-2012 Grupa Panorama Internetu:  Portal ePF.pl  Katalog Anonser.pl  Wyszukiwarka Gooru.pl