<< Nazad na blog

19-10-2009

Korištenje robots.txt dokumenta


Kako biste što učinkovitije izvršili SEO svoje stranice morate prije svega razumjeti kako funkcioniraju spider-i koji pregledavaju stranicu kako biste ih mogli donekle kontrolirati i usmjeravati.

Na prvi pogled čini se da je to nemoguće, ali postoji jedan koristan alat u vidu robots.txt dokumenta. Ovaj tekstualni spis omogućava da na web stranici odredite što će spider-i vidjeti, a što neće. To je poprilično korisno jer se može spider-ima naglasiti da "beskorisne" stranice kao "O nama" ili slične ostave na miru, jer one ipak ne nose nikakvu zaradu i nije ih cilj rangirati, nego da se rađe koncentriraju na bitnije dijelove internet stranice koje je cilj pozicionirati. Osim toga, robots.txt se koristi i za eliminaciju dupliciranog sadržaja, što je posebno korisno kod blogova. Naime, svaki blog post nalazi se i na glavnoj stranici, stranici posta, stranici tagova i stranici kategorije. Robots.txt može se iskoristiti da se svi dijelovi gdje se nalazi dupli sadržaj istog posta zatvore za spider-e kako pozicije u pretragama tražilica ne bi patile. Ukratko, robots.txt koristi se kako bi se spider-ima onemogućio pristup pojedinim dijelovima stranice. Pogledajmo sada malo detaljnije kako se to postiže.

Za početak, valja znati da se dokument stavlja u root domenu (www.domena.com/robots.txt) ili poddomenu (poddomena.domena.com/robots.txt), dok je stavljanje u direktorij nemoguće (www.domena.com/direktorij/robots.txt). Sadržaj pojedinih direktorija kontrolira se iz root domene. Stvaranje samog dokumenta je iznimno lagano i možete ga stvoriti sa samo dvije naredbe, kao na primjer:

User-agent: *
Disallow: /arhiva/

Ovime smo zabranili svim spiderima da pristupe navedenom /arhiva/ direktoriju, a ukoliko želimo zabraniti samo neki određeni, tada umjesto zvjezdice stavljamo ime tog bota (npr. Googlebot). Ukoliko osim /arhiva/ želite zabraniti još neki, tada jednostavno ispod dodate još jedan Disallow (npr. Disallow: /kategorija/). Vidite da se dosta toga može zabraniti putem robots.txt dokumenta, ali postoje i situacije kada želite pristup zabraniti svima osim jednog bota. Recimo da direktorij /oglasi/ želite zabraniti za svih osim za Google Adsense bot:

User-agent: *
Disallow: /oglasi/
User-agent: Mediapartners-Google
Allow: /oglasi/

Sada je direktorij oglasi nedostupan svim botovima osim Google-ovom Adsense botu. Možete također i zabraniti pristup svim direktorijima koji počinju s određenim slovom (Disallow: /a) ili određenom riječi (Disallow: /prvi), sadrže određenu riječ (Disallow: /rijec*/), ili možete samo zabraniti pristup nekom konkretnom dokumentu (Disallow: dokument.html). Možete i zabranjivati pristup određenoj vrsti dokumenata, pa tako možete zabraniti, na primjer, samo slike putem naredbe Disallow: /*.jpg$.

Mogućnosti "igranja" s robots.txt dokumentom su gotovo beskonačne i ukoliko ste zainteresirani možete ih dalje istražiti na webu, ali pazite samo da se ne zaigrate previše jer možete zaista napraviti veliku štetu svojoj web stranici. Kako god bilo, jedno je sigurno, a to je da je učinkovita optimizacija za tražilice nemoguća bez izrade robots.txt dokumenta.


Ako vam se svidio tekst, pretplatite se na naš RSS feed.



Oznake

SEO


Komentari




timal ©2012 Timal.net d.o.o. - Pomerio 22, Rijeka, Hrvatska CSSXHTML top