Robots.txt od a do ž
-
Robots.txt ima zelo pomebno vlogo pri visokih uvrstitvah spletnih strani v iskalnikih vendar pa šezmeraj se najde ogromno spletni strani, ki ga ne uporabljajo ozirma ga zelo slabo. Robots.txt je dokument, ki iskalniškim pajkom narekuje kako naj pregledajo vašo spletno strani.
Kaj je Robots.txt?
Najprej ko pride pajek iskalnika na vašo spletno stran, pogleda po dokumentu imenovanem robots.txt, ki se nahaja v matični mapi(torej root) in prebere dokument da vidi ali mu je sploh dovoljeno iskati po vaši strani, če mu je potem nadaljuje z prepredanjem vaše strani.
Tale dokument ni nobena znanost saj ni potrebnega skoraj nobenega znanja, kaj šele programiranja saj gre za navadne besedne ukaze.
Primer nahajanja robots.txt datoteke : http://www.neskoncno.com/robots.txt
Kako naredi robots.txt?
Robots.txt lahko urejamo v kateremkoli tekstovnem urejevalniku, priporočal pa bi vam navaden Notepad, ki ga dobite na vsakem operacijskem sistemu(mogoče se ne kliče notepad je pa navaden tekstovni urejevalnik)
Robots.txt pozna par različnih ukazov:
1. User-agent: =kateri pajek(primer: googlebot, slurp,msnbot….)
2. Allow: =navedemo mapo ali pa datoteko(Primer: /images/, /cgi-bin/skrivnost.html…..)
3. Disallow: =navedemo mapo ali pa datoteko(Primer: /cgi-bin/,/images/skrivnost.jpg….)
Robots.txt primer:
1. User-agent: googlebot
Disallow: /images/
Googlov pajek je preprosto poimenovan Googlebot, zato smo napisali googlebot z ukazom Disallow smo mu prepovedali ideksiranje vseh stvari, ki so v mapi images.
2. User-agent: *
Disallow: /cgi-bin/V primerih ko bi radi vsem pajkom preprečili indeksiranje. Uporabimo znak * (zvezdico). Tako da to vedo vsi pajki, z naslednjim ukazom “Disallow” prepoved indeksiranja stvari v mapi cgi-bin smo izpisali osnoven in najbojl uporaben stvek v robots.txt katerega uporabljajo Wordpress-i.
Pravila pisanja robots.txt-a
1. Ne mešajte vrstnega reda ukazov:
Disallow: /cgi-bin/
User-agent: *
Ni enako in pomeni prav drugo kot:
User-agent: *
Disallow: /cgi-bin/2. Ne vpišite več kot eno mapo v Disallow vrstico:
User-agent: *
Disallow: /uploads /cgi-bin/ /images/Vsako mapo v svojo vrstico!
User-agent: *
Disallow: /uploads/
Disallow: /cgi-bin/
Disallow: /images/3. Pozorni bodite na velike in male začetnice, saj enako kot HTML jezik tudi robots.txt datoteka razlikuje med dokumentom /images/skrivnost.jpg in /images/Skrivnost.jpg.
4. V robots.txt dokumentu ne vpisujte, kakršnihkoli dodatkov. Torej kakršnikoli komentarji, dopisi niso primerni zaradi možnega nesporazuma z pajki, razen če so praviloni.
Disallow:/uploads/ prepoved uploada
Pravilno:
Disallow:/uploads/
Pravilno:
#Povej “Googlebot” kje naj ne išče
User-agent: Googlebot
Disallow: /cgi-bin/Vsi besedni ukazi za robots.txt
Allowed:
Disallow:
Crawl-delay:
Google=Googlebot
MSN search=Msnbot
Yahoo=Yahoo-slurp
Ask/Teoma=Teoma
Cuil=Twiceler
GigaBlast=Gigabot
Scrub The web=Scrubby
DMOZ Checker=robozilla
Nutch=Nutch
Alexa/Wayback=ia_archiver
Baidu=baiduspider
Naver=Naverbot, Yeti
Google image=Googlebot-image
Google mobile=googlebot-mobile
Yahoo MM=yahoo-mmcrawler
MSN Picsearch=psbot
SingingFish=Asterias
Yahoo Blogs=yahoo-blogs
*=Vsi pajki
Zakaj je dobro vedeti kako se kliče kakšen pajek? Ker seveda so nekatere stvari na naši strani boljše optimizirane za Google nekatere za Yahoo, nekater za Bing(bivši Live Search,MSN) in lahko z robots.txt naredimo da bo naša stran več ali manj boljše zoptimizirana.
Kot zaključek lahko povemo da dober robots.txt prinaša boljše rangiranje pri iskalnikih.
Če bi želeli, da robots.txt daje navodila vsem iskalnikom, potem na tem mestu vstavimo zvezdico (*).

