Logo Background

Robots.txt od a do ž

  • Objavil NeskoncnoNeskoncno Ni komentarjev Comments
    Posodobljene: avgust 25, 2009

    Robots.txt ima zelo pomebno vlogo pri visokih uvrstitvah spletnih strani v iskalnikih vendar pa šezmeraj se najde ogromno spletni strani, ki ga ne uporabljajo ozirma ga zelo slabo. Robots.txt je dokument, ki iskalniškim pajkom narekuje kako naj pregledajo vašo spletno strani.

    Kaj je Robots.txt?

    Najprej ko pride pajek  iskalnika na vašo spletno stran, pogleda po dokumentu imenovanem robots.txt, ki se nahaja v matični mapi(torej root) in prebere dokument da vidi ali mu je sploh dovoljeno iskati po vaši strani, če mu je potem nadaljuje z prepredanjem vaše strani.

    Tale dokument ni nobena znanost saj ni potrebnega skoraj nobenega znanja, kaj šele programiranja saj gre za navadne besedne ukaze.

    Primer nahajanja robots.txt datoteke : http://www.neskoncno.com/robots.txt

    Kako naredi robots.txt?

    Robots.txt lahko urejamo v kateremkoli tekstovnem urejevalniku, priporočal pa bi vam navaden Notepad, ki ga dobite na vsakem operacijskem sistemu(mogoče se ne kliče notepad je pa navaden tekstovni urejevalnik)

    Robots.txt pozna par različnih ukazov:

    1.  User-agent:       =kateri pajek(primer: googlebot, slurp,msnbot….)

    2. Allow:                  =navedemo mapo ali pa datoteko(Primer: /images/, /cgi-bin/skrivnost.html…..)

    3. Disallow:             =navedemo mapo ali pa datoteko(Primer: /cgi-bin/,/images/skrivnost.jpg….)

    Robots.txt primer:

    1. User-agent: googlebot

    Disallow: /images/

    Googlov pajek je preprosto poimenovan Googlebot, zato smo napisali googlebot z ukazom Disallow smo mu prepovedali ideksiranje vseh stvari, ki so v mapi images.

    2. User-agent: *
    Disallow: /cgi-bin/

    V primerih ko bi radi vsem pajkom preprečili indeksiranje. Uporabimo znak   * (zvezdico). Tako da to vedo vsi pajki, z naslednjim ukazom “Disallow” prepoved indeksiranja stvari v mapi cgi-bin smo izpisali osnoven in najbojl uporaben stvek v robots.txt katerega uporabljajo Wordpress-i.

    Pravila pisanja robots.txt-a

    1. Ne mešajte vrstnega reda ukazov:

    Disallow: /cgi-bin/

    User-agent: *

    Ni enako in pomeni prav drugo kot:

    User-agent: *
    Disallow: /cgi-bin/

    2. Ne vpišite več kot eno mapo v Disallow vrstico:

    User-agent: *
    Disallow: /uploads /cgi-bin/ /images/

    Vsako mapo v svojo vrstico!

    User-agent: *
    Disallow: /uploads/
    Disallow: /cgi-bin/
    Disallow: /images/

    3. Pozorni bodite na velike in male začetnice, saj enako kot HTML jezik tudi robots.txt datoteka razlikuje med dokumentom /images/skrivnost.jpg in /images/Skrivnost.jpg.

    4. V robots.txt dokumentu ne vpisujte, kakršnihkoli dodatkov. Torej kakršnikoli komentarji, dopisi niso primerni zaradi možnega nesporazuma z pajki, razen če so praviloni.

    Disallow:/uploads/ prepoved uploada

    Pravilno:

    Disallow:/uploads/

    Pravilno:

    #Povej “Googlebot” kje naj ne išče

    User-agent: Googlebot
    Disallow: /cgi-bin/

    Vsi besedni ukazi za robots.txt

    Allowed:

    Disallow:

    Crawl-delay:

    Google=Googlebot

    MSN search=Msnbot

    Yahoo=Yahoo-slurp

    Ask/Teoma=Teoma

    Cuil=Twiceler

    GigaBlast=Gigabot

    Scrub The web=Scrubby

    DMOZ Checker=robozilla

    Nutch=Nutch

    Alexa/Wayback=ia_archiver

    Baidu=baiduspider

    Naver=Naverbot, Yeti

    Google image=Googlebot-image

    Google mobile=googlebot-mobile

    Yahoo MM=yahoo-mmcrawler

    MSN Picsearch=psbot

    SingingFish=Asterias

    Yahoo Blogs=yahoo-blogs

    *=Vsi pajki

    Zakaj je dobro vedeti kako se kliče kakšen pajek? Ker seveda so nekatere stvari na naši strani boljše optimizirane za Google nekatere za Yahoo, nekater za Bing(bivši Live Search,MSN) in lahko z robots.txt naredimo da bo naša stran več ali manj boljše zoptimizirana.

    Kot zaključek lahko povemo da dober robots.txt prinaša boljše rangiranje pri iskalnikih.

    Če bi želeli, da robots.txt daje navodila vsem iskalnikom, potem na tem mestu vstavimo zvezdico (*).
Pusti komentar