I robots.txt kan man hindra Google från att hitta vissa sidor på sajten och därför är det en fil många sökmotoroptimerare håller stenkoll på. Ibland kan den råka göra motsatsen, med precis samma inställning och det är en av de punkter Aaron tar upp i senaste SEO-kliniken.
När man pillar i robots.txt behöver man ha ordentlig koll på vad man gör. Det kan nämligen vara så att om man blockerar Google från att läsa en redan indexerad sida så kommer den aldrig försvinna ur index. Stigasports.com har råkat göra precis det och det är en av de problem som Aaron Axelsson tar upp i vår senaste session med Live-SEO på Youtube. Här finns videon och det kan vara värt att kolla på den innan du läser vidare (om du har tid).
Vad som hänt är att Google på ett eller annat sätt hittat länkar till sidor på sajten som blockerats i Robots.txt. För att första vad som händer då behöver vi förstå vad robots.txt faktiskt gör och hur den skiljer sig från till exempel noindex.
Vad är Robots.txt?
Robots.txt är en fil man lägger på bottennivån på sin sajt, i rooten. Den ska finnas på sökvägen dinsajt.se/robots.txt. I filen kan man ange var det går att hitta en sitemap och vilka sidor som robotar Inte ska besöka. Google och de flesta andra tolkar detta ordagrant och besöker helt enkelt inte dessa sidor, de läser dem inte, de kollar inte headers eller något i den stilen.
Till skillnad från att sätta <meta name=”robots” content=”noindex”> på en sida kommer Googlebot alltså inte alls att besöka den. Noindex å andra sidan får besök av Googlebot men sidan sparas inte undan i Googles index. Skillnaden kan verka minimal men det kan leda till problem, som i Stigas fall.
Vad här hänt på Stigasports.com?
Vad som hänt på Stigasports.com är följande: På någon eller några sidor finns det eller har funnits länkar som pekat till sidor som är blockerade i Robots.txt. Det är inte säkert att sidorna alltid varit blockerade där utan det kan vara en åtgärd man gjort av SEO-skäl. Till exempel för att allt för många duplikat skapats av filtreringen på sajten. Det som händer när man blockerar dessa sidor i robots.txt är då att Google helt slutar besöka detta men inte att man tar dem ur index. Istället finns sidorna kvar men i princip utan innehåll i Googles ögon, man väljer istället för att visa ett gammalt resultat för den här sidan att visa “No information is available for this page.”
Det här har lite samma problem som mängder av duplicerat innehåll. Det äter visserligen inte av den crawlbudget (mängden tid och energi Google är beredd att lägga på att indexera din sajt) på samma sätt som duplikat men det sänker förtroendet för din sajt.
Vad är lösningen?
Lösningen på problemet med sidor som visar “No information is available for this page” är i princip alltid att släppa in Google genom att ta bort raden i robots.txt och att istället leverera antingen en 301-redirect, en canonical-tagg eller noindex. De ger lite olika effekt och beroende på situation i övrigt behöver man välja rätt, mer om det i någon annan bloggpost.