Robots.txt: hoe je vriend je vijand kan worden

Blogs

Geschreven door Maxlead

Geschreven op 11 mei 2015Bewerkt op 11 mei 2015

Een robots.txt is een simpel tekstbestandje wat aan een zoekmachinespider aangeeft welke delen van je site je vooral niet geïndexeerd wilt hebben. Daarnaast kun je er ook je XML-sitemap(s) in aangeven, maar verder kun je er eigenlijk weinig mee. De robots.txt staat in de root van de site (www.voorbeeld.nl/robots.txt) en elke zoekmachinespider kijkt naar dit bestand vóór deze je site verder gaat bekijken. Dat geeft je dus controle over wat je wel of niet interessant acht voor de internetters die naar je op zoek zijn. Wil je bepaalde content niet in de index hebben, dan sluit je dat in de robots.txt uit. Is je robots.txt leeg of ontbreekt deze, dan mag alles geïndexeerd worden. Simpel.

Liever niet indexeren

Als een webbouwer je nieuwe site of de wijzigingen wil laten zien, dan zal er vaak een test-, staging- of acceptatie-omgeving opgezet worden. Weet een zoekmachine niet van het bestaan van de staging site af, dan zal deze niet zo snel in die index terecht komen. Helaas kan dat met één verkeerde link teniet worden gedaan en juist wel gebeuren; bijvoorbeeld als de live site per ongeluk linkt naar de staging site. De zoekmachine heeft lucht van je staging website gekregen en crawlt ‘m helemaal door om alle nieuwe en oude (duplicate!) content in de index neer te zetten. Bezoekers kunnen nu op de verkeerde site (de staging site) terecht komen, de verkeerde content lezen of zelfs niet bestellen. Dat wil je liever niet.

Indexatie vermijden op de verkeerde manier

Om te voorkomen dat de staging website in de zoekmachine-index terecht komt, willen webbouwers ‘voor de zekerheid’ nog wel eens de robots.txt ‘dicht’ zetten. Aan elke langskruipende zoekmachinespider wordt verteld dat er niets van de content bekeken mag worden:

Oftewel: voor elke zoekmachinespider (User-agent) is alles (achter de /) verboden crawl-terrein.

Op zich wel een aardig idee, ware het niet dat een robots.txt een ‘onzichtbaar’ bestand is. Het doet niks voor de werking van je site; het bestelproces werkt, de plaatjes laden in en je pagina’s komen na elke klik netjes naar boven. Staat een robots.txt verkeerd ingesteld, dan zul je daar zelf (of iemand die je er voor hebt ingehuurd) achter moeten komen. “Uit het oog, uit het hart” geldt ook voor de robots.txt.

Als zo’n onzichtbaar bestand dan per ongeluk op de live site terecht komt kan het dan ook best een tijd duren voor het ontdekt wordt. Je bezoek (en omzet!) neemt af, je twijfelt of het aan het seizoen of het weer ligt, wroet nog wat in je Ads campagnes, slaapt er nog eens een nachtje slecht van en dan kom je, met wat geluk, een melding als deze tegen:

Je klikt nog wat verder in de statistieken en uiteindelijk kom je er achter dat het aan het organische zoekmachineverkeer ligt. Wat blijkt? De robots.txt die alleen had moeten voorkomen dat je stagingsite geïndexeerd werd, haalt nu het beleg van je brood…

Wat is er gebeurd?

Je webbouwer had zijn handen vol aan het bestelproces, de laatste JavaScript tweakjes, een vergeten requirement en nog wat last minute issues. Drukdrukdruk en op vrijdagmiddag is de robots.txt van de staging site per ongeluk live gezet…
Gevolg: de zoekmachinespiders krijgen bij hun eerstvolgende bezoek de instructie om niets van de content meer te indexeren en je mooie nieuwe site, waar zoveel tijd en moeite in zit, verdwijnt langzaam van de zoekresultaatpagina’s. Je bezoekers konden nog steeds op je site terecht en als vanouds gebruiken, maar het werden er langzaam steeds minder en stiekem was je vriend je vijand geworden.

Wat kan ik doen om deze stiekeme de-indexatie te voorkomen?

Simpel: gebruik nooit en nergens een robots.txt die je niet op je live site zou willen hebben.
Niet op de ontwikkelomgeving, niet op de stagingomgeving, niet op de acceptatie-omgeving, nergens. Bestaat de verkeerde versie niet, dan kan deze ook nooit op je live site terecht komen.

Maak aan je webbouwer duidelijk dat het een eis is en geen verzoek. Je organische zoekverkeer is niet iets wat je aan en uit kan zetten en je wilt er nu eenmaal geen enkel risico mee lopen.

Maar hoe zorg ik er dan voor dat mijn test site niet geïndexeerd wordt?

Sluit deze af met een wachtwoord en de zoekmachinespiders zullen ‘m links laten liggen. Een check op IP-adres kan ook een optie zijn.

Wordt je testsite toch per ongeluk geïndexeerd, redirect dan de complete omgeving met een correcte HTTP 301 statuscode naar de live-site en gebruik voor de testomgeving een nieuw subdomein mét een wachtwoord.