Robots.txt: hoe je vriend je vijand kan worden

Blogs
Maxlead
Geschreven door Maxlead
Geschreven op: 11 mei 2015Bewerkt op: 11 mei 2015
Maxlead -Bedrijfslogo

Een robots.txt is een simpel tekstbestandje wat aan een zoekmachinespider aangeeft welke delen van je site je vooral niet geïndexeerd wilt hebben. Daarnaast kun je er ook je XML-sitemap(s) in aangeven, maar verder kun je er eigenlijk weinig mee.  De robots.txt staat in de root van de site (www.voorbeeld.nl/robots.txt) en elke zoekmachinespider kijkt naar dit bestand vóór deze je site verder gaat bekijken. Dat geeft je dus controle over wat je wel of niet interessant acht voor de internetters die naar je op zoek zijn. Wil je bepaalde content niet in de index hebben, dan sluit je dat in de robots.txt uit. Is je robots.txt leeg of ontbreekt deze, dan mag alles geïndexeerd worden. Simpel.

Liever niet indexeren

Als een webbouwer je nieuwe site of de wijzigingen wil laten zien, dan zal er vaak een test-, staging- of acceptatie-omgeving opgezet worden. Weet een zoekmachine niet van het bestaan van de staging site af, dan zal deze niet zo snel in die index terecht komen. Helaas kan dat met één verkeerde link teniet worden gedaan en juist wel gebeuren; bijvoorbeeld als de live site per ongeluk linkt naar de staging site. De zoekmachine heeft lucht van je staging website gekregen en crawlt ‘m helemaal door om alle nieuwe en oude (duplicate!) content in de index neer te zetten. Bezoekers kunnen nu op de verkeerde site (de staging site) terecht komen, de verkeerde content lezen of zelfs niet bestellen. Dat wil je liever niet.

Indexatie vermijden op de verkeerde manier

Om te voorkomen dat de staging website in de zoekmachine-index terecht komt, willen webbouwers ‘voor de zekerheid’ nog wel eens de robots.txt ‘dicht’ zetten. Aan elke langskruipende zoekmachinespider wordt verteld dat er niets van de content bekeken mag worden:

Oftewel: voor elke zoekmachinespider (User-agent) is alles (achter de /) verboden crawl-terrein.

Op zich wel een aardig idee, ware het niet dat een robots.txt een ‘onzichtbaar’ bestand is. Het doet niks voor de werking van je site; het bestelproces werkt, de plaatjes laden in en je pagina’s komen na elke klik netjes naar boven. Staat een robots.txt verkeerd ingesteld, dan zul je daar zelf (of iemand die je er voor hebt ingehuurd) achter moeten komen. “Uit het oog, uit het hart” geldt ook voor de robots.txt.

Als zo’n onzichtbaar bestand dan per ongeluk op de live site terecht komt kan het dan ook best een tijd duren voor het ontdekt wordt. Je bezoek (en omzet!) neemt af, je twijfelt of het aan het seizoen of het weer ligt, wroet nog wat in je Ads campagnes, slaapt er nog eens een nachtje slecht van en dan kom je, met wat geluk, een melding als deze tegen:

Je klikt nog wat verder in de statistieken en uiteindelijk kom je er achter dat het aan het organische zoekmachineverkeer ligt. Wat blijkt? De robots.txt die alleen had moeten voorkomen dat je stagingsite geïndexeerd werd, haalt nu het beleg van je brood…

Wat is er gebeurd?

Je webbouwer had zijn handen vol aan het bestelproces, de laatste JavaScript tweakjes, een vergeten requirement en nog wat last minute issues. Drukdrukdruk en op vrijdagmiddag is de robots.txt van de staging site per ongeluk live gezet…
Gevolg: de zoekmachinespiders krijgen bij hun eerstvolgende bezoek de instructie om niets van de content meer te indexeren en je mooie nieuwe site, waar zoveel tijd en moeite in zit, verdwijnt langzaam van de zoekresultaatpagina’s. Je bezoekers konden nog steeds op je site terecht en als vanouds gebruiken, maar het werden er langzaam steeds minder en stiekem was je vriend je vijand geworden.

Wat kan ik doen om deze stiekeme de-indexatie te voorkomen?

Simpel: gebruik nooit en nergens een robots.txt die je niet op je live site zou willen hebben.
Niet op de ontwikkelomgeving, niet op de stagingomgeving, niet op de acceptatie-omgeving, nergens. Bestaat de verkeerde versie niet, dan kan deze ook nooit op je live site terecht komen.

Maak aan je webbouwer duidelijk dat het een eis is en geen verzoek. Je organische zoekverkeer is niet iets wat je aan en uit kan zetten en je wilt er nu eenmaal geen enkel risico mee lopen.

Maar hoe zorg ik er dan voor dat mijn test site niet geïndexeerd wordt?

Sluit deze af met een wachtwoord en de zoekmachinespiders zullen ‘m links laten liggen. Een check op IP-adres kan ook een optie zijn.

Wordt je testsite toch per ongeluk geïndexeerd, redirect dan de complete omgeving met een correcte HTTP 301 statuscode naar de live-site en gebruik voor de testomgeving een nieuw subdomein mét een wachtwoord.

Overige Blogs & Insights

Kennis
Maxlead - 6W9A8343_Abovo Maxlead klantendag 2024 kleiner formaat
Hoe organiseer je internationale marketing teams met aandacht voor zowel schaalbaarheid als lokale relevantie?
Blog
Maxlead
Maxlead
Maxlead - WhatsApp Image 2024-11-07 at 09.51.35_3b5e936c
MeasureCamp Bratislava: 150 vakidoten bij elkaar
Blog
Maxlead
Maxlead
Maxlead - 6W9A3131.jpg
De gamechanger voor B2B succes – Meld je aan
Blog
Maxlead
Maxlead
Maxlead - pexels-wdnet-106344
Alles wat je moet weten over de meetproblemen in Google Analytics
Blog
Maxlead
Maxlead
Maxlead - AB-6W9A7726_Abovo Maxlead klantendag 2024
Abovo Maxlead viert 25-jarig jubileum
Blog
Maxlead
Maxlead
Maxlead - view-man-handling-money-funds-wealth-prosperity
Attributie: pas op, reken jezelf niet rijk!
Performance Marketing
Blog
Maxlead
Maxlead
Maxlead - Google_Update_OGT_1200x627
Websites worden hard geraakt door Google Updates. Is er nog hoop?
SEO
Blog
Nina
Nina
Maxlead - uitgelicht-Behoud third party cookies
Van uitstel komt afstel: third-party cookies blijven in Chrome
SEA
Blog
Lois
Lois
Maxlead - NIMA-marketing
Nima Marketing Day: de kracht van een slecht idee
Performance Marketing
Blog
Martine
Martine
Nieuwsbrief
Ontvang het laatste nieuws uit de wereld van een dynamisch online marketingbureau.
We mailen je maximaal één keer per maand.

Kunnen wij je helpen?

ik wil graag