Een robots.txt is een .txt bestand, geplaatst in de root van een website, waarin staat welke directories, pagina’s en bestanden een zoekmachine niet mag crawlen. Instructies die in een robots.txt bestand kunnen staan zijn:
User-agent: * User-agent: Googlebot User-agent: Slurp! User-agent: Bingbot User-agent: Duckduckbot Disallow: / Disallow: /personal/ Disallow: /private-file.htm Sitemap: https://domein.com/sitemap.xml | Geldt voor alle spiders Google spider Yahoo spider Bing spider Duckduckgo spider Sluit hele website af Sluit directory uit Sluit een pagina uit Verwijzing naar sitemap |
Achter het commando hoort altijd een spatie te staan. Wil je een gehele directory uitsluiten? Maak dan gebruik van een trailing slash (/) achter de naam van de directory. Alle bestanden en directories die niet in de robots.txt voorkomen zullen door een zoekmachine spider gecrawled worden.
In de robots.txt kunnen ook bepaalde wildcards gebruikt worden voor het uitsluiten van URL’s met een bepaald teken of het uitsluiten van bepaalde extensies. Wil je alle URL’s met een vraagteken er in uitsluiten? Maak dan gebruik van de volgende opdracht:
- Disallow: /?*
En voor het uitsluiten van bijvoorbeeld .GIF bestanden geldt:
- Disallow: /*.gif$