Waarom is robots.txt belangrijk voor SEO?
Zoekmachines sturen bots – ook wel crawlers genoemd – naar je website om de inhoud te analyseren en op te slaan in hun index. Die index bepaalt wat er verschijnt in de zoekresultaten. Maar je wilt niet dat alles wat op je server staat zichtbaar wordt. Sommige pagina’s zijn bijvoorbeeld technisch, tijdelijk of gevoelig van aard. Met een robots.txt-bestand geef je aan welke delen van je site niet bedoeld zijn voor indexatie of crawlen.
Een goed ingestelde robots.txt helpt je om crawlbudget te besparen, voorkomt duplicatie van content en beschermt pagina’s die niet openbaar hoeven te zijn. Maar pas op: een verkeerd geconfigureerd bestand kan er ook voor zorgen dat belangrijke pagina’s uit de zoekresultaten verdwijnen.
Hoe werkt het robots.txt-bestand?
Het robots.txt-bestand staat altijd op de hoofdlocatie van je website (bijvoorbeeld: jouwwebsite.nl/robots.txt) en bestaat uit eenvoudige tekstregels. Elke regel bestaat uit een ‘user-agent’ (de bot waarvoor de regel geldt) en een instructie, zoals ‘disallow’ of ‘allow’. Een voorbeeld:
User-agent: *
Disallow: /admin/
Allow: /blog/
In dit voorbeeld geef je alle bots (User-agent: *) de instructie dat ze de admin sectie niet mogen crawlen, maar de blog wel.
- Disallow: blokkeert toegang tot specifieke mappen of pagina’s
- Allow: staat toegang toe, zelfs binnen een geblokkeerde map
- User-agent: specificeert voor welke bot de regels gelden (zoals Googlebot)
- Sitemap: geeft de locatie van je XML-sitemap aan voor betere indexatie
Deze instructies worden over het algemeen gerespecteerd door zoekmachines, maar ze zijn niet juridisch bindend. Kwaadwillende bots kunnen ze negeren – voor echte beveiliging moet je serverinstellingen gebruiken.
Wanneer gebruik je robots.txt?
Er zijn verschillende situaties waarin een robots.txt-bestand nuttig is. Denk aan:
- Het uitsluiten van technische mappen zoals /cgi-bin/ of /wp-admin/
- Het voorkomen dat filterpagina’s, sorteeropties of zoekresultaten geïndexeerd worden
- Het sturen van bots naar de juiste sitemap
- Het uitsluiten van staging- of testomgevingen tijdens ontwikkelwerk
- Het beschermen van privacygevoelige documenten of paginatypes
Voor een lokale SEO-aanpak – zoals bij SEO in Rotterdam – kan robots.txt ook worden gebruikt om irrelevante URL’s buiten de index te houden, zodat Google zich richt op de content die telt.
Wat moet je vooral níet doen met robots.txt?
Een veelgemaakte fout is het gebruiken van robots.txt om pagina’s uit de zoekresultaten te houden. Maar als je een pagina blokkeert voor crawlers, kan Google die pagina wel nog tonen – zonder beschrijving – als er externe links naar verwijzen. Wil je een pagina écht uitsluiten van indexatie? Gebruik dan een ‘noindex’ meta tag in de HTML, niet robots.txt.
Ook komt het voor dat belangrijke pagina’s per ongeluk worden uitgesloten, bijvoorbeeld door een regel als:
Disallow: /
Die blokkeert de héle site – wat funest is voor je vindbaarheid. Wees dus voorzichtig en test altijd of je instellingen kloppen.
Hoe test je je robots.txt-bestand?
Je kunt je robots.txt-bestand testen via Google Search Console, waar je exact ziet welke URL’s wel of niet toegankelijk zijn voor de Googlebot. Ook kun je de ‘Inspectie’-tool gebruiken om te controleren hoe Google een specifieke pagina crawlt.
In Bing Webmaster Tools is een vergelijkbare functionaliteit aanwezig. Dit helpt om fouten vroegtijdig te detecteren voordat ze je zichtbaarheid beïnvloeden.
Wat is het verschil tussen robots.txt en meta robots?
Robots.txt bepaalt of bots een pagina überhaupt mogen bezoeken. Meta robots (een stukje code op de pagina zelf) bepalen of een pagina mag worden geïndexeerd of gevolgd. Je kunt dus een pagina toestaan om gecrawld te worden, maar alsnog met ‘noindex’ uitsluiten van de zoekresultaten – en andersom.
Beide methoden vullen elkaar aan. Voor gevoelige content gebruik je liever meta robots, terwijl je met robots.txt grotere delen van je site beheert.
Wie beheert het robots.txt-bestand?
In de meeste gevallen ligt het beheer bij de webdeveloper of SEO-specialist. In WordPress kun je via plugins zoals Yoast SEO of Rank Math bepaalde delen van het robots.txt-bestand aanpassen. Bij custom websites moet je via FTP of je hostingpaneel toegang hebben tot de rootdirectory.
Het is slim om wijzigingen altijd met zorg en overleg door te voeren. Eén fout kan grote gevolgen hebben voor je indexatie en vindbaarheid.
Samenvattend
Robots.txt is een klein maar krachtig bestand waarmee je zoekmachinebots vertelt welke delen van je website ze wel of niet mogen crawlen. Het helpt je bij het beheren van indexatie, het optimaliseren van je crawlbudget en het beschermen van pagina’s die niet publiek hoeven te zijn. Gebruik het zorgvuldig, test je instellingen, en zie het als een onmisbare schakel binnen een doordachte SEO-structuu