Noindex, robots.txt en canonical

Laat niet alles indexeren en crawlen: noindex, robots.txt en canonical

Je kunt Google (en andere zoekmachines) opdracht geven bepaalde content niet te indexeren of te crawlen. Denk bijvoorbeeld aan het admin-gedeelte van je website. Niet erg relevant voor een zoekmachine. Of pagina’s met zoekresultaten op de site. Bezoekers willen na Google namelijk niet terechtkomen op een nieuwe lijst met zoekresultaten.

Er zijn verschillende manieren om Google te vertellen wat je niet wilt laten indexeren en crawlen. Hieronder behandel ik kort noindex, robots.txt en canonical.

Verschil tussen indexeren en crawlen

Maar eerst: wat is het verschil tussen indexeren en crawlen?

  • Indexeren: Google bezoekt je website en onthoudt de url’s, niet de inhoud
  • Crawlen: Google bezoekt je website en laat ook alle content op de pagina’s meetellen voor de pagerank

Noindex tag

Wil je een pagina niet laten indexeren, dan kun je kiezen voor noindex. Deze meta tag zet je in de <head> van een pagina. De code ziet er als volgt uit:

<meta name=”robots” content=”noindex” />

Noindex laat robots wel de inhoud crawlen. Google volgt dus alle links en geeft daarvan de seo-waarde/link juice door. Maar de url verdwijnt meteen uit het geheugen. De pagina verschijnt dus ook niet tussen de zoekresultaten. Het kan trouwens even duren voordat de pagina uit de resultaten verdwijnt. Dit is afhankelijk van de regelmaat waarmee Google je website bezoekt.

Noindex, nofollow

Wil je niet dat Google de links op een pagina laat meetellen voor de pagerank? Dan moet je nofollow toevoegen aan de tag. Dan krijg je dit:

<meta name=”robots” content=”noindex, nofollow” />

Heb je erg veel pagina die je niet wilt laten indexeren, dan is de noindex tag niet erg handig. Je moet dan namelijk op al die verschillende pagina’s de <head> aanpassen. Als administratie niet je hobby is, moet je niet voor noindex kiezen.

Robots.txt (Disallow/allow)

Wil je hele secties van je website niet laten crawlen door Google, maak dan een bestand met de titel robots.txt. Een heel simpel txt-bestandje dat je gewoon met het Kladblok kunt maken. Je plaatst het bestandje in de root van je website. Je kunt hierin trouwens ook een verwijzing opnemen naar sitemap.xml, een ander bestand in de root, waarmee je aangeeft welke content je juist wél wilt laten meenemen. De inhoud van robots.txt kan er zo uitzien:

User-agent: *
Disallow: /map-die-je-wilt-afschermen/
Disallow: /bestand-dat-je-wilt-afschermen.pdf
Allow: /map-die-je-wilt-afschermen/bestand-dat-je-juist-niet-wilt-afschermen.html

wel-indexeren-niet-crawlenLet op: ook al weet Google dat je iets niet wilt laten crawlen, dan nog kan de pagina naar boven komen in de zoekresultaten. Niet crawlen betekent namelijk niet automatisch niet laten indexeren. Dan zie je dus een pagina tussen de zoekresultaten, maar dan zonder een meta description (omschrijving), want die liet je niet crawlen. Een beetje verwarrend, maar het kan.

Wil je dat de pagina niet op de zoekresultatenpagina terechtkomt? Pas dan noindex toe.

Elk subdomein eigen robots.txt

Heeft de site ook een of meerdere subdomeinen (bijvoorbeeld blog.website.nl)? En wil je ook hier de vindbaarheid aanpassen? Maak daar dan een apart robots.txt voor.

Canonical tag

Heb je meerdere pagina’s met dezelfde content, duplicate content dus, dan krijg je dikke strafpunten van Google. Dat kost je je pagerank en dat wil je niet. Met de canonical tag vertel je aan Google aan welke van die pagina’s je pagerank wilt laten toekennen. De canonical tag zet je in de <head> van de pagina die je wilt laten meetellen en ziet er zo uit:

<link rel=”canonical” href=”http://www.website.nl/beste-pagina” />

Over de auteur: Erik van Laar

Sinds begin 2011 werk ik als webredacteur bij Presenter op het gebied van social, seo, contentmigratie en webredactie. Van tijd tot tijd blog ik over ontwikkelingen die mij hierin opvallen. Opgeleid tot journalist en een grote passie voor taal. Ik heb diverse interessante opdrachten mogen uitvoeren voor uiteenlopende klanten. Nonprofit: Rijkswaterstaat, Gemeente Den Haag. Profit: BAM, E.ON, OHRA, SNS Bank.

Tags: Google, canonical, crawlen, indexeren, nofollow, noindex, pagerank, robots.txt



5 reacties op dit artikel
  • David Hulshuis zegt:

    Door met robots.txt, sitemap en metatags te bepalen wat wel en niet geïndexeerd wordt, zorg je ook dat je zorgvuldig gecreëerde topcontent niet beconcurreerd wordt in de zoekresultaten door minder sterke pagina’s op je eigen site. Dubbel de moeite dus.

  • Nopicturesplease zegt:

    Mijn werkgever plaats mijn foto op de website. Ik wil dat mijn foto uitsluitend zichtbaar is op onze website. Welke methode(s) kunnen we gebruiken om ervoor te zorgen dat mijn foto niet door alle zoekmachines geplaatst/zichtbaar is op internet?
    robots.txt disallow en/of

    • David Hulshuis zegt:

      Hoi. Als het om een specifieke foto gaat is het het makkelijkste om dat te doen via robots.txt. Je neemt dan bijvoorbeeld op in robots.txt:

      User-agent: *
      Disallow: /afbeeldingen/mijn-profielfoto.jpg

      Wil je het voor alle personeelsfoto’s doen, dan zou je die foto’s in een aparte submap kunnen plaatsen en die hele submap uitsluiten voor Google en andere crawlers:

      User-agent: *
      Disallow: /afbeeldingen/personeel

      In de voorbeelden heb ik alle user agents getartget. Je kunt hem ook specifiek instellen voor een bepaalde crawler, “Googlebot-Images” bijvoorbeeld.

      Hiermee voorkom je de meeste indexeringen; maar het is geen garantie dat je foto niet geindexeerd wordt. Sommige crawlers volgen je robots.txt bestand niet op. Als je echt niet wil dat een foto gevonden wordt, moet je hem niet online zetten.

  • Carlijn zegt:

    Interessant artikel! Ik wil voor mijn blog bepaalde artikelen niet laten indexeren, maar dan gaat het eigenlijk vooral/alleen om de foto’s in die artikelen. Hoe pak ik dit aan? Ik heb nu bij de specifieke blogposts in de HTML-editor de tag toegevoegd. Is dit de manier?

  • Jasper zegt:

    Leuk artikel.. Nu laat ik op onze site de ‘Tags’ niet indexeren door Google.. Omdat we bang zijn dubbele content te genereren.. Is dat eigenlijk wel zo? Of missen we nu ongekend veel kansen?

Reageer op dit bericht

* Verplicht
** Verplicht, maar wordt niet getoond