Omslag van 'SEO voor de non-profit (beta-release)'

4. Factor 1: Indexeerbaar

Zodra Google op je site komt kijkt hij eerst naar algemene instructies om de site te spideren en vervolgens per pagina naar instructies hiervoor.

4.1 Indexeerbaar: de 1e factor in het 3-factorenmodel

Alles start met het feit dat zoekmachines jouw site ook kunnen vinden en indexeren. Daarom is de 1e factor die we bespreken de indexeerbaarheid van je website.

4.2 Informatie over je website

In de eerste plaats vertel je Google op welke manier jouw site geïndexeerd moet worden. Dat doe je met 2 bestanden:

  • robots.txt
  • sitemap.xml

Nadat Google weet wat hij moet doen op site-niveau, bekijkt hij wat hij moet doen op pagina-niveau. Daarbij kijkt hij naar het volgende:

  • statuscode of responscode
  • metatag robot
  • canonical

4.3 robots.txt

Het bestand robots.txt gebruik je om aan zoekmachines duidelijk te maken welke delen van de site NIET geïndexeerd moeten worden.
Het bestand staat in de root van je site. Bij The Internet Academy staat het bijvoorbeeld op www.theinternetacademy.nl/robots.txt.
Een voorbeeld van zo'n bestand is:

User-agent: * Disallow: /nieuwesite Disallow: /service

Met deze code geven wij het volgende aan:

  • De informatie geldt voor alle zoekmachines (user-agents = zoekmachines, * =alle)
  • Directories die niet geïndexeerd mogen worden zijn “nieuwesite" en “service".

Het bestand is alleen nodig als je wilt dat bepaalde directories van je site NIET bezocht moeten worden. Het bestand gebruikt de Robots Exclusion Standard.

Naast robots.txt kun je ook de metatag robots in de pagina zelf gebruiken. Daarmee informeer je zoekmachines op het niveau van de pagina, terwijl je met robots.txt deze informatie geeft op het niveau van een directory.

Let er op dat je met robots.txt niet voorkomt dat de directories niet geïndexeerd worden. Als er bijvoorbeeld links naar pagina's in deze directories staan, dan worden deze pagina's wel geïndexeerd. Met de metatag robots voorkom je wel dat een pagina geïndexeerd en daarmee vindbaar wordt.

4.4 Metatag robots

Deze tag gebruik je als je wil dat een zoekmachine iets niet doet. Hieronder een voorbeeld van de code.

<meta name="robots" content="noindex, nofollow">

In dit voorbeeld is de wens dat zoekmachines de pagina NIET indexeren (noindex) en de links in de pagina NIET volgen (nofollow).

De meta-tag robots geeft onder andere de volgende informatie aan zoekmachines:

  • Indexeer deze pagina wel of niet.
  • Volg wel of niet de links op deze pagina.

Als je wilt dat de pagina gewoon geïndexeerd wordt en dat links in de pagina gewoon gevolgd worden, dan kun je de tag weglaten.

Er zijn 2 belangrijke verschillen tussen de metatag robots en het hiervoor besproken bestand robots.txt:

  1. robots.txt gebruik je voor volledige directories. De metatag robots geeft alleen informatie over de pagina waar de tag in staat.
  2. Pagina's van een directory die via de robots.txt uitgesloten zijn, kunnen toch door Google geïndexeerd worden, als er naar de pagina's wordt gelinkt. Staat er een metatag robots die aangeeft dat de pagina niet geïndexeerd mag worden, dan gebeurt dat ook niet.

Wil je dus dat een pagina echt niet geïndexeerd wordt, geef dit dan aan met de metatag robots.

Het nadeel van zo'n metatag is dat je deze op elke pagina moet toevoegen die je niet wilt indexeren. Wil je het voor je hele site of een hele directory dan kan je dit in de template van de pagina's zetten. Ook kan het handig zijn om de HTTP-header X-Robots-Tag te gebruiken, zie verder.

4.5 HTTP-header X-Robots-Tag

Deze tag is handig als je een reeks van pagina's of een hele directory wilt uitsluiten van Google.

Deze werkt op dezelfde manier als de metatag robots. We gaan hier verder niet op. Meer informatie vind je op HTTP-header X-Robots-Tag gebruiken.

4.6 HTTP responscodes

Als iemand een pagina opvraagt, dan reageert de server met een statuscode of responscode, een zogenaamde HTTP responscode. Als een pagina wordt opgevraagd die bestaat, dan reageert de server met een responscode 200 OK. Dat is voor zoekmachines een positief signaal: de pagina bestaat.

Meer hierover vind je op HTTP-statuscodes.

4.7 sitemap.xml

Met het bestand sitemap.xml vertel je aan zoekmachines hoe de structuur is van je website.

Google beschrijft de werking als volgt:

Een sitemap is een bestand waarin je informatie verstrekt over de pagina's, video's en andere bestanden op je site en de onderlinge relaties. Zoekmachines zoals Google lezen dit bestand om je site op een intelligente wijze te crawlen. Via een sitemap laat je Google weten welke pagina's en bestanden op je site jij belangrijk vindt. Verder biedt een sitemap waardevolle informatie over deze bestanden. Zo kun je in het geval van pagina's informatie verstrekken over wanneer de pagina voor het laatst is geüpdatet, hoe vaak de pagina is gewijzigd en of er alternatieve taalversies van de pagina beschikbaar zijn.

Je kunt een sitemap maken op basis van het sitemapprotocol.

Elke keer dat je pagina's maakt of verwijdert moet je dit bestand bijwerken. Het is daarom handig om een dynamische sitemap te gebruiken. Deze is steeds bijgewerkt naar de huidige structuur van je website.

4.8 Canonical

Als je 2 pagina's hebt met (bijna) dezelfde content, dan moet je aangeven welke pagina voor jou de belangrijkste is. Dat doe je door op de andere pagina het canonical-attribuut te plaatsen in het link-element. Als je dat niet doet, dan ziet Google 2 pagina's met dezelfde content en geeft beide pagina's een lagere indexwaarde mee, dan wanneer het maar 1 pagina zou zijn.

Stel je hebt 2 pagina's met dezelfde content: pagina1.html is de belangrijkste, pagina2.html is minder belangrijk, dan zet je in pagina 2 de volgende code:

<link rel=”canonical” href=”www.voorbeeld.nl/pagina1.html”>

Hieronder een voorbeeld van een gemeente. Zij hebben het idee dat het handig is om een onderscheid te maken tussen de doelgroepen 'Inwoners' en 'Bezoekers'. Dat resulteert in een dilemma: moet bepaalde informatie nu bij inwoners of bezoekers? Bijvoorbeeld bij informatie over de weekmarkt:

gemeente-x.nl/inwoners/weekmarkt_1073.html
gemeente-x.nl/bezoeker/weekmarkt_1073.html

Hun oplossing: we zetten de pagina er 2 keer in. In dat geval moeten ze bij 1 van de pagina's een canonical plaatsen. Veel beter is om dit soort duplicate content te voorkomen. In dit geval is de indeling op doelgroep niet verstandig.

top

Was dit nuttig?

Feedback

Contact

Vul dit in als je wil dat we contact met je opnemen.