zaterdag 14 juli 2018

Duplicate content (dubbele content) en hoe die te vermijden

Duplicate content, wat is dat precies?

Als blokken content – en dan vooral tekstcontent – op verschillende plaatsen op het internet voorkomen, identiek of grotendeels identiek, dan hebben we het over dubbele content of duplicate content. Die verschillende plaatsen op het internet zijn verschillende url’s, ofwel binnen dezelfde website (dan is de domeinnaam hetzelfde, bv. https://www.domeinnaam.nl/webpagina1.html en https://www.domeinnaam.nl/identiek-aan-webpagina1.html) ofwel op verschillende websites (bv. https://www.website1.nl/webpagina1.html en  https://www.website2.nl/identiek-aan-webpagina1.html).

Maar daar houdt het niet op. Soms bestaat er van een website zowel een versie met ‘www.’ als zonder, met (grotendeels) dezelfde content. Ook dat is duplicate content. Idem als er een versie met http:-protocol bestaat van een website, naast een versie met https:-protocol.


Soms is duplicate content over verschillende websites onvermijdelijk

Daar worstelen webshops wel eens mee, als ze technische of andere content letterlijk overnemen van de website van de leveranciers van hun producten. In de praktijk herkent Google deze situaties goed en beschouwt de zoekmachine dat niet als duplicate content. Maar de url’s met de content van de leverancier zijn dan wel de originelen en normaal gezien komen die hoger terecht in de zoekresultaten. Om toch goed te scoren, zullen webshopeigenaren moeten inzetten op extra unieke content om hun webpagina’s te optimaliseren.
Hetzelfde geldt voor persberichten die op verschillende websites worden overgenomen en zelfs voor blogberichten: zolang Google het origineel maar kan identificeren is er weinig aan de hand.


Waarom doet Google moeilijk over duplicate content?

Voor zoekmachines als Google staat iedere url voor een aparte webpagina. Twee of meer url’s met nagenoeg identieke content, daar houdt Google niet van. Dat is niet alleen omdat gedupliceerde content wel eens ingezet wordt om de zoekresultaten te proberen manipuleren – dat lukt tegenwoordig toch niet meer, Google is intussen zoveel slimmer geworden. 
Belangrijker is dat Google een keuze moet maken: welke pagina krijgt de hoogste positie in de zoekresultaten? De pagina’s vlak bij elkaar plaatsen, dat is geen optie: Google-gebruikers die op een link klikken, de content checken, teruggaan naar de zoekresultaten, op de volgende link klikken en dan dezelfde content te zien krijgen, hebben een slechte gebruikservaring, zoals Google dat noemt. Dat probeert de zoekmachine te vermijden.

In het beste geval zorgt Google ervoor dat de ene pagina of url – meestal de oudste – de normale, verdiende positie krijgt en dat de pagina of url met gedupliceerde content pas enkele pagina’s met zoekresultaten later verschijnt. En als er opvallend veel url’s zijn met duplicate content, zeker binnen dezelfde website, wordt Google helemaal achterdochtig en kan de waardering voor de hele website erop achteruitgaan.


Een goed idee: een heleboel websites met verschillende domeinnamen maar met identieke content?

Er zijn website-eigenaren die denken dé oplossing te hebben om de eerste pagina met zoekresultaten in Google te domineren: gewoon een website met geweldig goede content voor de belangrijkste keywords en daarna die content gebruiken in 9 andere websites, met andere domeinnamen. “En dan staat mijn website verschillende keren op de eerste pagina in Google voor die keywords, misschien wel 10 keer. Geweldig, alle bezoekers komen op een website van mij terecht!” Dat lukt dus niet. 
Met wat geluk raakt de oudste website hoog genoeg in Google, maar alle andere worden door de zoekmachine gegarandeerd naar beneden geduwd, meestal verschillende pagina’s tegelijk.


Gedupliceerde content ‘per ongeluk’

Een paar gevallen waarbij website-eigenaars met de beste bedoelingen worstelen met gedupliceerde content:


1. Een nieuwe website met een nieuwe domeinnaam

Soms is een ingrijpende vernieuwing van een website niet te vermijden, bijvoorbeeld als je die mobielvriendelijk wilt maken. Soms kiezen mensen dan meteen voor een nieuwe domeinnaam. De eerste gedachte is dan vaak: “Ik laat de oude website online. Als ik de nieuwe dan online zet, zal die langzaam stijgen in de zoekresultaten tot die de oude inhaalt.” Jammer genoeg denkt Google er zo niet over en zal de nieuwe website altijd tot tientallen posities achter de oude aan blijven strompelen. 
Als je website voor belangrijk keywords al goede posities heeft in Google, is veranderen van domeinnaam eigenlijk nooit het beste idee: de kans is reëel dat je die goede posities onherroepelijk kwijtspeelt. Maar soms zit er niets anders op. In dat geval is het een beter idee om wel de url’s van de oude website te laten bestaan, ZONDER de oorspronkelijke content, maar daar een permanente redirect (301) op te zetten naar de overeenkomstige url van de nieuwe website.

Als het goed gaat, pikt Google na een tijdje op dat de oude url in de praktijk vervangen is door de nieuwe en maakt de zoekmachine zelf de switch. Let op: het lukt niet altijd, en als het wel lukt, zullen de posities wellicht behoorlijk schommelen. 
Eigenlijk is het een beter idee om, bij het opzetten van een nieuwe website, van de gelegenheid gebruik te maken om ook de tekstcontent flink te optimaliseren.


2. Van een www.-website overschakelen naar eentje zonder, of van het http:-protocol naar het https:-protocol

Het www.-verhaal lijkt intussen iets van het verleden en browsers zijn tegenwoordig slim genoeg om zelf die prefix toe te voegen als dat überhaupt nodig is. Maar vaak willen website-eigenaren van die ‘www.‘ af, en dan kiezen ze ervoor hun www.-website online te houden, naast een identieke versie zonder ‘www.‘. Idem als ze willen overschakelen van een website met http:-protocol naar eentje met het veiligere https:-protocol.

In beide gevallen krijg je hetzelfde verhaal als hierboven: Google ‘ziet’ twee verschillende url’s, eentje met ‘www-‘ en eentje zonder, en geeft een hogere waardering aan de oudste, die met ‘www.”, terwijl de website-eigenaar net wil dat die zonder ‘www.’ bovenaan staat. Idem voor http: versus https:. Ook in die gevallen is het beter om de url’s met ‘www’ en die met ‘http:” te laten bestaan ZONDER content en MET een permanente redirect naar de versies zonder ‘www.’ of met ‘https:’. Maar ook hier: schommelingen in de posities zijn niet uit te sluiten.


3. Onvermijdelijke duplicate content binnen je website/webshop

Soms is het onvermijdelijk dat er verschillende webpagina’s met zo goed als identieke content op je website staan, zeker bij webshops. Dat kan te wijten zijn aan je CMS (content management system): niet alle systemen kunnen duplicate content even goed vermijden. Maar er zijn nog een heleboel andere situaties te verzinnen waarbij duplicate content moeilijk tegen te gaan is. 
Geen nood, dat is op te lossen met de zogenaamde ‘canonical’-tag, maar daarover meer in een later blogbericht.

De canonical-tag 1/3: De theorie

Waarom een canonical-tag? Google houdt niet van gedupliceerde content, of die nu op verschillende websites staat of op dezelfde. Maar so...