Website architectuur of de structuur van je website is erg belangrijk voor Google. Zeker als je goede scores wenst te behalen met specifieke trefwoorden & onderliggende pagina´s.
Google indexatie
Nieuwe inhoud wordt dagelijks gegenereerd. Google wordt geconfronteerd met bijna oneindige hoeveelheden inhoud die online beschikbaar zijn. Ondanks het groot aantal middelen en resources is Googlebot, de spider van Google, in staat om slechts een klein percentage van deze inhoud te vinden, te doorzoeken en op te nemen in de index.
Crawlen & spideren is hetzelfde
Er is veel verwarring tussen crawlen & spideren, omdat Google deze 2 termen dikwijls tezamen gebruikt. Daarom willen we dit graag even uit de doeken doen.
Crawlen/spideren = vinden, doorzoeken en indexeren = Googlebot.
Prioriteiten van de crawler of spider:
- Crawlen van nieuwe inhoud
- Oude data vervangen door nieuwe
- De relevante data wordt geïndexeerd = het opnemen van relevante inhoud in de index
Aan deze inhoud worden er punten toegekend door het algoritme van Google. Op basis van dit puntensysteem (hiermee bedoelen we geen PageRank) of algoritme worden er posities toegekend aan die specifieke inhoud.
Duplicated content wordt genegeerd (er wordt telkens maar 1 exemplaar geïndexeerd – dewelke kiest de spider zelf). Het is aan de webmaster om ervoor te zorgen dat er geen duplicated content is.
URL´s zijn als bruggen voor de crawler
Een URL wordt aanzien als een brug tussen de website en de crawler. Deze laatste heeft die brug nodig om de relevante inhoud te vinden en te doorzoeken.
Indien de URL´s ingewikkeld of overbodig lijken zal de crawler meer tijd besteden aan het opsporen en heropsporen. Als de URL´s gestructureerd en goed zijn opgebouwd zal hij jouw site veel makkelijker begrijpen. Wanneer de URL een warboel is zal de crawler moeite hebben om een structuur te vinden in je site.
Googlebot zal op enkel maar ´losstaande´ pagina´s terugvinden. Op zich niet erg zou je denken, maar weet gewoon dat als je goede URL´s hebt met trefwoorden er in, dat dit een grote meerwaarde is voor de zoekresultaten. Hij kan zowel de URL als de tekst gaan gebruiken om de plaats in de zoekresultaten te bepalen. Dit zal natuurlijk veel beter zijn ten opzichte van een slecht opgemaakte URL.
Maak de toegang tot inhoud makkelijk(er) voor de crawler
1. Vermijd alternatieve codes & parameters in de URL
Voorbeeld:
- shop.example.com/items/Periods-Styles_end-table_W0QQ_catrefZ1QQ_dmptZAntiquesQ5fFurnitureQQ_flnZ1QQ_npmvZ3QQ_sacatZ100927QQ_trksidZp3286Q2ec0Q2em282
- www.example.com/ABN/GPC.nsf/MCList?OpenAgent&expand=1,3,15
Het gebruik van alternatieve codes en parameters zoals session ID´s in URL´s zijn geen aanrader. Deze kunnen beter vervangen worden door bijvoorbeeld een cookie. Door deze informatie in een cookie te steken en vervolgens via een 301 redirect naar een gestructureerde URL om te leiden vermindert u het aantal URL´s die verwijzen naar dezelfde inhoud. Een welgekend voorbeeld is een webshop. Bij sommige webshops heb je meerdere URL´s voor 1 product. Hou er rekening mee dat 1 product eigenlijk maar 1 URL mag hebben.
2. Verwijder specifieke gebruiker details in URL´s
Voorbeeld:
- www.example.com/cancun+hotel+zone-hotels-1-23-a7a14a13a4a23.html
- www.example.com/ikhgqzf20amswbqg1srbrh55/index.aspx?tpr=4&act=ela
Zulke URL´s zijn zeer moeilijk te crawlen. In plaats daarvan, vervang de getallen of codes door een naam of trefwoord.
Voorbeeld:
- www.example.com/skates/riedell/carrera/
- www.example.com/skates.php?brand=riedell&model=carrera
3. Optimaliseer dynamische URL’s
Dynamische URL´s kunnen namen en/of sleutelwoorden bevatten die door de Google crawler makkelijker toegankelijk zijn en worden begrepen. Enkele jaren terug zei men dat Google geen dynamische URL´s kon lezen, maar niets is minder waar.
Voorbeeld:
- www.example.com/skates.php?brand=riedell&model=carrera
4. Optimaliseer dynamische URL’s
Via een robots.txt file, die je plaatst in de root van je website, kan je Googlebot & andere zoekmachine spiders verbieden om bepaalde mappen en/of pagina´s als ´Add to cart´, ´Contact us´, login, enz. te spideren. Dit zijn pagina´s die helemaal geen unieke en/of relevante inhoud bevatten en zo hoeft Googlebot hier ook geen aandacht aan te besteden.
5. One man, one vote – 1 URL, 1 blok unieke inhoud
In een ideale wereld, wat helemaal niet moeilijk is, is een 1-op-1 koppeling tussen de URL en de inhoud: elke URL leidt tot een uniek stuk inhoud, en elk uniek stuk inhoud kan worden bereikt door 1 URL. Hoe meer je dit kan toepassen, hoe beter en hoe meer gestroomlijnd het crawlen zal verlopen.
Als dit voor je website moeilijk te verbeteren valt, dan kan je steeds gebruik maken van de nieuwe canonical attribuut. Dit element kan je door onderstaand voorbeeld telkens in de header (<head></head>) van je pagina te gaan toepassen:
<link rel="canonical" href="http://www.example.com/skates/riedell/" />
Hierdoor geef je aan dat het originele stukje unieke inhoud op die pagina staat binnen je website en dat je die pagina geïndexeerd wilt zien. Dit element wordt trouwens ook herkend door andere zoekmachines.
Tip: Plaats de canonical URL´s ook in je sitemap. Als de URL in de sitemap hetzelfde is dan de pagina naar waar jij linkt, dan hoeft dit niet natuurlijk. Enkel en alleen als de URL in de sitemap verschillend is dan de doelpagina, dan moet je dit toevoegen.
6. Verkies de hoofddomeinnaam via Google Webmasterhulptools
Heel veel sites hebben voor iedere pagina (inclusief de homepagina) een of meerdere broertjes. Dit kan ook opgelost worden door een 301 redirect toe te passen via .htaccess, maar via Google Webmasterhulptools kan je ook de hoofddomeinnaam instellen.
Voorbeeld:
- www.example.com vs. example.com
Mijn voorkeur gaat steeds uit naar www.example.com als hoofddomeinnaam en niet:
- example.com
- www.example.com/index.html
- example.com/index.html
Do´s and dont´s
Vooraleer we dit artikel afsluiten overlopen we nog even de belangrijkste do´s and dont´s.
Do´s
- Pas gestructureerde en goed opgebouwde URL´s toe met trefwoorden
- Gebruik steeds een taaldirectory (vb. /nl/, /fr/)
- Vermijd duplicated content d.m.v. de canonical tag in de toe te voegen
- Optimaliseer indien nodig je dynmische URL´s
- Gebruik een robots.txt file om de toegang tot bepaalde mappen en pagina´s te verbieden
- Gebruik 1 hoofddomeinnaam die tegelijk dient als de homepagina. Verwijs alle andere ´homepagina´s´ via een 301 redirect naar de hoofddomeinnaam
Dont’s
- Het gebruik van alternatieve codes en parameters
- Het gebruik van specifieke user details
- Het gebruik van dubbele URL´s & duplicated content
Nieuwsbrief
Voortdurend op de hoogte van het laatste analytics en optimalisaties nieuws met onze nieuwsbrief!
Gebruik je al IdeaScale?
Deze User feedback software wordt in Nederland onder andere gebruikt door
Lees meer over IdeaScaleAangeboden door AboutAnalyticsNieuwste reacties
- Alouette Edens: Bij de instellingen van AdWords staat: Bevat meervoudsvormen, spelfouten en andere sterk lijkende varianten Maar ik...
- Alouette Edens: Ik heb nog geen resultaten jammer genoeg. Medio mei zou deze aanpassing doorgevoerd worden. Ik heb net nog gekeken maar...
- André Scholten: En nog een tip: https://developers.google.com/analytics/community/gajs_changelog ...
- Erwin: Bedankt voor je uiteenzetting. Ik heb echter begrepen dat de nieuwe Exact match vooral misspellingen (vacantie/vakantie)...
19 reacties
Wat de link met webanalyse hiermee is, vind ik lastig te zien. Het is een SEO artikel, dat netjes de Google Webmaster Guidelines samenvat.
Volgens mij had er meer ingezeten als je eens ging uitleggen hoe je al die toegevoegde parameters voor Google Analytics, Yahoo Analtyics, SiteStat en Omniture nu eens nuttig kon inzetten en daarmee dup. content kon voorkomen, maar wie weet is dat wat voor de volgende keer!
quote: “Vermijd duplicated content d.m.v. de canonical tag in de toe te voegen”
in de wat?(rel) misschien handig als dat er ook bij vermeld wordt in deze samenvatting
@Roy, het klopt wat je zegt, de next step (inzage in webanalytics pakketten) is zeer interessant, maar het begint met de theorie. De koppeling met analytics is niet lastig, search maakt een groot deel uit van al het verkeer, het verbeteren van je site voor search vind ik daarom prima te scharen onder web analyse -> website optimalisatie.
Zoals je ziet geeft dit artikel direct weer stof tot nadenken en vervolgartikelen die meer raakvlak hebben met analytics
@Mark daar was wat fout gegaan met de html tags in de tekst, heb het aangepast. Tx voor het opmerken.
@reinout, daar ging ik ook wel beetje vanuit, maar ik zou er wel voor zorgen dat de link met analytics gelegd blijft, want er zitten zeker leuke onderwerpen over te vinden.
@Mark, dit element kan je door onderstaand voorbeeld telkens in de header () van je pagina te gaan toepassen.
De opbouw van een url is voor een crawler overigens niet moeilijk of makkelijker. Simpelweg gezegd zal een spider een browser mimieken, de url opvragen en de ontvangen content analyseren op inhoud.
Wat wel zo is, dat een complexe url zonder zinnige keywords geen relevantie kent voor zoekopdrachten waarmee je een waarde voor hogere ranking verliest.
Er was inderdaad een tijd dat men dacht dat urls met variabelen niet goed geindexeerd werden, dit is voor Google nooit zo geweest. Ook is gezegd dat dergelijke url’s lager geranked werden en dat men een folderstructuur moest gebruiken (mod rewrite techniek).
Voor beide geldt: overdaad schaadt: teveel variabelen, teveel folders zal de weging van de url verlagen.
Overigens zijn de termen spider/crawlen/indexeren het volgende:
spider/crawler is de software die urls uitvoert en de inhoud ophaalt. Deze software heet GoogleBot.
indexeren is het verwerken van de opgehaalde inhoud en opnemen in de zoekindex zodat het gevonden kan worden.
“Duplicated content wordt genegeerd (er wordt telkens maar 1 exemplaar geïndexeerd – dewelke kiest de spider zelf). Het is aan de webmaster om ervoor te zorgen dat er geen duplicated content is.”
Nee, duplicate content wordt niet genegeerd, maar bij het tonen van de zoekresultaten laat Google zo min mogelijk dubbele resultaten zien. De dubbelen worden hier dus gefilterd, maar niet genegeerd en dus wel geïndexeerd.
En punt 6 zou ik liever met een goede redirect oplossen. Dat is verreweg de beste oplossing, er is meer dan alleen Google. En waarom gaat jouw voorkeur uit naar de versie inclusief www?
En waar komt de volgende “DO” vandaan? Je noemt hem in het hele artikel niet?:
“Gebruik steeds een taaldirectory (vb. /nl/, /fr/)”
Wat misschien belangrijk is om te vermelden is dat Google de structuur van een website niet bepaald via URL’s maar door middel van de interne links.
Nog beter is het gebruik van een unieke ccTLD (country code top-level domain) in plaats van een “taaldirectory”.
Om de link met analytics dan maar te maken:
Waar denk je dat meer bezoekers komen of waar bezoekers zich ‘prettiger’ voelen:
a) Site als http://www.site.com/coole_producten/kaassschaaf/?server=aASDdgjdFbaCVuiKgn&last=vlneuLsHyoOtvOXEcHvFPFRuuBruB
b) Site als http://www.site.com/coole_producten/kaassschaaf/rood/
Oja, neem nog even in je achterhoofd dat campagnes als ’3x kloppen’ en ‘veilig internetten’ wijzen op het controleren van de URL.
Wat Robert aangeeft klopt als een bus, de TLD (dus .nl, .co.uk, .de, etc.) is vele malen belangijker dan een taal aangeven in de directory structuur. Sterker nog, het is volstrekt onnodig en gaat enkel ten koste van de wel te indexeren content als je de taal in de directory structuur op neemt.
Beste manier om search engines op de hoogte te stellen van land en taal is gebruik van de juiste TLD en het toevoegen van de meta http-equiv tag voor content-language in de HTML binnen de head tag en voor de title tag.
@andre, mee eens met de 301, maar het is alsnog goed om Google te vertellen wat je root is.
Allen hartelijk dank voor jullie uiteenlopende reacties & tips!
Naast het feit dat het gebruik van keywords in url’s helpen is het ook goed voor je CTR in de SERPS. Als ingevoerde keywords overeenkomen met keywords in de title, omschrijving en url tekst wordt deze dikgedrukt, wat leidt tot herkenning bij de gebruiker en meer kliks. Dus het optimaliseren van url’s is enerzijds belangrijk voor je ranking en anderzijds voor je CTR en de usability.
Wat ik nog toe zou willen voegen aan Donovan’s opmerkingen: men zegt dat naast het TLD en de meta http-equiv tag voor content-language in de HTML binnen de head tag de (fysieke) hosting locatie ook van invloed is op de ranking van taal-specifieke termen.
@steven, dat heb ik ook wel vaker gezien, maar tot nu toe heb ik er nog geen bewijs voor gezien. Misschien dat iemand hier ooit onderzoek naar heeft gedaan?
Hier staat een artikel: http://mattiasgeniar.be/2008/10/19/importance-of-hosting-location-in-seo/. Maar zonder onderbouwing. Het is wel een interessant experiment om te doen, of voor te leggen aan bijv. Rand (SEOMoz).
Goed artikel Xavier, bedankt.
Nuttige inzichten, makkelijk leesbaar en scanbaar door korte genummerder tekstblokken met tips, en afsluiting met herhaling van do’s en don’ts.
Veel blogs kunnen iets leren van jouw prettige artikelstructuur.
Ik ben bezig met een joomla site en heb via een seo extensie de optie om de secties en categorieen uit de url’s te laten. Dan zou de url dus bestaan uit:
mijndomein.nl/artikeltitel.html
Is dat de beste manier voor Google of is het beter om de secties en categorieen ook op te nemen in de url ?
gr.
mark.
Dag Mark,
De beste manier is om je artikels mooi op te delen in secties en categorieën en dus dit ook zo op te nemen in de URL vb. http://www.webanalisten.nl/analyse/search-analyse/optimaliseer-url’s-voor-google.html.
Groeten,
Xavier Maurits
Matt Cutts (Google Anti Spam Team) behandeld dit ook in het volgende filmpjes: http://www.youtube.com/watch?v=gRzMhlFZz9I en http://www.youtube.com/watch?v=Hx68PlCTuIU&feature=related . Samengevat: zorg niet voor een té lange URL structuur. Ja, het is netjes om het in te delen in categorieen/secties, maar overdrijf het niet.
Bedankt voor je snelle reply. Ik heb ergens gelezen dat de urls zo kort mogelijk moeten zijn, maar jouw benadering klinkt logischer.