11. PageRank

11.1 Inleiding

Om te bepalen of uw site voor een zoeker waarschijnlijk al dan niet belangrijk is bekijkt Google uiteraard de inhoud van uw site (daarover zijn in deze handleiding al vele opmerkingen gemaakt), maar is er daarnaast ook nog een tweede aspect waarnaar wordt gekeken. De oprichters van Google, Lawrence Page en Sergey Brin, zagen in dat als veel naar een site wordt verwezen, deze site vanuit het perspectief van de verwijzende sites waarschijnlijk een interessante site moet zijn. Zeker als de inhoud van de site van waaruit wordt verwezen ook nog eens met de door de zoeker opgegeven zoekwoorden te maken heeft. De mate waarin naar een site wordt verwezen is door Page en Brin uitgedrukt in een wiskunde via hun Pagerank-formule. ‘Link Populariteit’ gaat nog wat verder en beschouwt, naast de Pagerank, ook de context van de verwijzingen (in relatie tot de zoekwoorden).

De pagerank van een pagina zegt iets over de kans dat iemand, gegeven de wijze waarop Internetpagina’s onderling verbonden zijn, op de pagina terecht komt. Pagerank, in tegenstelling dus tot Link Populariteit, zegt niets over zoekwoorden of de inhoud van pagina’s. Pagerank is slechts één van de factoren die Google gebruikt om het belang van een pagina te beoordelen. Pagerank is van ‘oudsher’ een belangrijk onderdeel binnen SEO. Het verdient daarom aanbeveling hier het nodige van te weten, hoewel het werkelijke belang ervan tegenwoordig ter discussie staat. Indien u zich oncomfortabel voelt met wiskundige formules en analyses kunt u deze pagina globaal doorlezen, of eventueel helemaal overslaan. Het is echter leuke materie en het zal u meer inzicht geven in de in de vorige stap beschreven adviezen rond Link Populariteit!

 

11.2 De pagerank formule

PR(A) = (1-d) + d * (PR(T1)/C(T1) + … + PR(Tn)/C(Tn))

/PR(X) = Pagerank van pagina X
C(Ti) = Het totaal aantal outbound-verwijzingen vanaf pagina Ti
d = dempingsfactor

Deze toch vrij simpele formule heeft de basis gelegd voor de in stap 1 beschreven, revolutie in zoekmachine optimalisatie-land. Is dat niet interessant? Maar wat staat er nu eigenlijk? We moeten even door wat theorie, maar hou vol.

U moet eerst weten: hoe hoger de pagerank van uw pagina, hoe belangrijker Google uw pagina vindt. Er zijn twee manieren om tegen de inhoudelijke betekenis van PR(A) aan te kijken. Vanuit wiskundig perspectief kan gezegd worden dat PR(A) een maat is voor de kans dat een zogenaamde ‘random surfer’, waarmee een persoon bedoeld wordt die op willekeurige wijze op links op pagina’s klikt, op pagina A uitkomt. Een meer populaire (laten we zeggen, politieke) benadering is dat PR(A) een maat is voor de populariteit van pagina A, waarbij een link van pagina Ti naar pagina A wordt gezien als een stem (vote) voor pagina A. Beide manieren komen op hetzelfde neer.

De Pagerank van pagina A is de som van een bepaald deel van de pageranks van alle naar pagina A verwijzende pagina’s PR(T1) t/m PR(Tn). Welk deel? Welnu, dat is afhankelijk van het aantal andere links op de afzonderlijke pagina’s Ti (waarbij i, de i-de pagina van de n pagina’s is die naar A verwijst). Vanuit het random-surfer model wordt gezegd: het deel van de pagerank dat pagina Ti aan pagina A kan geven is niet anders dan de kans dat de surfer op pagina Ti op de link naar pagina A klikt, dus 1/C(Ti). Vanuit het voting/stem-model brengt pagina Ti in totaal C(Ti) stemmen uit, dus het belang van die stem (link) op pagina A is 1/C(Ti).

De dempingsfactor, die een waarde tussen 0 en 1 kan krijgen, is in de formule gebracht om een stukje psychologie van de random surfer te beschrijven. Bij een lage waarde (in de buurt van 0) verliest de surfer snel zijn/haar interesse in de pagina en stopt dus snel met willekeurig aanklikken van links. Bij een hoge waarde (in de buurt van 1) is de surfer blijkbaar fitter en gaat langer door met het willekeurig aanklikken van links. Er wordt algemeen aangenomen dat de Google-zoekmachine werkt met een d=0.85. Dit betekent dat de kans dat de random surfer op een link van pagina Ti naar pagina A klikt dus nog iets kleiner dan 1/C(Ti) is, en wel 0.85 * 1/C(Ti).

 

11.3 De betekenis van de pagerank formule

In natuurlijke taal kunnen we nu dus zeggen dat we met het oog op een hoge ranking in Goolge, een hoge pagerank willen bereiken en dat we dat doen door:
1. zoveel mogelijk verwijzingen naar onze pagina te realiseren; 
2. het liefst verwijzingen willen creëren vanaf pagina’s die zelf een hoge pagerank hebben;
3. het liefst verwijzingen willen creëren vanaf pagina’s die niet zo (heel) veel andere verwijzingen bevatten. 

Dit geldt voor zowel verwijzingen vanaf pagina’s buiten uw eigen site (inbound links) als vanaf pagina’s binnen uw eigen site (interne links).

Een voorbeeld

PageRank toelichting
Stel dat er twee pagina’s naar pagina A verwijzen: pagina T1 en pagina T2 (n is dus 2). De Pagerank van T1 is 2 en die van T2 is 3. Op pagina T1 staan in totaal 4 verwijzingen, waarvan één naar A. Op pagina T2 staan in totaal 3 verwijzingen, waarvan één naar A. De Pagerank van pagina A wordt nu:
PR(A) = (1-0.85) + 0.85*(2/4 + 3/3) = 1.425 

 

11.4 Wijze van berekening van pagerank

U weet nu al heel wat. Maar de werkelijk is helaas nog iets complexer. Het Internet bestaat uit een enorme hoeveel pagina’s die allemaal via verwijzingen aan elkaar hangen. In voorgaand voorbeeld kan de pagerank van pagina A eenvoudig berekend worden omdat de pagerank van de pagina’s T1 en T2 als een bekende werd voorgesteld. Maar in werkelijkheid moeten ook de pageranks van T1 en T2 (en al die andere Internetpagina’s) berekend worden. Misschien ligt er ook wel een verwijzing van A naar T1. Dan is de pagerank van A afhankelijk van die van T1 en omgekeerd en zitten we dus vast met die mooie formule. Page en Brin hebben hier echter een oplossing voor bedacht.

Om de pagerank’s van alle pagina’s op het Internet te berekenen begint Google steeds weer opnieuw. Iedere pagina heeft dan een start-pagerank die uitgaat van de situatie dat er naar geen enkele pagina wordt verwezen (n=0). De pagerank van iedere pagina is dan 0.15. Reken maar na (1-d) = (1-0.85) = 0.15. Vervolgens loopt Google alle Internetpagina’s eenmaal door, en berekent daarbij de pageranks van alle pagina’s op basis van voorgenoemde formule en deze start-pageranks. Alle pagina’s op het Internet hebben dan een nieuwe pagerank, die nog niet klopt, maar wel iets meer in de buurt is gekomen van de juiste waarde. Dan herhaalt Google die procedure nog een keer, en nóg een keer, etc. Bij iedere herhaling (iteratie) verschuiven de pageranks steeds meer in de richting van de juiste waarde. Op basis van het totaal aantal Internetpagina’s kan bewezen worden dat we na zo’n 40 á 50 keer pagerank-waardes hebben verkregen die weliswaar niet 100% perfect zijn, maar daar wel heel dicht in de buurt zijn gekomen. 

Een voorbeeld

PageRank toelichting
Stel dat twee pagina’s A en T1 naar elkaar, en alleen naar elkaar (C=1), verwijzen. Verder is er een pagina T2 die ook en alleen naar A verwijst. Hoe zien de stappen eruit die naar de uiteindelijke pagerank leiden?

Stap

Pagerank A

Pagerank T1

Pagerank T2

Totale pagerank

1

0.15

0.15

0.15

0.3

2

0.405

0.494

0.15

1.049

3

0.909

0.923

0.15

1.982

4

1.062

1.053

0.15

2.265

..

7

1.310

1.263

0.15

2.723

40

1.459

1.391

0.15

3.000

Het is niet exact bekend hoe Google de verschillende stappen berekent, of er daadwerkelijk gestart wordt met een waarde van 0.15, en hoeveel iteraties er worden toegepast. Zeker is dat, hoe ze die zaken ook invullen, de uiteindelijke waarde via deze methode altijd op nagenoeg een zelfde waarde uitkomt.

Het zal duidelijk zijn dat een dergelijke aanpak voor het berekenen van nieuwe pageranks, zelfs voor zeer snelle computers, een tijdrovende bezigheid is. De update van pageranks vindt daarom niet continu, maar zo ongeveer eens per maand, plaats. Op die manier hebben de Google-computers de tijd om het allemaal goed door te rekenen. Het moment waarop Google daadwerkelijk wordt ge-update met de nieuwe pageranks, wordt de Google Dance genoemd. Omdat Google gebruik maakt van tienduizenden servers die de zoekopdrachten van gebruikers moeten verwerken, is de update niet in één klap gerealiseerd. Daar gaan een aantal dagen overheen. Vandaar dat de ranking van sites gedurende die periode varieert: Google danst.

 

11.5 Een aantal tussenconclusies

Terug naar het voorgaande voorbeeld, kunnen we een aantal zaken constateren:
1. Als er geen pagina’s naar een bepaalde pagina verwijzen (zoals pagina T2), blijft de pagerank op de laagst mogelijke waarde, namelijk 0.15.
2. De minimum hoeveelheid pagerank binnen een site van drie pagina’s is daarmee 3 * 0.15 = 0.45. Dat wordt bereikt als het losstaande pagina’s zijn, waarnaar dus niet wordt verwezen. Bewezen kan worden dat de maximum hoeveelheid pagerank binnen een set van n pagina’s gelijk is aan n. In voorgaand voorbeeld is dat maximum dus bereikt (n=3, en de totale pagerank is 3).
3. Als de pagina’s A, T1 en T2 allen tot één site behoren, wordt de totale pagerank binnen een site verhoogd op het moment dat een pagina aan de site wordt toegevoegd, met minimaal 0.15 en maximaal 1.
4. De linkstructuur binnen de site is bepalend voor de hoogte van de uiteindelijke totale pagerank binnen de site.
5. Aangezien u waarschijnlijk slechts een beperkt aantal pagina’s binnen uw site hoog wil laten scoren in zoekmachines, is het de kunst om in ieder geval die pagina’s een hoge pagerank te laten krijgen. Voor wat betreft de linkstructuur van uw site kunt u dit kort gezegd realiseren door er voor te zorgen dat zoveel mogelijk pagina’s in uw site verwijzen naar de te optimaliseren pagina (meestal de index.html-pagina).

 

11.6 Toolbar pagerank en wiskundige pagerank

In de vorige stap is de Google-toolbar reeds genoemd. Omdat deze toolbar na installatie wordt geïntegreerd binnen uw browser kunt u zien wat de pagerank is van de pagina waar u zich op dat moment bevindt. Dat wordt visueel weergegeven door een groene indicatie binnen een wit balkje. Door met uw muis op het balkje te gaan staan ziet u de waarde. Deze waarde is minimaal 0 en maximaal 10. Deze toolbar-pagerank is echter niet dezelfde als de wiskundige-pagerank die hiervoor is uitgelegd. De wiskundige pagerank van een pagina kan immers veel hoger worden dan 10. Denk maar aan een pagina waar honderd verwijzingen heenliggen vanaf pagina’s die verder niet naar andere pagina’s verwijzen, en zelf een pagerank 10 hebben. De wiskundige pagerank van de pagina wordt dan: 0.15 + 100 * (10 / 1) = 1000.15 ! In theorie is de maximale pagerank van een pagina gelijk aan: (1-d) + d * N, waarbij N het totaal aantal pagina’s op het Internet is. Dat is de (absurde) situatie waarbij alle Internet-pagina’s alleen naar één en dezelfde pagina verwijzen.

De vraag is nu hoe de relatie ligt tussen deze twee type pageranks. Welnu, Google heeft een toolbar-pagerank geïntroduceerd omdat een waarde van 0 t/m 10 veel gebruikers vriendelijker is dan de wiskundige pagerank, die veel grotere waarden kan aannemen. Om er voor te zorgen dat die grote waarden vertaald worden naar een waarde op de schaal van 0- 10 wordt een wiskundige omrekening toegepast. Algemeen wordt aangenomen dat deze omrekening niet lineair, maar logaritmisch is. Het verschil tussen een lineaire relatie en een logaritmische relatie is dat de uitkomst van een logaritme voor lagere waarden relatief sneller stijgt dan hogere. Hoe veel sneller wordt bepaald door het grondgetal van de logaritme. Vermoedelijk ligt het grondgetal ergens rond de 6. De relatie tussen de toolbar pagerank en de wiskundige pagerank ziet er dan als volgt uit:


Toolbar pagerank
[0..10]

Wiskundige pagerank
[0.15 .. (1-d)+d*N]

0

0.15 – 0.9

1

0.9 – 5.4

2

5.4 – 32.4

3

32 – 194

4

194 – 1166

5

1166 – 6998

6

6998 – 41990

7

41990 – 251942

8

251942 – 1511654

9

1511654 – 9069926

10

9069926 – (0.15 + 0.85 * N)

U kunt zien dat u relatief snel een pagerank van nul kan verhogen naar één. Naar twee wordt het al iets moeilijker, naar drie nog moeilijker, etc.

 

11.7 Outbounds

De laatste stap die ik rond dit onderwerp met u wil maken is te onderzoeken wat nu het effect is van outbound-verwijzingen. Als we naar de pagerank-formule kijken zoals die aan het begin van deze pagina is geformuleerd, lijken dergelijke verwijzingen vanaf, laten we zeggen een pagina A naar een andere pagina X geen effect te hebben op de pagerank van A. Pagina’s lijken alleen iets te kunnen geven aan andere pagina’s zonder dat ze er zelf iets op verliezen. Als we sites in hun geheel beschouwen blijkt de situatie echter iets genuanceerder te liggen. Als een pagina A naar een pagina buiten de eigen site verwijst wordt een stukje van de pagerank dus niet benut binnen de eigen site, en ben je dat deel dus kwijt uit de totale pagerank van de site. Omdat er meestal binnen een site ook weer verwijzingen naar A terug liggen, kan er daarmee ook minder pagerank terug bij A komen. De pagerank van A wordt daarmee dus lager door outbounds.

Door outbounds ‘lekken’ pagina’s dus pagerank. Nu zijn er trucs mogelijk wel een outbound-verwijzing te leggen, maar om geen lek te creëren. Vanuit het SEO-guru perspectief wordt het niet aanbevolen deze trucs te gebruiken en gewoon een goede site op te zetten. Voor de volledigheid kan echter gemeld worden dat een outbound niet alleen via de traditionele hyperlink (<a href>) hoeft te worden geprogrammeerd, maar ook geprogrammeerd kan worden via een javascript-instructie waarbij de url waar naar wordt verwezen, in een aparte js-file wordt opgenomen.

Een andere tip om zo min mogelijk pagerank uit de site te verliezen is de outbounds te leggen vanuit pagina’s met de laagste pagerank.

Tot slot moet worden opgemerkt dat outbounds weliswaar een negatief effect op de pagerank van de eigen site hebben, maar dat pagerank niet het enige criterium is waarop Google de site beoordeelt. Het ligt voor de hand te verwachten dat juist ook outbounds op een andere manier weer wel worden gewaardeerd, omdat het afwezig zijn van dergelijke verwijzingen weer indruist tegen ‘de natuur’ van het Internet. Advies: leg toch een klein aantal outbounds.

Pagerank, in tegenstelling tot het in het vorige hoofdstuk besproken begrip Link Populariteit, zegt dus niets over zoekwoorden of de inhoud van pagina’s. Omgekeerd, maakt Link Populariteit dus wel gebruik van de PageRank. Bij het ontstaan van Google was dat in hoge mate het geval, heden ten dage een stuk minder, maar nog steeds staat dit gegeven overeind. Er wordt nu echter naar veel meer getallen gekeken. Zoals al eerder opgemerkt is het bijvoorbeeld toch goed een aantal outbounds te creëren, mn. naar websites die veel vertrouwen hebben gekregen van Google. Daarbij speelt het begrip ‘TrustRank’.

 

11.8 Trustrank

TrustRank is een aanzienlijk minder bekend begrip dan PageRank, maar lijkt in toenemende mate belangrijk te worden. Het TrustRank-concept, in 2004 ontwikkeld door Zoltan Gyongyi, Hector Garcia-Molina, & Jan Pederson, heeft als doel spam-sites tegen te gaan. Omdat het ondoenlijk is alle websites met de hand op spam te controleren is er een principe bedacht op basis waarvan algoritmes kunnen bepalen hoe betrouwbaar websites al dan niet zijn.

We hebben al gezien dat de leeftijd van de website, bijvoorbeeld, één van de criteria is voor het bepalen van vertrouwen of autoriteit. Maar dit algoritme voegt daar nog wel wat aan toe. Aan de basis van dit algortime liggen een aantal grote, bekende, websites als dmoz.org, bbc.co.uk, macromedia.com, google zelf, etc. Van die websites wordt gesteld dat ze een hoge mate van betrouwbaarheid hebben, en worden seeds (zaden) genoemd in het TrustRank-algoritme. Ook overheidsinstellingen en grote organisaties kunnen seeds zijn.

Net als het PageRank-algoritme kan de TrustRank via verwijzingen gepropageerd (doorgegeven) worden naar andere webpagina’s. Een verwijzing vanaf bbc.co.uk naar uw eigen website is in dit opzicht dus erg veel waard. Als u zo’n verwijzing krijgt en dus veel TrustRank krijgt, geeft u dat via de verwijzingen op uw website vervolgens weer door naar andere websites, etc. Hoe verder de website van de seed ligt, hoe lager de hoeveelheid Trust die kan worden doorgegeven.

Deze voorwaartse propagate van Vertrouwen werkt allemaal heel logisch, maar er lijkt ook nog iets te zijn wat de TrustRank kan drukken: een terugwaartse propagatie. Als u met uw website gaat verwijzen naar websites die een lage TrustRank hebben, propageert die lage TrustRank terug naar uw website. Uw website kan dus niet alleen Vertrouwen krijgen door goede verwijzingen te krijgen, maar ook Wantrouwen krijgen als u naar de verkeerde websites gaat verwijzen.

Iedere serieuze websitebeheerder zou zich wat zijn/haar linkbuilding-strategieën moeten richten op het werken aan vertrouwen, TrustRank dus. Met een hogere TrustRank wordt het een stuk eenvoudiger hoog te scoren in zoekmachines.

 

<< 10. Linkbuilding 12. SEO tools >>