In een vorige post omschreef ik hoe je precies te werk moet gaan om op je WordPress blog een script toe te voegen zodat je alle zoekmachines en spiders op je blog kan detecteren via Google Analytics.
Mocht je deze gemist hebben, lees dan even het eerste deel vooraleer je hier verder gaat. Toch wel de moeite waard om bij het begin te beginnen ;-)
In mijn analyse bespreek ik de volgende zaken:
- Welke spiders zijn van welke zoekmachine? (deel1)
- Verschil tussen de spiders van Google en andere spiders (deel2)
- Weigeringspercentage in functie van spiders (deel 2)
- Bing aan een opmars bezig? (deel 2)
Deze punten bespreek ik natuurlijk voor mijn blog. Misschien zie jij wel iets anders op jouw blog of website maar ik vermoed dat er geen grote verschuivingen zullen zijn ten op zichte van deze resultaten of opmerkingen. De tijdspanne van dit experimentje is twee maanden. Ondertussen laat ik dit script doorlopen op een tweede profiel en hou ik alles gescheiden.
Had ik eerst niet gedaan en heeft me toch wat werk gekost om segmenten in te stellen om er de échte gebruikers uit te halen. Maak dus ook niet dezelfde fout ;-) maar dat zal wel niet gebeuren als je mooi alle stapjes volgt zoals in de vorige post beschreven.
Algemeen
Bovenstaande afbeelding zegt eigenlijk niet zoveel. Niet meer dan: de code werkt en ik krijg inderdaad veel zoekmachines over de vloer. Maar toch wel héél veel zoekmachines hoor!
In het totaal kreeg ik zo’n goeie vijfentwintig zoekmachines over de vloer. Allemaal verschillende maar natuurlijk de grootste het meest! Google en Yahoo.
In het totaal waren het er exact éénendertig maar de laatste heb ik achterwege gelaten aangezien ze maar één keer langs kwamen. Met andere woorden, verwaarloosbare troep.
Let wel op: in onderstaande afbeelding zie je duidelijk een onderscheid tussen de Google-spider en mensen die via zoekwoorden op mijn site terecht komen (segment bezoekers zonder robots). Dat zie je bij nummer één en nummer vier.
Opvallend is ook dat Baidu regelmatig langs komt. Op zoek naar Chinese content? Geeft dit aan dat Eric Schmidt wel eens zou kunnen gelijk krijgen in zijn visie over de voertaal van het internet in de komende vijf jaar?
Vreemd of misschien toch niet, zie ik nergens Bing op duiken. Verwonderlijk? Waarschijnlijk niet. Had Bing niet afgesproken de zoekmachine van Yahoo over te nemen? Dus hebben ze bij Microsoft waarschijnlijk ook de Yahoo-spider voor hen ingeschakeld.
1) Welke spiders zijn van welke zoekmachine?
Veel uitleg over welke er Google’s en welke er Yahoo’s spiders zijn hoef ik niet uit te leggen. Hun naam verschijnt netjes in Google Analytics maar er zijn toch wel enkele andere spiders die ook het net afschuimen. Interessant om te weten! Google- en Yahoo-spider hoeven waarschijnlijk geen uitleg hé ;-).
Ik pik er enkele uit:
Google – 2418 bezoeken
Yahoo – 2073 bezoeken
Baidu – 1037 bezoeken
Spider van de Chinese Google tegenhanger vooral op zoek naar Chinese content. Baidu prefereert Chinese content maar neemt ook genoegen met Japans en Engels.
Unknown-Robot – 562 bezoeken
Unknown zoals de naam het zelf zegt maar mijn vermoeden zegt mij dat dit méér dan één bot is! Dat toon ik je straks in een afbeelding.
Java – 411 bezoeken
Niets over terug te vinden.
Link-Walker – 244 bezoeken
LinkWalker is een spider die zoekt naar broken links. Het is een soort online service die broken links en backlinks opslaat in een grote database en die dan doorspeelt aan de webmasters. Je moet je hier voor wel inschrijven!
en vanaf hier af aan zijn er iets meer dan 100 bezoeken per spider. Welke kwamen er nog piepen op mijn blog :
- Alexa
van de zoekmachine Alexa - Radian6
is spider die het total Social Media netwerk afloopt en jouw Radian6-account aanvult over data van jouw bedrijf, groep, … op het sociale vlak van het internet en vooral ook wat jouw doelgroep kan zijn, conversaties starten tussen klanten en jouw. Kortom een marketingtool voor jouw Social Media netwerk. Ze leggen het zelf beter uit en via een leuk filmpje.
- libWWW
is blijkbaar een spider gebaseerd op Perl gebruikt door hackers. Misschien best blokkeren met robots.txt? - Python-url
is gebaseerd op een open-source Linux based scripting taal die ook wel gebruikt wordt door Google voor hun Labs producten. Python wordt ook gebruikt voor feedreaders. - Majestic-12
afkomstig van www.majestic12.co.uk - Google Mobile
- WordPress
- Ask-Jeeves
- …
Dus niet alleen Google en Yahoo zoeken het web af maar ook heel wat andere spiders. Er zitten ongetwijfeld wel enkele spiders op jouw website indien je eens een linkchecker hebt uitgeprobeerd en andere tooltjes.
Voor de liefhebbers, een totale waslijst aan verschillede spiders en bots kan je hier vinden.
Meerdere spiders per zoekmachine
Het valt ook op dat zoekmachines zoals Google en Yahoo meerdere spiders gebruiken om door het web te crawlen.
Bij het maken van een segment kan je al snel de namen achterhalen van de spiders en daarin valt het op dat er heel wat Google-spiders zijn. Een héél stuk meer dan alle andere spiders.
Dat is waarschijnlijk ook de verklaring waarom ze zoveel info hebben in hun database. Dit staat natuurlijk los van de relevantie qua Search en de ingegeven zoekterm. Maar ongetwijfeld zal de hoeveelheid informatie en de manier waarop die gecrawled word (snel of traag of volgens onderwerp en structuur) ook wel een factor zijn bij het ranken? Of toch niet?
Misschien zorgen de spiders al voor een indeling wat betreft waardevolle informatie en laten ze bepaalde websites al links liggen afhankelijk van bepaalde factoren.
Mijn theorie over de spiders van Google:
Ik vermoed dat Google niet werkt met eenzelfde spiders maar met verschillende spiders en op verschillende snelheden. Dat lijkt mij het meest logische. Het is ongetwijfeld gemakkelijker een spider te schrijven die zicht focust op één zaak in plaats van alles in één spider te gaan stoppen.
Als er één ding is waar Google wel goed in is, is het wel relativeren van problemen en de drempel zo laag mogelijk houden. Heb je al eens geprutst met hun API’s ? Die zitten verdomd goed in elkaar en maken het jouw zeer gemakkelijk content op te halen en er mee te spelen! Het Android platform is daar een prachtig voorbeeld van. Waarschijnlijk het beste voorbeeld qua lage drempel voor programmeren van mobiele content.
Trouwens, iedereen zal wel kunnen bevestigen dat een lage drempelwaarde het begin is van alle succes, zowel voor de analyse van problemen, structuur en opdeling van programmatie tot zelfs SEO, SEA, SEM en usability.
Enfin, dit ter zijde, back to the case, … de verschillende spiders dus van Google en hoe ik denk dat deze in elkaar zitten:
- Ultra snelle spiders voor Real-Time
(alhoewel ze een rechtstreekse injectie hebben via Twitter lijkt het me logisch dat ze een dergelijke spider zullen schrijven of misschien bestaat deze al) - Snelle spiders om blogs te crawlen
- Spiders die het grote werk doen en simpelweg de boel scannen
- Trage spiders die websites bezoeken die niet veel updaten
En nog enkele die misschien zich anders profileren?
- Spiders voor images?
- Spiders voor RSS?
- Spiders voor video’s?
Ik gok op een systeem dat informatie doorgeeft aan de spiders. Waarschijnlijk worden de websites opgedeeld in categorieën volgens spiders.
Bijvoorbeeld: website A is traag en krijgt de categorie van de trage spiders.
Indien deze plots meer content of vernieuwende content toont op regelmatige basis zal deze in een nieuwe categorie gestopt worden, bijvoorbeeld categorie van de blog-spider en zal deze waarschijnlijk ook véél sneller opnieuw bezocht worden.
Een Real-Time spider zou ook veel verklaren aangezien een Twitter pagina al snel een degelijke PageRank kan opbouwen ongeacht de content. Voor korte berichtjes is dat toch opmerkelijk! Er is dus wél degelijk een relatie tussen de snelheid van updaten en de hoeveelheid. Kunnen de spiders misschien beter overweg met korte berichten? Of is Real-Time gewoon véél interessanter en hot?
Ik gok op het laatste want een website of blog met interessante en regelmatig nieuwe content rendeert toch beter op lange termijn. Real-Time is zéér zeker interessant maar in-the-end haalt de website het toch altijd qua info. Ik denk dat Google Twitter eerder gebruikt als een spider om zo nóg sneller aan relevante info te komen. Slimme zet!
Snap je nu waarom die Real-Time zo belangrijk is voor hun zoekresultaten?
Interessant hé ? :-)


