Opzoeken in het onzichtbare web

21 mei 2010 -



Content vinden is één zaak maar die content vinden die je echt nodig hebt, dat is een ander paar mouwen. Nog met Google IO in het achterhoofd probeer ik deze blogpost aan elkaar te schrijven. Damn, wat wordt die Google TV vet en vooral die url’s pushen van je desktop naar je mobiel en dan nog eens van mobiel naar TV, … echt super!

Ik dwaal af, … Content vinden dus, … liefst zo snel mogelijk en natuurlijk die content die jij precies zoekt.

Onzichtbare web? Que?

Het web bestaat in principe uit 2 delen, het zichtbare gedeelte en het onzichtbare gedeelte of ook wel het “diepe web” genaamd. Het zichtbare gedeelte is het gedeelte waar we allemaal onmiddellijk aan denken. Alle content die je kan opzoeken via zoekmachines. Het onzichtbare gedeelte is zo goed als alle gedeelte wat zoekmachine spiders niet kunnen doorzoeken.

Vroeger hadden spiders problemen met :

  • Content die niet in webpagina’s zat (PDF, Word, Excel, Powerpoint, …)
  • Url’s die in javascripts een pagina oproepen (nu ook al deels doorzoekbaar)
  • Dynamische content die opgevraagd werd met een parameter (example.com?id=5)

Alhoewel veel van deze knelpunten zijn weggewerkt, kunnen we nog een deel van het web niet doorzoeken. Wie kan er garanderen dat de bots van de zoekmachines alles (kunnen) doorzoeken? Denk daar maar eens over na. We nemen alles zo ‘for granted’ maar wat als die spiders de helft van de content laat liggen? Wordt die dan nooit gevonden? Kan deze dan nooit opgezocht worden?

Onzichtbare web is nog groter dan je denkt

Alhoewel zoekmachines (lees: vooral Google en Yahoo! toch ook wel) een schitterende job leveren, zijn er nog vele zaken van het web die niet kunnen opgezocht worden. Daar zijn enkele verklaringen voor:

  1. Niet iedere spider is zo gesofisticeerd als die van Google

    Ok, Google kan al veel doorzoeken op het web maar wat met de andere spiders? Kunnen deze wel ‘slim redeneren en zoeken’? Het merendeel van de Europeanen (was het geen 94%?) gebruikt Google als zoekmachine. Google serveert de meest relevante content, maar moeten we dan niet de vraag stellen of er geen content achterwege wordt gelaten? Zeker een zoekmachine zoals Bing laat nog de wensen over in Europa. Missen die dan niet te veel content die ze niet vonden? Of hebben ze gewoon een slecht(er) algoritme?
  2. Alles achter slot en grendel

    Het spreekt voor zich dat alles wat een paswoord nodig heeft, niet gevonden kan worden via de zoekmachines. Terug misschien interessante content die niet beschikbaar is voor de user. Misschien oprecht maar volgens mij zijn er veel onnodige logins die gerust mogen opengebroken worden. Relativeren is hier waarschijnlijk de key voor de developers en eigenaars van de specifieke content.
  3. Niet interessante pagina’s

    Google zegt zelf dat ze onrelevante of minder interessante pagina’s achterwege laten. De vraag is “hoever gaan ze hier precies in?”. “Mis ik dan teveel?”
  4. Pagina’s geblocked door de eigenaar

    Een eigenaar van een bepaalde webpagina kan natuurlijk ook zijn content blokkeren via een robots.txt. Terug content die misschien belangrijk is maar niet kan opgevraagd worden. Niet via zoekmachines dan hé.

Slim Google keyword = opzoeken in het onzichtbare web

1 ding moet je goed onthouden als je zoekt op het web : “het onzichtbare web bestaat”. Iedereen heeft braafjes zijn keywords in als hij of zij iets zoekt maar ongetwijfeld is er nog héél wat interessante content verborgen waar je misschien niet onmiddellijk hebt kunnen induiken.

Het valt op dat Google meestal een rijk gevulde website probeert te tonen als jij iets zoekt. Dat kan een website zijn met grafische elementen en interessante content of misschien wel een wikipedia artikel. Natuurlijk zitten hier de SEO campagnes en dergelijke marketing strategieën voor iets tussen (om nog maar te zwijgen van branding), maar wat met websites die dit niet doen?

Er zijn tal van artikeldatabases die interessante content leveren, rechtstreeks in webpagina’s of het zijn via linken naar andere sites, en deze kom je meestal niet tegen in de zoekmachines.

Voorbeelden zijn grote databases zoals http://www.ipl.org en http://infomine.ucr.edu

Beiden zeer interessant en opgebouwd voor academische doeleinden. Veel van deze zie je toch niet meer opduiken hé in zoekmachines?

Het is simpel, gebruik je logisch verstand. Geef bijvoorbeeld zoektermen in zoals : “auto’s database” en je zal zien dat de zoekresultaten er toch iets anders zullen uitzien. Het zit’m allemaal in goeie queries maken, meer niet.

Nadelen van het onzichtbare web gevonden te hebben

Natuurlijk moet je hier wel even je tijd insteken om echt te vinden wat je zoekt, maar het zal je zeker interessante artikels en andere webpagina’s opleveren. Daar ben ik van overtuigd! Er zijn wel enkele nadelen van deze academische sites en andere website van het onzichtbare web, of moet ik zeggen het ongevonden web?

  • Moeilijk en soms lang zoeken naar iets interessants die specifiek aan je noden voldoet
  • Sommige van deze ‘databases’ hebben duplicate content, dus het kan dat je regelmatig delen van een bepaald artikel terug tegenkomt ergens op een andere webpagina of zelfs in een andere ‘database’
  • De content is eindig. Wat bedoel ik daarmee? De meesten van deze ‘databases’ worden niet vaak meer upgedate, het gebeurd maar toch weinig. Zoekmachines hebben het voordeel dat ze snel andere content voor je kunnen inladen en er dus eigenlijk een continue verse stroom is aan zoekresultaten (of toch zo goed als)

 

Iets opgestoken van deze post? Gevonden wat je zocht?

Je mag me steeds extra vragen stellen, mocht er iets niet duidelijk zijn. Contacteer me gerust. Een mailtje om mij te vertellen dat ik goed bezig ben is altijd leuk, maar mocht je mijn post delen met anderen, dat vind zelfs nog leuker ;)

Of wil je liever nog wat verder lezen?

Je kan nog heel wat meer vinden in de categorie SEO.
Je zal er zeker topics vinden die je interesseren.





Reageer op deze post, Stel je vraag of geef zelf een extra tip