helaas nog zoeken – Peter op sneaker.nl

Ik had het eerder over een ‘you know what I mean’-factor bij het vinden van dingen op het Internet. Nu zijn er wat mensen die al een tijd bezig zijn dat te bereiken met een semantisch web, een redactionele hel.

Wat is de aanleiding als je iets wilt vinden op het Internet? Juist, het ‘hoe zat het ook alweer’-gevoel, gevolgd door het ‘waar stond het ook alweer’-moment. Je zoekt practisch altijd in het verleden. Vaak vind je bij het zoeken niet omdat je niet exact kan aangeven in welke context je zoekt. Voorbeeld: je zoekt een foto van die acteur die de groene superschurk (of was het nou een held?) speelde in de originele televisie serie rond 1980, maar niet de meervoudige mr. Universe. Je gaat dus zoeken op “green villan 1980s”, ofzo. Nu zal je alleen iets vinden als deze woorden toevallig bijelkaar staan in een artikel, wat gaat over Lou Ferrigno, of over de film die een paar jaar totaal flopte, dat samen met heel erg veel links naar websites die wellicht ook terzake doen. Dat komt omdat “1980s” niet geinterpreteerd wordt als ‘ergens rond 1980’, dus 1978, 1979, etc en green en villan is misschien niet de letterlijke bewoording van een redacteur. Dat werkt dus niet.

Je wilt dus eigenlijk dat al die steekwoorden gekoppeld worden aan het artikel wat je wilt lezen. Op die manier is de kans immers het grootst dat iets gevonden word. Dat is het populaire taggen. Het werkt, maar niet helemaal. Dan is er nog een semantisch web, wat een redactioneel concept is, het absoluut beschrijven van een artikel, plaatje, geluidje, video (auteur, eigenaar, datum, oorsprong, afmetingen, onderwerp, locatie, links naar relevante andere objecten, noem maar op (zogenaamde metadata)). De manier en de inhoud van dat redigeren en annoteren is vastgelegd in strikte regels, waardoor de zekerheid van het vinden hoger is dan als je zomaar wat woorden eraan zou hangen zoals dat bij ‘tagging’ (taxonomie) gebeurd.

Je kan je voorstellen dat er niemand is die het Internet met terugwerkende kracht gaat ‘determineren’. Stel dat dit zou gebeuren, dan zou je een wolk krijgen met objecten die eigenschappen (metadata) en tags delen, waardoor ze bij een zoektocht relevantie krijgen. Dus omdat er een artikel is wat door mij is geschreven over semantische webben, worden andere artikelen van mij relevant bij het zoeken naar semantiesche webben. De objecten zijn dus niet gekoppeld, maar hun metadata. Dus als een object verkeerd, onnauwkeurig of ‘subjectief’ worden geannoteerd, verliest het waarde in een zoektocht.

Dus op die manier koppelen is wel leuk en als het goed gebeurd, erg waardevol, maar het meeste van het internet is door navelstaarders en onkundigen geschreven. Deze mensen houden geen rekening met de vindbaarheid van hun werk, of weten niet hoe. Daarom kunnen we ervan uitgaan dat het niet lukt, of voor slechts een heel klein deel. Alternatieven is: een metawolk kweken. Het is zoiets als het samenstellen van een encyclopedie door eerst de bibliotheek van de Haagse Bibliotheek te fotograferen en te sorteren op de hoeveelheid letters op elke boekpagina.

Dat werkt dus niet, je moet de inhoud begrijpen om er waarde aan te hechten. Je moet bijwijze van spreken de ‘tags’ van elk boek, een context geven zodat ze een verband aangaan met andere tags. Dus niet omdat ze hetzelfde zijn, maar omdat ze hetzelfde betekenen in de juiste context. In het voorbeeld uit het begin: als ik zeg ‘green’ dan heb ik alleen dat het een kleur is, als ik het een context geef met ‘villan’, dan zijn de kansen al groot dat ik in de mythische verhalen terecht kom. Als ik als laatste ‘1980s’ erbij voeg (en dit is wat je eigenlijk bedoeld als je het intypt), dan wordt er direct een periode aan gekoppeld. Jouw zoekopdracht wordt zeg maar een wolk van zichzelf, een wolk van groene mytische figuren die ‘leefden’ in de jaren 80. Als elk object (artikelen, fotos en videos) in een zoekmachine ook zo’n wolkje heeft, doordat de inhoud begrepen word, kan je dingen vinden, de wolkjes zullen immers op elkaar lijken. Maar dan wordt het dus moeilijk. Er is nog niet genoeg rekenkracht om al die gegevens op het Internet te ‘begrijpen’, of om overal zo’n wolkje erbij te maken.