de ‘you know what I mean’-factor voor zoeken

Bij google heb je er het meeste last van. Je zoekt op een woord, maar het synoniem of met een extra bijwoord blijkt het zoeken beter te werken. Dat weet je pas als je het probeert. Waarom heeft software niet de ‘je weet toch’-factor. Zo van: oh, je bedoeld zeker … En niet qua spelling, maar qua semantiek.

Ik zocht een apparaat met behulp van google; een zogenaamde compressor, wat gebruikt wordt om je stemgeluid te optimaliseren voor opname. Maar het moest wel een kleine zijn, in tegenstelling tot de meest voorkomende 19′ variant. Dus ik zoek op ‘Compressor mini’ en ‘compressor tiny’ en ‘compressor portable’, zonder al te veel geluk. Pas toen ik zocht op ‘compressor half rack’ had ik beet, maar wie verzint dat dan?

‘half rack’ is een term in radioland wat staat voor ‘de helft kleiner dan normaal’, bij mij heet dat ‘daagbaar’ of ‘klein’, maar google begreep dat niet. De semantische betekenis van draagbaar (portable) is niet bekend bij google, die controlleerd hooguit of je zoekterm statistisch relevant is (daarom kan google ook hier en daar tips geven als: ‘je bedoeld zeker broodrooster, i.p.v. bloodrooster). Wat google niet kan is kijken wat het woord betekend en dan bepalen of er semantische (in de zelfde betekenis) alternatieven zijn. En dat is wel gewenst

Je wilt natuurlijk uiteindelijk ‘vinden’ en niet ‘zoeken, filteren, lezen, verfijnen en misschien vinden’. Wat daarom nog gewenster is, is het bepalen van semantische waarde in de context (de andere woorden) van de zoekopdracht. Als ik zeg ‘klein olifantje’, dan bedoel ik eigenlijk een beest van een paar honder kilo, maar slechts drie jaar oud (dus jong). Als ik zeg ‘kleine computer’, dan bedoel ik veel kleiner dan andere computers, of misschien wel laptop (dat is immers ook een kleine computer). Als google dat zou weten, dan zou hij kunnen suggereren: je bedoelt een jonge olifant, of een portable computer, waarmee de kans dat je iets vind ook veel groter is.

semantisch netwerkSematisch web © Aidministrator

Bovenstaande is een beetje moeilijk te maken en impliceerd het gebruik van zogenaamde semantische netwerken. Dat zijn een heleboel woorden in een database, die op basis van hun betekenis een relatie aangaan met andere woorden. Artikelen met bepaalde woorden kunnen daardoor gekoppeld worden aan artikelen met andere woorden, maar dezelfde betekenis.