Informationssökning för nybörjare #1 – Vad händer när vi googlar?

Innan jag sökte till mitt masterprogram valde jag att ställa ett par frågor till de programansvariga. En av mina frågor kretsade kring vilka kurser har upplevts av tidigare studerande att vara bland de mest utmanande. De programansvariga nämnde att flera personer upplevde kurserna inom ’Information retrieval’ som kluriga. Jag kan jag förstå varför studenter med en bakgrund inom humaniora eller samhällsvetenskap kan tycka så. Informationsökning har mer gemensamt med linjär algebra, logik och statistik än vad det har med sociologi och litteraturvetenskap.

Informationssökning (eller informationsåtervinning) har blivit en grundläggande del i våra liv. Därför förtjänar ämnet också en bred diskussion. När vi vaknar på morgonen och frågar vart kaffet har tagit vägen sker en viss form av informationssökning. Men informationssökning i vår bemärkelse sker digitalt; när vi söker efter en bok på bibliotekets webbsida, när vi letar efter en produkt på IKEA:s digitala katalog och naturligtvis, när vi ’googlar’. I vissa fall kan ’googla’ vara synonymt med ’informationssöka’.

Att informationssökning på nätet har till viss del monopoliserats av företag som Google har gjort det i praktiken till ett mycket politiskt laddat ämne. Ett mycket oroande reportage av New York Times visar att ändringar som Google har gjort i sina algoritmer innebär att progressiva och radikala röster samt pacifistiska webbsidor medvetet bortprioriteras i deras sökresultat. I den öronbedövande debatten kring ”fake news” är det viktigt att inte glömma att det är många vid makten som vill använda informationssystem och informationssökning för att kontrollera och censurera.

Explain It Like I’m Five: informationssökning (text-baserat)

Jag önskar veta vilket år den förre amerikanska presidenten John F. Kennedy föddes. Jag har ett informationsbehov (eng. information need). Jag som användare (eng. user) formulerar en sökfråga (eng. query) till ett informationssystem (eng. information retrieval system). Jag skriver in något hastigt som ”john f kennedy födelsedatum”. Utifrån en samling av dokument (eng. document collection) kommer systemet sedan att hämta ett antal relevanta dokument (eng. relevant set of documents). I denna uppsättning kommer jag förmodligen hitta svaret på min fråga (John F. Kennedy föddes den 29 maj, 1917). Mitt informationsbehov är därmed tillfredsställt.

I detta exempel ser vi de viktiga processdelarna inom informationssökning:

  • information need
  • user
  • query
  • information retrieval system (t.ex. en sökmotor)
  • document collection
  • relevant set of documents

Ett av de viktigaste begreppen i informationssökning är relevans (eng. relevancy). I s.k. sträng-baserad informationssökning (eng. string-based searches) avgörs relevansen av användarens sökfråga (query) och den samling dokument som informationssystemet hämtar åt användaren. Skulle vi som användare skriva in ”amerikansk president född” i stället för ”john f kennedy födelsedatum” är det mycket osannolikt att den samling av dokument som informationsystemet hämtar tillfredsställer vårt informationsbehov.

Hur informationssystemet lyckas ta fram den relevanta samlingen av dokument är en mycket komplex och spännande process. Här finns en blandning av algoritmer och matematiska modeller som inte bara hittar de dokument som användaren kan finna relevant, men i många fall rangordnar dokumenten i fallande ordning av relevans. Coursera har skapat en YouTube-playlista av föreläsningar som introducerar informationssökning på ett hyfsat lättillgängligt sätt. Dessa föreläsningar kom till stor användning under kursens gång.

Knowledge exploration: när informationssökning inte räcker till.

I många fall kan inte de behov vi har besvaras genom de processer vi hittills har beskrivit. För att använda ett exempel: Jag har bestämt mig att jag vill lära mig att programmera. Att skriva in ”How to program” in i Googles sökfält och sedan tro att mina behov kommer att tillfredsställdas genom en samling av relevanta dokument är förstås helt galet. Jag kommer förmodligen att besöka många webbsidor, ställa många nya sökfrågor, ladda ner videoklipp och programvara samt ställa frågor på olika webbsidor som StackOverflow och andra internetforum för programmerare. Denna sökande efter kunskap kanske även utvecklas till en livslång passion och hobby för programmering som kanske fortsätter ända fram tills den dagen jag dör. 

Att extrahera information ur data är en grej, men att kunna förmedla kunskapsprocesser ur information ställer stora krav på vår informationssystem. Vi måste därför lämna informationssökning  och tala om det mera abstrakta ämnet kunskapsutforskning, eller som det heter på engelska, knowledge exploration.

Inom informationssökning talar vi ibland om konceptuellt sökning. Söker vi på ”Satchmo” eller ”Pops” kan informationssystemet behandla dessa termer som om vi hade skrivit ”Louis Armstrong”. Knowledge exploration tar denna konceptuella sökning och utökar den kraftigt. Termer behandlas i hierarkier (t.ex. ”jorden” ingår i termen ”solsystemet” som i sin tur ingår i termen ”Vintergatan”). Termer och uttryck skulle även kunna behandlas som delar av olika övergripande ämnen. ”Guld” skulle kunna ingå i de relaterade ämnena ’Monetärt system’ och ’Metaller’ eller ’Medicin’ och ’Metaller’.

En av de mest intressanta följderna av knowledge exploration är hur dessa processer ska visualiseras. När vi skriver in något i en söklåda på en sökmotor som Google får vi fram ett sökresultat och visualisering som vi känner till mycket väl: en rangordnad lista av hyperlänkar och utdrag. För ett enkelt informationsbehov så duger denna visualisering alldeles väl, men för processer inom knowledge exploration är detta långt ifrån optimalt.

Knowledge exploration är ett relativt nytt ämne och därför kommer det förmodligen dröja flera år innan en användarvänlig visualisering av sökresultat i förhållande till knowledge exploration implementeras för en bred allmänhet. Att visualisera termer och synonymer som noder på en karta är ett förslag kring hur knowledge exploration kan utforskas. Jag hoppas verkligen att detta är någonting som vi i masterprogrammet kommer att få utforska i kommande kurser.

Personliga reflektioner: Intressant, men relevant?

Jag är överraskad över hur mycket jag tyckte om min första kurs i information retrieval. Trots stora brister i hur kursen var upplagd var själva ämnet sjukt spännande. Jag ser mycket fram emot att läsa fortsättningskursen i information retrieval till hösten 2018.

Kopplingen mellan information retrieval och knowledge exploration är någonting som bör intressera bibliotekarier i största allmänhet. När man väl snöar in sig i ämnet går det inte att undvika att tänka på vad David Lankes har sagt om bibliotekariens uppgift att kunna ”facilitate knowledge creation”.

”The way we understand the process of becoming knowledgeable (learning) affects the services we offer, the way we organize resources, the way we evaluate our performance, and ultimately the value we provide as professionals to our communities and to society as a whole.” (Lankes, 2015) [1]

Hur bibliotekarier och informationsspecialister använder sig av kompetenser inom informationsökning är däremot en annan femma. Det har varit frustrerande som student att förstå hur man kan arbeta med informationssökning i praktiken. Den första kursen i information retrieval har varit helt teoretisk med inga exempel alls på hur informationssökning ser ut i ”den riktiga världen”. Hade jag ambitioner på att forska skulle jag kanske kunna tänka mig skriva om informationssökning i en masteruppsats. Men forskning ligger inte i närheten på min agenda. Informationssökning känns nära relaterat till ämnen som inte kommer att utforskas i någon större utsträckning i mitt masterprogram; människa-datorinteraktion, matematik, statistik och övriga tekniska ämnen. Det känns som att det är matematiker och systemvetare och inte bibliotekarier som arbetar direkt med informationssökning. 

[1] Lankes, R. David (2015). The new librarianship field guide. Cambridge, MA: The MIT Press

Kommentera

E-postadressen publiceras inte. Obligatoriska fält är märkta *