Kan kunstig intelligens overvåke et betent kommentarfelt? Kan den automatisk spore endringer i holdninger og oppfatninger overfor politisk partier, bedrifter og personer? For å få til det, er det helt nødvendig at algoritmene forstår norsk. Interessante spørsmål publisert i en pressemelding fra NTB og Universitetet i Olso 18.april
– Fra å være et litt sært forskningsfelt, har det vært en rivende utvikling innenfor språkteknologien de siste årene, sier professor Lilja Øvrelid ved Institutt for informatikk i Oslo.
Nå ser hun frem til at teknologien skal komme seg ut og bli tatt i bruk i norske bedrifter.
– Det er stor interesse og behov hos mange næringslivsaktører, kanskje spesielt blant mediebedrifter, sier førsteamanuensis Erik Velldal.
Det har nå resultert i to nye forskningssentre, NorwAI og Media Futures, der forskere og Medie-Norge knytter sterkere og mer formelle bånd.
Øvrelid, Velldal og kollegaene deres har lagt grunnlaget for det som kan bli nye teknologiske verktøy for det norske språket. Algoritmene må nemlig skjønne norsk før språkteknologien kan gjøre særlig nytte for seg her til lands.
En algoritme som avdekker følelser
Dette kan de bruke til å få et inntrykk av om en tekst er positiv eller negativ, og hva den eventuelt er positiv eller negativ til – bare ved å kjøre den gjennom et dataprogram. Dette kalles sentimentanalyse, fra det engelske ordet sentiment, som betyr følelse.
Hensikten med sentimentanalyse er å finne positive og negative holdninger, følelser og meninger i en tekst uten at et menneske trenger å lese alt sammen.
– Sentimentanalyse ble brukt mye i presidentvalgkampen i USA både i 2016 og i 2020. Man kan bruke det for å prøve å måle oppslutningen om ulike kandidater helt automatisk, sier Velldal.
– Man kan gjøre sentimentanalyse av alle nyhetstekster og av sosiale medier og slik spore meninger over tid. Gjennom en valgkamp kan man for eksempel se på strømninger i opinionen, sier Øvrelid.
En enkel analyse vil kanskje kunne si om du er positivt eller negativt innstilt til politikken til ett bestemt parti. En mer avansert analyse, finkornet som forskerne kaller det, kan si noe om hvilke deler du er positiv til og hvilke deler av politikken du ikke er like begeistret for.
Overvåke kommentarfelt
Mediekonsernet Amedia, som hovedsakelig driver med lokale nyheter, er en av samarbeidspartnerne til Øvrelid og Velldal i det nye senteret Media Futures.
– Vi ønsker å få mer kontakt med og hjelp fra andre forskere. Selv om vi er et stort firma, er vi ikke store nok til å lage store språkteknologiske systemer alene, sier Emiliano Guevara, som jobber med språktekonologi i Amedia.
Amedia eier over 85 lokalaviser i Norge.
– I hele konsernet publiserer vi rundt 2000 artikler hver dag. Det er store mengder med tekst, og vi bruker systemer basert på språkteknologi for å kunne håndtere all denne informasjonen, sier Guevara.
Dette er ikke nødvendigvis noe leserne ser så mye til, men det handler blant annet om kategorisering av artikler og å forutse hvor mange som kommer til å klikke seg inn på en artikkel. Men de har også lyst til å utvikle nye teknologier, for eksempel for å kunne få tilbake kommentarfeltene som var en så sentral del av nettavisenes barndom.
– Veldig få Amedia-aviser har kommentarfelt fordi det er veldig dyrt å vedlikeholde og organisere, sier Guevara.
Vi ønsker et dataprogram som følger med og automatisk modererer og håndhever kommentarfelt-regler
Han kunne ønske seg et dataprogram som følger med og som automatisk modererer og håndhever avisenes kommentarfelt-regler.
– Mange prøver å selge systemer til oss, men de er ikke laget for norsk språk. De er basert på oversettelse fra engelsk. Høykvalitets systemer basert på norsk språk må man lage sammen med andre, sier Guevara.
Han ser frem til å jobbe tettere på forskere, universiteter og andre forskningsinstitusjoner. I et lite land som Norge er man avhengig av at folk jobber sammen.
– Dette er en fortsettelse av en tradisjon i norsk språkteknologi der man deler data, kompetanse og ressurser slik at vi i fellesskap kan få til noe mye større enn det vi kan hver for oss, sier Guevara til Titan.uio.no.
Han forteller at Amedia over tid har bygd opp et stort datasett for å trene språkmodeller og blant annet brukt teknologi som Øvrelid og Velldal har vært med på å utvikle.
– Men de nyeste modellene og den nyeste teknologien krever enda større datasett og dermed behov for enda mer samarbeid, sier Guevara.
Trenger fortsatt menneskelig ekspertise
I tidligere forskningsprosjekter har de samarbeidet med Schibsted, Aller og NRK. Nå kommer også Amedia, Retriever, TV 2 og flere mediebedrifter med. I tillegg til forskere fra blant annet Sintef, NTNU og Universitetet i Bergen.
– Mye av arbeidet vi har gjort i tidligere prosjekter, er ting vi kommer til å ta med inn i de to nye sentrene, sier Velldal.
– Nå er det mulig å rulle denne teknologien ut i produksjon og ta den i bruk i bedrifter, sier Øvrelid.
Selv om de nå deler med seg og lar alle få tilgang til datasettene de så møysommelig har bygget opp, kommer de ikke til å bli arbeidsledige med det første.
– Det krever fortsatt mye manuell innsats og menneskelig ekspertise for å tilrettelegge dataene som maskinlæringsmodellene må trenes på. Det er en ting som ofte glemmes når man leser om maskinlæring og kunstig intelligens, sier Velldal.