Lineære modeller: Hvorfor din AI-fastlege™ ikke bør bruke nevrale nettverk

Det er 2038. Ingen utviklere finnes lenger, kunstig intelligens har fått litt regulering og Carl I Hagen sitter fortsatt på Stortinget. Du føler deg litt småsyk, og drar til din lokale AI-fastlege™. En halvdystopisk robot ruller over gulvet og tar noen blodprøver. Du taster inn de andre symptomene dine på en interaktiv skjerm og venter spent. Snart, med en nesten uhyggelig effektivitet, vises diagnosen tydelig på skjermen foran deg. Stoler du på den?

Se for deg at du er i situasjonen beskrevet ovenfor. Stoler du mest på diagnosen fra din AI-fastlege™ der du får en forklaring på hvorfor du fikk den diagnosen, eller fra en der du ikke får noe forklaring?

Uten å tilegne andre mennesker meninger, vil jeg påstå at brorparten velger førstnevnte. Derfor burde kanskje din AI-fastlege™ bruke gode, gamle lineære modeller.

Grøss og gru tenker du kanskje, og mimrer kanskje litt tilbake til statistikk-faget fra studietiden. Husker noen hypotesetesting, konfidensintervall og momentgenererende funksjon? Hva er vitsen med å forholde seg til slike ting, når legen din kan bruke maskinlæringsmodeller som kunstige nevrale nettverk der vi gjerne får langt mer presise diagnoser?

Først og fremst, la oss definere hva jeg mener med maskinlæring i denne konteksten. Enkelt forklart: Vi presenterer en maskinlæringsmodell med en gitt input og det ønskede outputet. Deretter, når vi introduserer ny, ukjent input til modellen, forventer vi at den genererer et passende output basert på hva den tidligere ble lært opp til. For din AI-fastlege™, se for deg input som symptomer, og output som diagnose. Dette kalles supervised learning.

Så, hvorfor mener jeg at din AI-fastlege™ bør bruke lineære modeller istedenfor nevrale nettverk?

Forklarbarhet.

Det er ekstremt viktig å forstå hvorfor en modell tar de valgene den gjør, av flere årsaker. Hvordan vil en endring i symptomene påvirke diagnosen, og hvorfor?

Når brukere og beslutningstakere forstår hvordan en modell fungerer og tar beslutninger, øker det tilliten til systemet. Dette er spesielt viktig i anvendelser der beslutninger tatt av en AI kan ha store konsekvenser, for eksempel innenfor:

Helse(referer tilbake til din AI-fastlege™)
Finans(Hvorfor ble lånerammen min så lav?)
Rettslige systemer(Hvis vi begår justismord, så er det greit å vite hvorfor)

Forklarbarhet er også viktig for etisk bruk av AI og maskinlæring. Det hjelper til med å sikre at AI-systemer og maskinlæringsmodeller ikke forsterker bias eller diskriminerer, og at de opptrer i tråd med samfunnsmessige normer og verdier.

Hvorfor er lineære modeller mer forklarbare enn nevrale nettverk?

Dette blir litt mer teknisk, men det handler i grunn om modellstruktur og kompleksitet.

Lineære modeller, som lineær regresjon, har en direkte og lettforståelig relasjon mellom input og output. Hver forklaringsvariabel(tenk et symptom, f.eks feber) har en koeffisient som tydelig viser dens innvirkning på resultatet. Dette gjør det enkelt å se hvordan endringer i for eksempel feber påvirker diagnosen.
De grunnleggende prinsippene bak lineære modeller er relativt enkle å forstå og tolke, selv for de med begrenset statistisk kunnskap. Dette gjør det lettere å forklare og rettferdiggjøre modellens beslutninger til sluttbrukere.
I motsetning til nevrale nettverk, som gjerne har mange skjulte lag der inputdata transformeres på måter som kan være vanskelig å tolke(hva betyr ReLU?), har lineære modeller en direkte vei fra input til output. Det er ingen "skjulte" behandlinger av dataene, modellen er transparent.
Selv om nevrale nettverk kan gi høyere prediktiv nøyaktighet, spesielt i komplekse eller ikke-lineære problemstillinger, kan deres "black box"-natur gjøre det vanskelig å tolke nøyaktig hvordan og hvorfor de kommer til en bestemt prediksjon. Hvorfor fikk jeg akkurat den diagnosen?
Lineære modeller kan i tillegg utvides til å bli generaliserte lineære modeller. Dette øker fleksibiliteten til en modell, noe som gjør den mer lik et nevralt nettverk, men bevarer de gode egenskapene med forklarbarhet.

Men nøyaktig hvordan?

Det kan være nyttig med et simpelt, konkret eksempel for å vise hvordan og hvorfor en enkel lineær modell er lett å forklare. Anta at din AI-fastlege™ har en modell for å predikere sannsynligheten for at en pasient har en bestemt sykdom, for eksempel halsbetennelse, basert på forskjellige symptomer. Et av symptomene vi ser på er feber. I denne modellen vil hver forklaringsvariabel, som feber, ha en tilhørende koeffisient som kvantifiserer dens innvirkning på diagnosen.

Si at koeffisienten for feber i modellen er 9. Dette tallet indikerer hvor mye sannsynligheten for halsbetennelse øker for hver enhet økning i feber, hvis ingen andre forklaringsvariabler endrer seg.

Anta at en pasient uten feber har en 20% sannsynlighet for å bli diagnostisert med halsbetennelse, ifølge modellen. Hvis denne pasienten deretter utvikler en feber som er 1 grad over gjennomsnittet, vil den økte sannsynligheten for sykdommen være

20% + 1 × 9 =20% + 9 = 29%

Denne direkte og kvantifiserbare sammenhengen mellom symptomer og diagnoser i en slik lineær modell gjør den mer forklarbar og transparent sammenlignet med komplekse modeller som nevrale nettverk, hvor slik direkte tolkning ofte er umulig.

Dog er fremtiden potensielt lys for de mer kompliserte maskinlæringsmodellene der ute i verden. Det har kommet metodikker som f.eks SHAP-verdier, som er utviklet for å gi innsikt i komplekse maskinlæringsmodeller sine beslutningsprosesser, noe jeg selv brukte i min masteroppgave. Selv om disse metodene har en del potensiale, er de fortsatt i en tidlig fase og anses derfor som umodne.

Så når vi er i 2038, og du får valget mellom en fastlege som enten er basert på lineær regresjon, eller på nevrale nettverk, velg med omhu ;) God jul!

Disclaimer: Jeg håper egentlig ikke at fastlegen din kommer til å diagnosistere deg basert på lineær regresjon, eksempelet er satt på spissen for å understreke et poeng.

Så, hvorfor mener jeg at din AI-fastlege™ bør bruke lineære modeller istedenfor nevrale nettverk?

Hvorfor er lineære modeller mer forklarbare enn nevrale nettverk?

Men nøyaktig hvordan?

Liker du innlegget?