AI-driven triage förändrar ingången till hälso- och sjukvården — vare sig det sker genom symtomkoll i hemmet, digitala inskrivningssystem i jour- och närakutverksamhet eller kliniska beslutsstöd på primärvårdsmottagningar. Dessa verktyg genererar vanligtvis både en triageprioritet och en differentialdiagnos, med målet att vägleda patienter till rätt vårdnivå. Trots detta är det fortsatt svårt att utvärdera deras prestanda, eftersom triagebeslut — till skillnad från laboratorietester — saknar facit. Vad som "borde" ha hänt vid första kontakt är sällan observerbart, ofta subjektivt och påverkas dessutom av själva triagebeslutet.
Triagens primära mål är riskstratifiering, inte diagnostisk träffsäkerhet. Den säkerställer att patienter som riskerar allvarlig skada om de inte bedöms skyndsamt prioriteras, medan patienter med lägre risk kan hanteras säkert med mindre brådska. Triage sker innan utredningar, fullständig anamnes eller — i många fall — en definitiv diagnos. Många allvarliga tillstånd debuterar initialt med vanliga eller ospecifika symtom. Exempelvis kan en plötslig, mycket kraftig huvudvärk i slutändan visa sig vara en benign migrän, men akut triage är ändå korrekt eftersom symtomet också kan representera en livshotande subaraknoidalblödning.
Effektiv triage prioriterar känslighet för allvarlig risk framför diagnostisk precision. En viss grad av övertriage är acceptabel för att minimera risken att missa patienter med hög allvarlighetsgrad. Utvärderingsramverk bör därför bedöma triage utifrån rimligheten i den givna prioriteringen baserat på tillgänglig information — inte utifrån facit i efterhand eller slutlig diagnos.
Triage är i grunden probabilistisk. Många sökorsaker t.ex. bröstsmärta, feber och huvudvärk är så kallade ”uteslutningsscenarier” där målet är säker och snabb åtgärd, snarare än exakt diagnos. Utvärdering baserad på utfall är problematisk av två skäl:
Många verktyg genererar, utöver triageprioritet, även en differentialdiagnos. Men att jämföra och mäta denna utdata är svårt. I sammanhang med lägre vårdtyngd får patienter ofta aldrig någon definitiv diagnos.
Mätetal som enbart räknar om den ”sanna” diagnosen finns med på listan, eller dess placering i listan, kan vara missvisande. Differentialdiagnoslistor är sannolikhetsordnade, inte förutsägelser med ett enda rätt svar. För sällsynta tillstånd kan det vara kliniskt rimligt att rangordna vanligare alternativ högre. Att bestraffa verktyget för detta speglar efterklokhet snarare än kliniskt resonemang.
Utvärdering av differentialdiagnoser bör därför ta hänsyn till probabilistiskt tänkande och klinisk nytta, inte enbart enkla listpositionsmått.
Eftersom utfall och diagnoser inte kan fungera som entydig ”sanning" jämför många studier AI-verktyg med klinikers beslut. Detta är användbart, men har tydliga begränsningar:
Vinjetter är praktiska men problematiska för sammanfattande utvärdering:
Vinjettbaserad validering är därför otillräcklig för att fastställa säkerhet eller tillförlitlighet i verklig användning.
Triagebeslut kan delas in i flera olika nivåer och ordnas på olika sätt; t.ex. akut, brådskande, samma dag, rutin, egenvård. De kliniskt mest meningsfulla måtten är:
Traditionella mått som sensitivitet, specificitet eller ett enda sammanslaget träffsäkerhetsmått är ofta missvisande:
Tongivande aktörer och tillsynsmyndigheter prioriterar därför i allt högre grad mått som undertriagefrekvens, missade högakuta tillstånd och kliniskt acceptabla nivåer av övertriage.
Utvärdering måste ta hänsyn till klinisk kontext:
Jämförelser mellan verktyg måste ta hänsyn till prevalens, arbetsflöden och operativ miljö; annars blir resultaten missvisande.
Högkvalitativ utvärdering kombinerar flera angreppssätt.
Utvärdering av AI-baserade triageverktyg är i grunden komplex, på grund av avsaknaden av entydig facit. Differentialdiagnoser tillför ytterligare komplexitet, och utvärderingar baserade på vinjetter eller enskilda kliniker tenderar att överskatta prestanda. Säker och kliniskt meningsfull utvärdering kräver prospektiva studier i verklig miljö, kliniskt omdöme från flera källor, utfallsbaserade säkerhetskontroller och mätetal som respekterar triagens och differentialdiagnostikens probabilistiska och ordnade natur.
Träffsäkerhet i AI-triage handlar mindre om ett enda tal och mer om en säkerhetsfilosofi som omfattar undertriage, övertriage, identifiering av varningssignaler, probabilistisk differentialdiagnostik, robusthet i indata och kontextmedveten utvärdering. Genom att anamma detta flerdimensionella ramverk kan AI-baserade triageverktyg bli säkra, tillförlitliga och kliniskt värdefulla.
Ulf Österstad, Chief Medical Officer, Visiba
Dr. Annabelle Painter, Clinical AI Strategy Lead, Visiba